[reinvent 2024] AWS 기반 end to end 데이터 통합 및 데이터 엔지니어링
Summary
이 세션은 데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가, 데이터 개발자를 대상으로 AWS에서의 전반적인 데이터 플로우에 대해 이야기하는 워크샵입니다. 다양한 데이터 수집 및 통합 기술에 대한 전문 지식과 데이터 레이크 및 데이터 웨어하우스 스토리지 솔루션, 데이터 변환, 데이터 파이프라인 구축 등에 대해 설명합니다.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
이번 칼럼은 데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가, 데이터 개발자를 대상으로 AWS에서의 전반적인 데이터 플로우에 대해 이야기하려고 합니다. 다양한 데이터 수집 및 통합 기술에 대한 전문 지식과 데이터 레이크 및 데이터 웨어하우스 스토리지 솔루션, 데이터 변환, 데이터 파이프라인 구축 등 워크샵으로 진행한 실습 내용을 포함하여 전달 드리겠습니다.
1. 데이터 통합 (Integration)과 데이터 엔지니어링
데이터 통합(Integration)은 여러 데이터 소스들로부터 데이터를 수집해 하나의 통합 데이터를 생성하는 과정입니다. 이 과정은 비즈니스 분석 혹은 이후 AI를 사용할 때 중요한 기반이 됩니다. 데이터는 구조적, 비구조적 데이터, 배치 데이터, 스트리밍 데이터가 모두 존재할 수 있으며 서로 다른 크기, 형식, 등으로 존재합니다.
데이터 통합은 기업에게 있어서 더 빠른 결정, 비즈니스적 통찰력을 얻을 수 있게 하고, 기업이 보유하고 있는 모든 유형의 데이터에 대해 액세스할 수 있게 됩니다.
2. 데이터 파이프라인
워크샵을 진행한 데이터 파이프라인의 아키텍처와 과정은 다음과 같았습니다.
1. Data Ingestion : AWS DMS
데이터 수집은 데이터 엔지니어링의 첫 번째 단계로 다양한 소스로부터 데이터를 중앙 저장소로 가져와 데이터 변환 및 분석, 머신러닝을 가능하게 합니다.
이번 워크샵에서는 RDS나 PostgreSQL에서 AWS DMS를 사용해 Amazon S3에 데이터 마이그레이션을 하는 실습을 진행했습니다. AWS DMS는 데이터베이스를 AWS로 안전하게 마이그레이션하는 도구로, 소스 데이터베이스의 중단을 최소화합니다.
2. Data Transformation : AWS Glue
데이터를 마이그레이션 한 이후에는 AWS Glue를 사용해서 데이터 ETL 작업을 생성하고 스키마 변경, 데이터 품질 평가 등의 변환 작업을 수행합니다. 이 과정으로 중앙 데이터 레이크에 정제된 데이터를 저장해 이후 데이터 분석 및 ML에 활용 가능하게 됩니다.
다음은 Glue job 워크플로우의 예시입니다.
3. Data Security : AWS Lake Formation
다음은 변환된 데이터에 대한 권한 작업입니다. AWS Lake Formation은 데이터 레이크에 세분화된 권한을 적용할 수 있습니다. 행 수준으로 권한을 필터링을 할 수 있고, 사용자로 하여금 특정 리전의 데이터만 쿼리하고 접근 가능하도록 권한을 부여할 수도 있습니다.
4. Data Analysis with Amazon Redshift
마지막으로 적재한 데이터를 SQL을 사용해 분석합니다. 이 워크샵에서는 Amazon Redshift를 사용해 쿼리를 진행했습니다.
결론
이번 세션에서는 전반적인 데이터 통합(integration)과 데이터 엔지니어링의 전반적인 워크플로우와 각 과정의 예시를 전달드렸습니다. 데이터의 수집, 변환, 보안, 분석 과정을 거친 데이터들은 이후 비즈니스적 분석 및 AI에서 활용되기 때문에 모든 단계에서의 처리 방식과 프로세스가 중요하다는 것을 느꼈습니다. 또, 기업에 따라 데이터 특성과 비즈니스 환경에 따라 각각의 과정이 달라질 수 있기 때문에, 이를 잘 이해하고 상황에 맞게 적용하는 것이 필요할 것 같습니다.