[reinvent 2024] Amazon S3에서 데이터 레이크 구축 및 최적화
Summary
조직은 AWS 기반 데이터 레이크를 구축해 수천 명의 사용자가 액세스할 수 있도록 하며, 성능 향상을 위해 개방형 테이블 형식(OTF)을 채택하고 있습니다. 이 세션에서는 Amazon S3의 최신 혁신과 데이터 레이크 구축 및 관리의 모범 사례를 소개합니다. 또한, AWS와 다양한 도구를 활용한 데이터 최적화 방법도 다룹니다.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
데이터 레이크의 주요 단계
- The realization : 데이터 레이크의 필요성을 인식합니다.
- Constructing a resilient architecture : 견고한 아키텍처를 설계합니다.
- Data security and governance : 데이터 보안 및 규제사항을 강화합니다.
- Optimizing queries : 쿼리 성능을 최적화 합니다.
- Data management : 효율적인 데이터 관리를 진행합니다.
- Preparingforsustainablegrowth : 지속 가능한 성장을 위한 준비를 합니다.
이러한 단계는 데이터 레이크의 성공적인 구축과 운영을 위한 핵심 요소를 보여줍니다. 이제 각 단계에 대해 구체적으로 살펴보겠습니다.
데이터 아키텍처 및 계층화
해당 세션에서는 Forever E commerce 사례를 통해 다음 세가지 전략을 소개하였습니다.
- 데이터 통합과 운영 과제 해결
Forever E Commerce는 데이터 증가로 인한 성능 저하와 검색 어려움 같은 운영 과제를 해결하기 위해 Amazon S3를 데이터 레이크로 사용하였습니다.
S3 확장성과 고성능을 활용하여 대규모 데이터를 통합 저장함으로써, 데이터의 접근성과 검색 효율성을 개선하였습니다.
초기 단계에서는 웹 애플리케이션과 전자상거래 트랜잭션에서 생성된 클릭스트림 데이터를 Amazon MSK와 Firehose를 통해 S3로 전달하여 데이터를 통합 관리하였습니다.
이러한 통합 접근은 기존의 분산된 데이터 환경에서 발생하던 비효율성을 해소하고, 실시간 데이터 처리의 기반을 마련할 수 있었습니다. - 데이터 계층화 전략
Constructing a resilient architecture 단계에서는 데이터를 원시(raw), 처리된(processed), 선별된(curated) 형태로 계층화하여 체계적으로 관리합니다.
Forever E commerce는 클릭스트림 데이터를 원시 데이터로 저장한 뒤, Glue를 활용하여 사용자 행동 패턴을 분석하고, 필요한 데이터를 선별하여 비즈니스 의사결정에 활용하였습니다.
이러한 계층화는 데이터의 품질을 유지하면서도 분석 효율성을 높이는 데 기여하며, 대규모 데이터를 체계적으로 관리하는 데 필수적인 요소로 작용합니다.
해당 다이어그램은 데이터 레이크의 계층화와 관련된 핵심 개념을 시각적으로 보여줍니다.
Data Layering : 데이터를 원시, 처리된, 선별된 형태로 분리하여 관리합니다.
Partitioning and optimization : 쿼리 성능을 높이기 위해 데이터 파티셔닝 및 최적화를 수행합니다.
Security and governance : 데이터 접근 제어와 규정을 준수하여 보안 및 거버넌스를 강화합니다.
이러한 계층화 전략은 데이터 구조화 분석 성능 향상을 가능하게 합니다.
3. 자동화 및 최적화
Iceberg 테이블은 데이터 업데이트와 삭제 작업을 용이하게 처리하여 복잡한 데이터 세트를 효과적으로 관리하였습니다.
Forever E commerce는 이를 통해 운영 복잡성을 줄이고, 데이터 처리 비용을 절감하며, 대규모 데이터 운영의 효율성을 향상 시켰습니다.
이처럼 데이터 아키텍처 설계와 계층화 전략은 데이터 레이크 운영의 기본을 형성하는 중요한 과정입니다.
이제, 이렇게 구축된 데이터를 어떻게 효율적으로 관리하고 최적화할 수 있는지에 대해 살펴보겠습니다.
데이터 관리 및 최적화
- 실시간 데이터 스트리밍 관리
Amazon MSK와 Glue를 활용해 실시간 데이터 스트리밍 및 변환 작업을 효율적으로 관리합니다. Forever Ecommerce는 MSK를 사용하여 실시간 주문 데이터를 처리하며, Glue 트리거를 통해 주문 상태를 변환했습니다. 이를 통해 비즈니스 운영의 민첩성을 향상시킬 수 있습니다. - 데이터 접근성 향상
Glue 데이터 카탈로그를 사용하여 데이터의 자동 인덱싱과 탐색을 간소화하여 데이터 접근성을 높였습니다. 이를 통해 개발팀과 분석팀이 동일한 데이터 소스에 쉽게 접근할 수 있습니다. - 성능최적화 및 비용 절감
Iceberg 테이블 형식과 Parquet 파일 포맷을 활용해 쿼리 성능을 최적화하며, Z-Order 정렬로 대규모 데이터 세트에서도 비용을 절감합니다. Forever E commerce는 Parquet 파일을 사용하여 매출 데이터를 정렬해 Athena 쿼리 속도를 대폭 개선했습니다.
다음으로, 이러한 데이터를 보호하고 적절히 거버넌스를 설정하는 단계인 Data security and governance에 대해 알아보겠습니다.
보안 및 거버넌스
데이터의 보안과 거버넌스는 데이터를 안전하게 보호하고 규정 준수를 보장하기 위해 필수적입니다. Data security and governance 단계에서는 데이터 보호와 투명성을 강화하기 위한 방안을 다룹니다.
- 세분화된 데이터 액세스 제어
AWS Lake Formation과 Glue 데이터 카탈로그를 활용하여 데이터 액세스를 세분화하고, 데이터 보호 및 규정 준수를 보장합니다. Forever E commerce는 민감한 고객 데이터를 보호하기 위해 Lake Formation을 사용해 권한을 설정했습니다. - 데이터 투명성과 계보 추적
DataZone을 통해 데이터 계보를 추적하며, 데이터 거버넌스를 강화해 데이터 사용의 투명성을 높였습니다. 이는 규정 준수와 감사 요구 사항을 충족하는 데 필수적입니다. - 데이터 품질 보장
데이터 품질 규칙을 적용하고 Glue 데이터 품질 기능을 활용하여 데이터 정확성을 보장하며, CloudWatch와 EventBridge로 데이터 품질 문제에 신속히 대응합니다. 예를 들어, Forever E commerce는 Event Bridge를 통해 데이터 이상 징후를 자동으로 감지하고 대응합니다.
위에서 언급한 보안 및 데이터 품질 관리 전략 외에도, AWS는 아래와 같은 도구를 통해 데이터 거버넌스를 강화하고 데이터 관리의 신뢰성을 높이고 있습니다.
- AWS Glue Data Catalog
데이터 스키마와 메타데이터를 중앙 집중적으로 관리하고, 데이터를 분류 및 검색하여 효율적인 데이터 탐색을 지원합니다. - AWS Lake Formation
세분화된 데이터 액세스 제어와 데이터 수집 및 관리 자동화를 통해 데이터 보호 및 규정 준수를 보장합니다. - Amazon Datazone
데이터 소유권 관리 및 팀 간 협업을 강화하여 데이터 사용의 투명성과 효율성을 높이는 데 기여합니다.
이러한 도구들은 데이터 관리 환경에서 보안 및 거버넌스의 신뢰성을 보장하며, 지속적으로 변화하는 데이터 규제 요구 사항에 대응할 수 있도록 지원합니다.
마지막으로, 데이터 레이크의 지속 가능한 성장을 준비하는 단계인 Preparing for sustainable growth에 대해 살펴보겠습니다.
비용 관리 및 활용성 향상
데이터 관리와 보안이 유지되는 가운데, 비용을 효과적으로 관리하고 데이터의 활용성을 극대화하는 전략이 필요합니다. Preparing for sustainable growth 단계에서는 데이터 레이크의 장기적 확장 가능성과 비용 효율성을 다룹니다.
- 스토리지 비용 최적화
S3 Intelligent-Tiering을 사용해 데이터 사용 패턴에 따라 스토리지 비용을 최적화합니다. 장기 데이터를 S3 Glacier 및 Glacier Deep Archive로 전환하여 장기 보관 비용을 절감합니다. Forever E commerce는 오래된 판매 데이터를 Glacier로 이동하여 스토리지 비용을 30% 이상 절감했습니다. - 실시간 데이터 활용
AWS Athena를 활용해 실시간 쿼리와 분석을 수행하여 데이터 활용성을 극대화합니다. 클릭스트림 데이터 분석에 Athena를 사용해 실시간으로 인기 상품을 파악하고 프로모션 전략을 수립했습니다. - 팀 간 협업 강화
Glue 데이터 카탈로그와 DataZone을 사용해 데이터 검색과 협업 효율성을 높여 팀 간 협력을 촉진합니다. Forever Ecommerce는 팀 간 데이터 공유 시간을 40% 단축시켰습니다.
결론
단순한 데이터 저장소를 넘어서는 데이터 레이크는 데이터를 활용을 통해 기업 경쟁력을 높이고, 데이터 계층화 및 자동화된 처리 파이프라인은 데이터 분석을 가속화하며, 비용적으로도 효율성을 이끌어 내는 점 또한 인상깊었습니다.
이번 세션은 데이터 관리의 기술적 측면뿐 아니라, 데이터 중심 조직 문화를 구축하고, 데이터가 단순한 자산을 넘어 성장을 이끄는 핵심 요소가 될 수 있음을 깨달았습니다.