[reinvent 2024] 제로 ETL과 생성형 AI를 통한 데이터 웨어하우스에 대한 인사이트 향상
Summary
제로 ETL 과 생성형 AI로 데이터 분석을 간소화하고 AI 모델을 AWS Redshift Data Warehouse에 쉽게 통합하는 제로 ETL 아키텍처 패턴에 대해 이야기 합니다. 실제 리테일 시나리오를 사용한 워크샵입니다.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
Zero-ETL은 ETL 데이터 파이프라인 구축을 없애거나 최소화 하는 것으로 low-code한 ETL 방식입니다. 이번 칼럼에서는 AWS의 Redshift, Aurora, Auto copy from Amazon S3, Quicksight를 활용해 데이터 관리 및 분석의 복잡성을 해결할 수 있는 방법을 전달 드리고자 합니다.
1. Amazon Aurora와 Amazon Redshift의 zero ETL 통합
Zero ETL을 통해서 데이터와 동기화를 자동화해 데이터 ETL 파이프라인의 복잡성이 줄고 실시간 분석이 가능합니다. Amazon Aurora와 같은 OLTP 데이터베이스에서 Amazon Redshift(데이터 웨어하우스)로 데이터를 실시간으로 복제가 가능하고, 로그 기반 복제를 사용해 Aurora의 부하를 최소화하면서 복제가 가능합니다.
다음은 Zero-ETL integration의 과정에 대한 이미지입니다. 최근 새로 발표된 기능으로 데이터베이스 전체를 복제하는 것 뿐만 아니라 특정 테이블이나 특정 스키마만을 복제하는 것도 가능하며, 정규식을 통해서 사용 가능합니다.
2. AutoCopy를 통한 S3 데이터 자동 적재
AutoCopy는 S3에 업로드 되는 데이터를 자동으로 Redshift에 적재될 수 있게 자동화 하는 기능입니다. S3에 새 데이터가 업로드 되면 새 데이터를 감지하고 Redshift에 자동으로 적재할 수 있습니다. 또, 처리 시간, 실패 사유 등의 메타 데이터를 Redshift의 시스템 테이블에 자동으로 수집합니다. 이 기능을 통해 이미 올라간 파일들에 대해 재적재를 할 필요가 없고, 추가적인 이벤트 설정이나 데이터 관리가 없어도 데이터 파이프라인을 자동화 시킬 수 있습니다.
3. Amazon Redshift ML
Amazon Redshift ML은 머신러닝 모델을 SQL 기반으로 간단하게 사용할 수 있는 기능으로, Amazon Redshift 내에서 분류와 회귀 모델을 직접 생성할 수 있고, Sagemaker에서 생성한 모델도 연동해서 사용할 수 있습니다. 이를 통해 머신러닝 모델을 코드 없이도 Redshift에서 사용할 수 있습니다.
이번 워크샵에서는 Sagemaker Studio에서 Falcon 7b Instruct 모델을 생성하여 엔드포인트를 사용했습니다. LLM에서 제공하는 고객 리뷰와 감정을 포함하는 sentiment_analysis_for_reviews 테이블을 만들었습니다. 마지막으로 제품 및 리뷰에 대한 공동 정보가 포함된 뷰 vw_product_analysis를 정의했습니다. 이 뷰는 Amazon QuickSight를 사용하여 인사이트 시각화에 사용될 수 있습니다.
결론
데이터 ETL에 있어서 Zero ETL과 새로운 기능인 S3 Auto Copy, Amazon Redshift ML에 대해 소개를 진행한 세션이었습니다.기존 데이터 파이프라인 구축은 복잡성으로 인해 개발에 걸리는 시간이 있었는데, Zero ETL을 사용할 경우 그 시간을 많이 단축할 수 있을 것 같다는 생각이 들었습니다.
이를 통해 개발 시간과 비용을 절감하고, 데이터 활용 속도를 크게 높일 수 있을 것으로 예상됩니다. 또,이번에 소개된 Amazon Redshift ML은 ML 모델을 쉽게 생성하고, 데이터베이스 내에서 직접 실행할 수 있도록 설계되어 데이터 분석 분야에서의 AI 활용이 이전보다 쉽게 증가할 수 있을 것으로 기대됩니다.