[reinvent 2024] Amazon Redshift Serverless 및 데이터 공유를 통한 AI 기반 분석
Overview
들어가며
기업들은 데이터를 활용한 인사이트를 실시간으로 얻길 원합니다. 기업이 커지고, 데이터가 많아질수록 실시간 인사이트에 대한 니즈 역시 커집니다. 이러한 니즈를 충족하기 위해 훨씬 더 복잡한 아키텍처를 구성하여 데이터 스케일링을 시도합니다. 다만 지속적으로 이러한 방법을 통해 스케일링을 하게 된다면 비용적으로도 비효율적이며 실시간 인사이트의 범위를 벗어날 수 있습니다.
이번 세션에서는 이러한 단점을 해결하여 비용효율성 및 실시간 인사이트 니즈 충족을 가능케 하는 Amazon Redshift Serverless에 대해 알아보겠습니다.
목표는 데이터 기반 의사결정 비즈니스
튼튼한 Data Foundation은 최근 급격히 변화하고 있는 생성형 AI 시장에 가장 적합한 형태로 Data Transformation 을 가능하게 합니다. 이러한 데이터 기반은 Amazon Redshift Serverless를 활용한 Multi-Warehouse 아키텍처로 구현 가능합니다. 이 아키텍처는 다양한 형태의 데이터 및 데이터 처리 방법에 대한 분석과 모든 형태의 데이터 소비자에 대한 분석을 가능하게 합니다. 이는 Data Democratization으로 이어집니다.
Amazon Redshift multi-warehouse
1. Data Democratization의 핵심 두 가지
1) Amazon Redshift Serverless
– Redshift Serverless 환경에서 실행되는 쿼리는 2023년 대비 4배 이상으로 증가
– 워크로드에 따라 유연한 스케일링으로 대처 가능
– Provisioning이 없어 별도의 관리나 설정이 필요하지 않음
– 사용한 만큼만 비용이 발생하여 비용 효율성 증대
2) Amazon Redshift Data Sharing
– 매일 수천만건의 Data Sharing 을 활용한 쿼리 읽기가 실행되고 있음
– 세분화된 권한 관리가 가능하며 데이터를 이동하지 않고도 실시간 공유가 가능함
– Redshift Serverless와도 완벽히 호환됨
2. Multi-warehouse 아키텍처의 대표적인 두 가지 형태는 각 Redshift가 서로 그물 형태로 엮여있는 Data Mesh와 중앙에 허브를 두고 데이터를 주고 받는 Hub and spoke 형태가 있음
새롭게 추가된 기능 소개
1) Sharing support for data lake tables
Amazon Redshift의 Data Sharing을 사용하여 데이터레이크 액세스를 간소화합니다.
데이터레이크의 테이블을 곧바로 data share에 추가하여 Producer와 Consumer간 공유가 가능합니다.
2) Data Sharing을 통한 Multi-data warehouse 쓰기 작업
쓰기 작업 워크로드를 분리하고 실시간 콜라보가 가능합니다.
ETL을 보다 비용 효율적인 퍼포먼스로 수행이 가능하며 작업이 예측 가능한 상태를 유지하도록 합니다. 비용을 제어하거나 모니터링할 수 있고 실시간 데이터와 결합을 쉽게 할 수 있습니다.
3) Producer는 Data Sharing을 통해 쓰기권한을 안전하고 쉽게 부여할 수 있습니다.
4) Consumer 역시 Sharing 된 오브젝트에 대한 세분화된 권한을 안전하고 쉽게 받을 수 있습니다.
5) AI-driven scaling and optimizations
AI 기반 스케일링 및 최적화 기능 도입으로 Amazon Redshift Serverless는 이전보다 훨씬 똑똑해졌고, 덕분에 10배 이상 좋은 가성비를 보여줍니다.
직접 비용 절감에 초점을 맞출지, 성능에 초점을 맞출지 설정하면 AI기반 기능을 통해 스케일링 및 최적화가 적용됩니다.
각 워크로드의 시간대별 사용량에 따라 적절한 크기의 RPU로 스케일링됩니다.
실시간 및 각 시간대별 RPU 사용량 모니터링도 가능합니다.
Use Case 소개
어느 Logistics 기업의 사례를 들어보겠습니다. 이 기업은 Redshift의 Provisioned 클러스터로 플랫폼 운영 중 워크로드 가중에 대한 유연한 대처가 불가능하여 품질보증에 실패하였습니다.
이후 이 문제를 해결하기 위해 클러스터에 과한 부하를 주는 집중된 워크로드를 Redshift Serverless를 활용하여 여러 곳으로 분산하여 처리함으로써 기존 12시간 이상 걸리던 작업을 2시간 이내로 줄이며 훨씬 빠른 워크로드 실행시간을 확보할 수 있었습니다.
결론
이번 세션에서는 데이터 기반 의사결정을 목표로 실시간 혹은 준실시간 데이터 처리가 필요하고, 이를 달성하기 위해 Amazon Redshift Serverless 및 Data Sharing 기능을 활용하는 방안에 대해 알아보았습니다.
Amazon Redshift의 경우 각 사용 사례별, 혹은 동일 사례여도 시간대별로 사용량에 큰 차이가 있는 경우가 다수 있다보니 Serverless를 통한 AI-Driven 스케일링 및 최적화 기능을 사용하면 비용효율적인 운영이 가능할 것입니다. 보다 적은 비용으로 보다 나은 퍼포먼스를 발휘하는 아키텍처를 구성하여 데이터 기반 의사결정 이라는 목표를 달성하길 기대해봅니다.