[reinvent 2024] 생성형 AI를 위한 데이터 준비
Summary
생성형 AI 애플리케이션은 다양한 데이터 소스의 데이터가 필요하며, 최적의 경험을 위해 데이터가 안정적이고 신뢰할 수 있으며 잘 관리되어야 합니다. 이 세션에서는 End-to-End 생성형 AI 경험을 위한 AWS의 강력한 데이터 관련 기반을 살펴보세요. 일괄 및 실시간 데이터 파이프라인, 높은 데이터 품질, 맞춤형 요구 사항에 대한 벡터 데이터 관리 및 통합 데이터 거버넌스를 통해 생성형AI를 위한 데이터를 준비하는 방법을 알아보세요.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
‘당신의 데이터가 생성형 AI를 위해 준비되지 않았다면, 당신의 비즈니스 역시 생성형 AI를 위해 준비되지 않았다’ – McKinsey
라는 말이 있을 정도로 기업에게 데이터는 비즈니스와 직결되는 부분으로 볼 수 있습니다.
이번 세션에서는 AWS의 서비스가 어떻게 생성형 AI를 지원하는지 데이터 기반, 통합 그리고 거버넌스 전략에 중점을 두어 알아보겠습니다.
라는 말이 있을 정도로 기업에게 데이터는 비즈니스와 직결되는 부분으로 볼 수 있습니다.
이번 세션에서는 AWS의 서비스가 어떻게 생성형 AI를 지원하는지 데이터 기반, 통합 그리고 거버넌스 전략에 중점을 두어 알아보겠습니다.
생성형 AI를 위한 AWS Data Capabilities
첫째, 생성형 AI 애플리케이션은 우선 심층적이고 포괄적인 기능을 제공하는 Data Foundation이 필요합니다. AWS는 데이터 분석, AI/ML 서비스를 통해 최적의 비용으로 어느 Use case에나 어울리는 환경을 제공합니다.
둘째, 생성형 AI 애플리케이션을 위한 데이터 통합이 필요합니다. 견고한 GenAI를 위해서는 Data Foundation에 필요한 여러 계층간 통합이 필요합니다. AWS는 Zero-ETL 등 다양한 기능을 지원하여 손쉽게 모든 데이터간 통합을 가능케 하여 더욱 강력한 Data Foundation을 구축할 수 있도록 돕습니다.
셋째, 생성형AI 애플리케이션을 위한 올바른 거버넌스 전략이 필요합니다. 최종 사용자가 데이터와 상호작용 하는데 필요한 여러 데이터 인프라에 대한 액세스를 End-to-End로 관리할 수 있는 방법이 필요합니다.
둘째, 생성형 AI 애플리케이션을 위한 데이터 통합이 필요합니다. 견고한 GenAI를 위해서는 Data Foundation에 필요한 여러 계층간 통합이 필요합니다. AWS는 Zero-ETL 등 다양한 기능을 지원하여 손쉽게 모든 데이터간 통합을 가능케 하여 더욱 강력한 Data Foundation을 구축할 수 있도록 돕습니다.
셋째, 생성형AI 애플리케이션을 위한 올바른 거버넌스 전략이 필요합니다. 최종 사용자가 데이터와 상호작용 하는데 필요한 여러 데이터 인프라에 대한 액세스를 End-to-End로 관리할 수 있는 방법이 필요합니다.
End-to-End Data Foundation
AWS의 서비스를 활용한 End-to-End Data Foundation은 여러 계층으로 나뉩니다.
- 데이터 수집
- 배치, 마이크로 배치, 실시간 Ingestion을 지원하며 각각의 목적에 맞게 Amazon Kinesis, Amazon MSK, DB Migration Service, Glue Connectors 등을 제공합니다.
- 이 단계의 핵심은 작업에 맞는 도구를 사용하고 각 데이터 소스 유형에 맞게 설계된 서비스를 사용하는 것입니다.
- 데이터 처리
- 데이터 품질 검증 및 변환작업을 위하여 EMR, AWS Glue 등을 제공합니다.
- 데이터 품질 검증 및 변환작업을 위하여 EMR, AWS Glue 등을 제공합니다.
- 데이터 저장
- 데이터레이크용 S3 및 Glue Catalog, 데이터 웨어하우스용 Redshift, 기타 RDB 및 OpenSearch Service 등 다양한 서비스를 제공합니다.
- 데이터레이크용 S3 및 Glue Catalog, 데이터 웨어하우스용 Redshift, 기타 RDB 및 OpenSearch Service 등 다양한 서비스를 제공합니다.
- 데이터 활용
- BI용 Amazon QuickSight, 생성형 AI용 Amazon Bedrock, ML용 SageMaker 등 다양한 서비스를 통해 데이터 분석에 활용할 수 있습니다.
Data Foundation 기반 GenAI Application Architecture
앞서 살펴본 계층을 생성형 AI를 위한 Data Foundation으로 구체화하면 다음과 같습니다.
- 데이터 소스
- 데이터는 다양한 소스에서 다양한 형식으로 다양한 방식을 통해 수집됩니다. 데이터 수집 계층에서는 이러한 데이터 소스들과 연결할 수 있는 여러가지 커넥터를 통해 데이터를 수집합니다.
- 데이터는 다양한 소스에서 다양한 형식으로 다양한 방식을 통해 수집됩니다. 데이터 수집 계층에서는 이러한 데이터 소스들과 연결할 수 있는 여러가지 커넥터를 통해 데이터를 수집합니다.
- 데이터 거버넌스
- 전체 아키텍처에서 일어나는 모든 작업을 관리할 방법이 필요합니다. 이 단계에서는 Data Mesh 패러다임 내에서 Producer-Consumer 모델을 활성화 하는 것이 필요합니다.
- 이를 위해선 아주 강력한 권한 분리가 필요합니다. Data Zone을 통해 이러한 기능을 활용할 수 있습니다.
3. 데이터레이크
- 하나 이상의 Enterprise Data Lake를 사용하거나 분산 환경에서 데이터를 관리합니다.
- 중요한 점은 단지 하나의 테이블이 아닌 여러 테이블, 여러 뷰를 조합하여 하나의 데이터가 된다는 것 입니다.
4. Data Capture & Feedback
- 마지막으로, Human in the Loop 피드백을 통해 RAG를 활성화하고 생성형 AI 애플리케이션 및 모델을 미세조정 할 수 있습니다.
- 이를 통해 비즈니스 요구사항을 만족시킬 품질 높은 결과를 제공할 수 있습니다.
결론
최근 생성형AI 관련 업무를 진행하다보면 날이 갈수록 조금 더 특별하고 특이한 케이스에 맞는 생성형AI 애플리케이션을 원하는 고객이 늘어나고 있습니다. 이러한 요구사항에 맞는 애플리케이션을 개발함에 있어 견고한 Data Foundation 및 통합 데이터 관리와 거버넌스가 필수적임을 느끼고 있습니다.
앞서 알아본대로 AWS는 이러한 요구를 충족하기 위한 최적의 서비스를 제공하며 End-to-End 프로세스를 지원합니다. 이를 통해 생성형 AI를 활용한 비즈니스 목표를 달성하고 경쟁력을 강화할 수 있으리라 봅니다.
앞서 알아본대로 AWS는 이러한 요구를 충족하기 위한 최적의 서비스를 제공하며 End-to-End 프로세스를 지원합니다. 이를 통해 생성형 AI를 활용한 비즈니스 목표를 달성하고 경쟁력을 강화할 수 있으리라 봅니다.
글 │메가존클라우드, AI & Data Analytics Center (ADC), Data Engineering 2 Team, 정지원 매니저
게시물 주소가 복사되었습니다.