[AWS SUMMIT 2025] 분석 및 AI를 위한 데이터 기반: 데이터에서 대규모 성과로

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

분석 및 AI를 위한 데이터 기반: 데이터에서 대규모 성과로

🎙️이일구, 솔루션즈 아키텍트, AWS

🎙️박현수, 솔루션즈 아키텍트, AWS

🗂️ 세션 토픽: 데이터 분석 현대화

이번 칼럼에서는 AWS의 차세대 SageMaker 플1. 분석가 니샤의 데이터 분석 워크플로우랫폼을 주제로 최신 기술과 업데이트된 기능들을 소개하고자 합니다. SageMaker가 단순한 머신러닝 서비스에서 벗어나 데이터 분석부터 생성형 AI 애플리케이션 개발까지 아우르는 통합 환경으로 어떻게 진화했는지 살펴봅니다. 특히 SageMaker Unified Studio, SageMaker Catalog, Amazon Q, 기능에 주목하며, 이를 통해 실무자들이 협업과 생산성을 크게 향상시킬 수 있는 방법을 공유드릴 예정입니다.  마지막으로, 데이터 엔지니어, 데이터 과학자, 분석가, 앱 개발자 등 다양한 페르소나를 바탕으로 실제 기업에 적용할 수 있는 구체적인 사례를 통해 실무 현장에서 어떻게 활용할 수 있는지도 함께 살펴보겠습니다.

차세대 SageMaker: 데이터, 분석, AI를 위한 통합 중심 플랫폼

기존에 SageMaker는 머신러닝 모델의 구축, 학습, 배포 등의 기능을 중심으로 인식되어 왔지만, 최근에는 SageMaker AI라는 이름으로 리브랜딩되며 더 확장된 개념으로 진화했습니다. 이제 SageMaker는 단순한 ML 플랫폼을 넘어, 통합 데이터 환경 전반을 아우르는 솔루션으로 자리잡고 있습니다.

새롭게 출시된 SageMaker Unified Studio는 SQL 기반 데이터 분석, 데이터 전처리, 모델 개발, 생성형 AI 애플리케이션 개발까지 다양한 작업을 단일 환경에서 수행할 수 있도록 지원합니다.

또한, 이 플랫폼의 핵심 구성 요소 중 하나인 Lakehouse는 기존 데이터 레이크의 유연성과 데이터 웨어하우스의 구조적 기능을 결합한 최신 데이터 아키텍처 개념입니다. 이를 통해 사용자는 정형·비정형 데이터를 효율적으로 통합하고, 하나의 플랫폼 내에서 유연하게 분석과 처리를 수행할 수 있게 됩니다. SageMaker는 이와 같은 Lakehouse 기반 구조 위에서 데이터 거버넌스까지 포괄하며, 보다 일관되고 확장 가능한 데이터-기반 AI 환경을 제공하고 있습니다.

SageMaker Unified Studio

기존의 데이터 분석 및 AI 개발 환경에서는 데이터 과학자, 데이터 엔지니어, 분석가가 각각 다른 AWS 콘솔과 툴을 사용하며 작업하는 경우가 많았습니다. 이로 인해 협업의 비효율과 시간 지연이 발생하곤 했죠.그러나 이제 SageMaker Unified Studio를 통해 모든 역할이 하나의 통합 공간에서 심리스하게 협업할 수 있게 되었습니다.

SageMaker Unified Studio는 데이터 전처리부터 분석, 모델 개발, 배포까지 모든 과정을 단일한 인터페이스에서 수행할 수 있도록 지원합니다.
사용자는 본인의 역할과 선호에 따라 SQL 에디터나 노트북 환경을 선택해 작업할 수 있고, 결과물은 손쉽게 다른 팀원들과 공유할 수 있습니다.

뿐만 아니라, 거버넌스 기능까지 통합되어 있어 기업의 보안 및 정책 기준에 부합하는 방식으로 데이터를 관리할 수 있는 장점도 제공합니다.

예를 들어, 이탈률(Churn Rate) 예측 모델을 구축하는 과정을 생각해보겠습니다.

  1. 데이터 엔지니어는 다양한 로그 데이터를 수집해 S3에 적재하고, 이를 구조화합니다.
  2. 데이터 분석가는 Redshift 등을 활용해 데이터를 시각화하고 집계해 인사이트를 도출합니다.
  3. 데이터 과학자는 SageMaker AI를 통해 예측 모델을 학습시켜 이탈 가능성이 높은 고객을 예측합니다.
  4. GenAI 엔지니어는 Bedrock과 지식 기반을 활용해 자연어 리포트를 생성하거나, 예측 결과를 비즈니스 관점에서 활용 가능한 콘텐츠로 확장합니다.

이 모든 과정이 SageMaker Unified Studio라는 하나의 공간에서 유기적으로 진행되기 때문에, 이전보다 훨씬 효율적이고 민첩하게 결과를 도출할 수 있습니다.

Amazon Q Developer

AI의 접근성을 한층 높여주는 또 하나의 도구가 바로 Amazon Q Developer입니다.
Q Developer는 AWS 콘솔, IDE, 쿼리 에디터 등 다양한 환경에서 자연어로 질문하거나 요청하면, SQL 쿼리나 코드, 설정을 자동으로 생성해주는 AI 어시스턴트입니다.

예를 들어 Redshift의 쿼리 에디터에서는 Q를 통해 자연어로 질문을 입력하면, 즉시 필요한 SQL 쿼리를 생성해주는 인터페이스가 제공됩니다.

처음 Q를 접하셨던 분들은 성능에 아쉬움을 느끼셨을 수도 있지만,  최근 모델 성능의 획기적인 개선과 함께 실제 코드 생산성과 쿼리 효율이 매우 높아졌습니다. 직접 사용해 보시면 놀라운 개선을 체감하실 수 있을 것입니다.

아이스버그와 함께 진화하는 Lakehouse 아키텍처

Amazon S3는 높은 내구성과 가용성, 그리고 비용 효율성 덕분에 데이터 레이크를 구성하기에 최적의 장소로 자리잡았습니다. 최근에는 오픈 테이블 포맷, 특히 Apache Iceberg가 데이터 레이크 상에서의 테이블 관리 방식에 변화를 주고 있으며, SQL을 활용한 다양한 처리 엔진과의 호환으로 데이터 유연성과 확장성을 강화하고 있습니다.

이러한 흐름에 맞춰 AWS는 S3 Tables라는 완전관리형 Iceberg 기반 서비스를 새롭게 출시했습니다.

 이 서비스는 Iceberg를 완벽하게 지원하면서도 복잡한 테이블 관리를 제거하고, 최대 3배 빠른 쿼리 성능과 10배 향상된 트랜잭션 처리율을 제공합니다. 하지만 이는 전체 데이터 환경의 일부에 불과하며, 조직 내 데이터 기반 전반을 통합적으로 구성하려면 더 넓은 아키텍처가 필요합니다.

기본적으로 고객은 S3를 시작으로 데이터 레이크를 구축하고, 이후 구조화된 데이터를 위해 Redshift와 같은 데이터 웨어하우스를 도입하게 됩니다. 여기에 기간계 시스템이나 서드파티 애플리케이션 데이터 등 다양한 소스가 결합되며, 아키텍처는 점차 복잡해지고 관리 부담도 커지게 됩니다.

이러한 복잡성을 해결하기 위해 AWS는 SageMaker 중심의 Lakehouse 아키텍처를 제안합니다. 이 아키텍처는 Zero ETL 통합을 통해 지난 2년간 주요 데이터 소스들과 무중단 통합을 실현했으며, 연합 쿼리와 글루 커넥터를 통해 온프레미스 또는 서드파티 데이터도 원위치 그대로 쿼리할 수 있도록 지원합니다.

 또한, Iceberg 오픈 API와의 완전한 호환을 통해 EMR, Glue, Athena 등 다양한 분석 서비스와도 매끄럽게 연동되며, 세분화된 접근 제어 및 내장 거버넌스를 제공해 보안성과 일관된 데이터 관리 체계를 유지할 수 있습니다.

글로벌 고객 사례: 데이터 기반 혁신과 비용 절감

다양한 글로벌 고객 사례는 AWS의 레이크하우스 전략이 어떻게 실질적인 비즈니스 가치를 제공하는지를 보여줍니다.

도요타: 공정 이상 분석에 다양한 데이터 서비스를 활용, 복잡성을 통합된 아키텍처로 해결.

Canva: Amazon S3 도입으로 연간 40억 원의 저장 비용 절감.

Fanduel: Redshift Serverless + Data Sharing으로 기존 타 클라우드 대비 80% 이상 비용 절감.

데이터 거버넌스와 AI 통합을 위한 SageMaker Catalog

AI의 성과는 데이터 준비와 거버넌스 체계에서 시작됩니다. 데이터는 정형뿐 아니라 비정형 형태로 존재하며, 이를 AI에 적합한 형태로 정제, 보강, 생성하는 과정이 필수적입니다. 특히 RAG와 같은 생성형 AI 활용 사례가 늘어나면서, 데이터 전처리와 품질 확보가 그 어느 때보다 중요해졌습니다.

이 과정에서 핵심이 되는 것은 풍부한 메타데이터 제공입니다. 단순 기술 정보뿐 아니라 비즈니스 맥락까지 함께 제공하여, 다양한 포지션의 데이터 사용자가 데이터를 보다 쉽게 탐색하고 활용할 수 있도록 돕습니다.

최근 고객들이 겪는 주요 과제는 모든 데이터 실무자가 일관된 도구에서, AI에 적합한 형태로 데이터를 접근·활용할 수 있게 하는 것입니다. 이를 위해 AWS는 엔드 투 엔드 기반의 내장형 거버넌스 모델을 강조하고 있습니다.

그 중심에 있는 것이 바로 SageMaker Catalog입니다. 이 서비스는 데이터 존 기반으로 설계되어 SageMaker Unified Studio에 통합되며, 다음과 같은 주요 기능을 제공합니다.

  1. 생성형 AI 메타데이터 기반 시맨틱 검색
  2. 데이터 및 모델 자산의 퍼블리시·구독 워크플로우
  3. 데이터 품질, 민감 정보 탐지 모니터링

또한 생성형 AI의 성공을 위해선 급증하는 비정형 데이터의 효율적 활용도 필수입니다. 

이를 위해 OpenSearch, pgVector 같은 벡터 스토어와 Redshift 기반의 정형 데이터베이스가 함께 사용되며, 이를 바탕으로 정확하고 신뢰도 높은 RAG 기반 애플리케이션을 구축할 수 있습니다. SageMaker Catalog는 이러한 통합된 데이터 거버넌스 환경을 통해 조직이 AI를 더욱 빠르고 안정적으로 도입할 수 있도록 지원합니다.

가상의 게임 회사 MaxDome의 데이터 AI 협업 사례

가상의 게임회사 맥스돔은 최신 게임을 출시하며 사용자 데이터를 기반으로 더 나은 서비스를 제공하고자 하는 목표를 가진 기업입니다. 물론 이 시나리오는 게임 업계뿐 아니라 커머스, 통신, 제조 등 다양한 산업군에도 적용될 수 있습니다.

맥스돔에는 데이터와 AI 애플리케이션 개발을 책임지는 네 명의 주요 인물이 등장합니다.

  • 사만다 : 데이터 엔지니어
    • 다양한 데이터 소스로부터 파이프라인을 자동화해 팀원들이 쉽게 활용할 수 있도록 지원하고자 합니다.
  • 하비에르 : 데이터 과학자
    • AI 모델을 신속히 제작해 공유하고 프로덕션 환경에 반영하며 빠른 피드백을 받고 싶어합니다.
  • 니샤 : 데이터 분석가
    • 플레이어 데이터를 분석하고 인사이트를 도출하고 싶지만, SQL 작성에 어려움이 있어 협업에 의존합니다.
  • 알렉스 : 애플리케이션 개발자
    • 다양한 사용자 데이터를 최신 AI 기능과 연동해 실제 앱에 통합하고 싶어합니다.

이들은 각자의 역할은 다르지만, 공통적으로 빠른 인사이트 도출과 원활한 데이터 기반 협업을 원하고 있습니다.

현실 속 많은 조직처럼 맥스돔 역시 데이터 분석, AI 모델링, 애플리케이션 개발 간의 경계가 모호한 업무 환경에서 협업을 수행합니다. 생성형 AI의 도입으로 인해 데이터는 곧 차별화 요소가 되었고, 이는 조직 내 모든 구성원이 손쉽게 데이터에 접근하고 협업할 수 있는 환경의 필요성을 대두시킵니다.

AWS는 이러한 니즈에 대응하기 위해 차세대 SageMaker Unified Studio를 출시하였습니다. 하나의 인터페이스에서 분석, 엔지니어링, 모델링, 앱 개발까지 통합적으로 지원하는 환경입니다.

SageMaker Unified Studio 주요 기능

  • 통합 웹 인터페이스를 통해 싱글 사인온으로 간편하게 접근
  • 데이터 카탈로그, 쿼리 에디터, 비주얼 ETL, 오케스트레이션 도구 등 다양한 기능이 하나의 UI에 통합
  • 프로젝트 단위의 작업 환경으로 협업이 용이
  • 아마존 Q를 통한 자연어 기반 SQL 생성 및 실행 지원
  • 카탈로그 기능을 통한 데이터와 모델의 조직 내 공유 및 재사용

분석가 니샤의 데이터 분석 워크플로우

  1. 프로젝트 탐색 및 선택
  • SageMaker Studio에 로그인 후 최근 작업한 여러 프로젝트를 살펴본 후, 분석을 계속할 프로젝트(RL Redemption)를 선택.
  1. 쿼리 환경 설정
  • 쿼리 에디터 진입: 프로젝트 내에서 ‘빌드’를 클릭해 쿼리 에디터로 이동.
  • 테이블 확인: 좌측 패널에서 접근 가능한 테이블 목록 확인.
  • 테이블 선택: game_sessions 테이블 선택 후, 샘플 쿼리 실행해 데이터 구조 확인.
  1. 생성형 AI(Amazon Q)를 활용한 분석
  • 쿼리 지원 요청: SQL 작성에 어려움을 겪어 Amazon Q에 자연어로 요청.
    • 예: “플레이 타임이 가장 긴 상위 5명 플레이어 보여줘”
  • AI가 생성한 쿼리 실행: 생성된 SQL을 실행해 결과 확인.
  • 세그먼트 분류 요청
    • 플레이 타임과 국가 기준으로 세 가지 그룹(High / Medium / Low)으로 분류 요청.
  1. 분석 결과 저장 및 공유
  • 테이블 생성: CREATE TABLE 구문을 사용해 분석 결과를 player_segmentation 테이블로 저장.
  • 카탈로그 자동 등록: 쿼리 실행 후 새 테이블이 SageMaker 카탈로그에 자동으로 등록됨.
  1. 추가 분석 및 조인
  • 지표 확장: 소셜 활동, 구매 정보 등의 테이블과 조인하여 새로운 지표 생성.
  • AI 보조 활용: Amazon Q의 제안 기능을 계속 활용하여 복잡한 쿼리 작성.
  1. 데이터 카탈로그 공유
  • 비즈니스 카탈로그 게시: player_segmentation 테이블을 조직의 비즈니스 카탈로그에 게시.
  • 자동 설명 생성: 자동 설명 생성 기능을 통해 테이블 이름과 요약 설명 자동 생성
  • 다른 역할과 협업: 공유된 데이터는 데이터 엔지니어/데이터 과학자 등이 모델 학습이나 추가 분석에 활용 가능.

데이터 과학자 하비에르의 모델 개발

  1. SageMaker 로그인 및 데이터 검색
  • SageMaker Studio에 로그인 후 분석가가 앞서 만든 “player_segmentation” 테이블을 SageMaker Catalog에서 검색
  1. 카탈로그 메타데이터 확인
  • 데이터에 포함된 비즈니스 메타데이터 및 설명 정보를 통해 데이터의 맥락과 내용을 이해하고, 이 데이터가 모델 개발에 적합하다고 판단.
  1. 데이터 사용 요청 및 승인
  • 하비에르는 자신의 프로젝트(예: “Player Analysis”)에 데이터를 활용하겠다는 요청을 보냄
  • 해당 요청은 데이터 소유자인 분석가에게 알림으로 전달되며, 분석가는 이를 승인.
  1. 시각적 파이프라인 구축
  • 데이터 과학자는 SageMaker의 시각적 파이프라인 도구를 사용해 데이터 전처리, 모델 학습 단계, 평가 및 배포 단계를 드래그 앤 드롭으로 구성.
  1. 모델 훈련 및 프로덕션 준비
  • 구성한 파이프라인을 실행하여 모델을 훈련하고, 이후 모델은 프로덕션 환경에 배포 가능한 형태로 준비됨

앱 개발자 알렉스의 AI 기능 통합

  1. SageMaker에서 모델 검색 및 구독
  • 데이터 과학자가 SageMaker Catalog에 게시한 모델을 구독(subscribe)하여 사용 권한을 획득.
  1. 모델 인퍼런스 준비
  • 구독한 모델에 대해 인퍼런스 엔드포인트를 자동 생성 및 실행해 모델을 앱에 실시간 적용할 수 있음.
  1. Bedrock 통합으로 생성형 AI 기능 구현
  • SageMaker Studio에 통합된 Amazon Bedrock ID를 사용해 다양한 LLM 모델(Amazon, Anthropic, Meta, Mistral 등)을 선택하여 기능을 개발이 가능함.
    • 기본 프롬프트 구성 조정
    • 튜닝 매개변수 설정
    • 가드레일을 설정해 부적절한 입력 차단
  1. 기능 게시 및 공유
  • 앱 기능 개발이 완료되면 해당 기능을 SageMaker Catalog에 게시
  • 이로써 조직 내 다른 인원들이 기능을 검토하거나 사전에 테스트할 수 있음

최종 검토를 거쳐 플레이스토어 등 프로덕션 환경에 배포 준비 완료

마무리하며

이번 콘텐츠를 통해 AWS의 차세대 SageMaker가 단순한 ML 플랫폼을 넘어, 데이터 분석부터 생성형 AI 개발까지 아우르는 통합 환경으로 진화했음을 확인할 수 있었습니다. 특히, SageMaker Unified Studio와 Catalog 중심의 협업 구조는 데이터 분석가, 과학자, 엔지니어, 앱 개발자 간 역할 경계를 허물고 유기적인 협업을 가능케 합니다. Amazon Q의 자연어 쿼리 기능, Iceberg 기반 Lakehouse 아키텍처, Bedrock 통합 기능 등은 실무자의 생산성과 효율성을 비약적으로 향상시켜 줍니다.

특히 인상 깊었던 부분은 가상의 게임 회사 ‘맥스돔’ 사례를 통해 데이터 분석, 모델 개발, 앱 개발까지 이어지는 전 과정을 현실적인 워크플로우로 보여준 점입니다. 

이러한 시나리오는 게임 업계뿐만 아니라 커머스, 통신, 제조 등 다양한 산업에서도 충분히 적용 가능해 보였습니다. 실제 고객사에 SageMaker 기반 데이터·AI 환경을 어떻게 구현할 수 있을지 구체적인 그림을 그릴 수 있었고, 내부 협업 구조나 기술 도입 방향에 대한 인사이트도 얻을 수 있었습니다.

글 │ 메가존클라우드, AI & Data 부문 / AI & Data Ops, 김은옥 매니저

AWS SUMMIT 2025


전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.

테크 블로그 목차 (바로 가기→)

게시물 주소가 복사되었습니다.

이런 콘텐츠도 있어요!

테크

[AWS SUMMIT 2025] Splunk, GenAI, S3, Security Lake로 데이터 가치 극대

본 세션에서는 Splunk의 데이터 비용 문제를 해결하기 위해 S3 및 Amazon Security Lake와 연합 검색 기능을 활용한 효율적인 데이터 운영 방안을 소개합니다. 생성형 AI와 Ingest 최적화 기능을 통해 보안 로그의 처리 비용을 줄이면서도 데이터 처리 방식의 효율성을 높이는 방법에 대해 다룹니다.

[AWS SUMMIT 2025] Splunk, GenAI, S3, Security Lake로 데이터 가치 극대