[Jump Into ISV] 생성형 AI와 Data Lakehouse에게 별 ⭐⭐⭐⭐⭐개 드립니다

생성형 AI의 등장과 현재

생성형 AI 서비스는 유망한 기술 중 하나였고, 2022년 11월, Chat GPT의 등장 2달만에 월간 사용자 1억명을 돌파하며 우리에게 더욱 가까워졌습니다. 초기에는 네이버 지식인의 대안으로 간단한 호기심이나 질문을 해결하는 데 사용되었지만, 이제는 업무 현장에서 적극적으로 활용되며 우리의 일하는 방식을 혁신하고 있습니다. Chat GPT의 사용 여부에 따라 회사의 발전이 결정되는 시대가 도래한 것입니다. 이러한 생성형 AI는 사람의 직업을 위협한다는 우려와는 달리, 우리의 삶을 더욱 풍요롭게 만들어주고 있습니다.
<기업용 생성형 AI 서비스를 위한 데이터 수집 및 활용>
<reference: https://bootcampdigital.com/blog/generative-ai-landscape-and-ecosystem/>

생성형 AI의 거짓말 🤥

이렇게 다재다능한 생성형 AI 서비스를 이용하다 보면 가끔 사실이 아닌 내용을 그럴듯하게 말하는 경우를 목격할 수 있습니다. 이러한 현상을 ‘환각 현상’이라고 합니다. 이를 개선하기 위해 RAG(Retrieval-Augmented Generation) 기술이 사용됩니다.
 
RAG는 ‘검색 증강 생성’이라고도 하며, 외부 지식 베이스를 연결해 기존 오류를 줄이고 더 정확한 답변을 제공할 수 있도록 돕습니다. RAG는 다양한 데이터를 검색하여 대규모 언어 모델(LLM)의 응답을 보강하는데, 이 방대한 데이터를 저장하고 관리하는 곳이 바로 데이터 레이크하우스 입니다.

데이터의 창고와 호수? 창고와 호수를 결합한 데이터 레이크하우스

데이터 레이크하우스를 설명하기 위해선 데이터 레이크와 데이터 웨어하우스에 대해 알아야 합니다.
 
데이터 레이크는 대규모 원시 데이터를 저장할 수 있는 중앙 저장소로, 정형, 반정형, 비정형 데이터를 모두 저장할 수 있습니다. 데이터는 주로 원시 상태로 저장되며, 이는 데이터 분석가와 과학자들이 데이터를 자유롭게 접근하고 처리할 수 있도록 도와줍니다. 데이터 레이크의 주요 장점은 확장성과 유연성입니다. 

반면, 데이터 웨어하우스는 정형, 반정형 데이터를 중앙 집중식으로 저장하고 분석하는 시스템입니다. 데이터는 ELT(추출, 적재, 변환) 과정을 거쳐 정제되고 구조화된 형태로 저장됩니다. 데이터 웨어하우스의 주요 장점은 고품질 데이터와 빠른 쿼리 성능입니다.




데이터 레이크하우스는 이러한 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 현대적인 데이터 관리 아키텍처입니다. 데이터 레이크의 유연성과 비용 효율성, 대용량 지원 기능을 데이터 웨어하우스의 데이터 관리 기능과 결합하여, 모든 데이터를 대상으로 비즈니스 인텔리전스(BI)와 머신러닝(ML)을 지원합니다.
<reference : https://www.agilisium.com/blogs/the-data-lake-house-is-your-next-cloud-data-warehouse>

인기있는 데이터 레이크하우스 플랫폼

현재 시장에서 인기있는 플랫폼들은 Amazon Redshift, Google Big Query, Azure Synapse Analytics, Snowflake 등이 있으며 이 중에 Snowflake가 가장 주목을 받고 있습니다.
 
실제로 데이터베이스 관리 시스템을 매월 검색엔진에서의 노출 빈도 등 다양한 요소로 DB를 평가하여 순위를 지정해 주는 사이트 DB엔진 랭킹에서 Snowflake가 데이터 레이크하우스 플랫폼 중 제일 높은 순위에 있습니다.
<reference : https://db-engines.com/en/ranking>



Snowflake는 클라우드 기반의 완전 관리형 데이터 플랫폼으로, 컴퓨팅과 스토리지 영역을 분리하여 유연한 확장성을 제공하며, 다양한 데이터 형식을 지원합니다. 데이터 레이크하우스 아키텍처에 머신러닝까지 폭넓게 지원하는 현대적인 플랫폼으로 엔지니어 뿐만 아니라 현업들까지 사용할 수 있는 다양한 편의를 제공합니다.

Snowflake로 생성형 AI를 구축한 사례

고객사가 가지고 있던 이슈
 
소개해드릴 고객사 식신은 월간 350만 명의 사용자가 이용하는 푸드테크 기업입니다.

식신은 100만 개 이상의 맛집 데이터와 월간 350만 명의 방문 데이터를 보유하고 있으며, 오랜 서비스 운영 경험을 바탕으로 트렌드를 반영한 메뉴 기반 인사이트 제공 서비스 구축이 필요해졌습니다.
 
이를 위해 식신의 데이터와 다양한 이기종 데이터를 통합하여 더욱 매력적인 맛집 및 메뉴 추천 서비스를 제공하고, AI 모델의 해설 기능을 통해 데이터 인사이트 도출이 필요하였습니다.
 
 


서비스 도입 과정
 
고객사는 Amazon S3, Amazon Bedrock 그리고 Snowflake 세 가지 인프라를 활용하여 프로젝트를 구축하였습니다.
 
Amazon S3는 다양한 데이터의 저장과 관리를 담당하며, 데이터는 Amazon Bedrock의 LLM을 활용한 맛집 및 메뉴 추천 서비스의 핵심 자원이 되었습니다.
 
Snowflake는 데이터 수집 파이프라인 자동화를 담당하며, Streamlit을 활용하여 조회 기간과 지역 정보를 필터링 후 해당 지역의 맞춤형 레스토랑 및 메뉴 추천, 컨설팅 리포트 확인이 가능해졌습니다.
 
 


서비스 도입 이후
 
지역별 인기 메뉴, 스토리가 있는 메뉴 트렌드, 상황이나 장소에 맞는 테마 데이터, 메뉴별 사용된 식자재 등의 데이터를 실시간으로 확인할 수 있는 분석형 대시보드, 컨텐츠형 위젯, API 등 다양한 형태의 컨텐츠로 제공하게 되었습니다

Snowflake를 쉽게 사용하는 방법

답은 메가존클라우드입니다. 메가존클라우드는 다양한 데이터 클라우드 고객 사례를 통해 Snowflake의 엄격한 조건을 충족하여 국내 최초이자 유일하게 Snowflake의 Premier Partner가 되었습니다. 또한, 전세계적으로 80명뿐인 Snowflake ‘데이터 슈퍼히어로’ 중 국내 최초 스노우플레이크 데이터 슈퍼히어로가 바로 메가존클라우드에서 탄생하였습니다.
 
Snowflake의 Premier Partner로 ‘데이터 전문가’ 로서의 사명감을 가지고 고객분들의 데이터 비즈니스 확장을 위해서 도움을 드리고 있습니다.
 
 
 
문의 : 메가존클라우드 Data&AI팀 (mzc_tm_isvsdna@megazone.com)
 
 
 
본 콘텐츠는 메가존클라우드 Data&AI팀 김기석님의 자문을 받아 작성하였습니다.


글 | 메가존클라우드 Strategy & Partnership Group 김태권 매니저
게시물 주소가 복사되었습니다.