[reinvent 2024] 온프레미스와 edge 데이터를 활용한 생성형 AI 어플리케이션 구축

Summary

데이터 레지던시 등의 이유로 온프레미스에 데이터를 보관해야 하는 환경에서 Gen AI를 사용하려고 하는 경우, 혹은 edge에서 생성된 데이터를 실시간 처리하기 위해 소형 언어 모델(SLM)을 로컬에서 실행해하는 경우가 있습니다. 이번 세션은 AWS 하이브리드 및 edge 서비스를 활용해 온프레미스와 edge 사용 사례에서 SLM을 선택, fine tuning 및 배포하는 방안을 설명합니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Building generative AI applications with on-premises and edge data
  • Date: 2024년 12월 2일(월)
  • Venue: Caesars Forum | Level 1 | Summit 232 | Content Hub | Pink Screen
  • Speaker:
  • Chris McEvilly(WWSO SSA, AWS)
  • Fernando Galves(Outposts Solutions Architect, Amazon Web Services)
  • Industry:
  • Government
  • Financial Services
  • Manufacturing & Industrial

들어가며

많은 기업들이 클라우드 환경 기반의 생성형 AI를 사용하고 있지만, 산업의 특성상, 혹은 보유하고 있는 데이터의 특성에 따라 클라우드 사용이 제한되는 경우가 많이 존재합니다. 이번 글에서는 AWS의 온프레미스 서비스인 AWS Local Zones와 AWS Outposts를 활용해 온프레미스와 Edge 환경에서 Foundational 모델을 배포하기 위한 최적의 방법에 대한 세션을 공유드리도록 하겠습니다.

1. Edge에서의 Gen AI 어플리케이션

데이터의 레지던시, 규제, 지연성, 등 다양한 이유로 인해 많은 기업들이 AWS 환경과 온프레미스 환경을 결합한 하이브리드 아키텍처를 선택하고 있습니다. 이렇게 하이브리드 형태로 사용하는 기업들은 AWS 클라우드와 온프레미스 환경 모두에서 일관된 운영 경험을 하길 바랍니다.

특히 이번 세션에서는 그런 기업들의 요구 사항을 충족하기 위한 방안 중 하나로 AWS 클라우드 환경이 아닌 온프레미스에서 생성형 AI 솔루션을 구축하고 배포하는 방안을 중점적으로 다뤘습니다.

AWS는 Edge 인프라와 클라우드 인프라 간의 일관성을 유지하며, 동일한 API 및 프로그래머블 환경을 제공해 개발자가 edge나 리전 간 애플리케이션 아키텍처를 변경하지 않아도 일관되게 개발할 수 있도록 설계했습니다. 고객은  AWS Outposts, Local Zones, 혹은 그 외의  하이브리드 솔루션들을 통해 로컬 데이터 센터나 콜로케이션 시설에서도 AWS 환경에서와 거의 동일한 경험을 할 수 있습니다. 이런 일관된 경험은 고객들이 데이터 레지던시나 규제 관련 요구사항을 충족하면서도 뛰어난 성능과 유연성을 확보할 수 있게 합니다.

2. 적절한 모델 선택 : LLM vs SLM

다른 Gen AI 프로젝트들과 마찬가지로 온프레미스에서도 Gen AI 어플리케이션을 구축할 때에는 사용하는 모델이 어플리케이션의 퀄리티에 큰 영향을 미칩니다.

LLM (Large Language Model)은 폭넓고 다양한 사용 사례를 처리할 수 있습니다. LLM은 여러가지 일반적인 질문에 대해 답변할 수 있는 능력이 있으며, 사전 학습된 지식을 바탕으로 새로운 태스크에 대한 적응력이 뛰어나 별도의 조정 없이도 제대로 동작할 수 있습니다. 반면, SLM (Small Language Model)은 특정 사용 사례에 초점을 맞춰 fine tuning됩니다. SLM은 특정 사용 사례나 응답에 최적화된 모델로 특정 태스크에는 LLM 보다 뛰어난 성능을 보일 수 있습니다. SLM은 비용 절감과 특정 환경에 대한 최적화시키는 데에 적합하며, LLM은 비교적 일반화된 작업에 적합합니다. 

각 기업의 상황과 요건에 맞는 모델을 선택하는 것이 중요합니다. 다음은 Edge에서 GenAI 어플리케이션을 배포할 때 고려해야할 사항입니다.

일반적으로 온프레미스 환경에서는 데이터 레지던시나 저지연성의 이점으로 인해 SLM을 자주 사용합니다. 

Edge에서 SLM을 사용하여 Gen AI 어플리케이션을 배포할 때의 아키텍처 예시는 다음과 같습니다.

아키텍처는 온프레미스 및 엣지 데이터를 통해 Gen AI 어플리케이션을 구축할 수 있도록 설계되어 있습니다. 이런 아키텍처는 여러 구성 요소들을 포함해서 유연성과 확장성을 제공합니다.

온프레미스 장비인 AWS Outposts와 Local Zones를 통해 인프라를 구성했으며, 그 내부 VPC에 Gen AI 어플리케이션을 위한 EC2와 SLM 모델을 위한 GPU 서버를 구성했습니다.

3. RAG 활용을 통한 모델 응답 품질 최적화

온프레미스 데이터를 활용하여 RAG를 구성하면 모델 응답 품질과 성능을 개선할 수 있습니다. Edge 환경에서는 지연 시간 감소와 데이터 레지던시 요건을 충족하기 위해 RAG를 사용하여 실시간으로 데이터를 처리하고 모델 성능을 최적화합니다. 다음은 RAG를 활용했을 때의 아키텍처 예시입니다.

이전 2번에서의 인프라와 비교했을 때, 임베딩 모델을 활용해 벡터 데이터 베이스에 RAG를 위한 데이터를 저장하는 인프라가 추가되었습니다.

결론

이번 세션에서는 클라우드 환경에서 뿐만 아니라 온프레미스 환경에서도 Gen AI 어플리케이션을 구성할 수 있으며 이를 구성하는데에 고려해야할 점을 다뤘습니다. 특히 온프레미스 환경에서의 SLM 활용과 품질 개선 방법, 그리고 기업별 요구 사항에 최적화된 모델 선택의 중요성을 강조했습니다.

많은 기업들이 데이터 보안 규제 등의 이유로 완전한 클라우드로의 전환이 어려워 하이브리드 형태로 사용하는 경우가 많으며, 그러한 이유로 Gen AI 도입을 고민하는 곳들이 많습니다. 그런 경우에 이와 같은 하이브리드 아키텍처를 참고하여 Gen AI를 적용할 수 있을 것 같습니다. 하이브리드 환경에서의 생성형 AI 배포 전략에 대한 인사이트를 얻을 수 있는 세션이었습니다.

글 │메가존클라우드, AI & Data Analytics Center(ADC), Data Application Support Team, 엄유진 매니저
게시물 주소가 복사되었습니다.