[reinvent 2024] AWS 가속화 컴퓨팅을 통해 생성형 AI로 고객 성공을 이끄는 방법
Summary
AWS가 대규모 생성형 AI 모델을 구축하고 확장하기 위한 가장 뛰어난 성능과 저비용 인프라를 어떻게 제공하는지 알아보세요. GPU 기반 인스턴스와 AWS AI 칩 기반 인스턴스를 포함한 가속화 컴퓨팅 포트폴리오의 새로운 기능에 대해 배우고, 이 포트폴리오가 고객에게 제공하는 다양한 학습 및 추론 활용 사례를 들어보세요. 대형 언어 모델 및 다중 모달 모델을 포함한 다양한 고객의 요구를 지원합니다. 이 세션에 참여하여 선도적인 기업들이 AWS를 활용하여 생성형 AI 분야에서 혁신적인 성과를 거둔 실제 사례를 살펴보세요.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
이 세션은 AWS가 GPU 및 자체 AI 칩 기반 인스턴스를 포함한 가속화 컴퓨팅 포트폴리오를 통해 대규모 생성형 AI 모델을 구축하고 확장하는 데 필요한 뛰어난 성능과 비용 효율성을 제공하는 방법을 알아봅니다. 이 세션에서는LLM 및 Multimodal 모델을 포함해 다양한 고객 요구를 지원하는 학습 및 추론 활용 사례를 살펴볼 수 있습니다. 또한, 선도적인 기업들이 AWS를 활용해 생성형 AI 분야에서 혁신적인 성과를 거둔 실제 사례를 소개합니다.
부서에서 SA로 일하면서 GenAI 프로젝트에서 EC2를 주로 사용하는 입장에서 세션을 통해 AWS 인프라가 AI 및 ML 워크로드에 어떻게 최적화되어 있는지 이해하고, 실제 적용 사례를 통해 고객에게 제안할 솔루션을 구상하는 데 큰 도움을 줄 것이라는 기대를 가지고 들었습니다
UseCase of GenAI
먼저, GenAI가 여러 산업에서 어떻게 사용되고 있는지에 대한 사례를 설명해주었습니다. 이 중 일부의 사례를 공유드리겠습니다.
- HealthCare & Life Sciences
– Protein 설계 및 신약 개발 : 머신러닝 모델을 사용해 단백질의 언어와 생물학적 구조를 학습함으로써 새로운 치료제를 설계할 수 있었습니다.
– EMR(전자의료기록) : 자연어 처리 모델을 통해 의료 데이터를 더 쉽게 문서화하고 처리할 수 있어, 의료진의 행정 업무 부담을 줄일 수 있었습니다. - Industrial, Automotive & Manufacturing
– 제조 라인 최적화 : Generative AI 기반 로봇은 주변 환경을 감지하고 실시간으로 반응하여 제조 공정을 더 안전하고 효율적으로 만들수 있습니다.
– 차량 설계: Ferrari와 같은 회사들은 3D 렌더링을 활용해 고객이 차량을 생산 전에 시각적으로 체험할 수 있도록 지원합니다. - Retail
– AI 쇼핑 도우미: Amazon.com에서는 “RUFUS”라는 AI 어시스턴트를 통해 사용자가 쇼핑 중에 궁금한 점을 질문하고 제품 추천을 받을 수 있습니다.
Trends of GenAI
이어서, 최근 AI 기술 트렌드에 대한 내용을 전달해주었습니다. 특히, 2023년과 2024년을 가르는 주요 변화를 중심으로 설명하며, AI 기술이 발전해 나가는 방향성을 구체적으로 보여주었습니다.
- LLM 확장
– 대규모 학습 클러스터가 등장하면서 최대 10,000개 이상의 GPU를 동원해 하나의 작업을 수행할 수 있습니다. 이는 차세대 대규모 모델 개발을 가능하게 합니다.
– 효율성과 안정성이 대규모 학습 환경의 필수 요건으로 부상했습니다. - 글로벌 실시간 모델 사용 증가
– 전 세계적으로 Generative AI 모델을 애플리케이션에 통합하려는 수요가 폭증했습니다.
– AWS는 컴퓨팅 확장성과 경제성을 강화하여 실시간으로 강력한 AI 모델과 상호작용할 수 있는 환경을 제공합니다. - 멀티모달 모델의 발전
– 2023년이 텍스트 기반 LLM의 해였다면, 2024년은 Multimodal Model의 해로 전망됩니다.
– 멀티모달 모델은 텍스트뿐만 아니라 비디오, 오디오까지 이해하며, 이 기술은 새로운 컴퓨팅 인프라 요구 사항을 수반하고 있습니다.
Key Customer Needs
Generative AI의 다양한 활용 사례와 기술적 트렌드를 소개한 후, 고객들이 공통적으로 요구하는 네 가지 주요 사항에 대해 설명했습니다. 이 내용은 AWS가 Generative AI 인프라를 설계하고 최적화하는 데 있어 가장 중요한 기준점으로 작용하고 있었습니다.
- 성능(Performance)
AI 모델을 Low Latency로 더 빠르게 훈련시키고 검증하여, 제품화까지의 시간을 단축하기를 원합니다. - 비용(Cost)
LLM은 학습 및 추론 비용이 높기 때문에, 가격 대비 성능이 뛰어난 솔루션을 요구합니다. AWS는 최신 EC2 인스턴스를 통해 고객이 동일한 비용으로 더 많은 성능을 얻을 수 있도록 지원하고 있습니다. - 보안(Security)
데이터 및 AI 모델은 민감한 정보를 포함할 수 있기 때문에, 높은 수준의 보안이 필요합니다. AWS는 Nitro 시스템, VPC 암호화, KMS를 통해 데이터 및 모델 보안을 강화합니다. - 사용 편의성(Ease of Use)
대규모 AI 워크로드를 관리하는 것은 기술적으로 복잡하지만, 고객은 이를 최소화할 수 있는 간단한 솔루션을 원합니다. AWS는 EC2와 같은 서비스를 통해 이러한 “비차별적 고강도 작업(undifferentiated heavy lifting)”을 줄이는 데 집중하고 있습니다.
About AWS EC2
AWS EC2는 Generative AI 모델을 훈련하고 배포하는 데 필요한 고성능 컴퓨팅 환경을 제공합니다. EC2 인스턴스와 관련된 여러 기술적 지원 사항들은 고객이 AI 모델을 효율적이고, 빠르게 훈련하고, 실시간 추론을 할 수 있도록 돕는 핵심 요소들입니다.
Accelerated Computing Architecture는 3가지의 주요 카테고리로 나누어집니다: Accelerators, Switching Layer, Host. 이 아키텍처는 하드웨어 가속기에서 시작하여, 데이터 전송을 최적화하는 스위칭 계층을 거쳐, 최종적으로 컴퓨터의 CPU가 호스트 환경을 관리하는 구조입니다.
1. Accelerators
Accelerators는 AI 모델 훈련과 추론을 가속화하는 핵심 하드웨어입니다. 다양한 워크로드를 지원하는 여러 가속기가 제공됩니다.
[ NVIDIA GPUs ]
AWS는 NVIDIA A100, V100 등 고성능 GPU를 제공합니다. 이들 GPU는 대규모 병렬 연산을 가능하게 하여 AI 모델 훈련에 매우 적합합니다. 특히 대규모 모델을 훈련하는 데 뛰어난 성능을 발휘합니다.
[ AWS Custom AI Chips (Trainium) ]
AWS가 설계한 Trainium 칩은 AI 훈련을 최적화하여 성능을 극대화합니다. 대규모 모델 훈련에 적합하며, 성능과 비용 측면에서 뛰어난 효율성을 제공합니다.
2. Switching Layer
Switching Layer는 다양한 가속기들이 협력하여 대규모 모델 훈련과 추론을 효율적으로 처리할 수 있도록 돕는 네트워크 계층입니다. 이 계층은 GPU와 같은 가속기들 간에 데이터를 빠르고 안정적으로 전송하는 역할을 합니다.
[ EFAv3 (Elastic Fabric Adapter) ]
EFA는 AWS의 고성능 네트워크 인터페이스로, 대규모 AI 훈련 환경에서 여러 GPU 간의 동기화와 데이터 처리를 빠르고 효율적으로 지원합니다. EFA는 높은 대역폭과 낮은 지연 시간을 제공하여, 여러 GPU가 동시에 작업할 수 있도록 돕습니다.
EFAv3는 EFA의 진화된 버전으로, 클라우드 환경에서의 확장성을 위해 특별히 설계된 SRD(Scalable Reliable Datagram) 프로토콜을 내장하고 있습니다. SRD는 네트워크 트래픽의 확장성을 지원하며, 대규모 클러스터 환경에서도 안정적인 성능을 제공합니다. 이는 모델 훈련을 위한 분산 작업을 더욱 효율적으로 처리할 수 있도록 돕습니다.
[ EC2 Ultra Cluster ]
EC2 Ultra Cluster는 수백 개의 인스턴스와 수천 개의 GPU를 연결할 수 있는 AWS의 고성능 네트워크 인프라입니다. 이 클러스터는 EFAv3와 같은 고속 네트워크 기술을 활용하여, 데이터 전송 속도와 처리 성능을 최적화합니다. 이를 통해 대규모 AI 모델을 훈련하는 데 필요한 대역폭을 확장하고, 데이터 처리의 지연 시간을 최소화할 수 있습니다. EC2 Ultra Cluster는 특히 수천 개의 GPU를 사용한 대규모 훈련 작업에서 필수적인 성능을 제공합니다.
3. Host
Host는 EC2 인스턴스를 실행하는 물리적 서버로, CPU와 메모리 자원 등을 관리합니다. 이 계층은 데이터 보호, 모델 훈련 환경 설정 및 시스템 관리를 담당하는 중요한 역할을 합니다.
[ Storage Service ]
스토리지 서비스를 통해 모델 훈련 중에 생성되는 “ML Model Weights”는 중요한 자산이므로 데이터가 훈련 중에 손상되지 않도록 보호할 수 있습니다.
S3 : 객체 스토리지로, 대규모 데이터 세트를 안전하게 저장할 수 있습니다. AI 모델 훈련 시 필요한 데이터를 대규모로 저장하고, 다양한 AWS 서비스와 통합하여 활용할 수 있습니다.
EBS : EC2 인스턴스와 결합되어 블록 스토리지 서비스를 제공하며, AI 모델 훈련 중 체크포인트 데이터나 임시 데이터를 빠르고 안정적으로 저장할 수 있습니다. 특히 EBS는 AI 훈련과 추론 과정에서 발생하는 대규모 데이터를 빠르게 읽고 쓸 수 있는 성능을 제공합니다.
FSx : FSx는 고성능 파일 시스템으로, AWS EC2 인스턴스에서 실행되는 애플리케이션과 효율적으로 데이터를 공유할 수 있게 해줍니다. AI 훈련 중 데이터 병목 현상을 최소화하고, 대규모 파일 시스템을 처리하는 데 이상적인 옵션입니다.
[ AWS Nitro System ]
AWS Nitro System은 AWS EC2 인스턴스의 보안을 담당하는 기술로, 하드웨어와 소프트웨어를 결합하여 고객의 데이터를 안전하게 보호합니다. 모든 EC2 인스턴스에서 데이터를 보호하고, 보안이 중요한 모델 훈련 환경을 제공하는 데 중요한 역할을 합니다.
Series of EC2 Instances
앞에서 본 아키텍처를 바탕으로 AWS는 다양한 EC2 인스턴스 시리즈를 제공하며, 고객은 자신의 요구 사항에 맞는 최적의 인스턴스를 선택하여 Generative AI 모델을 훈련하고 추론할 수 있습니다. 각 인스턴스 시리즈는 특정 워크로드에 최적화되어 있으며, 고객의 다양한 요구를 충족시킬 수 있는 성능과 효율성을 제공합니다. 다음에서는 AWS의 주요 EC2 인스턴스 시리즈들을 설명합니다.
1. G-series Instance (NVIDIA GPUs)
GPU 기반의 컴퓨팅 및 그래픽 작업에 최적화된 인스턴스입니다. NVIDIA GPU를 사용하여 AI 훈련 및 고성능 컴퓨팅 워크로드를 처리하는 데 적합하며 다양한 인스턴스 크기를 제공하여 유연성을 제공합니다.
- Compute and graphics optimized GPUs : 컴퓨팅과 그래픽 처리 작업에 최적화되어 있어 게임 개발, 시뮬레이션, AI 훈련 등 다양한 용도로 활용됩니다.
- Flexibility with multiple instance sizes : 여러 크기의 인스턴스를 제공하여, 고객은 자신의 워크로드에 가장 적합한 리소스를 선택할 수 있습니다.
- Great for single GPU or single node workloads : 단일 GPU 또는 단일 노드 작업에 최적화되어 있어, 고성능 GPU를 한 번에 처리할 수 있는 작업에 매우 유리합니다.
G시리즈 인스턴스는 NLP, 컴퓨터 비전, 강화 학습, 그래픽 및 시뮬레이션 등에 적합합니다.
2. P-series Instance – (Newly Announced in re:Invent 2024 – P5en Instance)
AI 훈련과 추론에 최적화된 인스턴스 시리즈입니다. P4d와 같은 인스턴스는 NVIDIA A100 GPU를 기반으로 하여, 대규모 AI 모델 훈련 및 추론을 가속화합니다. 특히 EC2 Ultra Cluster 내에서 배치되어 분산 훈련과 확장 가능한 환경에서 뛰어난 성능을 발휘합니다.
- Optimized for AI training and inference : 딥러닝 훈련과 추론에 최적화되어 있으며, NLP(자연어 처리), 컴퓨터 비전, 강화 학습 등 다양한 AI 모델 훈련을 빠르고 효율적으로 처리할 수 있습니다.
- Deployed within EC2 UltraCluster for scale-out : EC2 Ultra Cluster 내에서 배치되어 수천 개의 GPU를 연결하여 대규모 AI 훈련 및 추론을 지원합니다.
- Great for single node or distributed workloads : 단일 노드와 분산 워크로드 모두에 적합하며, 대규모 모델을 훈련하거나 실시간 추론을 수행할 때 높은 성능을 제공합니다.
P시리즈 인스턴스는 대규모 AI/ML 훈련(NLP, 컴퓨터 비전)과 실시간 추론 등에 적합합니다.
3. Inf -series Instance (추론 성능 극대화)
AWS Inferentia 칩을 기반으로 한 AI 추론 최적화 인스턴스 시리즈입니다. 이 시리즈는 Generative AI (GenAI) 모델의 추론 성능을 극대화하며, 비용 효율성과 성능을 동시에 제공합니다. Inferentia 칩은 특히 대규모 AI 추론 작업에서 높은 성능을 제공하며, NeuronLink 기술을 지원하여 초대형 GenAI 모델도 효율적으로 처리할 수 있습니다.
- Powered by AWS Inferentia custom ML chips : Inf 시리즈는 AWS Inferentia 칩을 사용하여 AI 추론 성능을 극대화합니다. Inferentia는 기계 학습 모델 추론을 위한 최적화된 하드웨어로, 저비용 고성능 추론을 제공하며 TensorFlow, PyTorch와 같은 주요 딥러닝 프레임워크와 호환됩니다.
- High Performance at the lowest cost for GenAI models : GenAI 모델을 위한 최적화된 고성능을 제공하면서도 비용 효율적인 추론 환경을 지원합니다. 이 시리즈는 특히 대규모 AI 모델 추론을 경제적으로 처리할 수 있습니다.
- Support for ultra-large GenAI models using NeuronLink : NeuronLink 기술을 통해 초대형 GenAI 모델을 분산 처리할 수 있습니다. 이를 통해 매우 큰 모델도 효율적으로 추론하고 처리할 수 있습니다.
- 9.8TB/s aggregated accelerator memory bandwidth : 9.8TB/s의 집합적 가속기 메모리 대역폭을 제공하여, 대규모 모델 추론을 빠르고 안정적으로 처리할 수 있습니다. 이 뛰어난 메모리 대역폭은 AI 모델을 훈련하고 추론하는 데 있어 병목 현상을 최소화하는 데 중요한 역할을 합니다.
Inf 시리즈는 대규모 AI 모델 추론을 경제적이고 효율적으로 처리할 수 있어, 대형 GenAI 모델을 활용하는 서비스에 적합합니다.
4. Trn -series Instance (추론 성능 극대화)
AWS Trainium 칩으로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Trn 인스턴스는 대규모 언어 모델(LLM) 및 잠재 확산 모델을 비롯한 생성형 AI 모델의 고성능 딥러닝 훈련을 지원하는 목적별 서비스입니다. Trn 인스턴스는 다른 유사한 Amazon EC2 인스턴스에 비해 저렴한 훈련 비용을 제공합니다.
- Powered by AWS Trainium custom ML chips : AWS Trainium 칩을 사용하여 대규모 AI 훈련에 최적화된 성능을 제공합니다. Trainium 칩은 AI 훈련에 필요한 고성능 컴퓨팅을 제공하며, 비용 효율적인 AI 훈련을 가능하게 합니다.
- Optimized for large-scale distributed workloads : 대규모 분산 훈련에 최적화되어 있습니다. AI 훈련 시 데이터와 모델을 여러 노드에서 분산하여 처리할 수 있는 환경을 제공하며, 이를 통해 훈련 속도와 확장성을 극대화합니다.
- TRN2 Ultra Servers with extended NeuronLink for trillion-parameter AI: TRN2 Ultraservers는 NeuronLink 확장을 통해 trillion 파라미터 AI 모델을 훈련할 수 있는 성능을 제공합니다. 이 시스템은 대규모 모델 훈련을 지원하며, NeuronLink를 사용해 수백 개의 노드를 연결하여 효율적인 분산 훈련을 수행합니다. (Newly Announced in re:Invent 2024)
- Neuron Kernel Interface for custom operators : Neuron Kernel Interface는 custom operators를 지원하여, 맞춤형 AI 모델 훈련에 유연성을 제공합니다. 이는 TensorFlow, PyTorch와 같은 프레임워크에서 사용자 정의 연산자를 쉽게 구현할 수 있도록 지원합니다.
Trn 시리즈는 초대형 AI 모델 훈련, 분산 훈련, 맞춤형 훈련 작업이 필요한 과업에 적합합니다.
결론
특히 NeuronLink, TRN2 Ultra servers, EFAv3와 같은 기술들이 대규모 AI 모델 훈련 및 추론을 가능하게 한다는 점이 인상 깊었습니다. 앞으로 고객 요구사항에 맞는 인스턴스를 추천하거나 설계할 때 이번에 배운 내용을 적극 활용할 수 있을 것 같습니다. 추가적으로 신기능에 대한 설명까지 들을 수 있어서 매우 만족스러운 세션이었습니다.