[reinvent 2025] Keynote_Infrastructure Innovations
Summary
AWS re:Invent 2025의 마지막 날을 장식한 이 키노트에서 Peter DeSantis SVP는 AI 시대에도 변하지 않는 AWS의 핵심 가치인 보안, 가용성, 탄력성, 민첩성, 비용 효율성을 강조했습니다.
Graviton 5(192코어, 5배 L3 캐시), Lambda Managed Instances(GA), S3 Vectors(GA), Trainium 3(40% 비용 절감, 5배 토큰/메가와트) 등 AI 인프라의 핵심 발표가 이어졌습니다.
Apple, Twelve Labs, Descart 등 파트너 사례를 통해 AWS 인프라의 실제 활용 성과가 공유되었습니다.
리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
이번 칼럼에서는 AWS re:Invent 2025의 마지막 날(12/4)에 진행된 Peter DeSantis의 인프라스트럭처 키노트에서 발표된 주요 내용을 공유드리겠습니다.
AWS Utility Computing의 수석 부사장인 Peter DeSantis는 “AI가 인프라에 무엇을 의미하는가”라는 질문으로 키노트를 시작하며, 변하지 않는 것들의 중요성을 강조했습니다.
그는 Security(보안), Availability(가용성), Elasticity(탄력성), Agility(민첩성), Cost(비용)라는 AWS의 5대 핵심 속성이 AI 시대에 더욱 중요해졌다고 강조했습니다.
특히 “AI 워크로드로 인한 전례 없는 수요 증가 속에서, 우리의 목표는 S3에서 얻는 것과 같은 탄력성을 AI 워크로드에도 제공하는 것”이라고 밝혔습니다.

Graviton 5: 192코어 단일 패키지의 혁신
Dave Brown VP가 발표한 Graviton 5는 AWS의 차세대 서버 프로세서로, 이전 세대 대비 획기적인 성능 향상을 보여줍니다.
Graviton 5 핵심 스펙:
- 192 코어를 단일 패키지에 통합 (기존 2개 CPU 연결 방식 탈피)
- 5배 이상의 L3 캐시 – 각 코어당 2.6배 더 많은 L3 캐시 확보
- 균일한 메모리 접근 지연시간 – 인터커넥트 오버헤드 제거
- Direct-to-silicon 쿨링으로 팬 전력 33% 감소
M9G 인스턴스는 Graviton 5를 탑재한 최초의 인스턴스로, M8G 대비 25% 향상된 성능과 EC2 최고의 가격 대비 성능을 제공합니다.
초기 고객들의 성과도 인상적입니다: Airbnb 25% 성능 향상, Atlassian 20% 지연시간 감소, Honeycomb 36% 성능 향상, SAP HANA Cloud 60% 성능 향상을 달성했습니다.
Apple의 Mam Marashini VP는 게스트로 등장하여 Swift 언어를 서버 사이드에서 활용한 사례를 공유했습니다.
Apple은 Swift와 Graviton을 결합하여 40% 성능 향상과 30% 비용 절감을 달성했으며, iOS 18의 스팸 탐지 기능도 Swift와 Graviton으로 구동되고 있습니다.
Lambda Managed Instances: 서버리스의 재정의

Lambda Managed Instances(GA)는 서버리스와 인프라 제어 사이의 간극을 연결하는 혁신적인 서비스입니다.
Dave Brown VP는 “서버리스는 서버의 부재가 아니라 서버 관리의 부재”라고 정의했습니다.
Lambda Managed Instances 특징:
- Lambda 함수가 고객 계정 내 EC2 인스턴스에서 실행
- 인스턴스 타입 선택 가능 – 원하는 하드웨어 성능 확보
- Lambda가 프로비저닝, 패칭, 가용성, 스케일링 자동 관리
- 기존 Lambda 함수 코드 변경 없이 그대로 사용
이를 통해 비디오 처리, 전처리, 고처리량 ML 추론 등 기존에 Lambda 외부에서 처리하던 워크로드도 서버리스의 개발자 경험과 EC2의 성능을 동시에 누릴 수 있게 되었습니다.
Amazon Bedrock 인퍼런스 엔진도 크게 발전했습니다.
단일 추론 요청은 Tokenization → Prefill → Decode → Detokenization의 4단계 파이프라인을 거치며, Bedrock Service Tiers를 통해 고객은 요청을 Priority(실시간), Standard(안정적), Flexible(백그라운드) 3개 레인으로 분류할 수 있습니다.
Vector Search와 S3 Vectors: AI 데이터의 새로운 기반

Peter DeSantis는 벡터(Vector)가 인간의 뇌가 개념을 연결하는 방식과 유사하게 컴퓨터가 데이터 간의 관계를 이해할 수 있게 해준다고 설명했습니다.
현대의 풍부한 벡터 인코딩 공간은 3,000개 이상의 차원을 가지며, 각 차원은 AI가 스스로 인식한 추상적 개념을 나타냅니다.
Nova Multimodal Embedding Model은 텍스트, 문서, 이미지, 비디오, 오디오를 모두 지원하는 최초의 통합 임베딩 모델로, 모든 모달리티를 공유 벡터 공간으로 변환합니다.
S3 Vectors 핵심 기능:
- S3 버킷 생성처럼 간단하게 벡터 인덱스 생성
- 페타바이트 규모의 벡터 데이터베이스 구축 가능
- 프로비저닝 불필요, 사용량 기반 과금
- 20억 벡터에서 100ms 이내 쿼리 성능 달성
- 4개월 프리뷰 기간 동안 25만+ 벡터 인덱스 생성, 40억+ 벡터 수집
Twelve Labs의 Jay Lee CEO는 S3 Vectors를 활용한 비디오 인텔리전스 솔루션을 소개했습니다.
그들의 Marengo 모델은 비디오를 프레임이나 트랜스크립트가 아닌 통합된 스토리로 이해하며, 수백만 시간의 비디오를 처리하는 세계 최대 규모의 비디오 AI 워크로드를 운영하고 있습니다.
Trainium 3: AI 워크로드의 비용 혁신

Peter DeSantis는 Trainium이 거의 모든 AI 워크로드를 지원하며, dense transformer, mixture of experts, state space model 등 전체 모델 아키텍처 스펙트럼을 커버한다고 강조했습니다.
Anthropic의 모델을 Bedrock이나 직접 사용하는 경우, 이미 Trainium의 혜택을 받고 있습니다.
Trainium 3 UltraServer 스펙:
- 144개 Trainium 3 칩 (2개 랙에 분산)
- 360 Petaflops FP8 연산 성능
- 20TB HBM, 700TB/s 메모리 대역폭
- TRN2 UltraServer 대비 4.4배 컴퓨팅, 3.9배 대역폭
- 40% 비용 절감 (가장 까다로운 AI 워크로드 기준)
- TRN2 대비 5배 토큰/메가와트 효율성
서버 설계도 혁신적입니다. Trainium 3 + Graviton + Nitro 3개 AWS 커스텀 칩이 동일 보드에 통합되어 전용 헤드노드가 불필요하고,
모든 부품이 탑 액세스 설계로 로봇 조립과 빠른 유지보수가 가능합니다.
NKI (Neuron Kernel Interface)가 Q1에 GA 예정입니다. Python 환경에서 매트릭스 연산과 명령어 수준 하드웨어 접근을 결합한 언어로, Trainium의 모든 마이크로아키텍처 기능에 접근할 수 있습니다.
Trainium PyTorch Native Support도 Q1에 출시되어, 기존 코드에서 cuda를 neuron으로 변경하는 것만으로 Trainium에서 실행 가능합니다.
Descart의 Dean Leitersdorf CEO는 Real-time Live Visual Intelligence라는 새로운 GenAI 카테고리를 소개했습니다.
Trainium 3에서 실시간으로 비디오 생성 모델을 구동하여, 키노트 현장에서 실시간 영상 변환 데모를 선보였습니다.
NKI를 활용하여 기존 대비 4배 성능 향상, 80% 텐서 코어 활용률을 달성했다고 밝혔습니다.
결론
Peter DeSantis의 인프라스트럭처 키노트는 “AI에서 중요한 것들은 지난 20년간 AWS가 집착해온 것들과 정확히 동일하다”는 메시지로 시작하여, 그 연속성 위에 구축된 혁신들을 보여주었습니다.
Graviton 5는 192코어 단일 패키지와 5배 L3 캐시로 데이터베이스와 대규모 분석 워크로드의 새로운 기준을 제시했고, Lambda Managed Instances는 “서버리스 = 서버 관리의 부재”라는 본질을 확장하여 EC2의 성능과 Lambda의 단순성을 결합했습니다.
S3 Vectors와 Nova Multimodal Embeddings는 비정형 데이터의 AI 활용을 민주화하고, Trainium 3는 40% 비용 절감과 PyTorch 네이티브 지원으로 AI 워크로드의 진입 장벽을 낮추었습니다.
특히 인상적이었던 것은 Apple, Twelve Labs, Descart 등 다양한 파트너들의 실제 활용 사례입니다.
Apple의 Swift on Graviton 성공 사례(40% 성능 향상, 30% 비용 절감)는 클라우드 네이티브 언어 선택의 중요성을, Descart의 실시간 비디오 생성 데모는 Trainium 3의 실제 잠재력을 생생하게 보여주었습니다.
Peter DeSantis가 마지막에 강조했듯이, “AI에서 여전히 Day One”입니다. 새로운 아키텍처가 등장하고, 예측 불가능한 변화가 일어날 것이지만, AWS는 지난 20년처럼 제약을 제거하고 빌딩 블록을 제공하며 고객과 함께할 것입니다.
다음에 무엇을 만들지는 우리에게 달려 있습니다.


