[reinvent 2024] Monday Night Live with Peter DeSantis
Summary
Monday Night Live with Peter DeSantis에서 무슨 이야기를 했을까요?
AWS 유틸리티 컴퓨팅 수석 부사장인 Peter DeSantis는 ‘Monday Night Live’의 전통을 이어가며 AWS 서비스와 엔지니어링에 대한 심도 있는 통찰을 소개를 했는데요. 자세한 이야기는 메가존클라우드의 테크 블로그를 통해 함께 살펴보실까요?
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
AWS 유틸리티 컴퓨팅 수석 부사장인 Peter DeSantis는 ‘Monday Night Live’의 전통을 이어가며 AWS 서비스와 엔지니어링에 대한 심도 있는 통찰을 소개해 줬습니다.
또한, 그는 AWS만의 독창적인 접근 방식과 혁신적인 문화를 통해 실리콘에서 클라우드 서비스에 이르기까지 성능과 비용 효율성을 동시에 달성하는 방법을 설명했습니다.
발표는 하드웨어 설계, 데이터 센터 효율화, 그리고 클라우드 서비스를 활용한 고객 중심 솔루션 개발에 중점을 두고 있습니다. 그리고, AWS의 혁신 문화와 협력 사례는 기술적 발전과 비즈니스 가치 창출에 어떻게 연결되는지를 공유해 주었습니다.
AWS 운용 메커니즘과 리더십이 추구하는 디테일 집중
가로지르는 뿌리 구조처럼 AWS는 전반적인 스택을 포함해 전원, 네트워킹, 데이터베이스 등의 여러 중요한 구성 요소를 혁신하며 독자적인 역량을 갖추게 되었다고 합니다.
AWS Nitro와 Graviton4의 하드웨어 기반 보안
Nitro는 보안 향상과 함께 하드웨어 공급망의 무결성을 보장하며, 암호화된 서명으로 부트 프로세스의 각 단계를 검증해 하드웨어 생성부터 작업 부하 실행까지 무결성을 유지합니다. 이를 통해 클라우드 운영의 신뢰성을 높입니다.
Graviton4 프로세서와의 결합으로 시스템 간 암호화된 통신이 가능해져 하드웨어 기반 보안이 제조 단계에서부터 시작됨을 입증합니다. 이는 클라우드에서 데이터 보호와 무결성을 유지하는 데 핵심적인 역할을 합니다.
저장소와 컴퓨팅의 분리: 효율성과 유연성의 진화
이 아키텍처는 저장소와 컴퓨팅 자원의 독립적 확장을 가능하게 하여 고객에게 더 나은 가치를 제공합니다. 컴퓨트 리소스를 필요에 따라 조정하며 하드웨어 제약에서 벗어나 운영상의 유연성과 탄력성을 높였습니다. 유지 관리가 간단해지고 용량 계획이 유연해져 혁신 속도가 빨라졌습니다.
처음에는 스토리지 밀도 문제 해결을 위해 도입되었으나, 이 아키텍처는 효율적이고 신뢰성 높은 새로운 기본 모델로 발전했습니다. 변화에 적응할 수 있는 유연성을 제공하며, 향후 새로운 기회를 창출할 기반이 되고 있습니다.
Tranium 2: AI 서버를 위한 혁신적 설계와 성능
이 칩은 전력 관리 최적화를 통해 전압 강하를 방지하고, 짧은 전선을 활용해 성능 손실 없이 대규모 연산을 지원합니다. 데이터 센터 환경에서 Tranium 2는 높은 계산 효율성과 일관된 성능을 유지하도록 설계되었습니다.
Tranium 2 서버는 20 페타플롭스의 용량을 제공하며, 기존 AWS AI 서버보다 25% 높은 성능을 자랑합니다. 자동화된 제조와 빠른 확장성을 지원하는 독특한 구조로, AI 연산에 최적화된 플랫폼을 제공합니다.
NeuronLink 기술은 Tranium Interconnect를 활용해 여러 Tranium 2 서버를 결합하여 2TB/s의 대역폭과 1마이크로초의 지연 시간으로 메모리에 직접 접근할 수 있는 Ultra Server 구성을 제공합니다. 이 Ultra Server는 64개의 Tranium 2 칩을 협력시켜 기존 EC2 AI 서버 대비 5배 이상의 컴퓨팅 용량과 10배 이상의 메모리를 제공하며, 트릴리언 매개변수 AI 모델 구축에 필수적입니다. 이러한 서버는 AI 추론 워크로드를 최적화하여 메모리와 컴퓨팅 자원의 부담을 분산시키며, AWS 고객이 최상의 성능을 간단한 API 전환으로 경험할 수 있도록 설계되었습니다.
아무래도 AI 의 고속/고성능 처리를 위해 latency 가 중요해 졌으며, 실리콘 코어 경쟁과 더불어, 이를 받쳐 주는 네트워크를 강화한 새로운 기능도 – Latency-optimized inference option for Amazon Bedrock – 발표 되었습니다.
10P10U 네트워크의 설계와 혁신
결론
결국 AI 를 향해 가고 있으며, AI 가 지속적인 클라우드 확장 혁신의 혜택을 누릴 수 있도록, AWS 가 운영하는 사람과 조직과 함께, Infrastructure 도 기본에 충실한 모습을 보여주려는 발표가 아니였나 합니다.