[reinvent 2024] Monday Night Live with Peter DeSantis

Summary

Monday Night Live with Peter DeSantis에서 무슨 이야기를 했을까요?

AWS 유틸리티 컴퓨팅 수석 부사장인 Peter DeSantis는 ‘Monday Night Live’의 전통을 이어가며 AWS 서비스와 엔지니어링에 대한 심도 있는 통찰을 소개를 했는데요. 자세한 이야기는 메가존클라우드의 테크 블로그를 통해 함께 살펴보실까요?

리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

Title: Monday Night Live with Peter DeSantis
Date: 2024년 12월 2일(월)
Venue: Venetian
Speaker:
Dave Brown (VP, AWS Compute & Networking, Amazon)
Tom Brown (Co-founder and Chief Compute Officer, Anthropic)
Peter DeSantis (SVP, Utility Computing, Amazon Web Services)
Industry: –

들어가며

AWS 유틸리티 컴퓨팅 수석 부사장인 Peter DeSantis는 ‘Monday Night Live’의 전통을 이어가며 AWS 서비스와 엔지니어링에 대한 심도 있는 통찰을 소개해 줬습니다.

또한, 그는 AWS만의 독창적인 접근 방식과 혁신적인 문화를 통해 실리콘에서 클라우드 서비스에 이르기까지 성능과 비용 효율성을 동시에 달성하는 방법을 설명했습니다.

발표는 하드웨어 설계, 데이터 센터 효율화, 그리고 클라우드 서비스를 활용한 고객 중심 솔루션 개발에 중점을 두고 있습니다. 그리고, AWS의 혁신 문화와 협력 사례는 기술적 발전과 비즈니스 가치 창출에 어떻게 연결되는지를 공유해 주었습니다.

AWS 운용 메커니즘과 리더십이 추구하는 디테일 집중

나무의 뿌리와 구조는 AWS의 구조와 유사하며, 탭루트처럼 세부 사항에 집중하여 문제를 빠르게 해결하고 신속한 의사결정을 가능하게 하는 조직으로 유지해 왔다고 합니다. 특히, AWS는 매주 모든 팀이 참여하는 운영 회의를 통해 세부사항에 집중할 수 있는 메커니즘을 구축하여 조직의 모든 층에서 효율적으로 정보를 교환하며, 세부 사항에 대한 깊은 이해 덕분에 AWS는 맞춤형 실리콘에 투자하는 등 장기적이고 어려운 결정을 쉽게 내릴 수 있었다고 합니다.

가로지르는 뿌리 구조처럼 AWS는 전반적인 스택을 포함해 전원, 네트워킹, 데이터베이스 등의 여러 중요한 구성 요소를 혁신하며 독자적인 역량을 갖추게 되었다고 합니다.

AWS Nitro와 Graviton4의 하드웨어 기반 보안

AWS Nitro 시스템은 서버 아키텍처를 재구성하여 클라우드 구축과 보안에 혁신을 가져왔으며, Mac 같은 다양한 컴퓨터를 EC2 인스턴스로 전환할 수 있는 유연성을 제공합니다. 이를 통해 클라우드 환경에서 효율적이고 다양한 컴퓨팅 옵션을 활용할 수 있습니다.

Nitro는 보안 향상과 함께 하드웨어 공급망의 무결성을 보장하며, 암호화된 서명으로 부트 프로세스의 각 단계를 검증해 하드웨어 생성부터 작업 부하 실행까지 무결성을 유지합니다. 이를 통해 클라우드 운영의 신뢰성을 높입니다.

Graviton4 프로세서와의 결합으로 시스템 간 암호화된 통신이 가능해져 하드웨어 기반 보안이 제조 단계에서부터 시작됨을 입증합니다. 이는 클라우드에서 데이터 보호와 무결성을 유지하는 데 핵심적인 역할을 합니다.

저장소와 컴퓨팅의 분리: 효율성과 유연성의 진화

저장소와 컴퓨팅의 분리(Disaggregation) 개념은 운영 복잡성을 줄이고 민첩성을 높이는 혁신을 가져왔습니다. Nitro 카드를 활용해 JBOD 인클로저에 직접 연결함으로써 물리적 제약에서 벗어나 고성능을 유지할 수 있으며, 유지보수가 간편하고 실패한 드라이브를 서비스 가용성에 영향을 주지 않고 교체할 수 있습니다. 네트워크를 통한 독립적인 드라이브 접근으로 전통적인 헤드 노드 실패 문제를 해결하며 빠른 복구를 지원합니다.

이 아키텍처는 저장소와 컴퓨팅 자원의 독립적 확장을 가능하게 하여 고객에게 더 나은 가치를 제공합니다. 컴퓨트 리소스를 필요에 따라 조정하며 하드웨어 제약에서 벗어나 운영상의 유연성과 탄력성을 높였습니다. 유지 관리가 간단해지고 용량 계획이 유연해져 혁신 속도가 빨라졌습니다.

처음에는 스토리지 밀도 문제 해결을 위해 도입되었으나, 이 아키텍처는 효율적이고 신뢰성 높은 새로운 기본 모델로 발전했습니다. 변화에 적응할 수 있는 유연성을 제공하며, 향후 새로운 기회를 창출할 기반이 되고 있습니다.

Tranium 2: AI 서버를 위한 혁신적 설계와 성능

Tranium 2 칩은 실리콘 웨이퍼 기반 첨단 제조 기술로 만들어졌으며, 두 개의 Tranium 칩과 고대역폭 메모리(HBM) 모듈로 구성된 패키지로 AI 서버의 강력한 성능을 제공합니다. HBM은 낮은 전력 소모와 효율적 열 관리를 통해 고성능을 실현하며, 인터포저 기술로 칩 간 연결 안정성을 극대화합니다.

이 칩은 전력 관리 최적화를 통해 전압 강하를 방지하고, 짧은 전선을 활용해 성능 손실 없이 대규모 연산을 지원합니다. 데이터 센터 환경에서 Tranium 2는 높은 계산 효율성과 일관된 성능을 유지하도록 설계되었습니다.

Tranium 2 서버는 20 페타플롭스의 용량을 제공하며, 기존 AWS AI 서버보다 25% 높은 성능을 자랑합니다. 자동화된 제조와 빠른 확장성을 지원하는 독특한 구조로, AI 연산에 최적화된 플랫폼을 제공합니다.

NeuronLink 기술은 Tranium Interconnect를 활용해 여러 Tranium 2 서버를 결합하여 2TB/s의 대역폭과 1마이크로초의 지연 시간으로 메모리에 직접 접근할 수 있는 Ultra Server 구성을 제공합니다. 이 Ultra Server는 64개의 Tranium 2 칩을 협력시켜 기존 EC2 AI 서버 대비 5배 이상의 컴퓨팅 용량과 10배 이상의 메모리를 제공하며, 트릴리언 매개변수 AI 모델 구축에 필수적입니다. 이러한 서버는 AI 추론 워크로드를 최적화하여 메모리와 컴퓨팅 자원의 부담을 분산시키며, AWS 고객이 최상의 성능을 간단한 API 전환으로 경험할 수 있도록 설계되었습니다.

아무래도 AI 의 고속/고성능 처리를 위해 latency 가 중요해 졌으며, 실리콘 코어 경쟁과 더불어, 이를 받쳐 주는 네트워크를 강화한 새로운 기능도 – Latency-optimized inference option for Amazon Bedrock – 발표 되었습니다.

10P10U 네트워크의 설계와 혁신

10P10U 네트워크는 UltraServer2와 Tranium 및 NVIDIA 기반 클러스터를 지원하며, 수천 대의 서버에 테라바이트급 용량과 10마이크로초 이하의 지연 시간을 제공합니다. 초병렬 구조와 탄력적 디자인으로 몇 개의 랙에서 여러 데이터 센터로 확장 가능하며, 트렁크 커넥터와 Firefly Optic Plug 같은 혁신 기술로 케이블 연결 문제를 해결했습니다. 또한, Scalable Intent Driven Routing(CIDR)을 도입해 장애 대응 시간을 1초 이하로 단축, 기존 네트워크 대비 10배 빠른 성능을 제공합니다.

결론

올해 첫 번째 Keynote 는, Nitro, Graviton, 저장소와 같은 핵심 혁신부터 Tranium 2 를 통해 구축 중인 대규모 AI 서버까지 다양한 투자와 발전이 소개되었다. 서비스를 받치고 있는 기본 하드웨어 투자와 시장의 요구사항 이상을 맞추기 위한 AWS 발전이, 개인적으로 하드웨어를 좋아하는 사람으로서 두근거림이 있는 발표였습니다.

결국 AI 를 향해 가고 있으며, AI 가 지속적인 클라우드 확장 혁신의 혜택을 누릴 수 있도록, AWS 가 운영하는 사람과 조직과 함께, Infrastructure 도 기본에 충실한 모습을 보여주려는 발표가 아니였나 합니다.

글 │메가존클라우드, Cloud Technology Center,Global Pre-Sales Team 이용진 팀장

리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

게시물 주소가 복사되었습니다.