[reinvent 2024] NVIDIA 가속 컴퓨팅 플랫폼(NVIDIA 스폰서)

Summary

최신 블랙웰, 호퍼, 에이다 러브레이스 플랫폼을 갖춘 AWS에서 컴퓨팅을 가속화한 NVIDIA가 생성 AI 워크로드의 문제를 어떻게 해결하는지 살펴보세요. 이 세션에서는 20,736개의 NVIDIA 블랙웰 GPU와 10,368개의 NVIDIA Grace CPU로 확장되는 NVIDIA GB200 NVL72가 탑재된 슈퍼컴퓨터 프로젝트 세이바를 소개하며, 엘라스틱 패브릭 어댑터(EFA) 네트워킹 및 최첨단 액체 냉각 솔루션을 통해 414 엑사플롭의 AI 성능을 제공하여 탁월한 성능, 효율성 및 확장성을 달성합니다. 또한 블랙웰 암호화와 AWS 니트로 시스템, AWS KMS 및 EFA를 통합하여 엔드투엔드 암호화 데이터 보호를 보장하는 보안 솔루션 데모를 확인하세요. 이 프레젠테이션은 AWS 파트너인 NVIDIA가 제공합니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: NVIDIA accelerated computing platform on AWS (sponsored by NVIDIA)
  • Date:  2024년 12월 3일(화)
  • Venue: Wynn | Convention Promenade | Latour 2
  • Speaker: Dave Salvator(Director Accelerated Computing Products, NVIDIA)
  • Industry: Cross-Industry Solutions

들어가며

AWS와 NVIDIA가 협력하여 제공하는 NVIDIA 가속 컴퓨팅 플랫폼을 주제로 한 세션을 듣고, 그 핵심 기술과 혁신적인 업데이트가 있는지 궁금해서 세션을 듣게 되었습니다. 특히 주목할 내용은 NVIDIA의 최신 GPU 아키텍처인 Blackwell, AWS와의 강력한 통합 서비스, 그리고 지속 가능성을 위한 새로운 접근법이라고 합니다.

생성형 AI의 발전과 도입

생성형 AI는 단순한 기술적 트렌드를 넘어 기업의 핵심 비즈니스 도구로 자리 잡고 있다는 것은 많이 알고 있습니다. NVIDIA는 강력한 컴퓨팅 파워와 효율적인 아키텍처를 통해 다양한 AI 응용 사례를 지원하고 있으며, AWS는 이를 쉽게 배포하고 운영할 수 있는 환경을 제공한다고 합니다. 예를 들어, AI 기반 고객 지원 시스템은 대규모 고객 데이터를 분석하여 맞춤형 답변을 제공하고, 기업의 효율성을 높이는 데 기여하구요 특히 NVIDIA와 AWS의 협력은 기존 AI 모델의 실험 단계를 넘어 실제 비즈니스 환경에서 효과적으로 적용될 수 있는 기반을 제공하고 있다고 합니다. 이를 통해 고객 경험 개선, 비즈니스 차별화, 비용 절감 등의 목표를 달성하고 있다고 이야기 하고 있습니다.

지속 가능성과 효율성

지속 가능성은 현재 클라우드 컴퓨팅과 데이터 센터 운영에서 필수적인 요소로 자리 잡았습니다. NVIDIA는 Blackwell 아키텍처를 통해 성능을 유지하면서 에너지 소비를 줄이는 데 성공하고 있다고 이야기 하고 있습니다. 특히 액체 냉각 기술은 기존 공기 냉각보다 효율적이며, 데이터 센터의 전체 전력 소비를 대폭 낮추는 데 기여하고 있다고 합니다. 이는 전력 소비량을 최적화하면서도 동시 처리량을 증가시키는 효과를 제공하고 이러한 기술적 혁신은 기업이 환경 영향을 최소화하면서도 고성능 컴퓨팅을 사용할 수 있도록 지원한다고 합니다. AWS와의 협력은 이러한 지속 가능성 전략을 클라우드 전반에 확장하는 데 중요한 역할을 하고 있다고 생각됩니다.

Blackwell 아키텍처의 혁신

NVIDIA의 Blackwell 아키텍처는 Tensor Core의 성능을 확장하여 FP6와 FP4와 같은 추가적인 정밀도를 지원한다고 합니다. 이는 대규모 언어 모델과 같은 복잡한 계산에서 더 적은 자원을 사용하면서도 높은 품질의 결과를 제공할 수 있도록 하고 GPU 간 통신 대역폭이 이전보다 두 배 향상되어, 최대 1.8테라바이트의 대역폭으로 GPU 간 데이터 교환이 가능하다고 합니다. 이로 인해 훈련과 추론 모두에서 더 빠른 결과를 얻을 수 있으며, 여러 GPU가 동시에 작업을 수행할 때 발생하는 병목 현상을 최소화할 수 있다고 이야기하고 있습니다. 또한 이러한 기술적 발전은 AI 모델의 대규모 확장을 가능하게 하고, 새로운 AI 응용 사례를 개발하는 데 필수적인 기반을 제공할 것으로 말하고 있습니다.

AWS와의 협력

AWS는 NVIDIA GPU를 활용한 다양한 인스턴스를 제공하며, 이를 통해 클라우드에서 AI 모델 개발과 배포를 더욱 간단하고 효율적으로 만든다고 합니다. DGX Cloud와 같은 서비스를 통해 기업은 자체적으로 인프라를 구축하지 않고도 AI 애플리케이션을 쉽게 배포할 수 있고 이 외에도 NVIDIA의 소프트웨어 스택은 AWS의 SageMaker, Braket, Bedrock과 같은 서비스와 통합되어 있다고 이야기 하고 있습니다. 이러한 통합은 개발자가 더욱 쉽게 AI 모델을 실험하고, 프로덕션 환경에 도입하며, 다양한 데이터 분석 작업을 수행할 수 있도록 돕는다고 말합니다. 이 협력은 NVIDIA와 AWS가 AI 혁신을 이끄는 중요한 파트너십을 형성하고 있음을 보여준다고 보여집니다.

Omniverse와 디지털 트윈

NVIDIA Omniverse는 3D 모델링과 물리 기반 시뮬레이션을 결합하여 디지털 트윈 환경을 제공한다고 합니다. 이 기술은 공장, 창고 등 물리적 공간을 가상 환경에서 시뮬레이션하여 운영 효율성을 사전에 검증할 수 있게 말하고 있습니다. 예를 들어, 물류 창고에서 로봇의 경로를 최적화하거나, 공장의 설비 배치를 변경하기 전에 최적화된 레이아웃을 검토할 수 있다고 합니다. Omniverse는 협업 기능도 제공하여 여러 이해관계자가 동시에 설계 및 테스트 과정을 진행할 수 있게 하며, AWS를 통해 이러한 시뮬레이션 환경을 쉽게 배포하고 활용할 수 있다고 이야기 했습니다.

새로운 소프트웨어와 툴

NVIDIA는 NIM(NVIDIA Inference Microservice)와 Blueprint Agents 같은 도구를 통해 개발자들이 AI 애플리케이션을 빠르게 배포하고 효율적으로 운영할 수 있도록 지원한다고 합니다. NIM은 사전 컨테이너화된 AI 모델로, 몇 번의 클릭만으로 쉽게 배포할 수 있다는게 큰 장점이라고 생각됩니다. Blueprint Agents는 특정 용도에 맞춘 AI 애플리케이션을 개발자들이 즉시 사용할 수 있도록 설계된 도구이고 이러한 툴은 특히 AI 개발 경험이 부족한 기업들에게 큰 가치를 제공하며, 초기 비용을 절감하고 시간 효율성을 높여준다고 이야기 하고 있습니다.

향후 로드맵

NVIDIA는 매년 새로운 GPU 아키텍처를 도입하며 AI 기술의 지속적인 발전을 이끌고 있다고 합니다. Blackwell 이후에는 Blackwell Ultra, Ruben, Ruben Ultra와 같은 새로운 플랫폼이 계획되어 있으며, 이를 통해 더 큰 메모리 용량과 향상된 컴퓨팅 성능을 제공할 것이라고 했습니다. 또한 ARM 기반 CPU와 네트워크 기술의 발전을 통해 데이터 센터 규모에서의 효율성을 극대화하고 이러한 지속적인 혁신은 AI 연구 및 개발의 새로운 가능성을 열어줄 것으로 내다봤습니다.

결론

이번 세션은 NVIDIA와 AWS의 협력을 통해 생성형 AI와 고성능 컴퓨팅 기술이 어떻게 기업의 문제를 해결하고 비즈니스 성과를 창출할 수 있는지를 보여주었다고 생각됩니다. Blackwell 아키텍처와 AWS의 통합은 AI의 성능과 효율성을 극대화하며, 지속 가능한 방향으로 나아가고 있는것으로 보입니다.
특히, Omniverse와 같은 기술은 디지털 트윈 환경을 통해 운영 효율성과 혁신 가능성을 높이고 있으며, AI 기술의 실질적 도입을 지원하는데 앞으로도 NVIDIA와 AWS는 새로운 기술과 플랫폼으로 기업들이 AI를 더욱 효과적으로 활용할 수 있도록 협력을 이어갈 것으로 기대됩니다.
글 │메가존클라우드, Cloud Technology Center (CTC), Cloud FSI SA 3 팀, 정하훈 SA
게시물 주소가 복사되었습니다.