[reinvent 2025] AWS와 인텔 CPU를 활용하여 빠르고 비용 효율적이며, 데이터 주권이 보장되는 AI 추론 플랫폼 구축하기 (인텔 후원)

Summary

해당 세션에서는 AWS와 Intel의 18년 파트너십을 바탕으로 출시된 최신 ‘Intel Xeon 6’ 기반 EC2 인스턴스를 소개합니다. AI 워크로드에는 반드시 GPU가 필요하다는 편견을 깨고, CPU를 활용하여 AI 추론 비용을 50% 이상 절감하는 방법과 데이터 주권(Sovereignty)을 보장하는 ‘Sovereign AI’ 구축 사례를 Deloitte와 e& Enterprise의 사례를 통해 알아봅니다.

리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?

AWS re:Invent 2025 Tech Blog written by MegazoneCloud

Overview

Title: Building Fast, Cost-Efficient, Sovereign Inference Platforms on AWS w/Intel CPUs (sponsored by Intel)
Date: 2025년 12월 2일 (화)
Venue: Venetian | Level 3 | Lido 3006
Speaker:
Mickey Iqbal (Director GenAI Technology, AWS)
Caitlin Anderson (Corporate VP Sales and Marketing, Intel)
Industry: –

들어가며

AI 모델이 거대해지고 기업의 도입이 본격화되면서, 학습(Training)을 넘어 추론(Inference) 단계에서의 비용 효율성과 확장성이 핵심 과제로 떠오르고 있습니다. 특히 GPU 공급 부족과 높은 비용은 AI 상용화의 큰 장벽입니다. 이번 칼럼에서는 해당 세션을 통해 최신 Intel Xeon 6 프로세서가 탑재된 AWS EC2 인스턴스를 활용하여 어떻게 AI 추론 성능을 극대화하고 TCO(총소유비용)를 획기적으로 절감할 수 있는지, 그리고 데이터 주권(Data Sovereignty)이 중요한 공공 및 금융 분야에서 어떤 해법을 제시하는지 살펴보겠습니다.

1. Intel Xeon 6와 AWS의 만남: AI 가속의 새로운 기준

AWS와 Intel은 18년 넘게 파트너십을 이어오며 클라우드 컴퓨팅을 혁신해 왔습니다. 이번 리인벤트에서는 Intel Xeon 6 프로세서를 탑재한 새로운 Amazon EC2 인스턴스(M8i, C8i, R8i 등)가 소개되었습니다.

성능 향상: 이전 세대 대비 컴퓨팅 성능은 20% 향상되었으며, 특히 AI 딥러닝 추천 모델 추론 속도는 40% 더 빨라졌습니다.
Intel AMX (Advanced Matrix Extensions): 각 코어에 내장된 전용 실리콘인 AMX 가속기를 통해 딥러닝 워크로드를 하드웨어 레벨에서 가속화합니다. 이는 별도의 GPU 없이도 CPU만으로 상당한 수준의 AI 처리가 가능함을 의미합니다.

2. 신화 깨기: AI에는 반드시 GPU가 필요하다?

많은 엔지니어들이 “AI 워크로드는 반드시 GPU가 필요하다”고 생각하지만, Intel은 데이터를 통해 이것이 ‘신화(Myth)’임을 증명했습니다.

현실(Reality): 데이터센터 추론의 상당 부분은 이미 CPU에서 수행되고 있습니다. 특히 100억 개(10B) 파라미터 이하의 소형 언어 모델(SLM)이나 압축된 LLM의 경우, 최신 Xeon CPU가 GPU 대비 훨씬 뛰어난 가성비를 제공합니다.
비용 절감: Deloitte의 사례 발표에 따르면, 모델 압축 기술(Intel OpenVINO 등)을 활용하여 CPU 기반 아키텍처로 전환했을 때 50% 이상의 비용 절감 효과를 거두었습니다.

3. 유즈 케이스: 주권형 AI (Sovereign AI)

데이터 프라이버시 규제가 강력한 국가나 산업(금융, 공공 등)에서는 데이터가 국경을 넘지 않는 ‘주권형 AI(Sovereign AI)’가 필수적입니다. GPU 수급이 어렵거나 특정 리전에서 사용이 불가능할 때, 어디서나 쉽게 구할 수 있는 CPU 인스턴스는 훌륭한 대안이 됩니다.

e& Enterprise 사례: UAE의 통신/기술 기업인 e& Enterprise는 Intel과 협력하여 ‘SLM-in-a-box’ 솔루션을 구축했습니다. 이는 AWS UAE 리전 내의 CPU 인스턴스를 활용하여 데이터가 외부로 유출되지 않도록 보장하면서도, 자동화되고 비용 효율적인 AI 추론 서비스를 제공합니다.

결론

이번 세션은 “AI = GPU”라는 고정관념에서 벗어나, 워크로드의 특성에 맞는 적정 기술(Right-sizing)을 선택하는 것이 중요함을 시사했습니다. Intel Xeon 6 기반의 AWS EC2 인스턴스는 추론 빈도가 높고 비용 최적화가 중요한 엔터프라이즈 환경, 그리고 데이터 주권이 중요한 공공 분야에서 GPU를 대체하거나 보완할 수 있는 강력한 옵션이라는 생각이 들었습니다. 특히 OpenVINO와 같은 최적화 도구와 결합했을 때, CPU는 더 이상 AI의 조연이 아니라 비용 효율적인 주연으로 활약할 수 있음을 확인한 시간이었습니다.

글 │메가존클라우드, Cloud Technology Unit (CTU) AWS Delivery SA 2 팀 서해민 SA

리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?

게시물 주소가 복사되었습니다.