[reinvent 2025] “AI 시대의 운영: 더 빠르고 효율적인 운영을 위해 함께 혁신하다”

Summary

이번 세션은 AI 에이전트 시대에 맞춰 운영(Operations) 자체가 어떻게 변화해야 하는지,
그리고 AWS CloudWatch가 이를 어떻게 지원하는지를 심층적으로 다룹니다.

AWS는 CloudWatch의 GenAI Observability, Application Signals, Prompt Tracing,
Automated Investigation 기능을 통해 에이전트 중심의 새로운 운영 모델을 가능하게 하며, 고객이 장애 원인을 추적하는 시간을 획기적으로 줄이는 사례를 데모와 함께 제시합니다.

AWS re:Invent 2025 Tech Blog written by MegazoneCloud

Overview

Title: Ops in the AI age: Innovating together for faster, more efficient operations
Date: 2025년 12월 1일 (월)
Venue: Venetian
Speaker:
Jeff Barr, VP and Chief Evangelist AWS, AWS
Nandini Ramani, Vice President, Monitoring & Observability, AWS
Anand Natrajan, GVP Engineering, Warner Bros. Discovery
David Provan, Principal Architect, PGA
Industry: Automotive, Financial Services, Software and Internet

들어가며

클라우드 환경은 더 이상 단순한 모노리스가 아닙니다. 수백 개의 마이크로서비스, 이벤트 기반 메시징, 멀티 계정, 멀티 리전 운영이 가속화되며 엔지니어가 알아야 할 관측성 표면적(observability surface)은 기하급수적으로 증가하고 있습니다.

여기에 GenAI 에이전트까지 도입되면서 상황은 더욱 복잡해졌습니다. AI 에이전트는 24/7로 동작하며, 스스로 API를 호출하고, 자체적으로 결정을 내리는 새로운 형태의 “운영 주체”입니다. 따라서 기존의 대시보드 중심 모니터링은 더 이상 충분하지 않으며, 새로운 관점의 운영 모델이 필요합니다.

이번 세션은 AWS CloudWatch가 “에이전트 기반 운영(Agent-Centric Operations)”을 어떻게 실현하는지 보여주며, AI 시대의 운영에서 가장 중요한 요소인 신뢰성(Trust), 설명 가능성(Explainability), 자동화(Automation)를 중심으로 관측성을 재정의합니다.

운영(Operations)의 새로운 3대 변화

1) 운영의 주체가 “사람”에서 “에이전트”로 이동하였습니다.

기존 운영은 사람이 요청을 분석하고 티켓을 이관하며 해결했습니다. 하지만 AI 에이전트는 스스로 API를 호출하고, 의사결정을 내리며, 인간보다 훨씬 빠른 속도로 시스템에 부하를 줄 가능성도 있습니다.

따라서 운영팀은 “에이전트가 어떤 행동을 했는가?”, “무엇을 잘못 판단했는가?”, “어떤 프롬프트가 문제였는가?” 를 추적할 수 있어야 합니다.

2) 복잡성 증가: 서비스 수만 늘어난 것이 아닙니다.

마이크로서비스, 메시지 큐 기반 아키텍처, 여러 계정의 Lambda 함수, 이벤트 기반 실패, 리전 간 트래픽

여기에 AI 에이전트의 자율적 행동까지 추가되며 운영 팀이 알아야 하는 변수는 폭발적으로 늘어났습니다.

3) 운영의 핵심 지표가 “로그·메트릭”에서 “설명 가능성”으로 바뀌었습니다.

기존 모델은 “무슨 일이 일어났는지”만 보여줬습니다. 하지만 에이전트 시대에는 “왜 그러한 일이 일어났는지”, “무엇을 근거로 판단했는지”가 필수입니다. CloudWatch의 프롬프트 트레이싱, 호출 체인 분석, APM 기능은 이 문제를 해결하기 위한 새로운 기반입니다.

사례 스토리: 애완동물 병원 ‘센트럴 펫 케어’ 시나리오

세션에서는 실제 고객 운영 상황과 유사한 가상의 시나리오를 통해 CloudWatch 기능이 어떻게 활용되는지 직관적으로 보여주었습니다.

상황 : 센트럴 펫 케어 병원에 AI 기반 상담 에이전트가 도입되어 고객의 반려동물 상태를 기반으로 진료 일정 예약, 증상 문진, 약 처방 요청 등을 처리합니다. 어느 날, 에이전트가 예약 업무를 반복적으로 실패하여 고객 불만이 증가하고 병원 운영에 지장을 주기 시작했습니다.

기존 방식이라면? 엔지니어는 Lambda 로그, API Gateway 로그, 각종 메트릭을 뒤져 원인을 추적해야 합니다. 이로 인해 최악의 경우 수 시간 이상 장애가 지속될 수 있습니다.

해당 사례에서는 AWS CloudWatch의 신규 기능이 어떻게 문제를 해결하는지 아래의 4가지 방법으로 보여줍니다.

1) GenAI Observability

에이전트의 요청 흐름 자동 캡처, 프롬프트 입력/출력 추적, 모델 호출 실패율 자동 감지합니다.

2) Application Signals

애플리케이션 간 의존성을 자동 매핑, 초 단위로 SLA/SLO 위반 탐지합니다.

3) Prompt Trace

어떤 프롬프트가 문제를 유발했는지, 어떤 컨텍스트가 포함되었는지, LLM이 왜 그런 판단을 했는지 “프롬프트 레벨 심층 분석”이 가능해졌습니다.

4) CloudWatch Investigation (자동 근본 원인 분석)

문제의 상태 전파(event propagation)를 자동 분석해 원인을 “대화형 분석 리포트” 형태로 제공합니다.

예: “12:42에 업데이트된 Lambda 버전 X가 예약 API 호출 실패율을 증가시킴”

“해당 문제는 LLM 에이전트가 재시도 로직을 과도하게 수행하면서 트래픽 급증으로 이어짐”

결과적으로 장애 원인을 추적하는 시간이 수십 분에서 수 초 단위로 단축됩니다.

결론: AI 에이전트 시대의 운영은 기존의 대시보드 중심의 모니터링을 벗어날 것입니다.

엔지니어가 수동으로 로그를 파싱하고 원인을 추적하는 시대는 끝났습니다.

AWS CloudWatch는 프롬프트 중심의 설명 가능성, 에이전트 행동 추적, 자동화된 인과 기반 분석, 애플리케이션 전반의 종속성 가시화를 통해 운영을 완전히 재정의합니다. 이번 세션은 관측성이 단순히 “시스템 상태를 보는 도구”가 아니라 비즈니스 리스크를 줄이고, 매출을 보호하며, 운영 문화를 혁신하는 핵심 메커니즘임을 명확히 보여줍니다.

이번에 출시한 CloudWatch의 신규 기능들은 AI 에이전트를 운영에 접목하기를 고민하는 모든 조직에게 앞으로 필수적인 기반이 될 것입니다.

글 │메가존클라우드, Managed & Support Unit, Tech Support 1, 허준 Unit Leader

리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?

게시물 주소가 복사되었습니다.