[reinvent 2025] 사후 대응을 넘어: AWS DevOps Agent로 클라우드 운영 혁신하기

Summary

본 세션에서는 운영 중 발생하는 장애를 자동으로 분석하고 해결책을 제안하는 ‘AWS DevOps Agent’의 퍼블릭 프리뷰 출시에 관한 내용을 다룹니다. 장애 발생 시 로그와 메트릭을 분석해 근본 원인을 찾고 롤백을 제안하는 ‘사후 대응(Resolve)’ 기능과, 과거 장애 패턴을 학습해 시스템을 개선하는 ‘사전 예방(Prevent)’ 기능을 갖춘 이 AI 에이전트의 작동 원리와 라이브 데모 내용에 대해 소개합니다.

리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?

AWS re:Invent 2025 Tech Blog written by MegazoneCloud

Overview

  • Title: Move beyond reactive: Transform cloud ops with AWS DevOps Agent
  • Date:  2025년 12월 3일 (수)
  • Venue:  MGM | Level 1 | Grand 119
  • Speaker:
  • Bill Fine (Product Manager, Amazon)
  • David Yanacek (Sr. Principal Engineer, AWS)
  • Industry: –

들어가며

“새벽 2시에 울리는 전화 소리를 반기는 엔지니어는 없습니다.”


클라우드 아키텍처가 마이크로서비스(Microservices)와 서버리스(Serverless)로 고도화됨에 따라 시스템의 복잡성은 기하급수적으로 증가했습니다. 수십, 수백 개의 서비스가 서로 얽혀 있는 환경에서 장애가 발생하면, 엔지니어는 수천 줄의 로그와 수많은 메트릭 속에서 ‘모래사장 속 바늘 찾기’와 같은 원인 분석 작업을 수행해야 합니다. 이는 단순히 운영 비용의 증가를 넘어, 비즈니스 연속성을 위협하는 심각한 리스크가 되고 있습니다.


이번 re:Invent 2025에서 AWS는  이러한 운영자들의 고충을 해결하고 DevOps 문화를 혁신할 새로운 AI 서비스이자 장애 대응의 새로운 패러다임인 ‘AWS DevOps Agent’를 퍼블릭 프리뷰로 공개했습니다. 이번 칼럼에서는 해당 세션을 통해, 단순한 챗봇을 넘어 실제 팀원처럼 행동하며 장애를 분석하고 예방하는 AWS DevOps Agent의 핵심 기능과 아키텍처, 그리고 실제 활용 사례를 심층적으로 분석해 봅니다.

1. 두 가지 핵심 미션: 신속한 해결(Resolve)과 선제적 예방(Prevent)

AWS DevOps Agent는 운영자가 겪는 가장 큰 두 가지 문제, 즉 ‘장애 발생 시의 긴박한 대응’과 ‘반복되는 문제의 근본적 해결’을 목표로 설계되었습니다.

(1) 해결(Resolve): 평균 복구 시간(MTTR)의 획기적 단축

장애가 발생하면 엔지니어가 노트북을 열기도 전에 에이전트가 먼저 움직입니다.

  • 자동 분석: 관련된 로그, 메트릭, 트레이스를 자동으로 수집 및 분석합니다.
  • 원인 식별: 최근 배포 내역과 인프라 변경 사항을 대조하여 근본 원인을 식별합니다.
  • 조치 제안: 단순히 원인을 알려주는 것을 넘어, 안전한 롤백(Rollback) 절차나 수정 코드를 포함한 구체적인 해결책을 제안합니다.
(2) 예방(Prevent): 운영의 악순환 끊기

에이전트는 단순히 불을 끄는 데 그치지 않습니다.

  • 패턴 학습: 과거의 장애 처리 기록을 주기적으로 스캔하여, 오토스케일링 그룹 설정 오류나 빈번한 IAM 권한 거부와 같은 반복적인 패턴을 감지합니다.
  • 아키텍처 개선: 감지된 패턴을 바탕으로, 이를 영구적으로 해결하기 위한 아키텍처 개선안(예: “배포 파이프라인에 자동 롤백 기능을 추가하세요”, “IAM 정책을 최소 권한 원칙으로 재설정하세요”)을 권고합니다.

2. AWS DevOps Agent의 4가지 페르소나(Persona)

이 에이전트가 강력한 이유는 단순한 LLM 래퍼(Wrapper)가 아니라, 운영 환경을 깊이 이해하는 전문가처럼 행동하기 때문입니다. 세션에서는 에이전트의 특징을 다음 4가지로 요약했습니다.
  • 팀의 일원(Member of the team): 별도의 대시보드가 아닌 Slack이나 Jira와 같은 기존 협업 도구에 통합되어, 다른 엔지니어들과 동일한 방식으로 소통하고 분석 결과를 공유합니다.
  • 텔레메트리 전문가(Telemetry Expert): AWS CloudWatch뿐만 아니라 Datadog, Loki, Grafana 등 외부 도구와도 MCP(Model Context Protocol)를 통해 연결됩니다. 사용자가 별도로 구축한 맞춤형 로깅 시스템이라도 MCP 서버만 연결하면 에이전트가 즉시 데이터를 조회하고 분석할 수 있습니다.
  • 코드 및 파이프라인 이해(Code & Pipeline Aware): GitHub, GitLab 등과 연동되어 최근 배포된 코드 변경 사항(Commit)이 장애와 어떤 연관이 있는지 분석하고, CI/CD 파이프라인의 상태를 모니터링합니다.
  • 애플리케이션 토폴로지 구축(Knows your App): AWS 리소스 간의 관계, IAM 권한, 트레이싱 데이터 등을 종합하여 애플리케이션의 ‘지식 그래프(Knowledge Graph)’를 스스로 구축합니다. 이를 통해 무작위 탐색이 아닌, 논리적 연관 관계에 따른 정밀한 분석을 수행합니다.

3. 라이브 데모: “로봇 서비스 장애를 해결하라”

세션에서는 ‘Robots as a Service’라는 가상의 마이크로서비스 애플리케이션을 대상으로 라이브 데모가 진행되었습니다.
  • 상황: 개발자가 캐시 성능을 측정하기 위해 캐시 레코드에 타임스탬프 필드를 추가하는 코드를 배포했습니다. 하지만 이 변경으로 인해 직렬화(Serialization) 호환성 문제가 발생하여 서비스 전반에 애플리케이션 오류(HTTP 500 에러 등)가 속출하기 시작했습니다.
  • 감지 및 알림: 모니터링 도구인 Dynatrace가 장애를 감지하자마자 에이전트가 조사를 시작했습니다. AWS DevOps Agent가 수집된 로그와 배포 이력을 대조하여, 15분 만에 “최근 배포된 코드 변경 사항으로 인해 Bot Forge 서비스에서 캐시 비직렬화 오류(Deserialization Error)가 발생함”이라는 정확한 원인을 찾아냈습니다. 이를 Slack/ServiceNow에 알립니다.
  • 긴급 대응 (Rollback): 에이전트는 즉시 실행 가능한 롤백 명령어를 제공하여 신속한 롤백을 제안하거나 수행합니다. 
  • 원인 분석 (Investigation): 에이전트가 인프라(EC2, 로드밸런서, DynamoDB 등)를 분석하여 근본 원인이 ‘bot-forge’ 서비스에 있음을 찾아냅니다. 사후 분석 단계에서는 “배포 파이프라인에 자동 롤백 기능을 추가하고, 카나리(Canary) 테스트를 강화하라”는 예방적 조언과 함께, 문제가 된 코드를 수정하는 데 필요한 단위 테스트(Unit Test) 코드까지 생성해 주었습니다.
  • 영구적인 해결책 (Long-term Solution): 단순 복구를 넘어, Claude Sonnet 4.5 모델을 활용하여 IDE(VS Code 등) 내에서 직접 코드 수정안을 제안합니다. 구체적인 구현 계획(Implementation plan)과 테스트 전략까지 수립해 줍니다.

이 과정에서 에이전트는 운영자가 놓칠 수 있는 미세한 신호까지 포착하여, 사람이 수행했다면 몇 시간이 걸렸을 분석 작업을 단 몇 분 만에 완료하는 모습을 보여주었습니다.

4. 성과 및 향후 전망

AWS는 내부적으로 이 에이전트를 1,000건 이상의 실제 장애 처리에 투입하여 테스트했습니다. 그 결과, 근본 원인 분석(RCA) 성공률이 무려 86%에 달했다고 밝혔습니다. 설령 에이전트가 정답을 찾지 못한 14%의 경우에도, 이미 분석한 로그와 제외된 가설들을 정리해서 보여줌으로써 엔지니어의 시간을 크게 절약해 주었습니다.
  • 실제 고객 사례: 호주 커먼웰스 은행(CBA) 호주 커먼웰스 은행은 AWS DevOps Agent를 도입하여 기존에 5시간 이상 걸리던 비보조 근본 원인 분석(Unassisted RCA) 시간을 1시간 미만으로 단축하는 놀라운 성과를 거두었습니다

현재 퍼블릭 프리뷰 상태인 AWS DevOps Agent는 무료로(기반 모델 사용료 등 제외) 체험할 수 있으며, 계정당 월 20시간의 조사 시간과 15시간의 예방 분석 시간이 제공됩니다.

결론

AWS DevOps Agent는 인간 엔지니어를 대체하는 것이 아니라, ‘인간을 돕는 강력한 도구(Human-in-the-loop)’이자 유능한 AI 팀원 그 자체라는 생각이 들었습니다. AWS DevOps Agent가 방대한 데이터를 분석하고 최적의 제안을 내놓으면, 최종 판단과 실행은 인간 엔지니어가 결정하는 식으로 협력하는 것과 같다고 느꼈습니다.

이제 운영자들은 반복적인 로그 분석의 고통에서 벗어나, 시스템의 안정성을 근본적으로 개선하고 비즈니스 혁신을 가속화하는 고부가가치 업무에 집중할 수 있게 되었습니다. 클라우드 운영의 미래는 AI와의 협업에 있다고 생각합니다.

글 │메가존클라우드, Cloud Technology Unit (CTU) AWS Delivery SA 2 팀 서해민 SA

게시물 주소가 복사되었습니다.