[reinvent 2025] MCP를 통한 AWS 시스템 장애 대응
Summary
AWS 플랫폼 컨텍스트를 이해하는 MCP 기반 에이전트를 통해 사고 대응 강화
Overview
들어가며
EventBridge, AWS Lambda, Amazon Bedrock을 사용하여 서비스 간 증상 상관관계를 분석하고, 잠재적인 근본 원인을 제시하며, 초기 해결 단계를 자동화하는 에이전트를 구축하는 방법을 제시합니다.


혼돈과 맥락의 장애
사고 대응에서 가장 어려운 점은 데이터가 부족한 것이 아니라 맥락(Context)이 부족한 것입니다. 이로 인해 MTTC (Mean Time To Context), 즉 사고 발생 후 상황을 완전히 파악하는 맥락 파악 시간이 매우 중요해집니다..
사고 발생 시, 수많은 알림과 메트릭이 쏟아져 나오지만, 실제 무엇이 문제를 시작했는지 알 수 없는 ‘컨텍스트 마비(Context Paralysis)’ 상태에 빠집니다. 이는 전자상거래 아키텍처에서 Cognito 오류가 API 게이트웨이를 거쳐 람다로 백업 시스템의 스타트를 유발하고, 결국 DynamoDB에 과부하를 주는 재시도 루프에 빠지는 **연쇄 증상(cascading symptoms)**으로 나타납니다.
해결책 : MCB (Model Context Protocol)
이러한 혼돈을 해결하기 위한 열쇠는 또 다른 대시보드나 알림이 아니라, AI가 혼돈을 조직화하는 것입니다.
MCB (Model Context Protocol) 서비스라는 방식을 제시합니다. MCB 서비스는 기존의 ‘경고 → 조치’ 방식 사이에 신호를 상호 연관시키고 AI 분석(Amazon Bedrock 사용)을 적용함으로써 맥락을 제공하고 실행 가능한 인텔리전스를 제공합니다.

이 MCB는 세 가지 전문화된 서비스로 구성됩니다:

- 인증 흐름 맥락 (Offlow Context): 인증 이벤트 상관관계 분석 및 병목 현상 감지 (Cloud Sonnet 3.5 사용.
- 서비스 종속성 매핑 (Service Dependency Mapping): 연쇄 장애를 예측하고 격리 방안을 제안하여, 복잡한 아키텍처 전체로 문제가 확산되기 전에 차단합니다 (Cloud Haiku KV1 사용.
- 복구 조정 (Recovery Coordination): 낮은 위험 조치는 즉시 실행하고, 중간/높은 위험 조치는 인간 승인을 거치도록 하여 인간을 루프 안에 유지합니다 (Cloud Sonnet 3.5 사용.
성과 및 철학: MTDR을 넘어선 침착함

MCB 블루프린트는 이론이 아닌 프로덕션 환경에서 사용 가능한 아키텍처입니다.
- 맥락 제공: ‘인증 흐름 맥락’ 서비스는 어떤 서비스가 가장 큰 영향을 받는지, 그리고 인증 파이프라인의 람다 콜드 스타트가 800ms 지연을 유발하는 원인임을 즉시 식별하여 맥락을 제공합니다.
- 예측적 대응: ‘서비스 종속성 매핑’은 영향을 받는 서비스를 추측하는 대신, 명확한 시각적 연쇄 경로를 제공하고, 사용자 서비스에 서킷 브레이커를 제안하는 등 문제를 쫓는 것이 아니라 앞서 나가는 예측적 사고 대응을 가능하게 합니다.
- 복구 실행: ‘복구 조정’ 서비스는 위험 평가와 함께 구체적인 조치 계획을 제공하며, 관리자의 승인을 통해 안전하게 프로덕션 환경에서 실행됩니다.
이러한 시스템은 단순히 MTTR을 단축하는 것을 넘어, 맥락에 집중하여 MTDR을 넘어선 철학, 즉 **클라우드에 calm*을 구축하는 것에 중점을 둡니다. 이는 인간 지능을 증폭시키는 것이지, 인간을 대체하는 것이 아닙니다.
결론 – 핵심 교훈과 행동 촉구: 명확성 엔지니어링
- 맥락이 메트릭을 이긴다 (Context beats matrix)
- AI가 조직화하고 인간이 결정한다 (AI organized and human decide)
- 침착함을 위해 설계하라 (Design for calm)
“혼돈을 자동화하지 말고 명확성을 엔지니어링하라”
더 빠른 알림이나 많은 대시보드는 기존의 혼돈을 자동화할 뿐입니다. 대신, 아키텍처를 이해하는 맥락 인식 에이전트를 구축하고 , 압박 속에서도 일관되게 작동하는 침착한 인터페이스를 만들어 시스템 자체에 명확성을 구축해야 합니다. 사고는 불가피하지만, 그 대응은 간단하게 할 수 있습니다.


