[reinvent 2025] AI 막강한 잠재력 및 AI를 위한 잠재력 : 동전의 양면
Summary
AI가 인간의 문제를 더 빠르게 감지하고 해결할 수 있도록 지원하는 AI 기반 관측 가능성과, AI 자체의 정확성, 공정성, 신뢰성을 보장하는 AI 관측 가능성입니다.
Overview
들어가며
현대의 디지털 비즈니스 시스템은 더 이상 단순하지 않고, AWS를 넘어선 다중 클라우드, 수천 개의 컨테이너, 끝없는 API 호출 체인으로 이루어진 ‘정글’과 같습니다.
주제 도입:
이러한 혼란(Chaos)을 관리하고 해결하기 위해 **AI 기반 옵저버빌리티(Observability)**가 필수적입니다. AI는 기존 운영팀의 ‘코파일럿’으로서 수백만 개의 이벤트를 스캔하고 상호 연관시켜 근본 원인 분석(RCA)을 효율적으로 제공합니다.
핵심 질문:
“AI가 감시자라면, 누가 AI를 감시하는가?”. 이 발표는 AI에 의한 옵저버빌리티와 AI 자체를 위한 옵저버빌리티라는 두 가지 측면을 이야기 합니다.
AI 의존의 위험과 실패 사례

AI의 조용한 실패:
AI가 잘못될 경우, 큰 경고 없이 매우 조용히 실패합니다. 더 무서운 점은 AI가 실패할 때 극도의 자신감을 가지고 실패하여, 운영팀을 완전히 잘못된 방향으로 이끌 수 있습니다.
잘못된 예측 사례:
날씨 앱 예시처럼, AI 모델을 업데이트하는 데 필요한 API가 서비스 불능 상태가 되었거나 모델 자체가 업데이트되지 않아, AI가 틀린 예측을 극도로 자신감 있게 제시하여 사용자가 큰 문제(예: 고객 미팅 실패)에 직면하게 만들 수 있습니다.
재정적 재앙 사례 (자동 스케일링):
AI 기반 자동 스케일링 시스템이 일시적인 급증 패턴을 오인하여 불필요하게 리소스를 반복적으로 프로비저닝하면, 결과적으로 운영팀은 복귀했을 때 엄청난 클라우드 청구서를 마주하게 됩니다.
AI 자체를 위한 옵저버빌리티의 필요성

해결책 제시:
AI가 기술 스택의 일부인 이상, AI의 워크플로와 행동에 대해 **지속적인 감시 또는 ‘제3의 눈’**을 가져야 합니다. 이것이 바로 AI 자체를 위한 옵저버빌리티입니다.
측정 지표 :
시스템의 CPU, 메모리 같은 고전적인 옵저버빌리티 메트릭 외에도, **드리프트 예측률 (drift prediction rate), 신뢰 수준 (confidence levels), 그리고 비용(cost)**과 같은 새로운 지표를 측정해야 합니다.
지속 가능성 :
AI의 실행 속도가 지속 가능한지 고려해야 하며, **FinOps(Financial Operations)**가 이 비용 문제를 다루는 주요 요소가 됩니다.
가치 창출:
AI를 위한 옵저버빌리티는 **신뢰, 안정성, 책임성(accountability)**을 제공하여, 우리가 AI의 결정을 계속 신뢰할 수 있도록 돕습니다.
결론

통합된 옵저버빌리티의 미래
베스트 아키텍처 :
AI 기반 옵저버빌리티(속도, 규모, 통찰력 제공)와 AI를 위한 옵저버빌리티(신뢰, 안정성 제공)를 단일 개체로 통합할 때, 비로소 옵저버빌리티의 완전한 그림이 완성됩니다.
미래 비전:
앞으로는 인프라와 애플리케이션뿐만 아니라, 이 모든 것을 단일 지능 시스템으로 통합하는 AI까지 포함하는 옵저버빌리티가 필요합니다.
옵저버빌리티의 미래는 인간 대 AI가 아니라, 인간이 적극적인 조력자로서 AI와 함께 일하는 것에 관한 것이며, 우리는 측정하지 않는 것은 고칠 수 없다는 사실을 기억해야 합니다


