[reinvent 2025] Bedrock AgentCore Evaluations를 통해 프로덕션에서 에이전트 품질 향상
Summary
본 세션은 AgentCore의 기술적 작동 방식에 대한 심층 분석을 제공하며, 에이전트가 복잡한 목표를 달성하기 위해 추론(Reason), 계획(Plan), 도구 호출(Tool Call)을 반복하는 ReAct 루프를 해부합니다. 컨텍스트 관리, 메모리, 데이터 기반(Data Grounding)이 각 추론 단계와 응답을 형성하는 방식을 배우고, AgentCore가 이 루프를 확장 가능한 실행을 위한 Runtime, 동적 도구 및 데이터 접근을 위한 Gateway, 결정론적 제어를 위한 Policy, 에이전트 행동 모니터링을 위한 Observability, 지속적인 품질 개선을 위한 Evaluations 등의 모듈식 서비스로 운영하는 방법을 탐구합니다. 이 아키텍처가 자율적이고 데이터 중심적인 AI 에이전트의 신뢰할 수 있고 안전하며 프로덕션 준비된 배포를 가능하게 하는 원리를 이해할 수 있습니다.
리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
Bedrock Agent Core Evaluations로 프로덕션 에이전트 품질 개선하기
세션 개요
에이전트 평가의 시대
AWS는 Amazon Bedrock Agent Core를 구축하여 대규모로 에이전트를 안전하게 배포하고 운영할 수 있는 포괄적인 서비스를 제공하며, MCP 등 오픈소스 프로토콜을 지원하고 모든 에이전틱 프레임워크를 선택할 수 있습니다.
신뢰 문제의 핵심

에이전트는 본질적으로 비결정론적입니다. 추론하고 스스로 행동할 수 있어서 직접적인 감독 없이 워크플로우를 만들고 문제를 해결하고 결정을 내릴 수 있습니다. 하지만 기업 입장에서는 Agent Core가 내리는 결정을 신뢰하고, 임무를 정확히 수행하도록 맡길 수 있는지에 대해 근본적인 의문을 가질 수밖에 없습니다.
에이전트가 자율적이기 때문에 개발자와 CTO는 미션 크리티컬한 비즈니스 프로세스를 에이전트에게 넘기는 것을 두려워합니다. 에이전트가 단순히 답변을 생성하는 것만으로는 충분하지 않습니다. 그 답변이 올바른 답변, 정확한 답변이어야 합니다. 잘못된 답변은 고객, 사용자, 회사에 더 많은 문제를 일으킬 수 있습니다.
프로덕션 배포의 기준은 이제 신뢰입니다. 에이전트가 신뢰할 수 있고 일관되게 정확하게 작업을 수행하지 못한다면 고객 경험이 나빠집니다. 이것이 오늘날 전 세계 기업의 가장 큰 채택 장애물입니다.
해결책: Bedrock AgentCore Evaluations
에이전트 평가는 일회성 작업이 아닙니다. 프로덕션 배포 후에도 지속적으로 수행되어야 합니다. 실시간으로 에이전트가 실패하는지 모니터링하여 문제를 사전에 해결해야 합니다. 모델 업데이트, 새 버전 배포, 소스 코드 수정, 도구 추가나 제거 시마다 에이전트가 실패할 수 있습니다.

자동 샘플링 및 실시간 점수 부여
Agent Core Evaluations는 전체 트래픽의 1~2%에 해당하는 대화 세션을 자동으로 샘플링하여 평가 대상으로 선별합니다. AWS가 모든 인프라를 관리하고 실시간으로 자동 점수를 매기므로, 별도의 인프라 구축이나 유지보수가 필요 없습니다. 이전에는 수개월이 걸리던 평가 프로세스가 이제는 자동으로 지속적으로 이루어집니다.
맞춤형 평가 메트릭
예를 들어 고객 서비스에서는 도움이 되는 정도를 중요하게 생각하고, 의료 분야에서는 지침 준수와 품질을 중시합니다. 세 가지 메트릭을 모두 설정할 필요는 없으며, 비즈니스에 중요한 것만 선택하면 됩니다.
커스텀 평가 기준
자체 평가 기준을 작성하여 “helpful(도움이 되는)” 의미를 정의할 수 있습니다. 응답이 좋은지, 지침을 따르고 제공된 정보를 사용하는지, 정의된 기준을 충족하는지, 사용자의 특정 질문을 다루는지 등을 명확히 정의합니다.
고객들은 브랜드 일관성, 톤 준수, 규정 준수 대화 등 비즈니스에 중요한 것에 대한 평가자를 만들었습니다.
추론 점수 부여
샘플링 규칙에 따라 대화 기록을 가져와 평가를 수행한 뒤, 점수와 그에 대한 상세 근거를 트레이스 레코드와 함께 저장하여 보여줍니다. 평가는 완전 관리형 인프라에서 발생합니다.
결론 및 소감
Bedrock Agent Core Evaluations는 에이전트 프로덕션 배포의 가장 큰 장애물인 신뢰를 해결하는 획기적인 솔루션입니다. 시스템 메트릭이 모두 정상인데도 사용자 경험이 나쁠 수 있다는 통찰이 특히 인상 깊었습니다. 시스템이 실행 중과 시스템이 제대로 작동 중의 차이를 이해하고 후자를 측정하는 것이 중요합니다.
실시간 자동 평가와 상세한 추론 제공은 게임 체인저입니다. 수개월이 걸리던 평가 프로세스가 자동화되고 고객 불만을 듣기 전에 문제를 사전에 발견할 수 있습니다. 다수의 에이전트를 운영하는 조직에게 필수적인 도구이며, 신뢰 문제로 인해 에이전트 도입을 망설이던 단계에서 벗어나, 평가를 통해 확신을 가지고 에이전트를 프로덕션으로 배포(Ship)하는 단계로 나아갈 수 있게 해줍니다.


