[reinvent 2024] Amazon Bedrock 및 오픈 소스 프레임워크를 사용한 에이전트 평가
Summary
이 Code Talk는 Amazon Bedrock 및 오픈 소스 프레임워크를 활용하여 대규모 언어 모델(LLM)로 구축된 에이전트 애플리케이션의 평가에 대해 자세히 설명합니다. 참석자들은 검색 증강 생성(RAG), 파이프라인, 에이전트 평가, LLM 애플리케이션 디버깅, 테스트, 평가 및 모니터링을 위한 통합 플랫폼인 LangSmith와 같은 개념에 대한 인사이트를 얻을 수 있습니다. 이 강연에서는 개발 수명 주기 전반에 걸쳐 품질, 비용, 지연 시간과 같은 성능 지표를 평가하는 기술을 살펴봅니다. 또한 검색, 요청 품질 및 전반적인 애플리케이션 성능을 평가할 때 LLM 심사위원과 에이전트 지표의 역할을 강조하여 참석자들이 강력하고 신뢰할 수 있는 에이전트 솔루션을 구축할 수 있도록 지원합니다.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
세션 소개
참석자들은 검색 증강 생성(RAG), 파이프라인, 에이전트 평가, LLM 애플리케이션 디버깅, 테스트, 평가 및 모니터링을 위한 통합 플랫폼인 LangSmith와 같은 개념에 대한 인사이트를 얻을 수 있었습니다.
이 강연에서는 개발 수명 주기 전반에 걸쳐 품질, 비용, 지연 시간과 같은 성능 지표를 평가하는 기술을 살펴보며, 검색, 요청 품질 및 전반적인 애플리케이션 성능을 평가할 때 LLM 심사위원과 에이전트 지표의 역할을 확인하고, 강력하고 신뢰할 수 있는 에이전트 솔루션을 구축할 수 있도록 지식을 공유 했습니다.
Amazon Bedrock
현재 100가지가 넘는 다양한 Foundation Model에 대한 접근을 제공하며 생성형 AI의 발전에 맞춰 날이 갈수록 점점 더 많은 모델을 지원하고 있습니다.
Bedrock Agents and Tools
Tool과 Agents의 개념을 쉽게 설명하자면, Tool은 특정 기능을 하는 API를 호출하는 Function, Agents는 이러한 함수 여러 개를 특정한 목적을 위해 조합하여 결과를 내도록 결합해놓은 모듈이라고 생각하시면 됩니다.
예를 들어, 목적지를 향한 경로추천 서비스(일종의 내비게이션)를 구축한다고 할 때 실시간 교통정보 API를 호출하는 Tool 1, 거리 및 연비에 따른 유류비 계산 Tool 2, 기타 알고리즘 혹은 API로 작동하는 Tool 3 등이 체계적으로 엮여 ‘경로추천’ 이라는 특정한 목적을 수행하기 위한 Agent를 구성하게 됩니다.
기본적으로 Agents 혹은 Tool 은 다음과 같은 방법으로 작동합니다.
- LLM에게 첫 질의를 할 때 LLM이 활용할 수 있는 여러 함수에 대한 정보를 함께 제공합니다.
- LLM은 사용자의 요청을 수행하기 위해 실행이 필요한 함수가 어떤 함수인지 추론하여 해당 함수의 이름을 반환하게 됩니다.
- 이렇게 반환된 함수 이름을 코드단에서 파싱하여 함수를 실행시키고 해당 함수의 실행 결과를 다시 한번 LLM에 전달합니다.
- 필요한 Tool이 모두 실행되어 결과가 수집될 때 까지 2, 3번 과정을 반복합니다.
- LLM은 사용자 요청에 필요한 모든 함수의 결과가 만족됐다고 생각하면 최종적인 답변을 생성하여 반환합니다.
LangSmith를 활용한 AI Evaluation
LangSmith는 이러한 생성형AI 애플리케이션이 실행되는 구간별 디버깅, 테스트, 모니터링 과정을 지원하며 특히 구간별 결과 및 지연시간을 파악하여 애플리케이션의 전체적인 성능 향상에 도움이 됩니다.
정리하자면, LangSmith는 production-grade의 LLM Application을 빌드할 수 있는 플랫폼으로, AI 시스템의 성능을 평가하는 용도로 활용할 수 있습니다. LangSmith를 이용한 Evaluation은 모델의 정확도, 처리속도, 비용 등 다양한 요소를 정량적으로 분석할 수 있도록 돕습니다.
LangSmith를 활용하면 정확도, Ground Truth 등 일반적인 평가지표를 통한 Evaluation은 물론 특정 작업을 수행하면서 step-by-step 퍼포먼스 체크가 가능하여 전체 프로세스가 지연되는 병목현상을 확인할 수 있습니다.
또한, 평가자가 직접 트레이싱 및 모니터링 결과를 확인하며 검토하고 피드백을 통한 Evaluation을 통해 직관적인 성능평가를 하는 것 외에 자동 평가(Auto Evaluation)도 지원합니다. 모델의 출력결과를 LLM(평가 대상 LLM외 다른 모델)을 통해 품질을 점수화하여 전반적인 결과에 대한 퀄리티 체크 및 피드백을 할 수 있고, 특정 정규식, 키워드 등을 통한 룰 기반 평가를 진행할 수 도 있습니다.
LangSmith는 평가자가 전체 결과를 추적하고 파악하기 쉽도록 평가 결과를 기반으로 시각화 도구를 제공합니다. 평가자는 시각화된 자료를 통해 추가적으로 단계적인 평가가 가능하며 추가적인 튜닝 포인트 체크가 가능합니다.
결론
실제 생성형 AI 업무를 진행하다보면 가장 중요하게 생각되는 부분 중 하나가 프로세스가 동작하는 구간별 퍼포먼스입니다. LangSmith를 활용한다면 이러한 구간별 트레이싱을 통해 지연시간, 비용관리, 병목현상 완화 등 다양한 부분에서 개선해나갈 여지를 쉽게 탐색할 수 있을 것 같습니다.
이번 세션에서는 Agents를 활용하여 기존에 쉽게 해결하지 못했던 문제들을 다양한 방법으로 수행할 수 있고, 여러 Tool 혹은 Agents가 작동하는 과정에서 LangSmith를 통한 구간별 트레이싱 및 모니터링을 통해 병목현상 체크 등 퍼포먼스를 높이기 위해 활용할 수 있는 다양한 방법들을 확인할 수 있었습니다.