[reinvent 2024] Amazon Bedrock 및 오픈 소스 프레임워크를 사용한 에이전트 평가

Summary

이 Code Talk는 Amazon Bedrock 및 오픈 소스 프레임워크를 활용하여 대규모 언어 모델(LLM)로 구축된 에이전트 애플리케이션의 평가에 대해 자세히 설명합니다. 참석자들은 검색 증강 생성(RAG), 파이프라인, 에이전트 평가, LLM 애플리케이션 디버깅, 테스트, 평가 및 모니터링을 위한 통합 플랫폼인 LangSmith와 같은 개념에 대한 인사이트를 얻을 수 있습니다. 이 강연에서는 개발 수명 주기 전반에 걸쳐 품질, 비용, 지연 시간과 같은 성능 지표를 평가하는 기술을 살펴봅니다. 또한 검색, 요청 품질 및 전반적인 애플리케이션 성능을 평가할 때 LLM 심사위원과 에이전트 지표의 역할을 강조하여 참석자들이 강력하고 신뢰할 수 있는 에이전트 솔루션을 구축할 수 있도록 지원합니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Agentic evaluations using Amazon Bedrock and open source frameworks
  • Date: 2024년 12월 2일(월)
  • Venue: Wynn | Convention Promenade | Margaux 1
  • Speaker:
  • Prem Ranga(Principal GenAI/ML Specialist SA, Amazon Web Services)
  • Chad Hendren(Principal Solutions Architect, AWS)
  • Industry: Cross-Industry Solutions

들어가며

Amazon Bedrock은 단일 API로 다양한 LLM을 제공하며 RAG, 에이전트, 툴 등을 통해 효과적인 작업 수행을 가능하게 하는 서비스입니다. Amazon Bedrock의 기능에는 모델 커스터마이징 제공, 파인튜닝, RAG 등 이 있으며 다양하게 지원하고 있습니다. 보안 및 프라이버시 역시 중요한 요소로 다뤄 가드레일 등 관련 기능 역시 제공합니다. 이번 세션에서는 Bedrock의 다양한 기능 중 LLM 및 Agents를 활용하고 LangSmith를 사용한 Evaluation까지 진행해보았습니다.

세션 소개

이 코드 토크는 Amazon Bedrock 및 오픈 소스 프레임워크를 활용하여 대규모 언어 모델(LLM)로 구축된 에이전트 애플리케이션의 평가에 대해 자세히 설명합니다.
참석자들은 검색 증강 생성(RAG), 파이프라인, 에이전트 평가, LLM 애플리케이션 디버깅, 테스트, 평가 및 모니터링을 위한 통합 플랫폼인 LangSmith와 같은 개념에 대한 인사이트를 얻을 수 있었습니다.

이 강연에서는 개발 수명 주기 전반에 걸쳐 품질, 비용, 지연 시간과 같은 성능 지표를 평가하는 기술을 살펴보며, 검색, 요청 품질 및 전반적인 애플리케이션 성능을 평가할 때 LLM 심사위원과 에이전트 지표의 역할을 확인하고, 강력하고 신뢰할 수 있는 에이전트 솔루션을 구축할 수 있도록 지식을 공유 했습니다.

Amazon Bedrock

Amazon Bedrock은 기본적으로 생성형 AI를 활용함에 있어서 단일 API를 통해 수많은 Foundation Model을 활용할 수 있도록 하는 서비스입니다. 또한 모델 커스터마이징 및 파인튜닝 관련 기능도 포함되어 있으며 Knowledge Base를 통한 RAG 기능 역시 지원합니다. 여기에 더해 Tool, Agents를 결합하여 RAG뿐만 아니라 기타 실시간 데이터를 활용한 추론까지 가능하도록 기능을 지원하며 Guardrails 등 다양한 방법을 통해 민감정보 및 유해성 컨텐츠 노출 최소화, 데이터 보안 및 거버넌스 통제를 통한 안전성을 제공합니다.

현재 100가지가 넘는 다양한 Foundation Model에 대한 접근을 제공하며 생성형 AI의 발전에 맞춰 날이 갈수록 점점 더 많은 모델을 지원하고 있습니다.

Bedrock Agents and Tools

여러개의 Agents를 조합하여 특정 비즈니스 사례에 적용 및 문제해결도 가능합니다. 일반적인 생성형AI가 학습되거나 RAG된 데이터를 통해 답변을 하는 것 처럼 Agents를 통하면 실시간으로 EC2 인스턴스의 Status를 확인하는 등 추가적인 작업이 가능합니다.
Tool과 Agents의 개념을 쉽게 설명하자면, Tool은 특정 기능을 하는 API를 호출하는 Function, Agents는 이러한 함수 여러 개를 특정한 목적을 위해 조합하여 결과를 내도록 결합해놓은 모듈이라고 생각하시면 됩니다.
예를 들어, 목적지를 향한 경로추천 서비스(일종의 내비게이션)를 구축한다고 할 때 실시간 교통정보 API를 호출하는 Tool 1, 거리 및 연비에 따른 유류비 계산 Tool 2, 기타 알고리즘 혹은 API로 작동하는 Tool 3 등이 체계적으로 엮여 ‘경로추천’ 이라는 특정한 목적을 수행하기 위한 Agent를 구성하게 됩니다.

기본적으로 Agents 혹은 Tool 은 다음과 같은 방법으로 작동합니다.

  1. LLM에게 첫 질의를 할 때 LLM이 활용할 수 있는 여러 함수에 대한 정보를 함께 제공합니다.
  2. LLM은 사용자의 요청을 수행하기 위해 실행이 필요한 함수가 어떤 함수인지 추론하여 해당 함수의 이름을 반환하게 됩니다.
  3. 이렇게 반환된 함수 이름을 코드단에서 파싱하여 함수를 실행시키고 해당 함수의 실행 결과를 다시 한번 LLM에 전달합니다.
  4. 필요한 Tool이 모두 실행되어 결과가 수집될 때 까지 2, 3번 과정을 반복합니다.
  5. LLM은 사용자 요청에 필요한 모든 함수의 결과가 만족됐다고 생각하면 최종적인 답변을 생성하여 반환합니다.

LangSmith를 활용한 AI Evaluation

앞서 살펴본 바와 같이 LLM이 동작하여 사용자 질의에 대한 답변을 반환하기 까지 너무도 다양한 단계가 실행될 수 있습니다. 여러 Tool 이 실행되고 결과가 반환됩니다. 또 이러한 Tool이 모인 Agents 여러개가 활용될 수도 있습니다. 한번의 생성형AI 애플리케이션 동작 과정에 무수히 많은 중간과정 및 결과가 포함되는 것입니다.
LangSmith는 이러한 생성형AI 애플리케이션이 실행되는 구간별 디버깅, 테스트, 모니터링 과정을 지원하며 특히 구간별 결과 및 지연시간을 파악하여 애플리케이션의 전체적인 성능 향상에 도움이 됩니다.
정리하자면, LangSmith는 production-grade의 LLM Application을 빌드할 수 있는 플랫폼으로, AI 시스템의 성능을 평가하는 용도로 활용할 수 있습니다. LangSmith를 이용한 Evaluation은 모델의 정확도, 처리속도, 비용 등 다양한 요소를 정량적으로 분석할 수 있도록 돕습니다.

LangSmith를 활용하면 정확도, Ground Truth 등 일반적인 평가지표를 통한 Evaluation은 물론 특정 작업을 수행하면서 step-by-step 퍼포먼스 체크가 가능하여 전체 프로세스가 지연되는 병목현상을 확인할 수 있습니다.

또한, 평가자가 직접 트레이싱 및 모니터링 결과를 확인하며 검토하고 피드백을 통한 Evaluation을 통해 직관적인 성능평가를 하는 것 외에 자동 평가(Auto Evaluation)도 지원합니다. 모델의 출력결과를 LLM(평가 대상 LLM외 다른 모델)을 통해 품질을 점수화하여 전반적인 결과에 대한 퀄리티 체크 및 피드백을 할 수 있고, 특정 정규식, 키워드 등을 통한 룰 기반 평가를 진행할 수 도 있습니다.

LangSmith는 평가자가 전체 결과를 추적하고 파악하기 쉽도록 평가 결과를 기반으로 시각화 도구를 제공합니다. 평가자는 시각화된 자료를 통해 추가적으로 단계적인 평가가 가능하며 추가적인 튜닝 포인트 체크가 가능합니다.

결론

Amazon Bedrock의 Agents와 Tool을 활용하여 생성형 AI의 프로세스를 진행하고 LangSmith를 통한 전체 작업 모니터링 및 Evaluation을 어떻게 진행하는지 확인해봤습니다.
실제 생성형 AI 업무를 진행하다보면 가장 중요하게 생각되는 부분 중 하나가 프로세스가 동작하는 구간별 퍼포먼스입니다. LangSmith를 활용한다면 이러한 구간별 트레이싱을 통해 지연시간, 비용관리, 병목현상 완화 등 다양한 부분에서 개선해나갈 여지를 쉽게 탐색할 수 있을 것 같습니다.
이번 세션에서는 Agents를 활용하여 기존에 쉽게 해결하지 못했던 문제들을 다양한 방법으로 수행할 수 있고, 여러 Tool 혹은 Agents가 작동하는 과정에서 LangSmith를 통한 구간별 트레이싱 및 모니터링을 통해 병목현상 체크 등 퍼포먼스를 높이기 위해 활용할 수 있는 다양한 방법들을 확인할 수 있었습니다.
글 │메가존클라우드, AI & Data Analytics Center (ADC), Data Engineering 2 Team, 정지원 매니저
게시물 주소가 복사되었습니다.