[reinvent 2025] Strands Agents와 Amazon S3 벡터를 활용한 멀티모달 AI 에이전트 구축 (DEV332)

Summary

오픈 소스 Strands Agents SDK를 활용하면 프로덕션 준비가 완료된 멀티 에이전트 AI 시스템을 단 몇 줄의 코드로 구축할 수 있습니다. 이 세션은 비디오 콘텐츠 분석을 위한 사용자 지정 도구(Custom Tools)를 생성하고 이를 MCP(Model Context Protocol) 서버로 변환하는 방법을 시연합니다. 개발자들은 효율적인 메모리 저장 및 검색을 위해 Amazon S3 벡터 스토어를 사용하여 에이전트가 대화 전반에 걸쳐 컨텍스트를 유지하고 개인화된 응답을 제공하는 방법을 배울 수 있습니다.

AWS re:Invent 2025 Tech Blog written by MegazoneCloud

Overview

  • Title: Build multi-modal AI agents with Strands Agents and Amazon S3 Vectors (DEV332)
  • Date: 2025년 12월 3일 (수)
  • Venue: MGM Grand | Level 3 | Chairman’s 370
  • Speaker:
  • Joy Chakraborty, Sr. Technical Program Manager, AWS
  • Elizabeth Fuentes Leone, Developer Advocate, GenAl, AWS
  • Industry: Cross-Industry Solutions, Software and Internet

들어가며

이번 칼럼에서는 Strands Agents SDK를 주제로 한 세션을 듣고, 새로운 에이전트 프레임워크와 Amazon S3 기반의 확장 가능한 메모리 관리 기법에 대한 정보를 공유드리도록 하겠습니다. 기존의 에이전틱 AI(Agentic AI) 애플리케이션 구축 시 개발자들이 겪는 고통스러운 지점들, 즉 너무 많은 플러밍 코드(plumbing code) 작성의 필요성, 디버깅의 어려움, 코드 모듈화 문제 등을 해결하기 위해 Strands Agents가 설계되었습니다. Strands Agents는 “단순한 것은 단순하게” 구축하고 배포할 수 있도록 하여 개발자 생산성을 높이는 동시에, 엔터프라이즈 애플리케이션에 필수적인 코드의 모듈성과 테스트 용이성을 보장합니다. 이번 세션에서 주목할 핵심 내용은 Strands의 기본 작동 방식, MCP 툴을 통한 확장, 그리고 Amazon S3 Vector Store를 활용한 컨텍스트 유지 방법입니다.

Strands Agents의 모델 기반 설계 및 에이전트 루프

Strands Agent는 모델 주도 설계(Model-driven design) 접근 방식을 따르는데, 이는 개발자가 비즈니스 문제에 집중하는 동안 LLM(대규모 언어 모델)이 최적의 실행 전략을 결정하도록 허용하는 핵심 요소입니다. 

모든 AI 에이전트의 핵심에는 세 가지 기본 요소가 있습니다: 에이전트(Agent), 모델(Model), 도구(Tool)

• 에이전트(Agent): 주어진 작업을 실행하는 오케스트레이터(Orchestrator) 역할을 합니다.

• 모델(Model): 에이전트의 ‘두뇌’ 역할을 하며, 요청을 분석하고 실행 전략을 수립합니다.

• 도구(Tool): 특정 작업을 실행하는 함수 라이브러리입니다 (예: 현재 라스베이거스의 온도를 찾는 작업)

Strands Agent는 작업을 수행하기 위해 다음과 같은 에이전트 루프(Agent loop) 과정을 거칩니다:

1. 모델은 프롬프트, 컨텍스트, 사용 가능한 도구에 대한 문서를 수신합니다.

2. 모델은 분석 후 자연어로 응답할지, 일련의 단계를 따를지, 아니면 하나 이상의 도구를 선택하여 사용할지 결정합니다.

3. 도구 사용을 결정하면, 에이전트가 해당 도구를 실행하고 그 결과를 모델에게 반환합니다.

4. 이 사이클은 작업이 완료될 때까지 모델과 에이전트 사이에서 계속됩니다.Strands Agents는 사용자가 선호하는 모델 공급자와 모델 ID를 설정하여 에이전트를 업데이트할 수 있으며, 시스템 프롬프트(System Prompt)를 사용하여 에이전트의 페르소나를 설정(예: AWS 솔루션 설계 전문가)할 수 있습니다.

멀티모달 기능 확장을 위한 툴(Tools)과 MCP

에이전트 자체는 정적 언어 모델의 한계를 극복하기 위해 도구가 필요합니다. 도구는 LLM이 실시간 정보에 접근하거나 특정 작업을 수행하여 실제 세계와 상호 작용할 수 있도록 합니다.

1. 로컬 도구 구축: Python 코드로 작성된 함수(예: 계산기 함수) 위에 @tool 데코레이터를 적용하기만 하면 해당 함수를 Strands Agent의 도구로 노출할 수 있습니다. 에이전트는 이 도구를 사용하여 수학 연산을 수행하는 등 특정 작업을 실행할 수 있습니다. Strands Agent는 이미지 리더(Image reader), 파일 리더(File reader)와 같은 미리 빌드된 도구(pre-built tools)도 지원하며, 이를 커스텀 비디오 리더 도구와 혼합하여 사용하여 멀티모달 에이전트를 구축할 수 있습니다. 이 멀티모달 에이전트는 이미지, 문서, 비디오 파일을 분석하고 요약할 수 있습니다.

2. MCP (Model Context Protocol) 툴: 도구가 에이전트 코드와 동일한 프로세스가 아닌 원격 서버나 클라우드 서비스에서 실행되는 경우, MCP 툴을 사용해야 합니다. MCP는 에이전트가 각 서비스에 대한 사용자 지정 통합 없이 원격 서비스 및 데이터에 액세스하고 통신할 수 있도록 하는 개방형 표준 프로토콜입니다.

• MCP는 원격 서비스에 연결하고 함수를 도구로 노출하는 MCP 서버와 에이전트 측에서 MCP 서버와 통신하는 MCP 클라이언트로 구성됩니다.

• 로컬에서 실행되는 MCP 툴에는 표준 IO(Standard IO)가 사용되며, 원격에서 실행되는 툴에는 스트림 가능한 HTTP(streamable HTTP)가 통신 프로토콜로 사용됩니다.

• MCP 툴을 사용하면 로컬에서 개발한 툴을 쉽게 원격 환경으로 마이그레이션할 수 있는 이점도 있습니다.

Amazon S3 Vector Store를 활용한 확장 가능한 컨텍스트 및 메모리 관리

Strands Agents는 대화 상태를 유지하는 여러 방법을 제공합니다.

• 에이전트 상태(Agent State): 여러 요청에 걸쳐 유지되는 상태 정보입니다.

• 요청 상태(Request State): 단일 요청 내에서 유지되는 컨텍스트 정보입니다.

• 대화 기록(Conversation History): 에이전트가 이전 상호 작용을 기억할 수 있도록 하는 기능입니다.

기본적으로 대화 기록은 에이전트 객체 내에 존재하지만, 에이전트가 종료되면 소멸됩니다. 이를 해결하기 위해 File Session Manager를 사용하여 세션 정보를 로컬 디렉터리에 저장하거나, S3 Session Manager를 사용하여 세션 대화 기록을 S3 버킷에 저장할 수 있습니다.더 나아가, 에이전트가 단순히 세션을 저장하는 것을 넘어 사용자의 선호도를 기억하게 하려면 Amazon S3 Vectors를 활용할 수 있습니다.

• Amazon S3 Vectors는 S3의 저렴한 비용과 내구성을 활용하여 사용자 ID와 같은 메타데이터를 이용해 유용한 정보를 저장 및 검색함으로써 에이전트가 개인화된 추천을 제공할 수 있도록 합니다.

• 이 기능은 최근에 출시된 (7월 프리뷰, 세션 시점 기준 정식 출시) 새로운 기능으로, S3의 기능을 벡터 저장소로 활용할 수 있게 합니다.

• 개발자는 대화 기록을 요약하여 컨텍스트를 생성하고, 이를 S3 Vectors 에 저장함으로써 모델이 이 정보를 활용하도록 할 수 있습니다.

결론

Strands Agents SDK는 복잡한 에이전틱 AI 애플리케이션을 단순화하고, 모듈화하며, 신속하게 배포할 수 있는 강력한 프레임워크를 제공합니다. 특히 @tool 데코레이터를 사용한 간편한 툴 생성 MCP 프로토콜을 통한 원격 확장성은 에이전트의 기능을 실세계와 연결하는 중요한 기반을 마련합니다. 또한, Amazon S3 Vectors를 메모리 저장소로 활용하여 대화 컨텍스트를 효율적으로 저장하고 검색함으로써, 에이전트는 여러 대화에 걸쳐 사용자의 선호도를 기억하고 개인화된 응답을 제공하는 능력을 갖추게 됩니다. 이는 개발자들이 프로덕션 환경에서 확장 가능하고 신뢰할 수 있는 멀티모달 AI 에이전트 시스템을 구축하는 데 필수적인 인사이트를 제공합니다.

글 │메가존클라우드, CTU, CoE Team, 김보근 매니저

게시물 주소가 복사되었습니다.