[reinvent 2025] Multi-Agent Orchestration으로 LLM 파인튜닝을 효율화하고 자동화하기

Summary

LLM(대규모 언어 모델)을 실제 비즈니스 문제에 적용하려면 모델이 기업의 데이터와 문맥을 정확하게 이해하도록 파인튜닝(Fine-Tuning) 하는 과정이 필요합니다. 하지만 이 과정은 데이터 준비, 라벨링, 품질 검증 등 반복되는 작업이 많아 시간이 오래 걸리고 비용도 큽니다.
이번 세션에서는 이러한 문제를 해결하기 위해 멀티-에이전트(Multi-Agent) 기반 자동화 구조를 소개했습니다. 이 구조는 데이터 선별부터 모델 학습·평가까지 전체 과정을 자동화하며, 비용은 낮추고 성능은 높일 수 있는 새로운 운영 패턴을 제시합니다.

AWS re:Invent 2025 Tech Blog written by MegazoneCloud

Overview

Title: Automating LLM fine-tuning with multi-agentic orchestration
Date: 2025년 12월 4일 (목)
Venue: Mandalay Bay
Speaker:
Sharlina Keshava, Sr. Data Scientist, Amazon Web Services
Huan Song, Senior Applied Scientist, AWS
Industry: Software and Internet

들어가며

기업이 LLM을 실제 서비스에 적용하려고 할 때 가장 큰 난관은 “모델이 우리 회사의 업무·정책·문서 문맥을 정확히 이해하도록 만드는 과정”입니다. 단순 프롬프트 엔지니어링만으로는 한계가 있고, Retrieval-Augmented Generation(RAG)도 특정 상황에서는 충분히 정교하지 않을 수 있습니다.

결국 데이터 정제, 오류 분석, 추가 샘플 생성, 성능평가를 포함한 파인튜닝 이 필요하지만 이 모든 과정은 고도로 반복적이며 사람이 직접 하기엔 비용과 시간이 큽니다.

AWS는 이 문제를 멀티-에이전트 오케스트레이션으로 해결하는 접근을 제시했습니다. 즉, 여러 전문 역할을 가진 AI 에이전트가 협력해 파인튜닝 파이프라인 전체를 자동화하는 방식입니다. 이 글에서는 세션에서 공개된 아키텍처 기반으로, Multi-agent orchestration이 어떻게 파인튜닝 성능을 끌어올렸는지, 그리고 성능 개선이 실제로 어떻게 이루어졌는지를 알아봅니다.

1. 파인튜닝이 필요한 이유: SLM/LLM 고도화를 위한 필수 단계

1) SLM(Small Language Model)로 이동하는 추세

1) 현황 : 현재 AI 분야는 비용과 속도의 강점을 누리기 위하여 소규모 언어 모델(SLM)로 전환하고 있습니다.

효율성 증대: 모델이 작아져 학습에 필요한 GPU 메모리가 줄고, 배포 인프라 비용이 절감됩니다.

속도 개선: 토큰 생성 속도가 빨라져 레이턴시가 감소하고, 온라인 서비스의 고객 경험이 향상됩니다.

비용 절감: 학습 비용과 요청당 추론 비용이 모두 낮아집니다.

2) 개선 동기 (Motivation: 반복 사이클)

모델의 성능은 지속적인 반복 사이클을 통해 개선됩니다.

“데이터 준비/정제 → 모델 미세 조정/추론 → 오류 분석(약점 확인)” 순서로 진행되며, 오류 분석 결과는 다시 데이터 준비에 사용됩니다.

이 사이클의 목적은 모델의 부족한 부분을 파악하고, 그 약점을 보완할 수 있는 학습 데이터로 피드백하는 것이 핵심 동기입니다.

3) 도전 과제 (Challenging Problem)

SLM의 성능을 최적화하는 데 가장 큰 문제는 효과적인 학습 데이터를 확보하는 것입니다.

핵심 문제: 모델의 성능을 실질적으로 향상시킬 수 있는 증강된 학습 데이터를 생성하고 찾는 것이 어렵습니다.

해결책: 이 문제를 해결하려면 고도로 목표화된 전략과 자동화되고 확장 가능한 실험이 필요합니다.

2. 전체 구조 — Multi-agent Data Augmentation System

아래 아키텍쳐는 AWS가 구축한 에이전트 기반 파인튜닝 구조를 나타냅니다.

이 파이프라인은 SLM(소규모 언어 모델)의 성능을 향상시키기 위해 데이터 오류 분석 및 생성을 자동화하고 반복하는 시스템입니다.

이 구조는 기존에 사람이 수행하던 “오류 분석 → 데이터 생성 → 품질 검증” 과정을 완전 자동화된 다중 에이전트 파이프라인으로 전환하였습니다. 각각의 Orchestrator의 제어 아래 에이전트는 아래와 같은 역할을 수행합니다.

에이전트	주요 역할	수행 단계
① Pattern Analysis Agent	오류 분석 및 전략 생성	Validation 데이터에서 오류 샘플을 수집하고, 상세 오류 분석(오류 시나리오 확인, 근본 원인 파악 , 에러 패턴의 카테고리화)을 통해 개선 전략(Augmentation strategies)을 생성합니다.
② Data Generation Agent	Synthetic 데이터 생성	Pattern Analysis Agent가 만든 전략을 기반으로 Pattern-guided 및 Error-based 두 가지 체계를 사용하여 합성 데이터(synthetic data)를 생성합니다.
③ Quality Agent	품질 검증 및 재투입	생성된 합성 데이터의 관련성(Relevance), 준수(Adherence), 유용성(Utility)을 기준으로 품질을 검증하고, 부적합한 데이터는 제거 후 생성 루프에 재투입하여 개선을 유도합니다.
④ Orchestrator	흐름 제어 및 통합	각 에이전트의 진행 순서와 반복 루프를 관리하고, 최종 데이터를 통합하며 Fine-tuned SLM과 연동하여 전체 개선 반복 과정을 제어합니다.

3. Operational Efficiency — 최소 호출 비용으로 최대 개선

세션에서 배치 처리, 샘플링, 클러스터 기반 분석의 3가지 전략은 멀티 에이전트 구조의 경제성을 높여 대규모 파인튜닝 작업을 실용적으로 만듭니다.

전략	설명 (작동 방식)	핵심 개선 효과
1. Batching (배치 처리)	여러 개의 개별 요청(예: 5개 오류 샘플 분석)을 하나의 요청으로 묶어 처리합니다.	호출 횟수(Invocation count) 획기적 절감 (예: 5회 -> 1회)
2. Subsampling (샘플링)	전체 검증 샘플(예: 100개) 대신 일부 샘플(예: 50개)만 사용하여 분석합니다.	Context Window 내 토큰 사용량 절감 (예: 비용 50% 절감)
3. Cluster-based analysis (클러스터 기반 분석)	유사한 Error 패턴을 클러스터 단위로 그룹화하고, 전략 생성도 클러스터별로 진행합니다.	호출 횟수 고정 (Invocation count를 클러스터 개수만큼으로 제한)

이 전략들의 핵심은 모델 호출 횟수를 획기적으로 줄여 대규모 파인튜닝 작업을 경제적으로 만드는 것입니다.

4. 성능 개선 결과 — Multi-agent orchestration을 통해 29% 향상

공개된 공식 벤치마크에 따르면, Multi-agent orchestration 기반 파인튜닝은 주요 평가에서 baseline 대비 성능이 향상되었습니다.

Benchmark	기존 Fine-tuning 성능	Multi-agent Orchestration 성능	성능 향상 폭
ARC	52.6	54.6	+2.0
GSM8K	28.3	30.3	+2.0
HellaSwag	24.2	51.2	+27.0
SQuAD	60.4	63.6	+3.2
TAT-QA	30.8	35.3	+4.5
HumanEval	9.4	12.5	+3.1

전체 평균 29% 향상 (Relative improvement)의 결과는 단순히 더 많은 데이터를 넣는 방식이 아니라, “오류 기반으로 정확하게 만들어진 고품질 synthetic data”가 효과를 냈음을 보여줍니다.

결론

멀티 에이전트 오케스트레이션 기반 파인튜닝은 오류 패턴 분석–데이터 생성–품질 검증의 루프를 자동화함으로써, SLM(Small Language Model)의 일반화 성능을 체계적으로 향상시키는 접근임이 실험으로 입증되었습니다.

패턴 기반 생성과 오류 기반 생성이 혼합된 데이터 증강 방식은 모델 파라미터 변경 없이도 학습 데이터의 분포 품질을 개선하여 성능 향상에 직접 기여했습니다.

또한 Batching, Subsampling, Cluster-based Analysis와 같은 운영 최적화 기법은 파인튜닝 파이프라인의 호출 수와 컨텍스트 윈도우 비용을 크게 줄여 실질적인 운영 효율성을 확보했습니다.

여러 벤치마크(ARC, GSM8K, SQuAD 등)에서 확인된 평균 29%의 상대적 성능 향상은 멀티 에이전트 구조가 기존 파인튜닝 대비 우수한 보정 능력을 제공함을 보여줍니다.

향후 하이퍼파라미터 튜닝, 데이터 클리닝 등 추가 에이전트가 도입되면 파인튜닝 파이프라인의 자동화와 확장성은 더욱 강화될 것이며, 모델 튜닝을 담당하시는 엔지니어 분들께서도 이러한 발전을 통해 더 빠르고 정확하며 비용 효율적인 모델 개선 효과를 직접 경험하실 수 있을 것입니다.

글 │메가존클라우드, Managed & Support Unit, Tech Support 1, 허준 Unit Leader

리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?

게시물 주소가 복사되었습니다.