[reinvent 2025] [신규 출시] Nova 2: 실전 비즈니스에 최적화된 기업용 AI

Summary

 벤치마크 성능을 넘어 실제 비즈니스 환경에서의 문제를 해결하기 위해 Nova 2 모델과 평가 체계를 어떻게 발전시켰는지를 소개합니다. 또한 Nova Forge를 통해 기업별 맞춤형 모델을 구축하고 실제 업무 성능을 극대화하는 방법을 다룹니다.

리인벤트 2025 테크 블로그의 더 많은 글이 보고 싶다면?

AWS re:Invent 2025 Tech Blog written by MegazoneCloud

Overview

  • Title: [NEW LAUNCH] Nova 2: Enterprise intelligence optimized for the real world
  • Date:  2025년 12월 2일 (화)
  • Venue:  Wynn | Upper Convention Promenade | Bollinger
  • Speaker:
  • Abhinay (Kathuria Firat Elbey, Ryan Hoium)
  • Industry: Software and Internet

들어가며

AI 모델의 발전은 주로 벤치마크 성능 중심으로 평가돼 왔지만, 실제 고객 환경에서는 이 지표만으로 충분하지 않은 경우가 많았습니다. 기업의 업무는 복잡한 입력, 다양한 제약, 예측 불가능한 오류 상황이 결합되어 있어, 기존 모델들은 실제 사용 단계에서 기대보다 낮은 성능을 보이곤 했습니다. 이러한 문제를 해결하기 위해 현실 사용 사례에 기반한 새로운 평가 체계를 마련하고, 이를 통해 실제 환경에서 더 정확하고 안정적으로 동작하는 모델의 필요성을 확인했습니다. 이러한 배경 속에서 등장한 것이 Nova 2 모델군입니다. Nova 2는 실사용 중심의 품질 개선과 오류 감소에 초점을 맞춰 개발되었으며, 기업 환경에서 요구되는 내구성,정확성,유연성을 갖춘 모델로 진화했습니다.

벤치마크를 넘어선 현실의 문제 

모델은 벤치마크에서 높은 성능을 보이더라도, 실제 고객 환경에서는 항상 기대만큼 결과를 내지 못하거나 특정 사용 사례에 맞추기 위해 추가적인 조정이 필요합니다. 이러한 현상은 많은 고객이 공통적으로 겪는 문제이며, AWS AGI SA팀 또한 이를 해결할 필요성을 인식했습니다. 단순히 학술 벤치마크에서의 성능만으로는 실제 업무 환경에서 모델이 적절히 작동하는지를 판단하기 어렵다는 점이 핵심적인 문제였습니다.

현실을 반영한 평가 시스템 구축

따라서 벤치마크 기반 평가의 한계를 극복하고자, 실제 사용 사례를 반영한 평가 시스템을 구축했습니다. 기존의 학술 벤치마크와 달리, 이 시스템은 기업 고객이 실제로 직면하는 문제와 요구를 중심으로 설계되었습니다. 이를 위해 고객과 긴밀히 협력하며, 실제 업무 환경에서 발생하는 다양한 시나리오를 이해하고 데이터를 수집합니다. 수집된 데이터와 실제 사용 사례를 기반으로 모델의 성능을 평가하고 개선점을 찾아내어, 보다 실질적인 업무 적용 가능성을 높이는 것을 목표로 합니다.

평가 프로세스 상세

평가 시스템 구축의 첫 단계는 고객과의 협업입니다. 아마존 내부 고객뿐만 아니라 다양한 외부 고객과 협력하여, 모델을 통해 달성하고자 하는 목표와 비즈니스 요구사항을 명확히 정의합니다. 그 후 고객이나 파트너로부터 데이터를 확보하거나 외부에서 수집하고, 이를 기반으로 평가 세트를 구성합니다. 이 세트는 매일, 매주, 혹은 월 단위로 반복적으로 실행되며, 모델의 성능을 지속적으로 모니터링합니다. 이렇게 수집된 데이터와 결과는 학습 데이터 개선과 애플리케이션용 프롬프트 최적화에 활용됩니다.

세 가지 사용 사례

구축된 평가 시스템은 크게 세 가지 주요 사용 사례를 중심으로 적용되었습니다.

  1. 분류 (Classification)
    이메일이나 고객 서비스 케이스를 정확히 분류하는 작업으로, 일상적인 비즈니스에서 매우 흔하고 중요한 과제입니다.
  2. 문서 및 서식 이해 (Doc & Form Understanding)
    문서와 다양한 서식(Form) 내부의 정보를 구조화하여 추출하고, 비즈니스 프로세스에 활용 가능한지를 평가합니다.
  3. 에이전트 워크플로우(Agentic Workflows)
    AI가 스스로 계획을 수립하고 도구를 활용해 자율적으로 작업을 수행하도록 설계합니다. 이를 통해 인간은 고난이도 의사결정에 집중할 수 있습니다. 각 사용 사례에 대해 2~10개의 다양한 고객 평가 세트를 운영하며, 모델이 벤치마크 외 환경에서도 일반화될 수 있는지 검증합니다.

오류 분석 방법론

오류 분석은 모델의 잘못된 예측 원인을 파악하고 개선 방향을 도출하기 위한 핵심 프로세스입니다. 프롬프트와 응답을 하나하나 정밀하게 비교하고, 전문가의 정답과 대조하여 차이의 원인을 기록합니다. 이를 바탕으로 실패 모드를 범주화하여 프로그램적 메트릭으로 측정합니다. 통계적 유의성을 위해 최소 100건 이상의 트레이스(프롬프트+응답)를 분석하며, 이 과정을 통해 프롬프트, 데이터, 모델 미세조정의 방향을 빠르게 개선합니다.

이러한 분석 기반 접근법은 실제 성능 평가에서도 효과적으로 작동했습니다. 세 가지 사용 사례에서 Nova 2 Lite는 이전 최고 모델인 Nova 1 Pro를 능가했으며, 프리뷰 단계의 Nova 2 Pro는 가장 높은 성능을 기록했습니다. 모든 실험은 공개 벤치마크가 아닌 샘플 외 데이터로 진행되어, 실제 환경에서의 성능을 정확히 검증하는 데 초점을 두었습니다. 이를 통해 오류 분석 기반의 평가·개선 방식이 실제 비즈니스 문제 해결에 효과적임을 확인할 수 있었습니다.

Nova Forge 발표

 기업별 맞춤형 성능 향상이 필요하다는 요구가 지속적으로 제기됨에 따라 Nova Forge가 공개되었습니다. Nova Forge는 조직에 맞춘 맞춤형 모델을 손쉽게 구축할 수 있는 플랫폼으로 기초 모델뿐만 아니라 특정 업무에 최적화된 작업 모델도 제작할 수 있습니다. 이 플랫폼은 데이터 혼합, 강화 학습, 미세 조정, 지도 학습 기반 미세 조정, 지속적 사전 학습 등 다양한 기능을 통합합니다.

앞서 소개된 분류 사례를 Nova Forge를 활용해 개선한 실험에서는 기준선 대비 7% 향상을 보인 Nova 2 Lite에 추가로 미세 조정을 적용함으로써 최대 21% 성능 개선이 확인되었습니다. 이를 통해 기업은 실제 업무에 맞춘 최적화된 맞춤형 AI 모델을 신속하게 구축할 수 있으며, 분류 기반 업무가 중요한 산업에서 실질적인 비즈니스 가치를 창출할 수 있습니다.

결론

이번 세션을 통해, 단순 벤치마크 성능만으로는 실제 업무 환경에서 모델을 평가하기 어렵다는 점과 이를 극복하기 위한 현실 기반 평가 시스템의 필요성을 느꼈습니다. Nova 2 모델군은 다양한 실제 사용 사례에서 이전 최고 모델을 능가하는 성능을 보여주었고, Nova Forge를 활용한 맞춤형 모델 구축은 최대 21% 성능 향상이라는 의미 있는 결과를 도출했습니다. 개인적으로는 분류 기반 업무에서의 정밀도 개선과 맞춤형 AI 개발 가능성이 흥미로웠으며, 앞으로 기업 고객의 실제 업무 문제 해결에 큰 도움이 될 것으로 기대합니다.
글 │메가존클라우드, AIR Unit, AIR Innovation Team, 송현진 Manager

게시물 주소가 복사되었습니다.