[AWS SUMMIT 2025] RAG 정확도 향상 비결: Amazon Bedrock Knowledge Base 완전 정복

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

RAG 정확도 향상 비결: Amazon Bedrock Knowledge Base 완전 정복

🎙️김제삼(솔루션즈 아키텍트 AWS)

🎙️황장환(솔루션즈 아키텍트 AWS)

🗂️ 세션 토픽: 생성형AI 및 머신러닝 응용

최근 생성형 AI 기술의 발전과 함께 기업 내부 데이터를 활용하는 RAG(Retrieval Augmented Generation) 기술이 중요해지고 있습니다. 하지만 RAG 애플리케이션을 구축하고 운영하는 데는 다양한 도전 과제들이 있습니다. 특히 검색 정확도를 높이는 것은 많은 고객들이 관심을 갖고 노력하는 부분입니다 . 이번 세션에서는 Amazon Bedrock Knowledge Base를 활용하여 RAG 애플리케이션의 정확도를 향상시키는 방법에 대해 심도 있게 다루었습니다.

RAG 기술 개요 및 중요성

RAG는 생성형 AI의 정확도를 높이기 위한 핵심 기술입니다. 모델이 자체 학습 데이터 외에 기업의 특정 정보를 활용할 수 있게 합니다. RAG는 크게 세 단계로 작동합니다:

  • 검색 (Retrieval): 사용자 쿼리를 기반으로 벡터 데이터 스토어에서 관련 컨텍스트를 추출합니다.
  • 증강 (Augmentation): 검색된 정보를 프롬프트에 추가하여 파운데이션 모델(FM)의 입력으로 사용합니다.
  • 생성 (Generation): 증강된 프롬프트를 기반으로 FM이 정확하고 관련성 높은 답변을 생성합니다.

기업용 솔루션에서는 내부 데이터 활용이 필수적이므로, RAG 기술은 기업 환경에서 가장 실용적인 접근 방법으로 평가됩니다

Amazon Bedrock Knowledge Base란?

Amazon Bedrock Knowledge Base는 기업의 프라이빗 데이터 소스 컨텍스트를 파운데이션 모델과 에이전트에 제공하여 관련성 높고 정확한 맞춤형 응답을 제공하는 서비스입니다. 이 서비스는 확장 가능한 RAG 애플리케이션 구축을 지원하며, 사용자 쿼리 입력 시 데이터 소스를 안전하게 연결하여 관련 정보를 검색합니다. RAG 전체 워크플로우를 간소화하고 대화 컨텍스트를 자동으로 관리하며, 다양한 FM을 활용하여 투명한 응답을 생성합니다. 모든 과정이 단일 API 호출로 이루어져 개발 부담을 줄여줍니다.

Bedrock Knowledge Base는 출시 후 다양한 기능이 추가 및 개선되었습니다. 하이브리드 검색, 메타데이터 필터링, 다양한 데이터 커넥터 및 청킹 전략, IAC 지원, FM 파싱, 사용자 정의 프롬프트, 쿼리 재구성 기능 등이 도입되어 성능과 유연성이 향상되었습니다. 작년 AWS re:Invent 2023 행사에서는 구조화된 데이터 검색, 자동 생성 쿼리 필터, 멀티 모달 데이터 처리, Rerank API, Graph RAG, 실시간 동기화, 스트리밍 응답, RAG 평가 기능 등이 대거 발표되었습니다.

RAG 정확도 향상을 위한 데이터 처리 도전 과제

RAG 애플리케이션의 정확도를 높이기 위해서는 다양한 형태의 데이터를 원활하게 처리하고 활용할 수 있는 환경이 중요합니다. 그러나 데이터 유형별로 다음과 같은 도전 과제가 있습니다:

  • 비정형 데이터: 구조화되지 않은 특성으로 인해 효과적인 청킹이나 데이터 추출이 어렵습니다.
  • 정형 데이터: SQL과 같은 특수 쿼리가 필요하여 자연어 기반 인터페이스와의 통합이 어렵습니다.
  • 관계형 데이터: 여러 문서에 분산된 정보 간의 연결을 파악하고 활용하는 것이 기술적으로 까다롭습니다.

Amazon Bedrock Knowledge Base는 이러한 다양한 유형의 데이터를 효과적으로 처리하여 RAG 정확도를 개선할 수 있도록 지원합니다.

다양한 데이터 유형 처리 기능

1. 비정형 데이터 처리

Bedrock Knowledge Base는 원본 데이터 수집부터 벡터 스토어 저장까지 전반적인 워크플로우를 제공합니다.

  • 데이터 수집: 여러 데이터 소스 연결, 증분 업데이트, 메타데이터 추가, S3, 웹 크롤러, Confluence, Salesforce 등 다양한 커넥터 및 사용자 지정 커넥터 기능을 제공합니다.
  • 텍스트 추출: PDF, CSV, Excel 등 다양한 파일 형식에서 텍스트 추출을 지원하며, 다중 모드 파싱 기능을 통해 이미지, 비디오, 오디오 등 다양한 포맷에서 유의미한 정보를 빠르게 추출할 수 있습니다 (Amazon Bedrock Data Automation).
  • 데이터 청킹: 데이터를 작은 단위(청크)로 분할하는 과정으로, 기본, 고정 크기, 계층적, 시맨틱 청킹 등 다양한 옵션을 제공하며 커스터마이징 가능합니다.
  • 임베딩: 데이터를 FM이 이해할 수 있는 벡터 형태로 변환합니다. Amazon Titan Text Embedding 모델(범용)과 Cohere Embed 모델(다국어 지원)을 제공하며, 바이너리 임베딩 기능도 새롭게 추가되었습니다.
  • 벡터 스토어 저장: 임베딩된 데이터를 Amazon OpenSearch Serverless, Amazon Aurora, Neptune Analytics, MongoDB, Pinecone 등 다양한 벡터 스토어에 저장할 수 있습니다.

이렇게 구성된 RAG 워크플로우는 RetrieveAndGenerate 단일 API 호출을 통해 쉽게 활용할 수 있으며, 프롬프트 조정, 메모리 기능, 출처 표시, 스트리밍 응답, 하이브리드/시맨틱 검색, Reranker 기능 등을 포함합니다.

 2. 정형 데이터 처리: NL-to-SQL

정형 데이터(예: 데이터베이스 테이블에 저장된 매출/재고 정보)는 일반적으로 SQL 쿼리를 사용해야 조회 가능합니다. Amazon Bedrock Knowledge Base는 이러한 문제를 해결하기 위해 NL-to-SQL 기능을 지원합니다. 사용자의 자연어 질의를 자동으로 SQL 쿼리로 변환하고, 해당 쿼리를 Amazon Redshift, Amazon SageMaker Lake House와 같은 정형 데이터 저장소에서 수행한 후, 결과를 다시 자연어 기반으로 정리하여 출력합니다.
데모에서는 서울시 지하철 혼잡도 데이터를 활용하여 “오전에 가장 혼잡한 역”이나 “오후에 가장 혼잡한 역과 시간대”를 자연어로 질의했을 때, Bedrock Knowledge Base가 이를 SQL 쿼리로 변환하여 실행하고 자연어 또는 SQL 결과로 출력하는 과정을 보여주었습니다. 이 기능은 Bedrock과 관련된 애플리케이션과 쉽게 통합 가능합니다.

3. 그래프 데이터 처리: Graph RAG

벡터 검색이 데이터 간의 유사성(근접성)을 수학적으로 계산하는 방식이라면, 그래프 검색은 데이터 간의 관계가 어떻게 연결되어 있는지를 판단하는 방식입니다. 복잡하게 연결된 그래프 데이터를 활용하기 위해 Amazon Bedrock Knowledge Base는 Graph RAG 기능을 제공합니다. Graph RAG는 분산된 데이터 간의 관계를 자동으로 식별하고 분석하여 더 관련성 높은 답변을 제공하며, Neptune Analytics 서비스를 통해 활용 가능합니다.
Neptune Analytics를 사용하는 Graph RAG의 장점은 다음과 같습니다:

  • 보다 관련성 높고 포괄적인 답변 출력.
  • 적은 쿼리로도 정확도 높은 답변 제공.
  • 여러 문서에 분산된 데이터 쉽게 검색.
  • 지속적인 문서 업데이트 자동 인식.
  • 완전 관리형 서비스로 인프라 관리 불필요.
  • 지식 그래프 자동 생성 기능 제공.

Amazon 재무제표 데이터를 활용한 데모에서는 Amazon의 비용 증가가 어떤 재무 지표에 영향을 미쳤는지 그래프 RAG로 질의하여, 관련된 데이터와 그 연관성을 자세하게 출력하는 것을 보여주었습니다. 벡터 방식의 RAG와 그래프 방식의 RAG는 동일한 질문에 대해 다른 결과를 보이며, 관계형 데이터에서는 그래프 방식이 더 효과적일 수 있습니다. 활용 용도에 따라 두 방식을 혼용하여 정확도를 높일 수 있습니다.

ENVERUS 사례 연구

에너지 산업의 데이터 인텔리전스 선두 기업인 ENVERUS는 Amazon Bedrock Knowledge Base를 활용하여 확장 가능한 RAG 애플리케이션을 성공적으로 구축한 대표적인 사례입니다.

ENVERUS는 방대한 에너지 데이터에서 실질적인 가치를 추출하는 데 상당한 시간 격차가 존재한다는 과제에 직면했습니다. 이를 해결하기 위해 지능형 연결 접근법을 도입하고 Bedrock Knowledge Base를 활용했습니다. 특히 하이브리드 검색과 메타데이터 필터링 기능을 통해 검색 정확도를 크게 향상시킬 수 있었습니다.

ENVERUS의 RAG 솔루션인 ‘인스턴트 애널리스트’는 8단계의 데이터 활용 프로세스를 거칩니다: 문서 업로드(S3), 데이터 구조화/정의(Lambda), PDF 확인/정책 적용, 데이터 종합, LLM 기반 콘텐츠 분석, 검색 인덱스 구축. 이 이벤트 기반 파이프라인은 25년 이상 축적된 방대한 데이터를 처리하여 전문가 연구 보고서를 5분 이내에 활용 가능한 실시간 RAG 솔루션을 제공합니다. 초기에는 Amazon Kendra를 사용했지만, 이후 Bedrock Knowledge Base와 OpenSearch Serverless로 전환했습니다. 이 모듈식 설계는 유연성을 제공합니다.

ENVERUS의 RAG 솔루션 아키텍처는 사용자 쿼리부터 응답 생성까지의 흐름을 보여줍니다. Bedrock Knowledge Base가 검색 API로 핵심 역할을 하며, 코드 변경 없이 다양한 벡터 스토어를 활용하고 시맨틱/하이브리드 검색, 메타데이터 필터링 등의 이점을 누릴 수 있습니다.

정확도 향상을 위해 고급 RAG 파이프라인을 적용했습니다.

  • Pre-retrieval: 요청 검증, 쿼리 파싱/재작성/확장으로 사용자 질문 최적화.
  • Retrieval: 하이브리드 검색, 동적 필터링, 앙상블 기법 활용 정보 검색.
  • Post-retrieval: Rerank 기능, 시간 관련성/최신성 고려, 검색 콘텐츠 요약.

이 종합적인 접근 방식을 통해 RAG 시스템의 정확도와 사용자 경험을 크게 향상시켰습니다. ENVERUS는 AWS와 협력하여 데이터 보안과 고성능을 위해 Amazon Bedrock을 활용했으며, 연구 시간 단축, 신뢰할 수 있는 출처 정보 제공, 검증된 데이터 활용을 통해 생성형 AI 답변 품질을 보장했습니다.

마무리하며

Amazon Bedrock Knowledge Base는 RAG 애플리케이션의 정확도를 높이기 위한 강력한 완전 관리형 서비스입니다. 비정형, 정형, 그래프 데이터 등 다양한 유형의 데이터를 원활하게 처리하고, 하이브리드 검색, 메타데이터 필터링, NL-to-SQL, Graph RAG, Reranker 등 다양한 고급 기능을 제공하여 보다 정확하고 관련성 높은 답변을 생성할 수 있도록 지원합니다. ENVERUS의 성공 사례처럼, Bedrock Knowledge Base를 활용하면 개발 부담을 덜면서도 확장 가능하고 정확도 높은 RAG 애플리케이션을 구축할 수 있습니다.

글 │ 메가존클라우드, Cloud Technology Unit(CTU), AWS Delivery SA 12, 조민구 SA

AWS SUMMIT 2025


전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.

테크 블로그 목차 (바로 가기→)

게시물 주소가 복사되었습니다.

이런 콘텐츠도 있어요!