[AWS SUMMIT 2025] AmazonBedrock기반Text-to-SQL로 완성하는데이터 혁신:당근페이의핀테크 성공 전략
들어가며
AmazonBedrock기반Text-to-SQL로 완성하는데이터 혁신:당근페이의핀테크 성공 전략
🎙️박진현 솔루션즈 아키텍트
🎙️김탄 소프트웨어 엔지니어
🗂️ 세션 토픽: 생성형AI
1. 생성형 AI의 발전과 산업 전환점
- 2014년 딥러닝 구조의 GAN(Generative Adversarial Network)이 등장하면서 생성형AI의 전환점을 맞이합니다.
- 2017년 트랜스포머(Transformer) 구조가 등장하며 자연어 처리의 문이 열렸고
- 2018년 GPT 기반 대형 언어모델(LLM)이 산업적 가능성을 실현하기 시작했습니다.
- 2023년 AWS Bedrock 서비스의 출시는 기업이 별도의 학습 없이 API 기반으로 고성능 LLM을 활용할 수 있는 전환점이 되었으며, 빠르게 비즈니스에 접목할 수 있는 환경이 마련되었습니다.
생성형AI의 영향력 및 효과

2. TTS(Text-To-SQL) 도입 배경과 기술 개요
- 현업 사용자가 데이터 요청
- 보안 담당자의 접근 승인 절차 진행
- 데이터 엔지니어가 해당 요청에 맞는 SQL 쿼리 작성 및 실행
- 분석 결과를 파일 형태로 전달
TTS 도입 배경

- 불필요한 시간 단축: 데이터 엔지니어의 수작업 없이 즉시 분석 가능
- 업무 생산성 향상: 현업 사용자가 스스로 원하는 데이터를 얻고 분석 가능
- 빠른 인사이트 도출: 반복 질의, 비교 분석 등을 실시간으로 수행 가능
TTS 도입 배경

- Redshift 쿼리 저장소 관리: 각 팀이 자주 사용하는 SQL 쿼리를 중앙에서 관리 및 재사용 가능
- Amazon OpenSearch: TTS의 백엔드는 OpenSearch Index저장소 와 메타데이터 스토어, 사용자 인터페이스 등과 연계되어 체계적인 처리 흐름을 보장
- AWS Bedrock 기반 LLM 활용: 강력한 언어 모델을 활용하여 다양한 자연어 표현을 이해하고 정확한 SQL로 변환
Amazon 활용 서비스

Fine-Tuning은 특정 태스크나 도메인에 최적화된 데이터셋을 사용하여, 프리트레인된 LLM을 더욱 정밀하게 조정하는 과정입니다. 당근페이는 특정 업무에 자주 사용되는 SQL 구조, 내부 용어, 테이블 명 등 특화 데이터를 활용하여 모델을 튜닝함으로써 일반 LLM보다 더 정확하고 문맥에 맞는 쿼리를 생성할 수 있게 하였습니다. 이를 통해 SQL 정확도 향상, 불필요한 오류 감소 그리고 사용자 만족도 제고 효과를 얻을 수 있습니다.
이처럼 Fine-Tuning은 단순한 성능 향상뿐 아니라, 기업 내부의 고유한 업무 문맥을 반영하는 데 필수적인 기술적 요소입니다.
Bedrock Fine-Tuning

- 다양한 연구 및 방법론: 최근에는 자연어를 SQL로 변환하는 다양한 모델 아키텍처와 프롬프트 엔지니어링 전략이 제시되고 있습니다. 이러한 연구 결과들을 참고하여 가장 효과적인 접근법을 선택해야 합니다.
- 프롬프트 엔지니어링의 중요성: 단순 질의뿐만 아니라 의도 파악, 쿼리 구조 예측 등을 유도할 수 있는 고도화된 프롬프트 설계가 필요합니다.
- 기존 데이터에서 새로운 인사이트 도출 가능성: TTS 시스템은 기존 데이터셋을 보다 효율적으로 탐색하고, 조직이 미처 인식하지 못했던 데이터 가치를 발굴할 수 있는 잠재력을 가지고 있습니다.
- 100% 정확도 달성의 어려움: 자연어 해석 과정에서 모호성이나 문맥 오해가 발생할 수 있으며, 복잡한 SQL 구조에서는 오류 가능성이 존재합니다.
- 데이터 준비 및 최신성의 중요성: 사전에 잘 정제된 메타데이터가 없거나, 변경된 테이블 구조가 시스템에 반영되지 않을 경우, 쿼리 생성의 정확도가 급격히 낮아질 수 있습니다.
- 기업별 커스터마이징의 필수성: 각 기업의 업무 환경, 데이터 구조, 사용 패턴에 따라 시스템을 세밀하게 커스터마이징해야만 실질적인 효과를 기대할 수 있습니다. 즉, 범용 LLM만으로는 한계가 있으며, 자체적 튜닝 및 맥락 보강이 반드시 필요합니다.
3. 당근페이 브로쿼리 소개

- 누구나 쉽게 데이터를 활용할 수 있는 환경 제공
- 비전문가도 빠르게 데이터 기반 인사이트를 도출
- 데이터 중심 의사결정을 조직 전반으로 확산
“2024년 1년간 당근페이 가입자 수를 월별 오름차순으로 정렬해서 알려줘”
브로쿼리 개발의 배경에는 비개발 직군의 데이터 접근성 문제와 조직 전체의 데이터 활용 저조라는 현실적인 문제가 존재했습니다.
주요 문제점
- 비개발자 입장에서 데이터 접근의 진입장벽이 높았음
SQL이나 스키마 구조에 대한 지식이 부족한 상태에서는 원하는 데이터를 추출하기 어려웠습니다. - 조직 전반에 걸친 데이터 구조에 대한 이해 부족
각 부서마다 사용하는 데이터가 상이하고, 복잡한 테이블/스키마로 인해 일관된 분석 환경이 마련되어 있지 않았습니다. - 데이터 요청과 분석에 개발 리소스 소모
비개발 직군의 단순 질의도 엔지니어가 지원해야 했기 때문에, 반복적이고 비효율적인 업무가 발생했습니다.
브로쿼리는 단순한 자연어 → SQL 변환 기술을 넘어서, 실제 조직 내에서 효과적으로 작동하기 위한 다음의 5가지 핵심 요구사항을 기준으로 설계 및 개발되었습니다:
- 접근성 (Accessibility)
- 데이터 전문가가 아니더라도 누구나 사용할 수 있어야 함
UI/UX, 응답 속도, 자연어 질의 친화성 등을 고려한 설계 - 문턱을 낮춤으로써 전사 차원의 데이터 활용 문화 확산
- 데이터 전문가가 아니더라도 누구나 사용할 수 있어야 함
- 의도 이해 (Intent Understanding)
- 사용자의 질의가 단순히 단어로 표현된 것이 아닌, 의도 중심임을 인식
- 예: “최근 가입자 중 재방문율 높은 사람 수 알려줘” → ‘최근’, ‘재방문’, ‘가입자’ 간의 관계 파악 필요
- 문맥 인식 (Context Awareness)
- 이전 질의 내용이나 대화 흐름을 기억하고 그 맥락에서 응답
- 예: “그럼 지난달에는 어땠어?” → 이전 질의에 대한 이해를 바탕으로 처리
- 대화형 인터페이스의 핵심 기능
- 자기 반영 (Self-Reflection)
- 생성한 SQL에 대해 스스로 오류 여부를 점검
- 잘못된 쿼리나 비효율적인 구조를 개선하도록 유도
- 예외 처리 및 피드백 루프 내장
- 정확성 (Accuracy)
- 단순히 SQL을 만드는 것이 아니라, 정확하고 신뢰할 수 있는 결과를 제공해야 함
- 내부 테이블 스키마, 컬럼 타입, 조건 필터링 등 실제 데이터 환경을 고려한 정밀한 변환
- 개발자 중심의 데이터 분석 환경 → 전사 모두가 참여 가능한 분석 문화로 전환
- 반복적/단순 작업 → AI 기반 자동화를 통한 고부가가치 업무 집중
- 데이터 기반 의사결정 강화 → 조직의 민첩성 및 경쟁력 향상
4. 상세 아키텍처
- Slack: 사용자 인터페이스. 누구나 익숙한 메신저 환경에서 자연어로 쉽게 질문 가능
- DynamoDB: 대화 히스토리를 저장하여 문맥 인식(Context Tracking) 기능을 지원
- Bedrock: 자연어 이해 및 생성형 AI 모델 제공. LangChain과 LangGraph 연동
- OS(OpenSearch): 텍스트 + 벡터 기반의 하이브리드 검색 전략 구현
- 메타데이터 플랫폼: 데이터 구조의 의미를 설명하는 메타 정보를 중앙 관리
- MCP 서버: 다양한 내부 도구 및 외부 시스템과 연계하는 에이전트 허브
- 데이터 웨어하우스: 분석 데이터가 저장되는 중앙 저장소
- LangChain / LangGraph: TTS 오케스트레이션 및 워크플로우 실행 엔진


- 질문 접수 (Slack)
-사용자는 Slack을 통해 자연어로 질문을 입력. 친숙한 환경에서 접근성을 극대화 - 대화 맥락 파악 (DynamoDB)
– 이전 대화 기록을 불러와 문맥(Context) 이해 및 대화의 흐름을 유지 - 질문 의도 분석 (Agent + Bedrock + LangChain)
– 질문이 단순 조회인지, 복잡한 분석인지 구분. 이에 따라 흐름을 분기
– 데이터 분석 요
– 특정 정보 검색
– 단순 일상 대화 등 - Context 수집 (MCP 서버)
– 브로쿼리 Agent는 단독으로 전체 흐름을 처리하지 않고, MCP 서버를 통해 내부 시스템/외부 도구와 연동하여 필요한 정보 수집 - 메타데이터 확보
– SQL 생성 전, 정확한 기술 메타데이터 확보
– 메타데이터 플랫폼: 소스코드, 위키, DB에서 추출한 구조 설명, 용어 등
– OpenSearch를 통한 하이브리드 검색 (텍스트 + 벡터, reranker 적용) - SQL 생성 및 검증
– 에이전트가 SQL을 생성하고, 내부 Rule 및 Context 기반으로 오류 검출 및 수정
– 자기반영(Self-Reflection) 단계 내장
– 실행 가능한 형태로 재구성

- 분석 데이터: 숫자, 카운트, 집계 등 실질적인 데이터 결과
- 메타데이터: 각 테이블 및 컬럼에 대한 설명, 의미, 품질 규칙 등
이러한 메타데이터가 질문 응답의 정확도와 SQL 생성의 품질을 결정짓는 핵심 요소입니다.
5. 성능 개선을 위한 주요 전략

- Retrieval 최적화
질문에 가장 적합한 컨텍스트를 정확히 찾아주는 RAG 시스템의 성능이 핵심입니다. - LLM 파인튜닝 및 커스터마이징
조직 내 특화된 데이터와 질문 유형에 맞춰 LLM의 응답 품질을 개선하고 있습니다. 특정 용어, 조직 컨텍스트에 대한 반응성을 높이기 위한 전용 학습이 진행되고 있습니다. - 비즈니스 문맥 강화
단순 질의 응답을 넘어, 워크플로우 상에 비즈니스 맥락을 정교하게 반영합니다. MCP 서버, 메타데이터 스토어 등을 통해 수집된 문맥 정보를 LangGraph 기반 흐름 내에서 실시간 활용합니다. - 지속 가능한 성능 평가 체계 구축
시스템 품질 유지를 위해 평가 지표 및 테스트 셋 기반의 평가 체계를 정교화하고 있으며, 지속적인 성능 모니터링과 개선 피드백 루프를 운영하고 있습니다.
6. 도입 효과 및 추가 개선 계획

- 의사결정 속도 향상
누구나 데이터를 통해 인사이트를 빠르게 도출할 수 있게 되면서, 실무의 의사결정 시간이 크게 단축되었습니다. - 데이터 접근성 및 활용성 증대
비개발 구성원도 Slack을 통해 자유롭게 질문하고, 시각화된 답변을 바로 받을 수 있어 데이터에 대한 접근성이 크게 향상되었습니다. - 데이터 리터러시 강화
반복적인 자연어 기반 질의를 통해 구성원 스스로 데이터 구조에 익숙해지고, 데이터 기반 사고 능력이 강화되고 있습니다. - 엔지니어 리소스 효율화
데이터 요청 대응에 투입되던 개발 인력을 줄이고, 반복 작업을 자동화하여 엔지니어의 생산성을 확보할 수 있게 되었습니다. - 데이터 중심 조직 문화 정착
데이터를 더 자주, 더 깊이 활용하는 문화가 정착되며, 전사적 의사결정 방식에 긍정적인 변화가 일어났습니다.
7. AWS 기반 TTS 구축의 장점 및 고려사항
- 최신 AI 모델 즉시 활용 가능
Amazon Bedrock을 통해 최신 LLM(GPT, Claude 등)을 빠르게 테스트하고 활용할 수 있습니다. - 완전관리형 서비스 기반 구성
서버리스 아키텍처를 활용해 확장성, 가용성, 유지보수 측면에서 매우 효율적입니다. - 효율적인 데이터 파이프라인 구성
AWS Glue, Athena, Redshift 등을 연계하여 분석용 데이터 파이프라인을 손쉽게 구성하고 확장할 수 있습니다. - 빠른 MVP 구현
관리형 서비스를 중심으로 아키텍처를 구성함으로써 초기 프로토타이핑 및 서비스 출시가 빠르게 가능했습니다.
- Bedrock의 한계
Bedrock은 API 기반으로 활용되며, 사용자 정의 튜닝(Fine-tuning)은 제한적입니다. 따라서 비즈니스 특화 대응은 프롬프트 설계 및 외부 맥락 증강 전략에 의존합니다. - 비용 문제
고성능 LLM 호출 비용 및 Bedrock 요금 체계는 지속적인 모니터링과 최적화 전략이 필요합니다.
AWS 의존성 이슈
AWS 서비스 간 연동 최적화는 구축과 운영을 효율화하지만, 장기적으로 아키텍처 유연성이나 멀티클라우드 전략에는 제약이 될 수 있습니다.
8. 넥스트 스텝 (Next Step)
- 사용자 피드백 반영
질문 응답의 정확도와 사용자 경험을 지속 개선하기 위해 사용자 로그 및 피드백을 주기적으로 분석 및 반영합니다. - 지식 데이터베이스 정기 점검
메타데이터, 용어사전, 샘플쿼리 등 기반 지식 자산을 주기적으로 정비하여 지속적인 품질 관리를 수행합니다. - 정책 수립 및 문화 확산
셀프서비스 기반 데이터 활용 문화 확산을 위한 가이드라인과 정책을 수립하고, 조직 전반의 데이터 거버넌스를 정착시킬 계획입니다. - 부가기능 확장
차트 추천, 자동 리포트 생성, 주요 KPI 트렌드 알림 등 TTS 기반 고도화를 통해 실무 친화형 기능을 지속적으로 추가할 예정입니다.
마무리하며
글 │ 메가존클라우드, AI&Data 부문 / AI Innovation, 유수경 Manager
AWS SUMMIT 2025
전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.
테크 블로그 목차 (바로 가기→)