[AWS SUMMIT 2025] AmazonBedrock기반Text-to-SQL로 완성하는데이터 혁신:당근페이의핀테크 성공 전략

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

AmazonBedrock기반Text-to-SQL로 완성하는데이터 혁신:당근페이의핀테크 성공 전략

🎙️박진현 솔루션즈 아키텍트

🎙️김탄 소프트웨어 엔지니어

🗂️ 세션 토픽: 생성형AI

이번 칼럼에서는 생성형 AI 기술의 발전과 이를 활용한 당근페이의 데이터 Text to SQL  도입 사례를 중심으로, 전사적 데이터 활용 문화 조성과 AWS 기반 인프라 전략에 대해 소개하였습니다. 자연어로 손쉽게 데이터를 조회할 수 있는 AI 기반 파트너 ‘브로쿼리’의 기획부터 실제 서비스 도입까지의 과정과 기술적 고려사항을 상세히 정리하였습니다. 특히, AWS Bedrock 기반 LLM을 활용한 실용적인 데이터 분석 자동화 방법론을 중심으로 설명합니다.

1. 생성형 AI의 발전과 산업 전환점

생성형 AI는 현재 다양한 산업에 실제 도입되기까지 지속적인 발전을 해왔습니다.
  • 2014년 딥러닝 구조의 GAN(Generative Adversarial Network)이 등장하면서 생성형AI의 전환점을 맞이합니다.
  • 2017년 트랜스포머(Transformer) 구조가 등장하며 자연어 처리의 문이 열렸고
  • 2018년 GPT 기반 대형 언어모델(LLM)이 산업적 가능성을 실현하기 시작했습니다.
  • 2023년 AWS Bedrock 서비스의 출시는 기업이 별도의 학습 없이 API 기반으로 고성능 LLM을 활용할 수 있는 전환점이 되었으며, 빠르게 비즈니스에 접목할 수 있는 환경이 마련되었습니다.
이로 인해 업무 자동화, 고객 경험 개선, 생산성 향상, 창의적 작업 지원, 개인화 서비스 확대 등 폭넓은 비즈니스 영역에서 생성형 AI가 활용되고 있습니다. 이러한 생성형AI는 현재 생산성 혁신, 창의적인 작업, 개인화 서비스까지 다양한 영역에 영향을 주고 있습니다.

생성형AI의 영향력 및 효과

2. TTS(Text-To-SQL) 도입 배경과 기술 개요

당근페이의 TTS 시스템 도입 배경은 무엇보다도 기존 데이터 요청 및 분석 프로세스의 복잡성과 비효율성에서 출발했습니다. 과거에는 단순한 데이터 추출 요청조차도 다음과 같은 다단계 절차를 거쳐야 했습니다:
  1. 현업 사용자가 데이터 요청
  2. 보안 담당자의 접근 승인 절차 진행
  3. 데이터 엔지니어가 해당 요청에 맞는 SQL 쿼리 작성 및 실행
  4. 분석 결과를 파일 형태로 전달
이러한 프로세스는 초기 요청부터 최종 데이터 수신까지 수일이 소요되는 경우가 대부분이었습니다. 특히, 전달받은 데이터가 바로 활용 가능한 형태가 아닌 경우, 사용자는 다시 별도의 전처리나 재분석 과정을 거쳐야 했습니다. 결과적으로 현업이 원하는 인사이트에 도달하기까지 많은 시간과 자원이 낭비되고 있었습니다.

TTS 도입 배경

이러한 비효율을 해소하고자 Text to SQL(TTS) 시스템 도입이 추진되었습니다. 자연어로 데이터를 질의하고, 시스템이 이를 SQL로 자동 변환해 결과를 제공하는 방식은 다음과 같은 장점을 제공합니다:
  • 불필요한 시간 단축: 데이터 엔지니어의 수작업 없이 즉시 분석 가능
  • 업무 생산성 향상: 현업 사용자가 스스로 원하는 데이터를 얻고 분석 가능
  • 빠른 인사이트 도출: 반복 질의, 비교 분석 등을 실시간으로 수행 가능
또한, TTS 시스템은 단기적인 효율성뿐 아니라 장기적으로 활용성과 확장성 측면에서도 매우 높은 잠재력을 가지고 있습니다. 단순한 질의 응답을 넘어 조직 내 다양한 시스템과의 연계를 통해 중간 허브 역할을 수행할 수 있으며, 데이터 활용의 중심 축으로 발전할 수 있습니다.

TTS 도입 배경

TTS 시스템은 단순히 자연어를 SQL로 바꾸는 기술을 넘어, 다음과 같은 기능적 구조와 역할을 포함합니다:
  • Redshift 쿼리 저장소 관리: 각 팀이 자주 사용하는 SQL 쿼리를 중앙에서 관리 및 재사용 가능
  • Amazon OpenSearch: TTS의 백엔드는 OpenSearch Index저장소 와 메타데이터 스토어, 사용자 인터페이스 등과 연계되어 체계적인 처리 흐름을 보장
  • AWS Bedrock 기반 LLM 활용: 강력한 언어 모델을 활용하여 다양한 자연어 표현을 이해하고 정확한 SQL로 변환

Amazon 활용 서비스

당근페이는 AWS Bedrock을 활용하여 생성형 AI 기능을 도입하였고, 특히 Bedrock Fine-Tuning을 통해 성능을 한층 향상시켰습니다.
Fine-Tuning은 특정 태스크나 도메인에 최적화된 데이터셋을 사용하여, 프리트레인된 LLM을 더욱 정밀하게 조정하는 과정입니다. 당근페이는 특정 업무에 자주 사용되는 SQL 구조, 내부 용어, 테이블 명 등 특화 데이터를 활용하여 모델을 튜닝함으로써 일반 LLM보다 더 정확하고 문맥에 맞는 쿼리를 생성할 수 있게 하였습니다. 이를 통해 SQL 정확도 향상, 불필요한 오류 감소 그리고 사용자 만족도 제고 효과를 얻을 수 있습니다.

이처럼 Fine-Tuning은 단순한 성능 향상뿐 아니라, 기업 내부의 고유한 업무 문맥을 반영하는 데 필수적인 기술적 요소입니다.

Bedrock Fine-Tuning

TTS 시스템을 구축할 때는 다양한 참고 자료와 방법론을 충분히 검토하고, 기술적인 선택지를 전략적으로 판단해야 합니다.
  • 다양한 연구 및 방법론: 최근에는 자연어를 SQL로 변환하는 다양한 모델 아키텍처와 프롬프트 엔지니어링 전략이 제시되고 있습니다. 이러한 연구 결과들을 참고하여 가장 효과적인 접근법을 선택해야 합니다.
  • 프롬프트 엔지니어링의 중요성: 단순 질의뿐만 아니라 의도 파악, 쿼리 구조 예측 등을 유도할 수 있는 고도화된 프롬프트 설계가 필요합니다.
  • 기존 데이터에서 새로운 인사이트 도출 가능성: TTS 시스템은 기존 데이터셋을 보다 효율적으로 탐색하고, 조직이 미처 인식하지 못했던 데이터 가치를 발굴할 수 있는 잠재력을 가지고 있습니다.
하지만, 다음과 같은 한계점도 함께 고려되어야 합니다:
  • 100% 정확도 달성의 어려움: 자연어 해석 과정에서 모호성이나 문맥 오해가 발생할 수 있으며, 복잡한 SQL 구조에서는 오류 가능성이 존재합니다.
  • 데이터 준비 및 최신성의 중요성: 사전에 잘 정제된 메타데이터가 없거나, 변경된 테이블 구조가 시스템에 반영되지 않을 경우, 쿼리 생성의 정확도가 급격히 낮아질 수 있습니다.
  • 기업별 커스터마이징의 필수성: 각 기업의 업무 환경, 데이터 구조, 사용 패턴에 따라 시스템을 세밀하게 커스터마이징해야만 실질적인 효과를 기대할 수 있습니다. 즉, 범용 LLM만으로는 한계가 있으며, 자체적 튜닝 및 맥락 보강이 반드시 필요합니다.

3. 당근페이 브로쿼리 소개

브로쿼리(BroQuery)는 당근페이가 자체 개발한 AI 기반 데이터 분석 봇으로, 전사 임직원이 데이터를 보다 쉽고 건강하게 다룰 수 있도록 지원하는 친근한 AI 파트너입니다. 이름 그대로 ‘브로(Bro)’처럼 친근하고 든든한 조력자로서, 누구나 데이터를 부담 없이 활용할 수 있도록 돕는 것을 목표로 합니다.
브로쿼리는 다음과 같은 미션을 가지고 설계되었습니다:
  • 누구나 쉽게 데이터를 활용할 수 있는 환경 제공
  • 비전문가도 빠르게 데이터 기반 인사이트를 도출
  • 데이터 중심 의사결정을 조직 전반으로 확산

“2024년 1년간 당근페이 가입자 수를 월별 오름차순으로 정렬해서 알려줘”

이와 같은 자연어 요청을 통해, 브로쿼리는 자동으로 SQL 쿼리를 생성하고 결과를 반환해줍니다.
브로쿼리 개발의 배경에는 비개발 직군의 데이터 접근성 문제조직 전체의 데이터 활용 저조라는 현실적인 문제가 존재했습니다.

주요 문제점

  • 비개발자 입장에서 데이터 접근의 진입장벽이 높았음
    SQL이나 스키마 구조에 대한 지식이 부족한 상태에서는 원하는 데이터를 추출하기 어려웠습니다.
  • 조직 전반에 걸친 데이터 구조에 대한 이해 부족
    각 부서마다 사용하는 데이터가 상이하고, 복잡한 테이블/스키마로 인해 일관된 분석 환경이 마련되어 있지 않았습니다.
  • 데이터 요청과 분석에 개발 리소스 소모
    비개발 직군의 단순 질의도 엔지니어가 지원해야 했기 때문에, 반복적이고 비효율적인 업무가 발생했습니다.
이러한 문제들을 해결하기 위한 핵심 수단으로 Text to SQL(TTS) 기술이 채택되었으며, 그 대표 구현이 브로쿼리입니다.

브로쿼리는 단순한 자연어 → SQL 변환 기술을 넘어서, 실제 조직 내에서 효과적으로 작동하기 위한 다음의 5가지 핵심 요구사항을 기준으로 설계 및 개발되었습니다:
  1. 접근성 (Accessibility)
    • 데이터 전문가가 아니더라도 누구나 사용할 수 있어야 함
      UI/UX, 응답 속도, 자연어 질의 친화성 등을 고려한 설계
    • 문턱을 낮춤으로써 전사 차원의 데이터 활용 문화 확산
  2. 의도 이해 (Intent Understanding)
    • 사용자의 질의가 단순히 단어로 표현된 것이 아닌, 의도 중심임을 인식
    • 예: “최근 가입자 중 재방문율 높은 사람 수 알려줘” → ‘최근’, ‘재방문’, ‘가입자’ 간의 관계 파악 필요
  3. 문맥 인식 (Context Awareness)
    • 이전 질의 내용이나 대화 흐름을 기억하고 그 맥락에서 응답
    • 예: “그럼 지난달에는 어땠어?” → 이전 질의에 대한 이해를 바탕으로 처리
    • 대화형 인터페이스의 핵심 기능
  4. 자기 반영 (Self-Reflection)
    • 생성한 SQL에 대해 스스로 오류 여부를 점검
    • 잘못된 쿼리나 비효율적인 구조를 개선하도록 유도
    • 예외 처리 및 피드백 루프 내장
  5. 정확성 (Accuracy)
    • 단순히 SQL을 만드는 것이 아니라, 정확하고 신뢰할 수 있는 결과를 제공해야 함
    • 내부 테이블 스키마, 컬럼 타입, 조건 필터링 등 실제 데이터 환경을 고려한 정밀한 변환
브로쿼리는 단순한 기술 도입을 넘어, 데이터 접근의 민주화(Democratization of Data)를 실현하고자 하는 당근페이의 전략적 방향성을 상징합니다.
  • 개발자 중심의 데이터 분석 환경 → 전사 모두가 참여 가능한 분석 문화로 전환
  • 반복적/단순 작업 → AI 기반 자동화를 통한 고부가가치 업무 집중
  • 데이터 기반 의사결정 강화 → 조직의 민첩성 및 경쟁력 향상
결과적으로 브로쿼리는 당근페이 내 데이터 활용 패러다임을 바꾸는 핵심 플랫폼으로 자리 잡고 있습니다.

4. 상세 아키텍처

당근페이의 브로쿼리 시스템은 다양한 내부·외부 시스템과 유기적으로 연동되며, 고도화된 AI 기반의 데이터 분석 경험을 제공합니다. 이 시스템은 단순히 질문에 응답하는 챗봇이 아니라, 복잡한 데이터 환경 속에서 질문의 의도를 이해하고 고품질 SQL을 생성해 최종 인사이트로 연결하는 정교한 아키텍처로 구성되어 있습니다.
  • Slack: 사용자 인터페이스. 누구나 익숙한 메신저 환경에서 자연어로 쉽게 질문 가능
  • DynamoDB: 대화 히스토리를 저장하여 문맥 인식(Context Tracking) 기능을 지원
  • Bedrock: 자연어 이해 및 생성형 AI 모델 제공. LangChain과 LangGraph 연동
  • OS(OpenSearch): 텍스트 + 벡터 기반의 하이브리드 검색 전략 구현
  • 메타데이터 플랫폼: 데이터 구조의 의미를 설명하는 메타 정보를 중앙 관리
  • MCP 서버: 다양한 내부 도구 및 외부 시스템과 연계하는 에이전트 허브
  • 데이터 웨어하우스: 분석 데이터가 저장되는 중앙 저장소
  • LangChain / LangGraph: TTS 오케스트레이션 및 워크플로우 실행 엔진
전체 파이프라인 흐름은 다음과 같습니다.
  1. 질문 접수 (Slack)
    -사용자는 Slack을 통해 자연어로 질문을 입력. 친숙한 환경에서 접근성을 극대화
  2. 대화 맥락 파악 (DynamoDB)
    – 이전 대화 기록을 불러와 문맥(Context) 이해 및 대화의 흐름을 유지
  3. 질문 의도 분석 (Agent + Bedrock + LangChain)
    – 질문이 단순 조회인지, 복잡한 분석인지 구분. 이에 따라 흐름을 분기
    – 데이터 분석 요
    – 특정 정보 검색
    – 단순 일상 대화 등
  4. Context 수집 (MCP 서버)
    – 브로쿼리 Agent는 단독으로 전체 흐름을 처리하지 않고, MCP 서버를 통해 내부 시스템/외부 도구와 연동하여 필요한 정보 수집
  5. 메타데이터 확보
    – SQL 생성 전, 정확한 기술 메타데이터 확보
    – 메타데이터 플랫폼: 소스코드, 위키, DB에서 추출한 구조 설명, 용어 등
    – OpenSearch를 통한 하이브리드 검색 (텍스트 + 벡터, reranker 적용)
  6. SQL 생성 및 검증
    – 에이전트가 SQL을 생성하고, 내부 Rule 및 Context 기반으로 오류 검출 및 수정
    – 자기반영(Self-Reflection) 단계 내장
    – 실행 가능한 형태로 재구성
브로쿼리에서 데이터를 단순히 수집하는 것뿐만 아니라, 데이터에 대한 설명 정보(Metadata)의 수집도 병행합니다.
  • 분석 데이터: 숫자, 카운트, 집계 등 실질적인 데이터 결과
  • 메타데이터: 각 테이블 및 컬럼에 대한 설명, 의미, 품질 규칙 등

이러한 메타데이터가 질문 응답의 정확도와 SQL 생성의 품질을 결정짓는 핵심 요소입니다.

5. 성능 개선을 위한 주요 전략

당근페이 브로쿼리의 TTS 시스템은 실질적인 분석 성능 향상을 위해 다양한 측면에서 개선 노력을 진행하고 있습니다.
  • Retrieval 최적화
    질문에 가장 적합한 컨텍스트를 정확히 찾아주는 RAG 시스템의 성능이 핵심입니다.
  • LLM 파인튜닝 및 커스터마이징
    조직 내 특화된 데이터와 질문 유형에 맞춰 LLM의 응답 품질을 개선하고 있습니다. 특정 용어, 조직 컨텍스트에 대한 반응성을 높이기 위한 전용 학습이 진행되고 있습니다.
  • 비즈니스 문맥 강화
    단순 질의 응답을 넘어, 워크플로우 상에 비즈니스 맥락을 정교하게 반영합니다. MCP 서버, 메타데이터 스토어 등을 통해 수집된 문맥 정보를 LangGraph 기반 흐름 내에서 실시간 활용합니다.
  • 지속 가능한 성능 평가 체계 구축
    시스템 품질 유지를 위해 평가 지표 및 테스트 셋 기반의 평가 체계를 정교화하고 있으며, 지속적인 성능 모니터링과 개선 피드백 루프를 운영하고 있습니다.

6. 도입 효과 및 추가 개선 계획

TTS 시스템 도입을 통해 당근페이 조직 전반에 다음과 같은 변화가 나타났습니다.
  • 의사결정 속도 향상
    누구나 데이터를 통해 인사이트를 빠르게 도출할 수 있게 되면서, 실무의 의사결정 시간이 크게 단축되었습니다.
  • 데이터 접근성 및 활용성 증대
    비개발 구성원도 Slack을 통해 자유롭게 질문하고, 시각화된 답변을 바로 받을 수 있어 데이터에 대한 접근성이 크게 향상되었습니다.
  • 데이터 리터러시 강화
    반복적인 자연어 기반 질의를 통해 구성원 스스로 데이터 구조에 익숙해지고, 데이터 기반 사고 능력이 강화되고 있습니다.
  • 엔지니어 리소스 효율화
    데이터 요청 대응에 투입되던 개발 인력을 줄이고, 반복 작업을 자동화하여 엔지니어의 생산성을 확보할 수 있게 되었습니다.
  • 데이터 중심 조직 문화 정착
    데이터를 더 자주, 더 깊이 활용하는 문화가 정착되며, 전사적 의사결정 방식에 긍정적인 변화가 일어났습니다.

7. AWS 기반 TTS 구축의 장점 및 고려사항

TTS 시스템은 AWS 기반으로 설계되어 다음과 같은 기술적/운영적 이점을 확보하고 있습니다.
  • 최신 AI 모델 즉시 활용 가능
    Amazon Bedrock을 통해 최신 LLM(GPT, Claude 등)을 빠르게 테스트하고 활용할 수 있습니다.
  • 완전관리형 서비스 기반 구성
    서버리스 아키텍처를 활용해 확장성, 가용성, 유지보수 측면에서 매우 효율적입니다.
  • 효율적인 데이터 파이프라인 구성
    AWS Glue, Athena, Redshift 등을 연계하여 분석용 데이터 파이프라인을 손쉽게 구성하고 확장할 수 있습니다.
  • 빠른 MVP 구현
    관리형 서비스를 중심으로 아키텍처를 구성함으로써 초기 프로토타이핑 및 서비스 출시가 빠르게 가능했습니다.
서비스 구축 및 운영 과정에서 다음과 같은 유의점도 함께 고려하고 있습니다.
  • Bedrock의 한계
    Bedrock은 API 기반으로 활용되며, 사용자 정의 튜닝(Fine-tuning)은 제한적입니다. 따라서 비즈니스 특화 대응은 프롬프트 설계 및 외부 맥락 증강 전략에 의존합니다.
  • 비용 문제
    고성능 LLM 호출 비용 및 Bedrock 요금 체계는 지속적인 모니터링과 최적화 전략이 필요합니다.
    AWS 의존성 이슈
    AWS 서비스 간 연동 최적화는 구축과 운영을 효율화하지만, 장기적으로 아키텍처 유연성이나 멀티클라우드 전략에는 제약이 될 수 있습니다.

8. 넥스트 스텝 (Next Step)

향후 당근페이 TTS 시스템은 다음과 같은 방향으로 발전을 이어갈 계획입니다.
  • 사용자 피드백 반영
    질문 응답의 정확도와 사용자 경험을 지속 개선하기 위해 사용자 로그 및 피드백을 주기적으로 분석 및 반영합니다.
  • 지식 데이터베이스 정기 점검
    메타데이터, 용어사전, 샘플쿼리 등 기반 지식 자산을 주기적으로 정비하여 지속적인 품질 관리를 수행합니다.
  • 정책 수립 및 문화 확산
    셀프서비스 기반 데이터 활용 문화 확산을 위한 가이드라인과 정책을 수립하고, 조직 전반의 데이터 거버넌스를 정착시킬 계획입니다.
  • 부가기능 확장
    차트 추천, 자동 리포트 생성, 주요 KPI 트렌드 알림 등 TTS 기반 고도화를 통해 실무 친화형 기능을 지속적으로 추가할 예정입니다.

마무리하며

이처럼 당근페이는 생성형 AI 기반의 TTS 시스템을 통해 데이터 접근성과 활용성을 극대화하며, 조직 전반의 의사결정 효율성을 크게 향상시켰습니다. AWS 기반의 유연한 아키텍처와 지속적인 성능 개선 전략을 통해 빠른 도입과 안정적인 운영이 가능했습니다. 앞으로도 사용자 피드백과 기술 고도화를 바탕으로 정교한 데이터 활용 문화를 정착시켜 나갈 계획입니다.

글 │ 메가존클라우드, AI&Data 부문 / AI Innovation, 유수경 Manager

AWS SUMMIT 2025


전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.

테크 블로그 목차 (바로 가기→)

게시물 주소가 복사되었습니다.

이런 콘텐츠도 있어요!