[AWS SUMMIT 2025] 나에게 맞춤 혜택을큐레이션:삼성카드의AI기반 실시간 추천 시스템현대화 사례

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

나에게 맞춤 혜택을큐레이션:삼성카드의AI기반 실시간 추천 시스템현대화 사례

🎙️김성규, 딜리버리 컨설턴트, AWS

🎙️신문식, Market Intelligence팀 프로, 삼성카드

🎙️하수현, AI추진팀 프로, 삼성카드

🗂️ 세션 토픽: 금융 및 핀테크

이번 칼럼에서는 AWS와 삼성카드가 발표한 “나에게 맞춤 혜택을 큐레이션: 삼성카드의 AI 기반 실시간 추천” 세션을 통해 얻은 인사이트를 공유하고자 합니다. 평소 대규모 데이터 처리와 실시간 추천 시스템 구축에 깊은 관심을 가져왔기에, 삼성카드가 겪었던 기술적 난관들을 AWS의 서버리스 이벤트 기반 아키텍처를 통해 어떻게 혁신적으로 극복하고, 온프레미스 환경과의 연계를 성공적으로 이루어냈는지 자세히 살펴보고자 이 세션을 신청하게 되었습니다. 
특히, 복잡한 데이터 처리 파이프라인을 효율적으로 개선한 사례와 실시간 추천 시스템의 성능 향상 전략에 주목하여, 실제 서비스에 적용할 수 있는 실질적인 지식과 노하우에 대한 정보를 공유드리도록 하겠습니다.

EDA implementation on AWS

AWS의 CTO인 Werner Vogels 박사는 “세상은 비동기다. 세상은 이벤트를 기반으로 움직인다”라고 강조했습니다. 이 말처럼, 우리가 살아가는 현실 세계는 끊임없이 발생하는 이벤트와 그에 따른 비동기적인 상호작용으로 이루어져 있습니다. 하지만 아이러니하게도, 우리가 운영하는 대부분의 시스템은 동기 방식으로 구축되어 있습니다.

과거에는 비동기 시스템을 구축하는 것이 기술적으로 더 복잡했기 때문에 동기 방식이 일반화되었고, 우리는 자연스럽게 이 방식에 익숙해졌습니다. 동기 방식이 때로는 단순하고 편리하게 느껴질 수 있지만, 이는 시스템의 복잡성을 간과한 일종의 ‘환상’일 수 있습니다. 

동기(Synchrony) 방식은 시스템들을 강하게 결합시켜 확장에 제약을 낳습니다. 하나의 컴포넌트에 문제가 생기면 연결된 다른 컴포넌트까지 연쇄적으로 영향을 받아 시스템 전체의 안정성을 위협할 수 있습니다.

반면, 비동기(Asynchrony) 방식은 시스템들을 느슨하게 연결하여 각 컴포넌트가 독립적으로 확장될 수 있도록 합니다. 특정 컴포넌트에 장애가 발생하더라도 다른 컴포넌트에는 영향을 미치지 않아 시스템의 안정성을 높일 수 있습니다. 뿐만 아니라, 각 컴포넌트가 독립적으로 개발될 수 있어 변화하는 요구사항에 유연하게 대처하고, 아키텍처를 점진적으로 발전시킬 수 있다는 큰 장점을 지닙니다.

이처럼 느슨하게 연결된 시스템을 구현하고, 그 장점을 극대화하는 훌륭한 아키텍처 스타일이 바로 이벤트 기반 아키텍처, 즉 EDA(Event-Driven Architectures)입니다. 하지만 이러한 강력한 이점에도 불구하고, 많은 고객들이 EDA에 높은 진입 장벽을 느끼는 것이 현실입니다.

특히 이미 운영 중인 시스템을 가지고 있다면, 선뜻 새로운 아키텍처를 도입하는 것은 상당한 부담으로 다가올 수 있습니다.

 EDA를 도입하기 전에 우리가 반드시 신중하게 따져봐야 할 몇 가지 핵심 사항들이 있습니다. 먼저, 해당 비즈니스 도메인이 이벤트 기반 아키텍처에 적합한지, 그리고 요구사항들을 비동기적으로 처리할 수 있는지 면밀히 검토해야 합니다. 더불어 데이터의 정합성과 멱등성을 확보하기 위한 방안, 그리고 프론트엔드에서의 비동기 처리 지원 여부 또한 중요한 고려 사항입니다.

이러한 다양한 조건들이 충족되었을 때, 비로소 시스템을 깊이 이해하고, 발생하는 비즈니스 이벤트들을 식별하며, 각 이벤트를 어떻게 처리할 것인지 설계할 수 있습니다.  이후에는 정의된 이벤트 패턴에 따라 시스템을 구현하고 통합하는 과정을 반복하게 됩니다.

실제 사례

이제 삼성카드의 실제 사례를 통해 이러한 EDA 도입 과정을 좀 더 자세히 살펴보겠습니다. 

삼성카드는 기존 시스템의 역할을 명확히 식별하고 재정의하는 것부터 EDA 도입을 시작했습니다. 일반적으로 EDA에서는 시스템을 작은 단위의 함수로 분리하는 것이 권장되지만, 지나치게 세분화될 경우 운영 복잡성이 증가하고 AWS Lambda의 동시 실행 수 제한과 같은 문제에 직면할 수 있다고 합니다. 따라서 실제 적용 시에는 이러한 점들을 고려하여 함수 통합을 신중하게 결정하는 것이 중요하다고 설명했습니다.

1. Identify & Design – Function Merging & Decoupling

기존 시스템에서 변수를 처리하는 로직은 변수 결합, 이벤트 변환, 변수 산출의 세 가지 프로그램으로 구성되어 있었습니다. 삼성카드는 이 세 가지 기능을 분석하여 변수 결합과 이벤트 변환 단계를 하나의 프로그램으로 병합하여 관리 효율성을 높였습니다. 동시에 각 프로그램 간의 의존성을 낮추는 디커플링 작업을 진행하여 독립적인 변경과 확장이 가능하도록 설계했습니다.

2. Identify & Design – Function Splitting & Decoupling

모델 처리 로직은 기존에 하나의 프로그램에서 여러 역할을 수행하는 구조였습니다. 이를 개선하기 위해 삼성카드는 모델 처리 과정을 전처리, 후처리, 결과 전송 등 작은 단위의 기능으로 분리했습니다. 분리된 각 기능은 이벤트 버스를 통해 연결하여 서로 간의 직접적인 의존성을 제거하고, 특정 기능의 변경이 다른 기능에 미치는 영향을 최소화하는 디커플링을 구현했습니다.

3. Implement – Event Routing & Filtering

이벤트 기반 아키텍처에서는 하나의 이벤트가 여러 프로그램에서 동시에 처리되어야 하거나, 특정 토픽의 이벤트는 특정 프로그램에서만 처리해야 하는 경우가 발생합니다. 삼성카드는 이러한 요구사항을 충족하기 위해 AWS EventBridge의 라우팅(Routing) 및 필터링(Filtering) 기능을 활용했습니다. 이를 통해 발생하는 이벤트를 필요한 여러 대상으로 효율적으로 전달하고, 각 프로그램에 필요한 이벤트만을 선택적으로 처리할 수 있도록 구성했습니다.

4. Implement – Retry and Redrive

메시지 처리 과정에서 일시적인 오류 등으로 인해 처리가 실패할 수 있습니다. 삼성카드는 이러한 상황에 대비하여 Amazon SQS (Simple Queue Service)를 활용했습니다. 메시지 처리 실패 시 자동으로 재시도하거나, 처리하지 못한 메시지를 별도의 데드 레터 큐(Dead-Letter Queue)로 이동시켜 원인을 분석하고 재처리할 수 있도록 안정성을 확보하는 방안을 적용했습니다.

5. Integration – Centralized Parameters and Secrets

분산된 환경에서 운영되는 변수 처리 및 모델 처리 프로그램들이 공통으로 사용하는 파라미터와 비밀 정보들을 효율적이고 안전하게 관리하는 것은 매우 중요합니다. 삼성카드는 AWS Systems Manager Parameter Store와 AWS Secrets Manager를 이용하여 이러한 정보들을 중앙 집중식으로 관리하고 각 프로그램에서 안전하게 접근할 수 있도록 통합했습니다.

6. Integration Lambda Env. Variables with Orchestration

변수 처리 과정에서 여러 프로그램이 하나의 일관된 정보를 참조해야 하는 경우가 있습니다. 삼성카드는 이러한 요구사항을 위해 AWS Step Functions를 도입하여 Lambda 함수들의 실행 흐름을 오케스트레이션했습니다.

삼성카드의 추천 시스템 현대화 여정

삼성카드의 실시간 추천 시스템은 고객님께서 삼성카드 개인화 추천 마케팅 채널 중 하나인 “Today Pick”에 접속하시는 순간, 고객님의 최근 행동 데이터를 실시간으로 분석하여 선호하실 만한 혜택들을 우선순위에 따라 추천해 드립니다. 예를 들어, 고객님께서 주유소에서 결제를 하셨다면, 주유소와 관련된 서비스를 즉시 추천해 드리는 방식으로, 사용자님의 행동 흐름을 실시간으로 재계산하여 가장 적절한 시점에 맞춤형 서비스를 안내해 드리고 있습니다.

기존 삼성카드의 추천 시스템은 노후화된 서버 인프라로 인해 확장성에 제약이 있었고, AI 추천 모델의 지속적인 발전에 따라오는 인프라 증설 요구에 유연하게 대응하기 어려웠습니다. 또한, 온라인 A/B 테스트 환경의 부재는 모델의 효과적인 검증과 개선을 더디게 만드는 요인이었습니다. 이러한 한계를 극복하고 더욱 빠르고 안정적인 실시간 추천 서비스를 제공하며, 고도화된 추천 모델 개발과 효과적인 A/B 테스트 환경 구축을 통해 추천 성능을 극대화하고, 동시에 금융 규제 준수 및 비용 효율성을 확보하는 것을 목표로 AWS 클라우드 기반의 AI 실시간 추천 시스템 구축을 추진하게 되었습니다.

추천 시스템의 데이터 처리

  1. 실시간 데이터 흐름: 승인/거절, 기간계, 채널계 등 다양한 소스의 실시간 이벤트 데이터를 Kafka를 통해 수집하고, 실시간 변수 처리 및 모델 처리를 거쳐 사용자에게 실시간 추천 제공.
  2. 배치 데이터 흐름: 다양한 정보, 마케팅 채널, 분석 포탈 등의 배치 데이터를 하루에 한번씩 추천시스템에 적재하고, 정보계에 내림 
  3. 변수 처리 및 모델 처리: 실시간 및 배치 데이터를 기반으로 변수를 생성하고, AI 모델을 통해 사용자에게 맞춤형 추천을 제공. 임베딩 캐시/분석 참조 등을 활용하여 성능을 최적화.
  4. 마케팅 채널/채널 관리자: 실시간 추천 결과를 푸시(PUSH) 또는 풀(PULL) 방식으로 사용자에게 전달하고, 마케팅 채널 및 채널 관리 시스템과 연동.

삼성카드는 실시간 추천 시스템을 구축하면서 AWS 서버리스 및 클라우드 네이티브 기술을 적극적으로 도입하였으며, 추천 시스템의 핵심인 AI 모델 운영에는 Amazon SageMaker 엔드포인트를 활용했습니다.

클라우드 전환의 주요 난관과 혁신적인 해결책

삼성카드는 클라우드 기반 AI 실시간 추천 시스템을 구축하는 과정에서 다양한 기술적, 환경적 어려움에 직면했지만, AWS의 다양한 서비스와 전략적인 접근 방식을 통해 이를 성공적으로 극복했습니다. 이제부터 그 내용을 정리하여 여러분께 전달해 드리겠습니다.

1. 이벤트 스트림 아키텍처 최적화

  • 어려움
    • 80+개의 복잡한 스트림 구성으로 인한 운영 관리 부담
    • 메시지 오류 시 원인 분석의 어려움
    • 온프레미스-클라우드 구간 장애 취약성
  • 해결 방안
    • 서버리스 기반 이벤트 관리 단순화 (Custom Bus, SQS 활용)
    • EventBridge Event Routing을 통한 효율적인 이벤트 처리
    • DLQ를 활용한 오류 모니터링 강화
    • 온프레미스 Kafka 재해 복구 및 증단 기능 추가

2. 목적에 맞지 않는 데이터베이스 전환

  • 어려움
    • 기존 퍼블릭 클라우드 관계형 DB 성능 미흡
    • 관계형 데이터의 Key-Value 변환 필요
    • SQL 쿼리 미지원으로 인한 낮은 검색 성능
    • 인스턴스 기반 DB의 비효율적인 Scale Up/Down
    • Write 중심 워크로드 대비 미흡한 복제 확장
  • 해결 방안
    • Aurora MySQL 도입 (정형/영속성 데이터, 배치 작업 최적화)
    • DynamoDB 도입 (실시간 변경 데이터, 저지연/고성능, Auto-Scaling)

3. 데이터 처리 파이프라인 최적화

  • 어려움
    • 분산된 데이터 구조 (18개 테이블, 5,000여개 변수, 최대 18,000명 동시 처리)
    • DB 부하로 인한 데이터 읽기 지연
    • String 데이터 반복 변환으로 인한 성능 저하
  • 해결 방안
    • Pickle 파일 활용 및 S3 저장으로 중복 처리 제거 및 성능 개선
    • S3 업로드 이벤트 기반 모델 처리 자동화
    • 변수 처리-모델 처리 간 효과적인 디커플링

4. AWS-온프레미스 데이터 연계

  • 어려움:
    • 서비스/스토리지 별 데이터 추출 및 특수 로직 처리 필요
    • AWS-온프레미스 간 안정적인 대용량 데이터 전송 체계 부재
    • 온프레미스 NAS 기반 데이터 공유 환경 연동의 어려움
  • 해결 방안:
    • DynamoDB Export Table을 통한 효율적인 데이터 추출
    • Glue, Athena, Multipart Copy-Object 활용 (추출, 파일 통합)
    • S3-EC2 (Agent 서버)-EAI-NAS 하이브리드 데이터 전송 아키텍처 구축
    • AWS CLI 기반 스크립트 및 전송 자동화

클라우드 전환의 기술적 성과

삼성카드의 클라우드 전환은 단순한 인프라 변경을 넘어, 시스템 성능을 혁신적으로 끌어올리는 놀라운 성과를 달성했습니다. 기존 온프레미스 환경의 제약으로 처리하기 어려웠던 대규모 트래픽을 클라우드 환경에서는 효율적으로 관리하며 사용자에게 더욱 빠르고 안정적인 서비스를 제공할 수 있게 되었습니다.

특히, 클라우드 전환의 목표 성능이었던 최대 1,000 TPS를 훨씬 뛰어넘어 최대 5,000 TPS까지 처리량이 획기적으로 증가했습니다. 이는 5배에 달하는 압도적인 성능 향상으로, 앞으로 급증할 트래픽에도 안정적으로 대응할 수 있는 강력한 토대를 구축했음을 명확히 보여줍니다.

마무리하며

이번 세션을 통해 기존 온프레미스 기반의 추천 시스템을 AWS 환경으로 전환하면서 얻을 수 있는 기술적 유연성과 아키텍처 설계상의 인사이트를 깊이 있게 배울 수 있었습니다. 특히 서버리스 기반의 데이터 흐름 구성, EDA를 효과적으로 구현하기 위한 이벤트 처리 전략, 그리고 모델 실시간 추론 시스템 구축 과정이 인상 깊었습니다. 단순한 기술 도입이 아닌, 실무에서 발생하는 병목과 한계를 클라우드로 어떻게 풀어낼 수 있을지에 대한 실전 해답을 확인할 수 있었고, 개인적으로도 매우 유익한 시간이었습니다. 다양한 AWS 서비스를 조합한 삼성전자의 아키텍처 설계 방식은 앞으로 고객사에서 유사한 실시간 분석이나 AI 기반 추천 시스템 구축 요청이 있을 때 참고할 수 있는 좋은 사례가 될 것 같습니다.

글 │ 메가존클라우드, AI & Data 부문 / AI & Data Ops, 김은옥 매니저

AWS SUMMIT 2025


전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.

테크 블로그 목차 (바로 가기→)

게시물 주소가 복사되었습니다.

이런 콘텐츠도 있어요!

테크

[AWS SUMMIT 2025] Splunk, GenAI, S3, Security Lake로 데이터 가치 극대

본 세션에서는 Splunk의 데이터 비용 문제를 해결하기 위해 S3 및 Amazon Security Lake와 연합 검색 기능을 활용한 효율적인 데이터 운영 방안을 소개합니다. 생성형 AI와 Ingest 최적화 기능을 통해 보안 로그의 처리 비용을 줄이면서도 데이터 처리 방식의 효율성을 높이는 방법에 대해 다룹니다.

[AWS SUMMIT 2025] Splunk, GenAI, S3, Security Lake로 데이터 가치 극대