[AWS SUMMIT 2025] 생성형 AI 시대의 클라우드 혁신: 삼성전자와 에이블리의 FinOps에서 Agentic AI까지

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

생성형 AI 시대의 클라우드 혁신: 삼성전자와 에이블리의 FinOps에서 Agentic AI까지

🎙️임연욱 솔루션즈 아키텍트, AWS

🎙️이영섭 클라우드 거버넌스 리더, 삼성전자

🎙️최하늘 CTO, 에이블리

🗂️ 세션 토픽: 기술 트랜드, 생성형 AI, 생성형AI 및 머신러닝 응용

들어가며

생성형 AI 시대의 도래와 함께 급증하는 클라우드 비용 관리는 많은 기업들의 핵심 과제로 떠올랐습니다. 어떻게 FinOps, ML 거버넌스, Agentic AI와 같은 혁신 전략을 활용하여 클라우드 비용을 최적화하고 비즈니스 가치를 창출했는지 구체적인 사례를 알고싶어 해당 세션을 듣게 되었습니다. 삼성전자와 더불어 현재 한국 패션앱 사용자수 1위에 달하는 에이블리 두곳 중, 삼성전자의 사례를 소개해 드리려 합니다.

생성형 AI 시대의 주요 챌린지와 핵심 전략

생성형 AI 기술에 대한 투자가 급증하며 2025년 기준 이미 420억 달러가 시장에 투입되고 있지만, 많은 기업들은 실제 도입 과정에서 예상보다 복잡한 문제들에 직면하고 있으며, 대표적인 아래 다섯 가지 챌린지들이 기업들의 AI 혁신을 가로막고 있습니다.

  1. 급증하는 AI 인프라 비용 
    • 생성형 AI 구현에 필요한 GPU 비용은 기존 인프라 대비 5~10배(대규모 언어 모델 학습시 많은 비용 필요)
  2. 복잡한 AI/ML 애플리케이션 운영 환경
    • AI 모델의 개발, 학습, 운영, 배포, 모니터링 라이프사이클은 기존 애플리케이션보다 훨씬 복잡한 관리를 요구
  3. 클라우드 비용 가시성 부족
    • 여러 부서에서 동시에 AI 모델을 개발하고 운영하기 때문에, 어느 팀이 어떤 리소스를 얼마나 사용하는지 투명하게 파악하기 어려움
  4. AI 모델 성능과 효율성 검증 문제
    • 많은 투자를 통해 개발한 AI 모델이 실제로 기대한 성능과 효율을 제공할지 불확실
  5. 비즈니스 가치(ROI) 측정의 어려움
    • AI 도입을 통해 구체적으로 얼마만큼의 비즈니스 가치와 수익을 창출할 수 있을지 예측하기 어려움

이러한 도전 과제에 대응하기 위해 AWS는 세 가지 핵심 전략을 제시하였습니다.

  1. FinOps
    • 단순 비용 절감이 아닌 비즈니스 가치와 연계된 투자 최적화. ex)QuickSight를 통한 비용 대시보드 구축, Unit Cost 기반 관리
  2. ML 거버넌스
    • AI 모델의 전체 라이프사이클의 체계적 관리를 통한 비용과 품질 최적화
  3. Agentic AI를 통한 지능형 프로세스 구축
    • 단순 자동화를 넘어 지능적인 의사결정 지원이 가능한 시스템 구축 가능, ex)기업 내부 데이터와 AI 모델을 연계하여 Agent RAG 시스템 구축시, 모니터링부터 진단 해결책 제시 까지 자동화된 시스템 구축 사용 가능

이러한 전략적 접근으로 기업들은 생성형 AI의 잠재력을 최대화하면서 비용과 복잡성을 효과적으로 관리할 수 있습니다.

삼성전자의 FinOps & AI 워크로드 최적화

삼성전자 LX사업부의 이영섭 리더님의 2024년부터 시작한 따끈따끈한 삼성전자의 FinOps 여정과 AI를 통한 비용 효율화 사례를 생생하게 소개 해주셨습니다.

삼성전자의 Cloud 여정의 시작과 비용 관리 체계 구축의 필요성

 2009년부터 갤럭시 시리즈와 함께 AWS를 많이 사용해 오기 시작했으며, 매년 10% 이상의 AWS 비용 및 사용량 증가에 의한 폭발적인 비용증가가 있었고, 특히 2024년 갤럭시 AI 발표 이후 클라우드 사용량이 급증하며 체계적인 비용 관리의 필요성을 느꼈다고 합니다. 이에 따라 어떻게 FinOps 전략을 구축했는지 공유했습니다.

클라우드 비용을 보다 체계적으로 관리하기 위해 위와 같은 문제가 있었음을 인지하였고, 각문제에 대하여 개선을 하기위한 방향성을 수립했습니다.

  • 비용 통합 관리를 위한 컨트롤 타워 부재 → 컨트롤 타워를 통한 클라우드 비용 관리 체계 구축
  • 클라우드 자원 및 비용 현황 실시간 모니터링 부재 → 비용 대시보드 구축으로 실시간/주기적 비용 모니터링
  • 서비스 Value와 연계되지 않은채, 단순 비용 효율 관리 → 서비스별 비즈니스 가치와 연계된 Unit Cost 기반 비용 관리

Cloud 비용 최적화(FinOps) TF 등장

삼성전자는 체계적인 클라우드 비용 관리를 위해 FinOps TF(Task Force)조직을 꾸렸으며, 해당 조직은 임원,기획팀, SRE 엔지니어, 개발팀 등 다양한 관계자들이 참여하는 전사적 협업 체계로 구성되었습니다.

이렇게 다양한 관계자들이 함께 참여하여 “클라우드 비용에 대해 같은 컨센서스를 가지고, 이 비용을 정말 중요하게 생각하고 가치 있게 클라우드를 사용해야겠다”라는 공감대를 형성하기위하여 아래와 같이 AWS와의 워크샵을 통해 정의된 4개의 Pillars(Plan, Run, See, Save)를 기반으로 FinOps TF의 역할과 진행 사항을 수립하였습니다.

  1. PLAN (계획 및 배치)
    • 2024년 7월부터 FinOps TF 시작, 2025년까지 클라우드 저감과 예산 개선 계획
    • 클라우드 비즈니스 가치를 정량화하기 위한 Unit Cost 서비스 측정 및 비용 할당
  2. RUN (거버넌스 및 운영)
    • 관계자들의 비용에 대한 컨센서스 형성을 위한 주기적 미팅 및 설득 작업
    • 비용 효율화를 위한 가드레일 구현 및 비용 관리 프로세스 구축 서비스별 가드레일 전파
  3. SEE (측정 및 기록)
    • 비용 현황 및 자원 사용 현황 파악을 위한 대시보드 구축
    • 계정별, 태그별 비용 증감 현황을 상세히 보여주는 대시보드 개발
    • KPI 수립 및 목표 달성 진행 상황 모니터링 대시보드 구축
  4. SAVE (비용 최적화)
    • 기존의 안정성, 보안 중심에서 비용 중심의 아키텍처 설계 추가
    • 불필요한 클라우드 자원 지속적 제거
    • RI/SP를 활용한 최적의 구매 옵션 선택

자세한 설명은 AWS 공식 Docs를 참고바랍니다.
참고 링크 :
https://docs.aws.amazon.com/wellarchitected/latest/cost-optimization-pillar/practice-cloud-financial-management.html

AWS QuickSight 대시보드를 통한 효과적인 비용/KPI 관리

효과적인 비용 관리를 위해 다음 세 가지 목표를 세웠으며,

  1. 대시보드를 통해 빠르게 비용 효율화가 필요한 부분 식별
  2. KPI 설정 및 진행 상황 확인을 위한 대시보드
  3. 대시보드 데이터와 그래프를 통해 인사이트 도출

해당 목표를 이루기 위하여 사용이 쉽고, AWS 비용 관련 템플릿을 제공하며, 빠르고 쉽게 적용할 수 있는 장점을 가지고있는 AWS QuickSight을 통하여 대시보드를 구축했습니다.

Unit Cost 기반 클라우드 비용 효율화

Unit Cost는 서비스의 비즈니스 가치를 반영하여 적정 수준의 비용 효율화를 측정할 수 있는 중요한 지표입니다. Unit Cost는 클라우드 총 비용을 트랜잭션 수, 월 사용자 수, 월 디바이스 수, API 호출 수 등 비즈니스 임팩트가 있는 지표로 나눈 값들입니다.

이상적인 Unit Cost 모델은 비용이 증가하더라도 서비스 사용량이 더 빠르게 증가하여 단위당 비용(Unit Cost)이 감소하는 “우하향↘” 그래프를 보입니다. 이는 서비스가 활성화되어 사용자가 늘어나거나 사용량이 늘어남에도 단위당 비용이 줄어들어 효율성이 높아지는 것을 의미합니다.

삼성전자는 2024년 7월 FinOps 시작 전에는 비용 증가와 함께 Unit Cost도 증가하는 좋지 않은 패턴을 보였으나, 비용 효율화 활동을 통해 Unit Cost가 감소하는 우하향 패턴으로 전환하는 성과를 거두었습니다.

주요 비용 효율화 활동으로는 아래와 같으며, 이러한 활동을 통해 삼성전자는 연간 10.4%의 비용 절감을 달성했습니다.

  1. 그라비톤 타입 적용
  2. 유후 및 사용하지않는 자원 제거
  3. RI/SP 확대
  4. DynamoDB RC 확대
  5. 트랜잭션에 맞는 Scale-in/out 자동화
  6. 클라이언트 앱의 API 호출 축소 아키텍처 전환

AI를 활용한 GPU 모니터링 및 이상 탐지 구현

2023년부터 AI가 활성화되면서 GPU 사용량이 폭발적으로 늘어났고, 특히 2024년 갤럭시 AI 출시 이후 GPU 비용이 급증하면서 삼성전자는 GPU 모니터링과 이상 탐지의 필요성을 인식했습니다.

그러나 AWS EC2의 특정 인스턴스 타입 중 하나이기 때문에, AWS에서 GPU만 별도로 모니터링하는 기능을 제공하지 않았습니다. 따라서 삼성전자는 AWS CUR 데이터를 활용하여 GPU 사용 현황 그래프를 직접 구현했습니다. 또한 GPU 사용량과 사용패턴을 머신러닝으로 학습하여, 특정 패턴 이상으로 사용되거나 기존에 GPU를 사용하지 않던 계정이 갑자기 GPU를 사용하는 경우를 감지하는 이상 탐지 시스템을 개발했습니다.

하지만 이런 개발은 러닝커브가 높고 전문적인 인력이 필요하였기 때문에, 클라우드 운영 담당자가 보다 빠르고 쉽게 사용하기 위하여 AWS CUR을 활용한 AI 시스템 Poc를 진행했다고 합니다.

AWS 비용 분석 Agentic AI 시스템

삼성전자가 구축한 Agentic AI 시스템의 주요 기능은 다음과 같으며,

  1. 자연어 질의를 통한 비용 효율화 포인트 식별: 클라우드 운영담당자가 자연어로 질문하면 이를 SQL 쿼리로 변환하는 Text To SQL.(AWS CUR을 처리 할수있는 SQL 쿼리)
  2. 텍스트 결과를 차트로 비용 데이터 시각화: 쿼리 결과(텍스트)를 차트 형태로 보여주어, 사용자가 빠르게 이해할 수 있는 대시보드로 확인 가능한 Text To Chart

이 시스템의 아키텍처는 크게 세 가지 컴포넌트로 구성되어 있습니다

  1. 비용 분석 시스템: 사용자의 자연어 질의를 받아들여 Text To SQL, 검증, Text To Chart 등을 통해 사용자에게 답변을 제공
  2. RAG 관리 시스템: RAG를 활용하여 기존 CUR 데이터 쿼리와 유사한 질의를 조회할 수 있도록 구현
  3. 비용 데이터 관리: AWS CUR, Unit Cost, 디바이스 정보 등을 저장하고 있는 데이터 관리 시스템

세션중 짧게 보여준 데모 콘솔 일부분 이미지 입니다. 

데모에서는 “특정 계정의 Savings Plan을 적용해서 비용 효율화해야 할 인스턴스 찾기”, “상위 10개의 RI 인스턴스 사용 현황 확인하기” 등의 사용자가 텍스트로 질문을 하면, 이에 대해 SQL 쿼리 생성, 결과 확인, 차트 시각화 되는 과정을 보여주었습니다. 또한 시스템은 데이터가 불충분한 경우에는, 자체적으로 적절히 판단하여 “증가율을 계산할 수 없다”고 응답하는 지능적인 모습까지 확인 할 수 있었습니다.

이러한 에이전트 AI 시스템은 삼성전자의 100여 개 AWS 서비스를 관리하는 데 있어 계정별, 서비스별, 태그별 비용을 더욱 효과적으로 파악하는 데 중요한 역할을 하고 있습니다.

삼성전자 FinOps 성과 및 미래 전략결론

삼성전자는 FinOps 활동과 에이전트 AI에 대한 경험을 바탕으로 다음과 같은 미래 전략을 수립함을 마지막으로 세션을 마무리 하였습니다.

  • FinOps를 통한 비용 효율화 지속
  • 혁신 AI 기술 도입을 통한 신규 서비스 개발
  • 더 많은 서비스와 AI 기술을 삼성 클라우드에 도입하여 클라우드 기술 리더십 확보

마무리하며

삼성전자의 FinOps 여정에서 얻을 수 있는 핵심 인사이트는 크게 네 가지였습니다.

첫째, 단순 비용 절감이 아닌 비즈니스 가치 중심의 접근법으로 Unit Cost를 활용해 비즈니스와 연계된 효율화를 추구했습니다. 둘째, QuickSight 기반 대시보드를 통한 데이터 기반 의사결정을 구현했습니다. 셋째, GPU 관리에 AI를 활용하는 등 유연하고 실험적인 접근을 시도했으며, 마지막으로 워크로드 특성에 맞는 인프라 차별화 전략을 성공적으로 적용했습니다.

삼성전자의 FinOps 사례는 클라우드 비용 관리가 단순한 비용 절감이 아닌 비즈니스 가치와 연계되어야 함을 명확히 보여주었습니다. FinOps라는 용어가 등장한 지는 꽤 되었지만, 실제로 제대로 된 FinOps 문화를 형성하고 있는 조직은 많지 않습니다. 단순히 한 부서의 활동이 아닌, 재무부터 기술까지 여러 부서에 걸쳐 다양한 이해관계자들이 협력해야 하는 복잡한 과정이기 때문입니다. 그런 의미에서 이것을 이룬 해당 사례는 정말 귀중한 성공 모델이라고 생각이 들었습니다.

 AI 기술이 급부상하는 현재 자연스레 따라오는 많은 숙제 중, 비용 관리 측면을 다룬 이번 세션은 생성형 AI 시대의 클라우드 관리에 대한 많은 교훈을 얻는 귀중한 시간이었습니다.

글 │ 메가존클라우드, Cloud Technology Unit (CTU), AWS Delivery SA, 이경선 매니저

AWS SUMMIT 2025


전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.

테크 블로그 목차 (바로 가기→)

게시물 주소가 복사되었습니다.

이런 콘텐츠도 있어요!