[reinvent 2024] 데이터브릭스 Unity Catalog를 통한 데이터 및 AI 거버넌스 마스터링 (Databricks 스폰서)

Summary

빠르게 변화하는 AI 환경에서 세분화 된 데이터와 AI 거버넌스는 혁신과 규정을 준수하는 데에 있어 장애물이 될 수 있습니다. 이 세션은 정형 및 비정형 데이터, 파일, ML 모델, AI 도구를 위한 엔터프라이즈 카탈로그를 생성하는 동시에 데이터와 ML 모델을 열 수준으로 추적해 데이터와 AI 거버넌스를 데이터브릭스 Unity Catalog로 통합하는 방법을 Mastercard의 사례를 들어 설명합니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Mastering data and AI governance with Databricks Unity Catalog (sponsored by Databricks)
  • Date: 2024년 12월 2일(월)
  • Venue: Wynn | Upper Convention Promenade | Bollinger
  • Speaker:
  • Peter Nolan(SVP R&D Engineering, Mastercard)
  • Zeashan Pappa(Staff Product Manager, Databricks)
  • Fabien Thiaucourt(SVP, Data Governance & Enablement, Mastercard)
  • Industry:
  • Cross-Industry Solutions
  • Financial Services

들어가며

빠르게 발전하는 AI의 시대에 적합한 데이터 와 AI 거버넌스는 기업이 혁신을 추구하고 규정을 준수하는 데에 있어 중요한 과제가 되었습니다. 이번 칼럼에서는 Databricks의 Unity Catalog를 통해 데이터와 AI 거버넌스를 통합하는 방법과 Unity Catalog를 사용하여 데이터 AI 거버넌스를 실현하고 있는 Mastercard의 사례를 소개드리고자 합니다.

1. 데이터 거버넌스의 중요성

AI가 발전함에 따라 ML 모델 등을 활용하여 폭발적인 성장을 하면서 데이터 거버넌스의 기본 원칙, 책임, 규정 준수, 품질, 투명성 같은 전통적인 것들이 더욱 중요해지고 있습니다.

그러나 기존의 데이터와 AI 자산의 분산으로 인해 관리와 협업이 어렵고, 운영이 비효율적이어질 수 있습니다. 또, 내부 인사이트 부족이 데이터를 활용하고 의사 결정하는 데에 지연을 만들 수 있습니다. 이런 과제들은 비즈니스의 가치에 큰 영향을 줄 수 있습니다.

2. Databricks의 Unity Catalog

Unity Catalog는 데이터와 AI 자산을 통합해서 관리할 수 있고, 앞서 이야기했던 규정 준수와 계보 추적이 가능합니다. 단일 카탈로그로 운영 효율성을 높여 파일, 표, ML 모델, AI 툴, 비즈니스 지표 등과 같은 조직의 모든 데이터와 AI 자산을 관리합니다. 예를 들어 Delta Lake, Iceberg, Parquet는 데이터와 AI에서 액세스 정책과 감사를 관리할 수 있는 간단한 인터페이스로 규정 준수를 강화할 수 있습니다. 또 데이터와 AI에 대한 세부적인 액세스 제어 및 속성 기반 정책으로 보안을 강화해 보안에 관한 요구사항도 충족시킬 수 있습니다. 

이렇게 Unity Catalog를 사용하면 운영의 오버헤드를 줄이고, 데이터와 AI 자산간의 실시간 계보를 통해 데이터 흐름과 종속성을 한눈에 이해할 수 있습니다.

3. Mastercard의 사례

Mastercard사는 수십억명의 소비자, 판매자, 발행자, 정부 및 기업을 연결하는 기업으로 수십년간 쌓인 데이터를 보유하고 있습니다.

Mastercard는 이런 데이터를 혁신적으로 사용해 사기 방지, 거래 분석 및 기타 금융 서비스의 품질을 높이기 위해 AI 와 머신 러닝을 적극적으로 활용하고 있습니다. 방대하고 복잡한 데이터를 다루며 AI를 통해 대규모 거래와 관련된 패턴을 분석하고, 사기를 예방하기 위한 기술을 발전시키고 있습니다.

이렇게 AI를 활용한 기술 발전을 위해서는 다음과 같은 더욱 향상된 데이터 관리가 필요했습니다.

  • 데이터 거버넌스와 효율적인 데이터 사용

마스터카드는 데이터 거버넌스를 책임감 있게 운영하고, AI와 데이터 카탈로그를 통해 데이터를 쉽게 찾아 사용할 수 있도록 지원합니다. 그리고 데이터 품질과 규정 준수, 개인정보 보호를 중시하며 데이터 사용의 투명성을 높이려고 노력합니다. Databricks의 Unity Catalog를 활용하여 메타데이터를 결합하고, 카탈로그를 자동화 시킬 수 있었습니다.

  • 자동화된 데이터 규정 준수

데이터브릭스를 통해 데이터 사용과 관리, 접근제어를 통합할 수 있었다고 합니다. 또, Databricks의 투명성과 추적 가능한 기능으로 데이터의 문제 해결에 도움이 되었습니다.

  • 더욱 빨라진 데이터와 AI의 혁신

AI 모델을 사용할 때 데이터의 계보를 확인할 수 있다면 데이터 관리가 훨씬 쉬워집니다. 500개 이상의 필드를 가진 테이블들에 문서를 만들 수도 있겠지만 이걸 모두 만드는 데에는 많은 시간이 소요됩니다. 따라서 Unity Catalog를 통한 자동화의 도입은 매우 유용합니다. 또, 비즈니스적 가치와 경영진의 기준으로 우선순위를 정하면 까다로운 작업인 데이터 관리와 카탈로그 작업도 쉽게 끝낼 수 있습니다.

결론

이번 세션은 데이터브릭스의 Unity Catalog와 이를 사용해서 데이터 사용성이 개선된 Mastercard 사의 예시를 확인해볼 수 있었습니다.

Mastercard는 AI와 데이터 혁신을 통해 금융 서비스의 품질을 개선하고, 사기 방지 시스템을 강화하며, 데이터 거버넌스를 통해 효율적인 데이터 관리를 실현하고 있었습니다. AI와 머신러닝을 활용한 데이터 분석을 통해 고객 경험을 향상시키고, 데이터의 품질과 보안을 높인 것을 볼 수 있었습니다. 새삼 AI를 통한 빠른 발전의 배경에는 데이터가 정말 중요하고, 그런 데이터를 어떻게 관리하고 사용하느냐가 AI를 통한 발전의 품질을 좌우하는 것 같습니다. Mastercard사가 이런 변화를 위한 노력을 통해 시장에서 이렇게 꾸준히 경쟁력을 유지하고 있음을 알 수 있었고, 데이터 기반 의사결정과 거버넌스의 중요성을 다시 한 번 확인할 수 있었습니다.

글 │메가존클라우드, AI & Data Analytics Center(ADC), Data Application Support Team, 엄유진 매니저
게시물 주소가 복사되었습니다.