[reinvent 2024] 비즈니스 카탈로그를 사용하여 데이터에 대한 액세스를 명확하게 하고 평등화하세요.

Summary

데이터를 맥락에 맞게 이해한다는 것은 모든 사용자가 데이터의 의미를 발견하고 이해하여 자신있게 데이터를 사용하여 비즈니스 가치를 창출할 수 있다는 것을 의미합니다. 중앙 집중식 데이터 카탈로그를 사용하면 데이터를 쉽게 찾을 수 있고, 데이터 품질을 계보에 따라 수량화 및 추적할 수 있으며, 액세스 권한을 요청 및 프로비저닝할 수 있으며, 데이터를 사용하여 비즈니스 결정을 내릴 수 있습니다. 이 세션에서는 Amazon DataZone, AWS Glue 데이터 카탈로그 및 AWS Lake Formation이 모든 데이터 마켓플레이스 사용자가 액세스할 수 있는 카탈로그를 구축하는 데 어떻게 도움이 되는지 알아봅니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Demystify and democratize access to your data with a business catalog
  • Date: 2024년 12월 4일(수)
  • Venue: Mandalay Bay | Level 2 South | Mandalay Bay Ballroom L | Content Hub | Turquoise Screen
  • Speaker:
  • Haribabu Muppanani(Director – Data Platforms, BMS)
  • Leonardo Gomez(Principal Big Data Specialist Solutions Architect, AWS)
  • Luis Campos(Data & AI GTM Specialist, AWS)
  • Industry: Professional Services

들어가며

이번 칼럼에서는  Amazon DataZone, AWS Glue 데이터 카탈로그 및 AWS Lake Formation기술을 주제로 한 세션을 듣고, 여러분께 신규 기술 및 업데이트 된 정보를 공유드리도록 하겠습니다. 이번 세션에서 주목할 내용은 Data 카탈로그를 효율적으로 이용하는 방법에 대해 소개 합니다.

발표자분은 고고학과 비교하면서 이번 발표에 대한 초점을 잡아주셨습니다.

고고학과 데이터 사이언스 사이에는 공통점이 있습니다. 더 많은 유물을 발견할수록 맥락이 풍부해지고, 데이터 사이언스에서도 더 많은 데이터 포인트를 수집하고 샌드박스에 더 많은 데이터셋을 가져올수록 더 풍부해지죠.

하지만 고고학과 데이터 사이언스의 차이는 분명 있습니다. 고고학에서는 발견을 통해 카탈로그가 만들어집니다. 10년 후에 무엇을 발견할지 미리 알려주는 사람은 없습니다. 카탈로그가 없기 때문이죠. 사람들은 자신이 무엇을 발견할지 모릅니다. 때로는 무언가를 발견하고 기술을 사용해 5000년 전의 것이라고 판단했다가, 다른 것을 발견하면서 첫 번째 평가가 잘못되었을 수 있다는 것을 깨닫는 걸 보셨을겁니다.

반면 데이터 사이언스에서는 카탈로그 없이는 불가능합니다. 가설을 테스트하거나 케이스를 구축하거나 애플리케이션을 만들기 위해 필요한 데이터를 찾으려면 카탈로그가 있어야 합니다. 따라서 발견은 카탈로그를 통해 가능해집니다.

해당 프레젠테이션을보면, 어떠한 작은 데이터 포인트하나만 있다고 해서 그 데이터가 시간이 지나도 가치는 올라가지 않습니다.

위처럼 적극적이고 순환적인 과정이 있어야 데이터의 가치는 시간이 지날수록 가치가 높아집니다.

위와 같은 적극성이 있는 데이터 활용을 통해 “여기 전체 프로세스가 있고, 이것이 내가 필요한 데이터이다. 이제 발견이 필요하지 않다. 이 프로세스를 운영화하면, 이 데이터로 시작해서 이 결과를 얻기 위해 이러한 조치를 취해야 한다”라는 마법같은 순환을 만들 수 있는 것입니다.

이러한 과정이 필요한 이유를 금을 예시로 하여 설명하고 있습니다. 금 시장의 데이터 카탈로그는 크게 두 가지 관점으로 나뉩니다.

  • 비즈니스 데이터 카탈로그 : 주얼리 매장이나 판매자들이 실제 비즈니스를 운영하는 데 필요한 정보를 다룹니다.
  • 주요 관심사 : 재고 현황 파악 / 반지, 목걸이 등 디자인 카테고리별 분류 /10-24캐럿 등 순도 정보
  • 기술 데이터 카탈로그 : 주얼리 제작자나 기술자들이 실제 제품을 만드는 데 필요한 기술적 정보를 다룹니다.
  • 주요 관심사 : 금, 다이아몬드 등 원자재 소싱 정보 / 제품 사이즈 예측 / 장인의 디자인 기획

이렇게 비즈니스용과 기술용 데이터를 체계적으로 관리하고 필요한 사용자에게 적절히 제공할 수 있어야 비로소 가치가 높은 데이터로 발전할 수 있게되는 것입니다.

쉽게 말해서, 주얼리 가게 점원은 재고와 가격을 보는 비즈니스 뷰를, 금세공 기술자는 원자재와 기술 스펙을 보는 기술 뷰를 보게 되는 거죠. 하나의 시스템에서 각자에게 필요한 정보만 효율적으로 제공하는 겁니다.

이러한 기능이 가능하도록 구성하는 서비스가 AWS Glue, DataLake, Datazone입니다.

먼저 AWS Glue입니다. 주로 데이터 통합 및 ETL(Extract, Transform, Load) 서비스를 담당하고 있죠.

주요 기능으로는, 데이터 카탈로그 생성 및 관리 / 자동화된 ETL 작업 실행 / 데이터 스키마 자동 감지 /데이터 크롤링을 통한 메타데이터 수집을 담당하고 있습니다.

즉,  다양한 소스의 데이터를 수집하고 변환하여 분석 가능한 형태로 만드는 용도로 사용됩니다. 이렇게 변환된 데이터들을 저장하는곳이 DataLake라고 보시면됩니다.

다음으로 AWS DataZone입니다.데이터 거버넌스와 공유를 위한 서비스를 담당하고 있죠.

주요 기능으로는, 데이터 카탈로그 검색 및 발견 / 데이터 접근 권한 관리 / 비즈니스 용어집(Business Glossary) 관리 / 데이터 공유 및 협업 환경 제공을 맡고 있습니다. 조직 전체의 데이터 자산을 관리하고 안전하게 공유하는 역할을 한다고 보시면 됩니다.

위 3가지 서비스의 관계를 요약해보겠습니다.

  • Glue가 데이터를 수집하고 변환하면,
  • Lake Formation이 이를 저장하고,
  • DataZone이 이 데이터들을 조직 내에서 쉽게 찾고 공유할 수 있게 해주는 과정을 통해 데이터의 가치를 높이게 됩니다.

위 프레젠테이션 하나로 모든것이 설명이 됩니다.

  1. 데이터 소스 단계
    • Amazon S3, Redshift, RDS, AppFlow 등 AWS 서비스들
    • 써드파티 소스들도 포함
    • ** 이것들이 모든 데이터의 출발점입니다

  2. AWS Glue 데이터 크롤러 단계
    • 데이터 생산자들이 스키마 관리를 자동화
    • 다양한 소스에서 데이터 구조를 자동으로 파악하고 정리

  3. AWS Glue 데이터 카탈로그 단계
    • 데이터 생산자들이 데이터를 발견하고 활용
    • 수집된 데이터의 메타데이터를 관리

  4. Amazon DataZone 카탈로그 단계
    • 데이터 생산자들이 여러 계정과 리전에 걸쳐 데이터를 공유
    • 분산된 소유권 관리 가능

  5. 최종 사용자 단계
    • 데이터 소비자들이 셀프서비스로 데이터를 찾고 사용
    • 분석 도구를 통해 데이터 활용

이 모든 과정이 두 가지 사용자 관점으로 나뉘면서 데이터의 가치는 필요한 자에게 가치가 매겨져 거래가 가능하게 된다는 것입니다.

  • 기술 사용자(Technical Users): 데이터 파이프라인을 구축하고 관리 (데이터 판매자)
  • 비즈니스 사용자(Business Users): 최종적으로 데이터를 분석하고 활용 (데이터 소비자)

위 두 기술사용자(Data Owner)와 비즈니스 사용자(Business Users) 가 있다고 가정합니다.

위 처럼 SageMaker 서비스 안에 Owner는 본인이 가지고 있는 데이터들을 구독할 수 있게 올리고, 비즈니스 사용자는 자신의 입맛에 맞게 원하는 데이터를 골라 ‘구독’함으로써 해당 데이터를 비용을 내면서 활용할 수 있게 시장이 구성되는 것입니다.

이렇게 처음엔 아무가치도 없는 데이터들도 사용자의 입맛에 맛게 분류가 되고 가공이 되어진다면 돈을 내고 살 수 있는 가치있는 데이터로 바뀌는 것입니다.

결론

이번 발표를 들으며 들은 생각은, 데이터는 더 이상 기술적 자산이 아닌 모든 비즈니스 의사결정의 핵심이 되어가고 있다는 것입니다.

AWS의 데이터 카탈로깅 시스템은 기술과 비즈니스를 맺어주는역할을 하며, 이는 세션 제목과 같이 진정한 데이터 민주화의 시작점이 될 것으로 보여집니다. 특히 기술 사용자와 비즈니스 사용자 간의 명확한 역할구분은 각자의 전문성을 극대화하면서도 협업을 촉진하는 새로운 작업방식으로 생각됩니다.

방대한 데이터의 바다에서 길을 잃지 않고, 필요한 인사이트를 효율적으로 발견하고 활용할 수 있도록 올바른 길을 제시한 세션이라는 점에서 감명 깊었습니다.

글 │메가존클라우드, MSC, Finance Team, 안영건
게시물 주소가 복사되었습니다.