[reinvent 2024] 최신 데이터 전략으로 고객을 더 잘 이해하세요

Summary

우리는 그 어느 때보다 많은 데이터를 생산하고 있을 뿐만 아니라 소셜 미디어 플랫폼과 다양한 디바이스에 부착된 센서와 같은 다양한 소스에서 스트리밍되는 실시간 데이터도 생산하고 있습니다. 이러한 데이터는 구조화된 형태와 비구조화된 형태로 제공됩니다. 이 세션에서는 데이터를 저장, 액세스, 변환, 분석 및 예측할 수 있는 완전한 데이터 솔루션을 구축하는 데 필요한 AWS 서비스를 살펴봅니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Understand your customers better with a modern data strategy
  • Date: 2024년 12월 2일(월)
  • Venue: Mandalay Bay | Level 3 South | South Seas A
  • Speaker: Marco Tamassia(AWS Principal Technical Instructor, Amazon Web Services)
  • Industry: –

들어가며

데이터를 관리하는 방법에 대해 기본적으로 알고있더라도 AWS 기능들을 활용하여 효율적이고 구체적으로 관리할 수 있는 부분에 대해 알아보고 싶었습니다. 이번 세션을 통해 다양한 데이터를 분석하고 관리하는 방법에 대해 구체적인 소개가 있을것으로 기대하며 업무에 잘 활용될 수 있기를 희망했습니다.

Data lake및 Modern Data에 대한 소개

이번 세션을 통해 Data Lake의 전반적인 개요 및 데이터를 저장, 액세스, 변환, 분석 및 예측할 수 있는데 사용되는 AWS 리소스를 소개드리고자 합니다.

Data Lake란 무엇일까요?

Data Lake는 방대한 양의 데이터를 원시 데이터 그대로 저장할 수 있는 중앙 저장소를 의미합니다.  

오늘날 회사가 비즈니스를 운영하다보면 대규모의 데이터, 이기종 데이터를 발견하게 되고 그 데이터는 중앙 집중화된 영역인 Data Lake에 수집됩니다. 

Data Lake는 구조화된 데이터(관계형 데이터베이스 테이블), 반 구조화된 데이터(JSON, XML), 비 구조화된 데이터(이미지, 동영상, 로그 파일 등)를 포함한 모든 형태의 데이터를 저장할 수 있습니다.

이후 데이터는 카탈로그화되고 변환되며 분석되고 분석 결과를 통해 시각화하게 됩니다. 

Modern data strategy용어를 알고 있으신가요?

AWS는 데이터 분석과 관련해 제시하는 접근 방식을 “Modern data strategy”이라고 부릅니다.

이 전략은 데이터를 효율적으로 다루고 이를 통해 더 나은 비즈니스 의사결정을 내릴 수 있도록 돕는 것을 목표로 합니다.

아래 사진은 Data lake의 “Modern data strategy”를 보여줍니다

첨부한 사진을 보시면 Data Lake에 중심에 두고 그 주변에 다양한 기술과 역할을 배치한 형태를 볼 수 있습니다.

위 사진과 아래 첨부한 사진을 비교해서 보게 보시면 Data Lake를 중심에 두고 역할에 따른 AWS 리소스를 비교 확인하실 수 있습니다.

두 사진의 대칭 된 리소들을 정리해드리면 아래와 같습니다.

  • Big data : Amazon EMR
  • 관계형 데이터베이스 : Amazon RDS / 비관계형 데이터베이스 : Amazon Dynamo DB
  • Log analytics : Amazon Opens Search Service 
  • Machine learning : Amazon SageMaker
  • Data warehousing : Amazon Redshift

Data lake의 기능 및 이점

그렇다면 Data lake의 주요 기능및 이점은 무엇이 있을까요? 이어서 기능 및 이점에 대해 소개해드리겠습니다.

아래 사진을 통해 Data Lake가 제공하는 데이터 기능을 살펴볼 수 있습니다.

주요 기능으로 아래와 같이 간략히 설명드릴 수 있습니다.

1) 데이터 수집: 다양한 소스로부터 데이터를 수집하고 Data Lake로 통합할 수 있습니다.

2) 스토리지 최적화: AWS 스토리지 계층을 활용하여 대량의 데이터를 저장하고 성능을 유지시켜 줍니다.

3) 보안 및 거버넌스: 데이터 접근 제어와 보안 정책을 통해 데이터를 보호합니다.

4) 데이터 공유: Data Lake내 데이터를 손쉽게 공유하고 접근할 수 있도록 지원합니다.

Data lake의 이점으로는 아래와 같이 정리할 수 있습니다.

  1. 모든 데이터를 오픈 포맷으로 저장하여 데이터 이동 및 호환성을 높이고 여러 도구에서 활용 될 수 있습니다.
  2. 비용 효율적으로 스토리지를 엑사바이트까지 확장합니다.
  3. Data Lake의 스토리지 계층과 다양한 계층을 분리하여 스토리지와 컴퓨팅을 독립적으로 확장할 수 있게 합니다. 
  4. 다양한 AWS 분석 및 머신러닝 도구를 사용하여 데이터를 활용할 수 있습니다.
  5. 데이터를 복사하거나 이동하지 않고도 AWS에서 집적 처리가 가능합니다.

위에서 소개해드린  기능 및 이점 외 아래 사진을 통해  AWS Data lake에서 데이터 관리, 이동, 분석, 활용을 지원하는 다양한 AWS 서비스를 볼 수 있습니다.

Data lake의 AWS 기능 활용 소개

다음으로는 Data Lake에서 어떻게 데이터를 중앙에서 관리하고 필요에 따라 다양한 AWS 기능들을 사용하여 데이터를 처리 및 분석하는지 설명드리도록 하겠습니다.

Data Lake는 단일 서비스가 아니라 여러 서비스의 조합으로 구성되며 아래 첨부된 사진처럼 AWS에서는 Data Lake의 스토리지 계층을 Amazon S3가 담당합니다.

Amazon S3는 Data Lake의 스토리지 계층으로 백업, 웹 애플리케이션의 콘텐츠 저장, 정적 웹사이트 저장 등 다양한 용도로 사용할 수 있습니다. S3외 중심 서비스로는 사진에서 보시는 것처럼 Amazon Athena, AWS Glue, AWS Lake Formation을 정의 할 수 있습니다. 

이어서 연결된 AWS 서비스에 대해 소개드리겠습니다.

연결된 서비스에는 RDS, DynamoDB, Redshift, EMR, OpenSearch Service, SageMaker가 있습니다.

1) Amazon RDS

관계형 데이터베이스(RDS)는 트랜잭션 일관성을 보장하며 높은 일관성이 필요한 애플리케이션에 적합합니다.

AWS RDS는 다양한 엔진을 지원하며 자동 백업, 패치 관리 등을 제공하며 이를 통해 데이터베이스 관리의 부담을 줄이고 데이터에 집중할 수 있습니다.

2) DynamoDB

DynamoDB는 Key-Value 데이터 모델을 사용하는 비관계형 데이터베이스 서비스로 높은 확장성과 성능을 제공합니다.  DynamoDB는 서버리스 서비스로 인프라 관리를 신경 쓸 필요 없이 사용할 수 있습니다.

S3와의 통합을 통해 데이터를 쉽게 이동하고 쿼리할 수 있게 해주며 이를 통해 데이터의 이동 없이도 다양한 분석 작업을 수행할 수 있습니다.

3) Amazon Redshift

Amazon Redshift Spectrum을 사용하면 Redshift 클러스터에서 S3에 저장된 데이터를 직접 쿼리할 수 있습니다.

이를 통해 데이터 이동 없이도 대규모 데이터를 분석할 수 있습니다.

4) Amazon EMR

Apache Hadoop과 Apache Spark는 AWS EMR을 통해 완전 관리형 또는 서버리스로 제공됩니다.

이 서비스를 사용하면 클러스터를 직접 관리하지 않고도 대규모 데이터 처리 작업을 수행할 수 있으며 서버리스 클러스터를 사용하면 작업이 끝난 후 클러스터를 자동으로 종료하여 비용을 절감할 수 있습니다.

5) OpenSearch Service

로그, 검색, 애플리케이션 모니터링을 위한 실시간 데이터 검색 및 분석 기능을 제공합니다.

6)  SageMaker

S3에 있는 데이터를 머신 러닝에 사용하고 싶다면 SageMaker로 이동시키거나 데이터를 데이터 웨어하우스로 복사하여 분석에 사용할 수 있습니다.

이로서 Data Lake에 대한 기능과 특징, 이를 통한 데이터를 어떻게 저장하고 변환하고 분석 및 예측할 수 있는지 연결된 AWS 리소스에 대한 간략한 소개를 드렸습니다.

결론

이 세션을 통해 Data Lake 및 모던 데이터 전략이란 무엇인지, 다양한 AWS 기능들을 활용하여 어떻게 대규모 데이터를 처리 하고 분석하는지 배울 수 있었습니다. AWS 데이터를 어떻게 체계적으로 관리하고 분석할 수 있고 다양한 리소스와 어떻게 결합되는데 초점으로 집중하여 세션을 청취했던것 같습니다. 다소 생소하고 알기 어려운 내용이었지만 간접적으로나마 흐름을 배울 수 있었고 AWS에서 데이터를 수집하고 분석하는데 이토록 구조적으로 잘 되어 있구나 라는 생각을 다시 한번 느끼게 되었습니다.

글 │메가존클라우드, Managed & Support Center (MSC), 국지수 매니저
게시물 주소가 복사되었습니다.