[reinvent 2024] AWS 분석 분야의 혁신: 데이터 처리

Summary

이번 세션에서는 AWS 분석 서비스를 활용해 데이터 처리를 최적화할 수 있는 새로운 기능들을 심도 있게 다룹니다. Amazon EMR을 활용한 확장 가능한 빅데이터 처리, AWS Glue를 통한 원활한 데이터 통합, Amazon Athena를 이용한 강력한 쿼리 기능, 그리고 Amazon MWAA로 복잡한 워크플로를 지원하는 방법에 대해 배울 수 있습니다. 성능 개선, 비용 절감, 데이터 파이프라인 간소화를 목표로 한다면, 이 세션에서 최신 기능과 도구를 통해 데이터 처리 능력을 강화할 수 있는 유용한 인사이트를 얻을 수 있을 것입니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Innovations in AWS analytics: Data processing
  • Date: 2024년 12월 3일(화)
  • Venue: Caesars Forum
  • Speaker: Kinshuk Pahare(Principal Product Manager, Amazon)
  • Industry: –

들어가며

이번 칼럼에서 다룰 세션은 sagemaker 의 데이터 처리 부분과 AWS 데이터 처리 서비스의 새로 발표된 기능, 개선 사항들에 대해 다루는 세션입니다. 해당 세션에서 다루는 편리한 통합 기능들에 대해 주목하셔서 업무 효율성을 높여보시기 바랍니다.

SageMaker

 SageMaker Lake House는 Amazon Redshift의 데이터 웨어하우징 기능과 Amazon S3에서 Iceberg를 사용하는 데이터 레이크 기능을 결합하여, 데이터를 통합하는 플랫폼을 제공합니다.

Zero ETL을 사용하여 Salesforce, SAP, BigQuery, Snowflake 등 다양한 외부 서비스에 데이터를 통합할 수 있고  Apache Iceberg를 기반으로 데이터를 표준화된 인터페이스로 접근할 수 있습니다.

SageMaker Unified Studio는  public preview 제품이며 여러 데이터 처리 서비스가 통합된 플랫폼으로, 기존의 EMR, Glue, Athena, MWAA 등과 같은 검증된 서비스들을 기반으로 제공됩니다.

여러 AWS 서비스들을 하나의 환경에서 통합하여 제공하고 단일 URL을 통해 로그인할 수 있으며 모든 데이터 처리 작업을 한 곳에서 관리할 수 있습니다.SSO를 통해 기업 인증 정보를 사용하여 개별 로그인도 지원합니다. 이 방식은 각 사용자의 작업을 개인별로 추적하고 관리할 수 있게 하여, 작업의 관리가 더 용이하고 체계적으로 이루어질 수 있습니다.

Unified Studio Notebook 에 대해 살펴보겠습니다.

이전에는 EMR, Glue, Athena, SageMaker 각각의 Notebook이 별도로 제공되었지만, SageMaker Unified Studio에서는 하나의 통합 Notebook으로 모든 서비스를 사용할 수 있습니다.

Notebook을 통해 데이터 엔지니어링, 특징 추출 등 다양한 작업이 가능하며, Apache Airflow DAG 생성 및 워크플로우 관리도 지원됩니다.

Amazon Q와의 통합을 통해 코드 생성, 코드 설명, 리팩토링 등 작업을 자연어로 요청하여 자동화할 수 있습니다.

DataProcessing innovation

데이터 처리 분야의 개선 사항에 대해 설명드리겠습니다.

  • AWS에서 관리되는 Spark는 EMR 엔진에서 실행될 때 오픈 소스 Spark보다 3.9배 빠른 성능을 제공합니다.
  • Athena의 Trino 엔진은 오픈 소스 Trino 대비 2.7배 더 빠른 성능을 제공합니다.
  • Graviton3는 기본적으로 20% 더 나은 성능을 제공하며, 대규모 작업에서 비용을 줄일 수 있습니다.
  • EMR의 기존 자동 스케일링 기능을 개선하여 더 빠르게 worker를 축소할 수 있도록 개선했습니다.

Glue

Glue에서 Usage Profile을 활용해서 사용자별로 컴퓨팅 리소스 사용 한도를 설정할 수 있습니다.

기존에는 리소스 사용 후에 비용 초과를 확인하는 사후 비용 관리방식이 일반적이었으나, Usage Profile은 사전 비용 관리를 지원합니다.

사용자가 리소스 한도를 초과하려고 시도할 경우 이를 사전에 차단할 수 있습니다.

fine-grained access control

데이터 운영 측면과 보안측면에 대해 설명드리겠습니다. 

데이터 처리에 중요한 과제 중 하나는 세분화된 액세스 제어를 설정하는 것 입니다. 대규모 데이터에서 세분화된 보안 제어를 효과적으로 구현하는 것은 매우 어려운 과제입니다. 데이터 보안 정책을 강제하는 과정에서 성능 저하 및 커스텀 코드와의 충돌 위험이 존재합니다.

FGAC로 클러스터를 User Space와 System Space로 분리해서 정책 적용은 System Space에서만 이루어지며, 사용자는 여전히 자신만의 UDF 작성 및 데이터 처리 작업을 가능하게 할 수 있습니다.

Gen AI for Spark

올해 초 출시된 GenAI authoring experience 로 Spark와 SQL에서 자연어 프롬프트를 사용해 작업을 생성하는게  가능해졌습니다. 그러나 Spark 환경 에서는 한 줄의 코드로 인해 방대한 에러 로그가 발생될 수 있는데 이번 업그레이드를 통해 Generative AI Troubleshooting for Apache Spark를 이용하여 에러 로그를 빠르고 효과적으로 분석할 수 있게 되었습니다.

두 번째 업그레이드는 Spark 버전을 업그레이드시  API나 함수 호출, 데이터 타입 문제와 같은 변경이 발생하는데 데이터 엔지니어는 버전 업그레이드를 할 때마다 오류가 나면 이를 수정하고 다시 시도하는 과정을 반복해야 합니다.이를 해결하기 위해Run upgrade analysis with AI기능을 통해 업그레이드 분석을 실행하고, 발생한 오류를 자동으로 분석해 수정한 후 작업을 다시 실행하여 성공적인 결과를 도출해 줄 수 있습니다.

결론

본 세션에서는 SageMaker 데이터 통합 플랫폼,  Unified Studio, Unified Studio Notebook  및 개선사항, Spark, Athena 엔진등의 성능향상 EMR, Glue 기능 개선, Gen AI 를 활용한 Spark 환경 개선 등에 대해 다뤘습니다.
Spark 작업의 실패 원인 분석이 자동으로 이루어지는 혁신적인 기능과 고질적인 버전 업데이트 이슈에 대한 도움을 받을 수 있다는 점에서 데이터 엔지니어와 머신러닝 엔지니어들이 효율성을 크게 높일 수 있을 거라고 예상되는 세션이었습니다.

글 │메가존클라우드, Cloud Technology Center(CTC), Cloud Data SA 팀, 이민정 SA
게시물 주소가 복사되었습니다.