[reinvent 2024] AWS 스트리밍을 이용한 Iceberg 테이블에 스트리밍 데이터 수집

Summary

오늘날 데이터 기반의 세계에서 모니터링과 로그 분석은 신뢰성을 보장하고 성능을 개선하며 문제를 효율적으로 해결하는 데 필수적입니다. 이번 세션에서는 Amazon OpenSearch Service가 제공하는 향상된 observability을 활용해 안정성을 높이는 방법을 알아봅니다. 분산 추적, 실시간 메트릭 수집, 맞춤형 대시보드 등의 기능을 소개합니다. 또한, 세분화된 액세스 제어, 암호화, 감사 로깅과 같은 OpenSearch Service 보안 기능을 활용해 데이터를 보호하고 규정을 준수하는 방법을 배울 수 있습니다. 이와 함께 성능 최적화, 데이터 인프라 보안, OpenSearch Service 클러스터 관리에 대한 실질적인 인사이트를 얻어 애플리케이션을 원활하고 효율적으로 실행할 수 있는 방법을 제공합니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Enhance performance with observability, security, and log analytics
  • Date: 2024년 12월 3일(화)
  • Venue: Caesars Forum
  • Speaker:
  • Muhammad Ali(Principal OpenSearch SSA, AWS)
  • Pavani Baddepudi(Principal Product Manager, Amazon)
  • Industry: –

들어가며

이번 칼럼에서 다룰 세션은  Amazon OpenSearch의 기존 기능과 새로운 기능이 애플리케이션의 성능과 신뢰성을 최적화하는 데 어떻게 도움을 줄 수 있는지에 대해 알아보는 세션입니다.

Observability

우선 Observability에 대해 알아보겠습니다. Observability 플랫폼은 애플리케이션의 동작을 이해하고  실패 시 원인을 신속하게 분석할 수 있는 도구를 제공합니다. 이 플랫폼은 시스템의 다양한 구성 요소에서 실시간 데이터를 수집하여, 예상치 못한 문제를 탐지하고, 문제를 조사하며, 해결책을 도출할 수 있도록 지원합니다. 이를 위해 로그, 메트릭, 트레이스와 같은 측정 데이터를 수집하고, 이를 기반으로 유의미한 인사이트를 제공합니다.

특히 OpenSearch는 오픈 소스 기반의 검색 및 분석 도구로, 대규모 원격 측정 데이터의 처리와 원인 분석에 강력한 성능을 발휘합니다. OpenSearch는 실시간 분석 및 검색 기능을 제공하며, 이러한 특성 덕분에 AWS 고객들 사이에서 널리 활용되고 있습니다. 이를 통해 기업은 실시간으로 데이터를 분석하고, 중요한 문제를 빠르게 해결하며, 더 나은 비즈니스 결정을 내릴 수 있습니다.

Observability-tool

OpenSearch는 Observability 플랫폼을 손쉽게 구축할 수 있는 강력한 도구를 제공합니다. 원격 측정 데이터를 효과적으로 수집하기 위해 OpenSearch Ingestion 서비스를 활용할 수 있으며, OpenSearch 대시보드를 사용하면 수집된 데이터를 기반으로 심층적인 분석을 수행하고, 문제의 근본 원인을 파악할 수 있습니다.

애플리케이션에서 원격 측정 데이터를 수집하기 위해 에이전트라는 프로세스를 실행해야 하는데 그 중 OpenTelemetry는 로그, 메트릭, 트레이스를 지원하며 많은  Observability 플랫폼 벤더들이 이를 지원합니다.

AWS가 자체적으로 OpenTelemetry 배포판을 제공하고 있고 이 배포판은 OpenTelemetry에 추가적인 라이브러리를 더해 AWS 서비스에서 원격 측정 데이터를 수집하고 이를 AWS 서비스로 전송하는 데 도움을 주고있습니다.

이 데이터를 다루기 위해 특화된 도구인 OpenSearch 대시보드에 대해 설명드리겠습니다.

Observability-dashboard

Opensearch 대시보드는 Observability 데이터를 효율적으로 활용하고 분석할 수 있는데요, Opensearch에는 로그 및 트레이스 데이터를 다루고 원인 분석을 수행하는 데 필요한 위젯들이 미리 구성되어 있으며 드래그 앤 드롭 기능을 사용하여 새로운 visual을 만들 수 있는 기능을 제공하고 시각화가 완료되면 이를 애플리케이션에 임베드할 수 있습니다.

추가로 Alert와 Anomaly Detection도 제공하기 때문에 머신러닝 지식이 없더라도 기능으로 쉽게 설정할 수 있고

슬랙, 모바일 기기 등 다양한 경로로 이 alert을 받을 수도 있습니다.

로그를 분석할 때 수천 줄의 로그가 짧은 시간 안에 발생해서 개발자들이 빠르게 현황을 파악하기 어려운 문제점이 있는데요, 이 문제를 해결하기 위해 필터링에 더해서 머신러닝 기반의 로그 그룹화 기능을 통해 공통된 로그 패턴을 빠르게 인식할 수 있는 기능을 활용하실 수 있습니다.

이 기능을 통해 문제 발생 시 반복되는 오류가 표시되고,  문제 발생 시점을 확인하고, 오류 분포를 확인하실 수 있습니다. 또한 관심 있는 로그를 찾으면  그 로그의 전후 이벤트를 확인하여 문제의 원인과 결과를 파악할 수도 있습니다.

다음으로는 Opensearch 는 PPL을 개선해서 활용할 수 있는 기능입니다.

Opensearch 는 PPL이라는 강력한 프로세싱 언어로 필터링, 메트릭 계산, KPI 추적 등을 지원하지만, 자연어 쿼리 기능도 추가로 제공하여 사용자가 영어로 로그에 대한 질문을 하면 자동으로 PPL 코드를 생성해줍니다. 이를 통해 OpenSearch와 대화하듯 원하는 로그를 찾아보실 수 있습니다.

Observability-security

많은 고객분들이 OpenSearch 서비스를 사용하여 보안 로그를 모니터링하시고 있는데요, OpenSearch 서비스는 내장된 보안 분석 도구와 위젯을 통해 이상한 액세스 패턴, 유효하지 않은 로그인, 또는 보안 위협을 감지할 수 있습니다.

또한 OpenSearch 서비스는 민감한 데이터를 암호화 및 보호하며, 다양한 규정(HIPAA, FedRAMP, SOC..)을 준수하는 강력한 보안 기능을 제공합니다.

What’s New

새로운 기능으로는 클러스터, 도메인, 콜렉션을 하나의 view로 볼 수 있는 Opensearch 대시보드 통합 ui가 있습니다. 그리고 이 대시보드를 하나의 애플리케이션으로 통합하려면 이를 체계적으로 정리할 방법이 필요한데 이를 지원하기 위해 최근에 WorkSpaces가 출시되었습니다

WorkSpaces를 활용하면 팀별로 대시보드를 체계적으로 정리하고, 필요한 항목을 쉽게 찾을 수 있게하여 업무에 효율성을 높이실 수 있습니다.

결론

해당 세션에서는 Observability가 무엇인지, 이를 지원하는 툴과 기능, 대시보드, 그리고 새로운 기능들에 대해 다뤘습니다. 특히 데이터 수집 시 주로 사용되는 Open Telemetry,  alert 기능, NLQ, 보안 요소, 그리고 새롭게 추가된 대시보드 통합 UI를 통해 OpenSearch를 활용할 때 더욱 효율적이고 체계적인 운영 방안을 모색할 수 있었습니다.

이번 세션을 통해 Observability의 중요성을 다시 한번 느낄 수 있었고, OpenSearch가 제공하는 다양한 기능들을 실제 업무에 어떻게 적용할지에 대한 구체적인 아이디어를 얻을 수 있었습니다.

글 │메가존클라우드, Cloud Technology Center(CTC), Cloud Data SA 팀, 이민정 SA
게시물 주소가 복사되었습니다.