[reinvent 2024] Amazon Opensearch Service로 효율성을 극대화하고 비용을 절감하세요

Summary

이번 세션에서는 Amazon OpenSearch Service 배포를 최적화하여 사용자 경험을 향상하고 비용 효율성을 높이는 방법에 대해 다룹니다. 운영 관리, 라이선스, 네트워킹, 데이터 분배와 같은 주요 비용 요인을 살펴보고 Hot, UltraWarm, Cold 스토리지 및 Amazon S3와의 통합과 같은 적합한 스토리지 옵션을 선택하는 방법을 배울 수 있습니다. 또한, AWS Graviton 프로세서나 OpenSearch Service OR1 인스턴스를 활용하여 인프라를 최적화하는 방법도 확인할 수 있습니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Maximize efficiency and reduce costs with Amazon OpenSearch Service
  • Date: 2024년 12월 2(월)
  • Venue: Mandalay Bay
  • Speaker:
  • Kevin Fallis(Principal OpenSearch Specialist SA, Amazon Web Services)
  • Hajer Bouafif(Sr. WW SSA OpenSearch, AWS)
  • Industry: –

들어가며

해당 세션은 OpenSearch 프로비저닝과 서버리스의 효율성을 높이는 동시에 비용최적화를 다루는 세션입니다.

Opensearch는 주로 실시간 분석에 사용되기 때문에 고객사분들의 비용에 대한 부담을 미팅을 통해 항상 접해왔습니다.

이번 세션을 통해 비용을 어떻게 하면 절감할 수 있는지 또 어떻게 하면 효율적으로 구성을 선택할 수 있는지 인사이트를 얻기 위해 신청하게 되었습니다.

Opensearch overview

먼저 OpenSearch에 대해 간략하게 알아보겠습니다.

OpenSearch는 Apache 2.0 라이선스 사용하는 오픈소스 플랫폼이며 AWS에서 관리형 버전을 제공하고 있고, 확장성, 보안성, 가용성을 지원하는 서비스 입니다. Amazon OpenSearch는 서버리스 서비스도 제공하고 있는데요. 인스턴스 프로비저닝 없이 OpenSearch를 사용할 수 있는 솔루션이고 OpenSearch 내부 지식(샤딩, 인덱싱 등)이 거의 필요하지 않아 간편한 운영이 가능합니다.

다음은 TCO에 대한 설명입니다.

검색이나 로그 분석 워크로드를 구축할 때는 총 소유 비용(TCO)을 고려하는 것이 중요한데  AWS가 확장성, 가용성, 보안, 서비스 규정 준수를 책임지는 동안, 사용자는 컴퓨팅 및 스토리지 요구 사항, 사용 패턴, 쿼리 유형 등 주요 요소들을 신중히 검토해야 한다고 합니다. 이어지는 설명에서는 이러한 요소들을 각 워크로드에 맞게 최적화하고 비용 효율성을 높이는 방법에 대해 알아보겠습니다.

Vector 워크로드에서의 Opensearch 비용 최적화

벡터 검색 작업의 비용을 최적화하기 위해 K-NN 검색 방식에 대해 알아보겠습니다.
K-NN 검색은 두 가지 주요 방식으로 나뉘어 집니다.

  • Exact K-NN
    입력한 쿼리 벡터를 데이터셋의 모든 벡터와 비교하여 높은 정확도를 제공합니다. 하지만 대규모 데이터셋에서는 검색 속도가 느려질 수 있는 단점이 있습니다.

  • Approximate K-NN
    IVF, HNSW와 같은 알고리즘을 활용하여 검색 속도를 크게 개선합니다. 다만 이 방식은 정확도가 약간 낮아질 가능성이 있습니다.

그래프를 참고해서 전반적 비용에 대해 살펴볼 수 있습니다. 모든 접근 방식은 사용 사례에 따라 이점이 다르므로 비용, 속도, 정확도를 균형 있게 고려해 최적의 선택이 필요할듯합니다.

Opensearch Serverless 최적화

다음으로는 Opensearch serverless 접근 방식에 대해 살펴보겠습니다.

OpenSearch Serverless는 컴퓨팅 계층과 스토리지 계층을 분리한 아키텍처를 기반으로 작동하며, 스토리지는 Amazon S3를 기반으로 동작합니다. 또한, 로그 분석, 텍스트 검색, 벡터 검색에 최적화된 세 가지 컬렉션 유형을 제공하여 다양한 워크로드를 효율적으로 처리할 수 있습니다.

위와 같은 컬렉션 유형을 통해 인프라, 인덱싱 등의 전략이 최적화되어 비즈니스에 더 집중할 수 있는 환경을 제공하고  워크로드에 따라 자동으로 확장 및 축소되며, 최대 500 OCU를 지원하여 효율적인 리소스 관리를 가능하게 합니다.

고객들은 주로 OpenSearch에 데이터를 신속하게 제공하는 데 어려움을 겪고 있으며 라이센스 툴에 의존할 경우 아키텍처 설계에 제한이 발생할 수 있는데  이러한 문제점을 해결하기 위해 Opensearch 에서는 다양한 데이터 소스와 통합되는 완전 관리형 서비스인 Amazon OpenSearch Ingestion Service를 제공하여 데이터 수집의 부담을 덜어주고 안전하고 신뢰할 수 있는 데이터 수집 파이프라인을 제공합니다.

해당 서비스를 이용함으로써 엔지니어링에 시간을 더 집중할 수 있고 팀은 비즈니스에 더 집중할 수 있습니다.

다음으로는 Opensearch managed 서비스로 비용을 최적화 하는 방법에 대해 살펴보겠습니다.

Amazon OpenSearch OR1 인스턴스는 데이터 복제를 효율적으로 개선하는 새로운 방식을 제공합니다.

데이터는 기본 샤드에만 인덱싱되며, 새로 생성된 세그먼트는 Amazon S3에 저장됩니다. 복제 샤드에 데이터를 재인덱싱하는 대신, S3에서 새로 인덱싱된 데이터를 가져오는 방식으로 처리합니다. 또한, OR1 인스턴스는 데이터뿐만 아니라 클러스터 구성을 S3에 저장하여 장애 발생 시 빠른 복구를 지원합니다. 이러한 접근 방식은 시스템의 복원력과 안정성을 크게 향상시킵니다.

Opensearch service 비용 최적화

현재 서버리스 서비스가 매우 큰 워크로드에 모든 기능을 지원하지 않기 때문에 프로비저닝 환경에서 비용을 최적화를 어떻게 할 수 있는지에 대해 살펴보겠습니다.

대부분의 경우 EC2 인스턴스에서 서비스를 제공하며, Intel Xeon과 Graviton 칩을 선택할 수 있습니다.
고용량 로그 처리 작업에는 주로 R 시리즈 인스턴스(R5, R6, R7 등)가 활용됩니다. 이 인스턴스들은 CPU 대비 메모리 용량이 크기 때문에 로그와 벡터 처리에 적합합니다.또한, 대용량 핫 데이터 작업에는 I 시리즈 인스턴스를 사용하여 비용 절감 효과를 보실 수 있습니다.
일반적인 용도로는 M 시리즈 인스턴스를 활용하며, R 시리즈 인스턴스에서 클러스터를 확장하지 않고도 더 많은 CPU를 확보하려는 경우에 유용합니다.

다음은 예약 인스턴스에 대한 내용입니다. 예약 인스턴스를 사용하면 비용 절감 효과를 누릴 수 있으며, 특히 선불이 없는 옵션이 많은 인기를 얻고 있습니다. 1년 예약 인스턴스는 최대 31%, 3년 예약 인스턴스는 최대 48% 의 비용 절감 효과를 제공하며, 부분 선불 옵션을 선택할 경우 추가적인 비용 절감도 가능합니다.

결론

해당 세션을 통해 워크로드에 따른 OpenSearch의 비용 절감 방안을 살펴보고, 인스턴스 구성부터 데이터 수집 서비스까지 다양한 정보를 얻을 수 있는 유익한 시간이었습니다. 각 기업마다 요구되는 워크로드가 다양하기 때문에, 이번 세션에서 얻은 인사이트를 바탕으로 각 고객의 필요에 맞는 최적화된 솔루션을 설계하고 적용하는 데 큰 도움이 될 것 같습니다.

특히, R 시리즈 인스턴스를 활용한 대규모 로그 처리, I 시리즈를 이용한 대용량 데이터 분석, M 시리즈를 통한 범용 워크로드 지원 등 다양한 선택지를 고려할 수 있었습니다. 또한, 예약 인스턴스를 활용한 비용 절감 전략과 서버리스 서비스가 지원하지 않는 기능에 대한 대안을 제시하는 방법도 실제 업무에 유용한 참고 자료가 될 것 같습니다. 이를 통해 보다 성능, 비용면에서 더 효율적인 시스템을 구축할 수 있을 뿐만 아니라, 고객의 비즈니스 요구를 충족하면서도 안정적이고 확장 가능한 환경을 마련할 수 있을 것으로 기대됩니다.

글 │메가존클라우드, Cloud Technology Center(CTC), Cloud Data SA 팀, 이민정 SA
게시물 주소가 복사되었습니다.