[reinvent 2024] Amazon S3 Glacier 스토리지 클래스로 콜드 데이터의 가치를 극대화하세요.

Summary

Amazon S3 Glacier 스토리지 클래스를 활용하여 비용 효율적으로 데이터 보관소를 현대화하고, 값 비싼 테이프 드라이브나 온프레미스 보관에 대한 걱정을 없애는 방법을 알아보세요. 이 세션에서는 페타바이트 규모의 데이터를 저장하고 복원하며, 비용과 검색 성능을 최적화하는 옵션을 다룹니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Maximize the value of cold data with Amazon S3 Glacier storage classes
  • Date: 2024년 12월 3일(화)
  • Venue: MGM Grand | Level 1 | Grand 120
  • Speaker:
  • Gayla Beasley(Sr. Technical Program Manager, Amazon Web Services)
  • Andrew Pohl(Sr. Manager, Product S3, AWS)
  • Industry: –

들어가며

이번 AWS 기술 세션에 참석한 이유는 데이터 보관 및 비용 효율성의 중요성이 점점 커지고 있는 상황에서, 최근 담당하는 프로젝트 중 일부 어카운트에서 콜드 데이터의 관리 방안에 대하여 논의된 적이 있어 관심을 가지고 신청하게 되었습니다. Amazon S3 Glacier는 스토리지 클래스를 활용하여 콜드 데이터를 효과적으로 관리하는 방법과 이를 통하여 비용을 줄이고 데이터의 가치를 극대화할 수 있는 방안을 배울 수 있을 것이라 기대하였습니다.

특히, 데이터 수명 주기 관리와 복구 방식에 대한 실질적인 사례를 통해 인사이트를 얻고자하여 신청하게 되었습니다.

Cold Data의 중요성

Cold Data는 분기마다 한 번 이하로 접근하는 데이터를 지칭하는데요, 전 세계 데이터의 약 70~80%는 Cold Data로 분류되며, 장기적으로 보존이 필요합니다. Cold Data를 저장하는 주요 목적은 다음 세 가지 입니다.

  • 보존(Preservation) : 미래 가치를 고려해 저장하는 데이터 (ex. 비디오, 이미지)로 이는 미디어 파일, 데이터 레이크 안의 과거 데이터 등 장기적 활용 가능성이 있는 데이터를 포함합니다.
  • 백업(Backup) : 데이터 복구를 대비한 저장으로, 복구 시간 목표를 충족하면서 데이터를 보관해야 합니다.
  • 규정 준수(Compliance) : 법적 요구사항에 따른 장기 보관 데이터로, 5년 이상 혹은 영구적으로 데이터를 저장해야하는 경우가 있습니다.

Amazon S3에서 Cold Data 저장

AWS S3는 다양한 스토리지 클래스를 제공하여 데이터 접근 빈도에 따라 최적화된 비용으로 데이터를 저장할 수 있습니다. 주요 스토리지 클래스는 다음과 같습니다.

  • Glacier Instant Retrieval : 즉각적인 데이터 접근이 필요한 경우, 의료 이미지나 사용자 생성 콘텐츠 저장에 적합합니다.
  • Glacier Flexible Retrieval : 복원 시간이 몇 분에서 몇 시간까지 소요되지만 비용 효율적으로, 대량 복원 옵션을 무료로 제공되고 있습니다.
  • Glacier Deep Archive : 장기 보관용 스토리지 클래스로 가장 저렴한 옵션이며, 데이터 접근 빈도가 매우 낮은 경우에 적합합니다.

AWS는 데이터를 덜 접근하게 되면 S3의 다양한 Cold Data 저장 클래스로 옮길 것을 권장합니다. 이는 데이터 접근 빈도가 줄어들수록 저장 비용은 감소하되 접근 비용은 증가하는 트레이드오프를 활용하는 방식입니다.

데이터 수명 주기 관리 및 비용 최적화

Amazon S3 Lifecycle 기능을 활용하면, 데이터의 접근 빈도 감소에 따라 자동으로 저장 클래스를 전환할 수 있습니다. 예를 들어, 데이터를 생성한 후 90일 동안은 Glacier Instant Retrieval에 저장하고, 이후 180일 째에는 Glacier Deep Archive로 이동하는 방식으로 비용을 절감할 수 있습니다.

AWS는 S3 Storage Lens와 Storage Class Analysis를 통해 데이터 접근 패턴을 분석할 수 있는 도구를 제공합니다. 이를 활용하면 데이터의 사용 패턴을 파악하여 적절한 수명 주기 정책을 설정할 수 있습니다. 또한, 수명 주기 만료(Lifecycle Expiration)을 사용하여 특정 기간 이후 데이터를 자동으로 삭제하여 저장 비용을 더욱 줄일 수 있습니다. 이러한 기능은 장기적으로 데이터가 불필요해지는 시점까지 완전한 데이터 관리 정책을 설정할 수 있습니다.

  • 객체 크기(Object Size) : 큰 객체 일수록 빠르게 비용 절감 가능하며, 객체 크기가 클수록 손익분기점까지의 시간이 단축됩니다.
  • 버킷 접두사 및 태그 : 데이터 구조에 따라 접두사나 태그를 기반으로 정책 적용 가능합니다.
  • 객체 크기 필터 : 기본적으로 128KB 이하의 객체는 전환되지 않으며, 큰 객체를 중심으로 전환하면 비용 절감 효과가 높습니다.

Amazon S3 Glacier 에서의 데이터 복원

Glacier 스토리지에서 데이터 복원은 다음 3단계의 절차로 진행됩니다.

  1. 복원 요청 시작 : 복원 시간과 비용 요구에 따라 긴급 복원, 표준 복원, 대략 복원 옵션 중 선택 가능합니다.
  2. 복원 완료 확인 : 복원 상태는 S3 콘솔, CLI 명령어, API, 또는 S3 이벤트 알림을 통해 확인 가능합니다.
  3. 복원된 데이터 접근 : 복원된 데이터는 S3 Standard에서 임시로 저장되며, 기존 S3 API로 접근 가능합니다.

복원 속도에 따라 다음 옵션을 선택할 수 있습니다.

  • 긴급 복원 (Expedited Restore) : 1~5분 이내 복원합니다. 
  • 표준 복원 (Standard Restore) : 몇 분에서 5시간 이내 복원됩니다.
  • 대량 복원 (Bulk Restore) : 5~12 시간 이내 복원되며, 가장 비용 효율적입니다.

AWS는 초당 최대 1,000개의 복원 요청을 처리할 수 있는 배치 작업 (Batch Operations)을 지원합니다. 이 기능은 대규모 데이터를 효율적으로 복원하며, 작업 실패 시 자동 재시도와 완료 보고서를 제공합니다.

고객 사례로는 Deluxe와 같은 미디어 회사가 배치 작업을 활용하여 데이터 복원 프로세스를 간소화하고 비용을 절감한 예시가 있습니다. Deluxe는 복원 속도를 몇 시간에서 몇 분 단위로 단축하며 비용 효율성을 극대화하였습니다.

또한, 복원된 데이터는 기본적으로 임시 저장되므로, 필요 시 데이터를 다른 버킷으로 이동하거나 새로 저장하여 장기 보관 정책을 설정할 수 있습니다.

Cold Data 가치 극대화 주요 요점

해당 세션을 마무리하면서 Cold Data의 가치를 극대화하는데 있어 중요한 요점을 정리하자면 아래와 같습니다.

  1. Amazon S3 Glacier를 통해 저렴한 비용으로 데이터를 보존합니다.
  2. 데이터 검색의 요구 사항에 따라 알맞은 스토리지 클래스를 선택합니다.
  3. Cold Data를 사용하여 가치를 창출하는 방법을 찾습니다.
  4. S3 Batch 작업을 사용하여 대규모 복원 작업을 최적화합니다.

결론

이번 세션을 통해 Amazon S3 Glacier를 활용한 Cold Data 관리의 중요성과 구체적인 방법론에 대하여 배울 수 있었습니다. 특히, 데이터 접근 빈도와 복구 시간에 따라 최적의 스토리지 클래스를 선택하여 비용을 절감할 수 있는 점이 인상 깊었습니다.

AWS 고객 사례(Canva, NASCAR, Deluxe 등)를 통해 실제로 적용 가능한 전략을 확인하며, 정기적인 데이터 관리 계획 수립의 필요성을 느꼈습니다. S3 Lifecycle 및 배치 작업과 같은 자동화 기능을 활용하여 데이터 저장 및 복원 과정을 단순화하고 비용 효율성을 높일 수 있는 점에 인상 깊었으며, 데이터 접근 패턴 분석 도구를 통하여 데이터를 보다 체계적으로 관리할 수 있는 방법을 배울수 있었습니다.

이번 세션 내용에서 배운 내용을 토대로 Glacier Deep Archive와 같은 저비용 스토리지 클래스를 더 적극적으로 활용하여 데이터 저장 비용을 최소화하는 동시에, AI/ML과 같은 새로운 데이터 활용 기회를 찾아, 데이터 저장과 활용의 균형을 맞추어 실무에 반영할 것을 기대하고 있습니다.

글 │메가존클라우드, Enterprise Managed Service Center (EMS),  Cloud Engineer 6 Team, 원민지
게시물 주소가 복사되었습니다.