[reinvent 2025] GenAI, 폐기물 처리: H2O가 저장 병목 현상을 해결한 방법
Summary
H2O.ai는 Datafy의 자율 스토리지 확장 기능을 활용하여 AI 워크로드의 급속한 성장을 지원하는 방법을 소개합니다.
Overview
들어가며
Datafy의 H2O.ai가 EBS 낭비를 줄이고, 성능을 유지하며, 원활하게 확장하는데 어떻게 도움을 주었는지, 그리고 이 모든 것이 다운타임 없이 거의 즉각적인 배포로 이루어졌는지 알아봅니다.

H2O의 탄생의 배경
스토리지 문제:
데이터를 훈련할 때 2페타바이트(petabytes) 이상의 스토리지를 사용했으며, 이 용량은 매우 빠르게 증가하고 있었습니다.
비효율성:
확장 및 축소가 원활하지 않았고, 클라우드 스토리지를 효율적으로 사용하지 못해 많은 스토리지를 낭비했습니다.
기존 해결책의 어려움:
오래된 EBS 스토리지에서 새로운 EBS 볼륨으로 데이터를 마이그레이션해야 했기 때문에 매우 힘들고 어려운 과정이었습니다.

Data Fi의 솔루션 소개 및 통합
Data Fi의 솔루션:
Data Fi는 H2O가 직면한 문제들을 해결하기 위해 설계된, 클라우드 스토리지를 자율적으로 관리하는 자율 스토리지 OS인 DA Fly를 제공했습니다.
솔루션의 기능:
Data Fi는 EBS 용량을 애플리케이션에 다운타임이나 성능 영향 없이 자동으로, 무한정 확장 및 축소할 수 있게 했습니다. 또한, 기존 스택에 변경 없이, 쿠버네티스, Terraform 등과 원활하게 통합되었습니다.
협업 과정의 해결:
H2O는 Data Fi 에이전트가 BottleRocket 인프라에서 실행되도록 했으며, 데이터가 EKS 클러스터를 벗어나지 않도록 하여 보안을 유지하고, 기존 백업 솔루션인 Velero를 계속 사용할 수 있도록 통합했습니다.

Data Fi와의 협업 및 도전 체계
비효율적인 초기 상태:
Data Fi 배포 전, H2O는 총 2페타바이트의 용량을 프로비저닝했지만, 실제 데이터는 0.5페타바이트에 불과하여 용량 사용률이 25%에 그쳤습니다.
최적화의 전환:
Data Fi의 자동 확장/축소 기능을 통해 용량 사용률은 목표치인 80% 수준으로 안정화되었습니다.

비용 절감 효과:
H2O가 EBS에 지불하는 용량(파란색 선)은 지속적으로 감소하여 기존 2페타바이트 대신 1페타바이트 미만에 대한 비용만 지불하게 되어 상당한 비용을 절감했습니다.
결론
H2O는 Data Fi 솔루션을 모든 클러스터에 성공적으로 배포했으며, EBS 비용 절감은 물론 고객에게 더 나은 성능까지 제공할 수 있었습니다.
가장 중요한 성능은 다운타임이 전혀 없었다는 것입니다. Data Fi 에이전트가 배포된 후, 스위치 하나만 켜는 것으로 수동 개입 없이 즉시 스토리지 비용 절감 효과를 보기 시작했습니다.




