MLOps 환경의 스토리지 비용 최적화: Amazon FSx for NetApp ONTAP 기반 유휴 데이터 자동 정리 구축 사례
들어가며
AI 기술의 발전과 함께 고객사의 MLOps(Machine Learning Operations) 환경은 지속적으로 성장하고 있습니다. 이러한 환경에서는 ML 학습 태스크 파이프라인 개발 및 EKS Cluster/Kubeflow 관리 운영이 핵심입니다. 하지만 데이터가 기하급수적으로 누적되면서, 우리는 기존에 사용하던 스토리지 솔루션의 한계에 직면하게 되었습니다.
본 포스팅에서는 대규모 MLOps 환경에서 발생하는 ‘유휴 데이터(Cold Data)’ 문제를 해결하기 위해 Amazon FSx for NetApp ONTAP을 도입하고, 자동화된 정리 시스템을 구축하여 비용과 운영 효율을 모두 잡은 사례를 공유하고자 합니다.
1. 도입 배경: 데이터는 쌓이는데 ‘출구 전략’이 없다
초기 MLOps 환경에서는 Amazon EFS(Elastic File System)를 주로 사용했습니다. 하지만 데이터 누적으로 인해 스토리지 비용이 지속적으로 증가하는 문제가 발생했습니다.
가장 큰 문제는 ‘IA(Infrequent Access) Tiering의 맹점’이었습니다. EFS의 IA Tiering을 통해 당장의 비용은 절감할 수 있었지만, 정작 IA로 넘어간 데이터에 대한 출구 전략(Exit Strategy)이 부재했습니다. 그 결과, 전체 데이터의 약 68%(수 PB 수준)에 달하는, 자주 액세스하지 않는 Cold Data가 삭제되지 않고 무작정 쌓이는 현상이 발생했습니다.
또한, 유연한 볼륨 확장은 장점이었으나 사용자나 팀별로 볼륨 크기(Quota)를 제한할 수 없어, 불필요한 데이터 생성을 통제하기 어려운 관리적 한계도 있었습니다.
2. 솔루션 선정: 왜 Amazon FSx for NetApp ONTAP인가?
우리는 증가하는 데이터에 대한 비용 최적화 및 유휴 데이터 관리를 위해 새로운 아키텍처 도입을 결정했습니다. 여러 솔루션을 검토한 끝에, MLOps 워크로드의 특성과 유휴 데이터 관리의 필요성을 동시에 충족하는 Amazon FSx for NetApp ONTAP을 최적의 솔루션으로 선정했습니다.
FSx for NetApp ONTAP이 제공하는 핵심 기능은 다음과 같습니다.
- Access Time (atime) Update 지원: 클라우드 스토리지가 흔히 지원하지 않는 파일 접근 시간(atime) 업데이트 기능을 제공하여, 유휴 데이터 분류의 정확성을 확보할 수 있습니다.
- 스토리지 자체 효율화: 데이터 압축 및 중복 제거를 통해 Text/Audio 데이터 기준 약 10%의 물리적 공간 절감 효과를 얻을 수 있습니다.
- 관리 가능한 Volume Quota: 특정 경로 또는 사용자 단위로 볼륨 사용량 Quota(할당량)를 설정하여 불필요한 용량 증가를 기술적으로 통제합니다.
- 성능 보장: ML 워크로드(User Data)의 읽기/쓰기 작업이 유휴 데이터 분류(Metadata Read)보다 우선시되어 일관된 성능을 보장합니다.
3. 아키텍처: 유휴 데이터 자동 관리 시스템 구축
우리는 FSx for NetApp ONTAP의 기능을 활용하여, 엔지니어의 수동 개입 없이 작동하는 ‘유휴 데이터 자동 관리 시스템’을 구축했습니다.
이 시스템의 프로세스는 다음과 같이 세 단계로 자동화되어 수행됩니다.
Step 1: 검색 및 분류 (Detection)
- 주기: 5일마다 자동 수행.
- 로직: 볼륨 내 모든 파일의 atime을 확인하여, 마지막 액세스로부터 90일 이상 경과한 파일을 삭제 대상으로 분류합니다.
- 저장: 검색된 삭제 대상 리스트는 Amazon RDS에 체계적으로 저장됩니다.
Step 2: 통지 및 유예 (Notification)
- 공유: 분류 작업이 완료되면 Amazon SNS를 통해 삭제 예정 내역을 이메일로 즉시 공유합니다.
- 보호: 사용자에게 14일간의 유예 기간을 제공하여, 중요한 데이터를 백업하거나 보존할 충분한 시간을 줍니다.
Step 3: 삭제 및 이력 관리 (Action)
- 실행: 7일 주기로 DB를 확인하여 유예 기간이 지난 파일(경로 기준)을 실제로 삭제합니다.
- 기록: 삭제 결과는 다시 DB에 저장되어 투명한 이력 관리(Audit)가 가능합니다.
4. 도입 효과: 비용 통제와 운영 효율의 동시 달성
이번 마이그레이션과 자동화 시스템 구축을 통해 MLOps 환경은 다음과 같은 변화를 맞이했습니다.
- 확실한 비용 통제 (Cost Control): Volume Size Quota 설정으로 불필요한 용량 증가를 막고, 90일 이상 미사용 데이터를 자동 정리하여 스토리지 비용을 획기적으로 절감했습니다.
- 운영 효율성 향상 (Operational Efficiency): Thin Provisioning을 통해 유연한 용량 관리가 가능해졌으며 , IOPS/Throughput의 동적 조정을 통해 워크로드에 맞는 성능 유연성을 확보했습니다.
- 데이터 관리의 자동화 (Automation): 5일 주기의 자동 검색과 이메일 통지 프로세스를 통해, 관리자가 일일이 데이터를 확인하고 삭제를 독촉하던 업무가 사라졌습니다.
5. 마치며
MLOps 환경에서 데이터는 자산이지만, 관리되지 않는 데이터는 부채가 됩니다. Amazon FSx for NetApp ONTAP 기반의 자동 정리 시스템은 단순한 스토리지 교체를 넘어, 데이터 라이프사이클 관리 및 비용 최적화를 위한 핵심 기능을 제공하여 AI 개발 환경에 혁신적인 이점을 가져다주었습니다.
대규모 데이터 관리에 어려움을 겪고 계신다면, 스토리지 자체의 지능형 기능(atime, Tiering, Deduplication)을 활용한 자동화 파이프라인 구축을 고려해 보시기 바랍니다.
글 │ 메가존클라우드 ISSU(Integrated Solution Sales Unit) Hybrid Cloud Solution 김재영


