[reinvent 2024] 멈추지 마세요: 연결된 원격 측정이 어떻게 당신을 계속 전진하게 하는지
Summary
문제를 해결할 때 가장 답답한 순간은 막혔을 때입니다. 이번 세션에서는 세 가지 주요 실패 유형과 이를 극복하기 위한 전략, 문제를 찾고 수정하는 방법을 다룹니다. Amazon CloudWatch를 활용해 이러한 전략을 적용하는 방법과 최신 기능을 통한 문제 해결 프로세스를 소개합니다.
리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?
Overview
들어가며
시스템 문제 해결 방법
장애 상황에서 문제의 근본 원인을 빠르게 파악하기 위한 접근 법이 강조되었습니다. AWS CloudWatch와 같은 모니터링 도구를 활용하여 문제를 분석하고, 로그 및 메트릭 데이터를 통해 유효한 결과를 얻는 과정이 설명되었습니다. 예를 들어, CloudWatch의 “관련 항목 탐색” 기능을 통해 인프라에서 애플리케이션 계층으로 문제를 빠르게 추적하고, 시스템 전반의 가시성을 높이는 사례가 소개되었습니다.
문제 해결 과정의 사고 전략
문제 해결 시 다섯 가지 핵심 원인(변경 사항, 입력값 변경, 자원 부족, 구성 요소 실패, 의존성 문제)을 탐색하는 알고리즘적 접근법이 소개되었습니다. 사고 과정을 체계적으로 정리하는 과정에서, 문제를 단순히 발견하는 것을 넘어서 실행 가능한 완화 조치를 제시하는 방식이 제시되었습니다.
문제 해결의 목적은 영향을 완화하는 데 있으며, 이를 통해 장애가 더 이상 확산되지 않도록 하는 데 중점을 두고 있습니다.
시스템 장애의 원인 분석
시스템 장애의 주요 원인을 찾기 위해 CloudWatch Logs Insights, AWS X-Ray 등의 도구를 활용하는 데모가 진행되었습니다.
장애 원인 분석 시 트레이싱과 메트릭 데이터를 결합하여 서비스 간 의존성을 추적하는 기법이 다루어졌습니다.
AS X-Ray와 CloudWatch 로그를 통합하여 장애가 특정 인스턴스나 구성 요소에 국한되었는지 확인하는 방식이 유효하게 사용되었습니다.
시스템 문제 해결을 위한 알고리즘 활용
해당 섹션에서는 다섯 가지 원인을 조사하는 반복 가능한 알고리즘적 접근 법을 제안합니다. 조사 알고리즘은 병력 처리와 포킹(forking) 방식으로 설계되어 장애 해결 시간을 단축시킵니다.
예를 들어, 입력 값의 변경 여부를 확인하거나 자원 부족 상태를 탐지하는 과정에서 팀원들이 각 항목을 병렬로 조사하도록 유도하는 방식이 포함되었습니다.
시스템 문제 해결을 위한 접근법
해당 섹션에서는 문제를 신속히 완화하기 위해 영향이 큰 요소를 우선적으로 배제하거나 포함하는 “탐욕 알고리즘” 스타일의 접근법이 제시되었습니다.
AWS Console의 새로운 “관련 항목 탐색” 기능을 활용하여 장애 탐색 속도를 높이는 데 초점이 맞추어졌습니다.
예를 들어, CloudWatch에서 특정 로그 패턴을 자동으로 요약하여 노이즈가 많은 데이터를 간결하게 정리하고, 장애 원인에 접근하는 시간을 단축하는 방법이 소개되었습니다.
데모 및 사례
- CloudWatch의 새로운 기능
관련 리소스를 자동으로 연결하여 문제 해결을 가속화하는 기능이 실질적인 효과를 발휘하는 사례가 시연되었습니다.
“Explore Related” 기능을 통해 로드 밸런서에서 애플리케이션 로그로 빠르게 이동하며 문제를 탐색하는 과정이 시연되었습니다.
- AWS X-Ray를 통한 트레이싱
서비스 간의 분산 시스템에서 문제가 발생한 영역을 시각화하여 근본 원인을 파악하는 방법이 시연되었습니다.
트레이싱 데이터를 사용하여 API 호출 경로와 성능 병목을 분석하고, 서비스 간 상호작용을 상세히 추적하였습니다.
- CloudTrail을 통한 변경 사항 추적
DynamoDB 리소스 정책 변경으로 인해 발생한 액세스 거부 문제를 CloudTrail 쿼리로 탐지하고 해결하는 사례가 소개되었습니다.
CloudTrail Lake를 활용하여 최근 변경 사항을 요약하고, 그 중 리소스 정책이 변경된 사례를 신속히 식별하는 데 성공하였습니다.
결론
문제 해결 과정에서 팀원 간의 명확한 역할 분담과 병렬 조사의 중요성을 깨달았으며, 이를 통해 장애 복구 시간을 단축할 수 있는 방안을 고민하게 되었습니다. 또한, AWS의 다양한 모니터링 도구를 실질적으로 활용할 수 있다고 자부합니다.
추가적으로, CloudWatch Log와 X-Ray 통합 사용이 장애 진단과 원인 파악의 속도를 크게 향상 시킨다는 점이 인상 깊었습니다. 해당 세션을 통해 배운 내용을 바탕으로 실제 업무 과정에서 시스템의 안정성을 지속적으로 유지하고, 장애 발생 시 더 나은 해결책을 제시할 수 있을 것이라 기대합니다.