ITing - [AWS SUMMIT 2025] 생성형AI, 이제는 보인다: CloudWatch를 활용한 관측 가능성

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

생성형AI,이제는 보인다: CloudWatch를 활용한 관측 가능성

🎙️정영민 솔루션즈 아키텍트

🎙️안효빈 솔루션즈 아키텍트

🗂️ 세션 토픽: 클라우드운영 및 복원력

이번 칼럼에서는 생성형 AI를 운영 환경에서 효과적으로 구현하기 어려운 이유를 살펴보고, 생성형 AI 플랫폼의 구성 요소와 관측성 고려 사항을 알아본 후, AWS 서비스를 활용하여 관측성을 구현하는 방법에 대한 내용을 소개하겠습니다. 이번 세션에서 주목할 내용은 생성형 AI 운영 환경에서의 관측성 확보 방안 및 AWS CloudWatch 활용법입니다.

1. 생성형 AI의 현황 및 운영 환경 구현의 어려움

2022년 말부터 2023년 초에는 다양한 생성형 AI 모델들이 등장하며 생성형 AI가 대중적으로 인식되기 시작했습니다.

2023년은 다양한 PoC(개념 증명)가 활발히 이루어진 한 해였고, 2024년에는 이러한 PoC가 상품화되어 시장에 공급되기 시작했지만, 모든 PoC가 상품화로 이어지지는 못했습니다. 이는 기술 발전에도 불구하고 아직 해결해야 할 문제들이 많기 때문입니다.

본 세션에서는 운영 환경에서 생성형 AI를 성공적으로 구현하기 위해 고려해야 할 주요 어려움은 크게 세 가지로 소개합니다.

품질
- AI 모델 응답의 할루시네이션(환각), 모욕/유해성 차단 등이 잘 이루어지는지 여부입니다.
성능
- 초당 처리 가능한 요청 수, 요청당 지연 시간, 컴퓨팅/메모리/GPU 리소스 사용의 적정성 등입니다.
비용
- 초당 많은 요청 처리 또는 모델 학습에 소요되는 비용입니다.

이 세가지 주제를 관측성 관점에서 접근합니다.

2. 생성형 AI 플랫폼의 주요 구성 요소

생성형 AI 어플리케이션을 구성할 때 고려해야 할 다양한 구성 요소가 있습니다.

그 중 세션에서 강조한 주요 요소입니다.

파운데이션 모델 허브
- 시장의 다양한 모델 중 비즈니스 요구 사항에 맞는 모델을 유연하게 선택하고 사용할 수 있는 계층입니다. 논리적인 게이트웨이를 통해 다양한 LLM/FM/AI와 상호 연결을 구성하는 방식으로 구현될 수 있습니다. 아마존 베드락과 같은 MaaS(Model-as-a-Service) 엔드포인트나 자체 훈련/튜닝 모델을 세이지메이커 엔드포인트, 서드 파티 모델과 연동할 수 있습니다. 운영 환경에서는 모델 엔드포인트 및 아티팩트 레지스트리에 대한 접근 통제, 악의적인 비용 발생 행위/요청 스트로틀링 통제, 가용성 보장을 위한 페일오버 기능 등이 필요합니다. 관측성 측면에서는 모델 호출 지연 시간, 토큰 사용 수, 응답 품질 관측 등의 요구 사항을 만족시켜야 합니다.
데이터 파운데이션 (Rag 패턴 포함)
- 사용 목적에 맞는 데이터를 확보하고 활용하는 부분입니다. 검색 증강 생성(RAG) 패턴이 대표적이며, 다양한 데이터 소스(서드 파티 시스템, 어플리케이션 로그, ETL 작업 등)에서 데이터를 수집하고, 적절한 크기로 잘라(청킹) 인베딩 모델을 통해 벡터 스토어에 저장합니다. 운영 환경에서는 ETL 작업 진행 상황/결과/오류 유무, 인베딩 모델/벡터 스토어 설정 및 성능 관리 등 다양한 관점에서 가용성 확보 노력이 필요합니다. 아마존 베드락 널리지 베이스와 가드레일이 관리 비용 절감에 도움이 될 수 있습니다. 베드락 널리지 베이스는 완전 관리형 서비스로 ETL 파이프라인 및 서드 파티 시스템과의 통합을 간소화하고 벡터 DB 관리 부담을 줄여줍니다. 아마존 베드락 가드레일은 유해성 필터링, 악의적인 프롬프팅 차단, 주제 이탈 대화 차단, 컨텍스트 그라운딩 활성화를 통한 할루시네이션 최소화 기능을 제공합니다. 관측성 측면에서는 사용자의 질의에 어떤 청크가 사용되었는지, 문맥적으로 적절했는지, LLM 생성 응답이 적절했는지 등을 관측할 수 있어야 합니다.

3. 시스템 관측성 확보를 위한 요소 및 AWS CloudWatch 활용

시스템 관측성을 확보하기 위해서는 크게 로그(Logs), 지표(Metrics), 추적(Tracing) 세 가지 요소의 구현이 중요합니다. AWS에서는 아마존 클라우드워치(Amazon CloudWatch)를 통해 이 세 가지 요소를 완전 관리형 서비스로 제공합니다. 클라우드워치는 방대한 양의 매트릭, 로그, 트레이스를 저장하고 처리하며, 완전 관리형이므로 자체적인 가용성이나 용량 산정 등의 운영 부담이 없습니다

생성형 AI 도메인에서 로그, 매트릭, 트레이싱에는 다음과 같은 정보가 포함됩니다:

로그: 생성형 AI 시스템에 주입된 질문과 응답. 베드락 로그를 활성화하여 S3 또는 클라우드워치 로그스로 전달할 수 있습니다. 클라우드워치 로그 인사이트에서 로그 검색 및 빌트인 ML 모델을 이용한 패턴 분석이 가능합니다.
지표(매트릭): 프롬프트/응답 지연 시간 추이, 토큰 사용량 등. AWS 서비스 기본 제공 지표는 무료로 자동 수집되며, **디멘전(Dimension)**을 활용하여 모델별 호출 수, 토큰 사용량, 응답 속도 등 유의미한 통계를 만들고 시각화할 수 있습니다. 복합 경보(Composite Alarm) 기능을 통해 최대 100개의 단일 알람을 조합하여 운영자의 알람 피로도를 줄이고 문제 발생 시 명확한 컨텍스트를 얻어 문제 파악 시간(MTTD)을 단축할 수 있습니다.
추적(트레이싱): 분산 RAG 환경에서 각 구간별 소모 시간, 병목 지점 유무 및 응답 코드 파악 등. 시스템 내에서 하나의 요청이 여러 서비스/컴포넌트를 거치는 전체 흐름을 추적하며, 각 단계를 스펜(Span) 단위로 기록하고, 스펜들은 트레이스 ID로 연결됩니다. 각 스펜은 고유 ID와 이전 스펜의 부모 ID를 기록하며 이를 통해 요청의 계보를 추적할 수 있습니다 (트레이스 컨텍스트). 트레이스 전파를 통해 분산 시스템 동작 투명성 확보, 장애 원인 신속 파악, 성능 병목 구간 최적화에 필수적인 역할을 합니다. AWS X-Ray와 같은 도구는 트레이스 정보를 시각화하며, 현재는 클라우드워치에 통합되어 바로 확인 가능합니다. **오픈 텔레메트리(OpenTelemetry)**를 사용하여 애플리케이션에 간단한 코드 추가로 트레이스 데이터를 수집하고 분석할 수 있습니다. 스펜에 메타데이터(모델 ID, 프롬프트 내용 등)를 추가하여 요청 맥락을 쉽게 파악할 수 있습니다. 오픈 LL 매트리(OpenLLMetry)나 오픈 립(OpenLRE)과 같은 오픈 소스도 LLM/AI 애플리케이션 특화 관측성/모니터링 기능(프롬프트, 토큰 사용량 등)을 제공합니다.

4. 시스템 관측성 확보를 위한 요소 및 AWS CloudWatch 활용

시스템 관측성 확보를 위해서 각 계층별로 AWS 서비스를 어떻게 사용할 수 있는지 4개의 레이어별로 구분되어 설명되었습니다.

컴포넌트 단위 지표 (Layer 1): AWS 관리형 서비스들이 기본 제공하는 지표를 활용합니다. 클라우드워치 디멘션을 사용하여 특정 모델이나 서비스 단위의 상세 분석이 가능하며, 복합 경보를 통해 알람 관리를 효율화할 수 있습니다. 베드락 로그를 활성화하여 로그 기반 분석도 수행합니다.
오케스트레이션 계층 관측성 (Layer 2): RAG나 에이전트 기반 아키텍처에서 중요하며, 오픈 텔레메트리를 활용하여 트레이스 데이터를 수집하고 클라우드워치(또는 X-Ray)에서 시각화하여 요청 흐름과 병목 지점을 파악합니다.
고차원적인 AI 특화 지표 (Layer 3): 베드락 가드레일 사용 시 제공되는 지표(개입 횟수, 지연 시간 등)를 통해 유해 콘텐츠 차단 현황, 성능 영향 등을 모니터링할 수 있습니다. 가드레일은 책임 있는 AI 사용의 핵심 기능입니다.

최종 사용자 경험 지표 (Layer 4): 사용자의 피드백(좋아요/싫어요, 텍스트 피드백)을 수집하고 분석하여 서비스가 비즈니스 목표 및 사용자 기대에 부합하는지 확인하고 개선점을 파악합니다. 클라우드워치의 내장형 매트릭 형식(Embedded Metric Format, EMF) 기능을 활용하여 로그 메시지 안에 JSON 형식으로 지표 정보를 기록하면 클라우드워치가 로그에서 지표를 자동으로 추출하여 시각화 및 알람 설정이 가능합니다. 지표와 로그가 연동되어 지표 기반 로그 분석이나 로그 기반 지표 조회가 가능해집니다.

5. AWS CloudWatch 활용한 데모 시연

세션에서는 다음 내용을 시연했습니다:

간단한 파이썬 기반 데모 어플리케이션 (Streamlit 프론트엔드, LangChain)을 사용하여 베드락의 Claude 모델과 연동하고, OpenTelemetry와 CloudWatch 에이전트를 통해 텔레메트리 데이터를 클라우드워치로 전송하는 구성.
클라우드워치에서 베드락 모델의 인보케이션 수 및 레이턴시 매트릭 확인.
베드락 자체 빌트인 대시보드를 통해 모델별 레이턴시, 인보케이션, 토큰 사용량 등 다양한 정보 확인.
클라우드워치 로그 인사이트에서 베드락에서 보낸 로그 확인 및 패턴 분석 기능 활용.
베드락 널리지 베이스 (OpenSearch 서버리스 기반) 및 S3에 저장된 세금 관련 문서 활용 RAG 구성 시연.
클라우드워치(구 X-Ray)에서 RAG 아키텍처의 트레이스 확인 (베드락 런타임, 베드락 에이전트 런타임 호출) 및 스펜 계층 구조, 메타데이터(모델 ID, 프롬프트) 확인.
베드락 가드레일 구성 (부정 행위 필터링) 및 콘솔/데모 앱을 통한 테스트 (탈세 관련 질문 차단).
클라우드워치에서 가드레일 관련 매트릭 (개입 횟수 등) 확인.
데모 앱에 사용자 피드백 (좋아요/싫어요) 기능을 추가하고, 클라우드워치 EMF를 활용하여 이 피드백을 로그로 전송, 지표로 추출 및 시각화.
피드백(좋아요 수)에 대한 알람 설정 시연.

마무리하며

본 세션은 생성형 AI 환경에서의 관측성을 4개의 계층으로 구분하여 더 깊이 확보할 수 있는 방안을 제시했습니다. AWS 베드락과 같은 서비스 기본 지표 수집부터 시작하여, 오케스트레이션 계층의 트레이스 정보를 통해 RAG/에이전트 아키텍처 동작 상세 파악, 가드레일과 같은 기능 사용 시 고급 지표 도입으로 서비스 신뢰성/품질 향상, 그리고 사용자 피드백 분석을 통한 비즈니스 목표 연계 발전 등 다양한 관측성 확보 방안을 AWS CloudWatch 기능을 활용하여 설명했습니다

글 │ │메가존클라우드, AI & Data 부문 / AI & Data Ops, 박준범 Team Leader

AWS SUMMIT 2025

전문가의 시선으로 정리된 테크 블로그를 통해
2025년 IT 트렌드의 현재와 미래를 살펴보세요.

테크 블로그 목차 (바로 가기→)

게시물 주소가 복사되었습니다.

[AWS SUMMIT 2025] 생성형AI, 이제는 보인다: CloudWatch를 활용한 관측 가능성

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025

들어가며

생성형AI,이제는 보인다: CloudWatch를 활용한 관측 가능성

1. 생성형 AI의 현황 및 운영 환경 구현의 어려움

2. 생성형 AI 플랫폼의 주요 구성 요소

3. 시스템 관측성 확보를 위한 요소 및 AWS CloudWatch 활용

4. 시스템 관측성 확보를 위한 요소 및 AWS CloudWatch 활용

5. AWS CloudWatch 활용한 데모 시연

마무리하며

AWS SUMMIT 2025

이런 콘텐츠도 있어요!

AWS Ambassador, 김가람 SA 인터뷰

AWS Ambassador, 정은영 SA 인터뷰

AWS Ambassador, 아가 히로아키(Aga Hiroaki) SA 인터뷰

메가존클라우드 테크 전문가 시선에서 본AWS SUMMIT 2025

들어가며

생성형AI,이제는 보인다: CloudWatch를 활용한 관측 가능성

1. 생성형 AI의 현황 및 운영 환경 구현의 어려움

2. 생성형 AI 플랫폼의 주요 구성 요소

3. 시스템 관측성 확보를 위한 요소 및 AWS CloudWatch 활용

4. 시스템 관측성 확보를 위한 요소 및 AWS CloudWatch 활용

5. AWS CloudWatch 활용한 데모 시연

마무리하며

AWS SUMMIT 2025

이런 콘텐츠도 있어요!

[필수] 개인정보 수집 및 이용 동의

[선택] 마케팅 활용 및 광고성 정보 수신 동의

메가존클라우드 테크 전문가 시선에서 본
AWS SUMMIT 2025