[reinvent 2024] 생성형 AI를 활용한 지능형 문서 처리 혁신

Summary

생성형 AI를 활용한 지능형 문서 처리(IDP) 기술을 소개합니다. 다국어 OCR, 문서 분류, RAG 기반 규칙 매칭 등 문서 처리 자동화를 위한 다양한 활용 사례를 살펴보며, 문서 중심 비즈니스 프로세스의 효율성을 높이는 방법을 배웁니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Transforming intelligent document processing with generative AI
  • Date: 2024년 12월 2일(월)
  • Venue: MGM Grand | Level 1 | Grand 117
  • Speaker:
  • Chin Rane(Generative AI Specialist SA, Amazon Web Services)
  • Issac Ibrahim(Assoc Specialist Solutions Architect AIML, AWS)
  • Industry:
  • Cross-Industry Solutions
  • Financial Services
  • Healthcare & Life Sciences

들어가며

기업들이 데이터 중심 의사결정을 가속화하면서, 지능형 문서 처리 (IDP: Intelligent Document Processing)의 중요성이 점점 커지고 있습니다. AWS IDP 솔루션은 비용 절감, 정확도 향상, 그리고 직원 생산성 개선이라는 핵심 목표를 달성하는 데 중요한 역할을 합니다.

해당 세션은 Workshop 형태로 진행되었으며, AWS IDP 서비스와 Generative AI 기술을 활용한 문서 처리 자동화를 중심으로 구성되었습니다. Amazon Textract, Amazon Comprehend, Bedrock과 같은 AWS 서비스가 문서 처리 파이프라인에서 어떤 역할을 하는지에 대해 경험해볼 수 있었습니다.

최근 저희 부서에서도 문서 자동화를 포함한 데이터 처리 프로젝트를 많이 진행하고 있어, 이번 세션에서 배운 내용을 바탕으로 실제 업무에 바로 적용할 수 있는 지식을 얻을 수 있기를 기대하며 참가했습니다.

Agenda

본 Session은 기업들의 IDP 서비스란 무엇이며, 고객사에서의 성공적인 IDP 도입 사례를 설명하고, Generative AI와의 관련성 및 활용성에 대한 내용으로 구성됩니다.

Why Intelligent Document Processing Matters?

기업들이 IDP를 도입하는 주요 이유는 다음과 같은 3가지로 요약됩니다. 

  • 비용 절감 : 반복적이고 시간 소모적인 작업을 자동화하여 리소스를 효율적으로 배분
  • 정확성 향상 : 정밀한 데이터 처리를 통해 오류를 감소시키고 신뢰도를 높임
  • 생산성 증가 : 직원들이 고부가가치 업무에 집중할 수 있는 환경을 제공

IDP Use Case

실제 사례로는 HealthFirst, Paytm 등의 글로벌 고객사들이 AWS IDP 서비스를 활용해 업무 효율을 극대화한 사례가 공유되었습니다. 이 사례들은 AWS IDP 서비스가 다양한 산업에서 비즈니스 운영을 최적화하고, 혁신적인 데이터 활용을 가능하게 하는 강력한 도구임을 보여줍니다.

1. HealthFirst

  • 분야 : 헬스케어
  • 활용 사례 : 의료 차트 추출 워크플로우 자동화
  • 성과 : Amazon Textract를 사용하여 데이터 추출 프로세스의 효율성을 10~20배 향상
  • 비즈니스 효과 : 수작업 의존도를 크게 줄이고 데이터 처리 속도를 개선함으로써 운영 효율성 강화

2. Paytm

  • 분야 : 금융
  • 활용 사례 : 문서에서 고객 데이터를 추출하여 신용 평가 및 거래 분석에 활용
  • 성과 : Amazon Textract를 활용해 97%의 문서 처리 정확도를 달성
  • 비즈니스 효과 : 높은 정확성이 요구되는 금융업에서 프로세스를 간소화하고 신뢰도를 크게 향상

3. Elevance Health

  • 분야 : 헬스케어
  • 활용 사례 : 보험 청구 문서 처리 자동화
  • 성과 : Amazon Textract를 통해 청구 문서 처리 시간을 단축 및 90% 이상의 프로세스를 자동화
  • 비즈니스 효과 : 고객 만족도를 높이고 운영 비용을 절감함으로써 경쟁력을 강화

Components & Features of AWS IDP

다음으로는 AWS의 주요 IDP 서비스 구성요소 및 기능에 대한 간단한 설명입니다. 이러한 서비스들은 문서 처리 워크플로의 모든 단계를 지원하며, API 기반으로 손쉽게 통합할 수 있습니다.

[ Amazon Textract ]

  • OCR을 넘어 서식, 테이블, 키-값 쌍 데이터를 추출
  • 문서 요약과 질문 응답(Query) 기능까지 지원

[ Amazon Comprehend ]

  • 텍스트 분류, NER(Named Entity Recognition), PII/PHI 데이터 식별 등 NLP 기능

[ Amazon Bedrock ]

  • 생성형 AI 기반 모델로 문서 요약, 데이터 정규화, 철자 교정 등을 제공

[ OpenSearch Service ]

  • 검색 및 데이터 분석을 위한 확장 가능한 플랫폼

Pipeline w/ IDP Services & Foundation Models

아래 아키텍처는 AWS 서비스와 Generative AI 모델을 통합하여 전통적인 문서 처리 파이프라인을 자동화하고 향상시키는 방법을 설명합니다.

 파이프라인은 다음과 같은 주요 단계로 구성됩니다:

1. 문서 캡처 및 저장

  • Amazon S3에 문서를 업로드하여 저장합니다.
  • 다양한 형식의 문서(이미지, PDF 등)를 처리합니다.

2. OCR 및 Text 추출

  • Amazon Textract를 사용하여 문서에서 텍스트를 추출합니다. Textract는 OCR, 표 추출, 양식 추출을 지원하며, 문서에서 중요한 정보를 자동으로 추출할 수 있습니다.
  • Bedrock을 사용하여 multimodal 텍스트 추출이 가능합니다. 텍스트와 이미지를 동시에 처리할 수 있어 정확도를 높일 수 있습니다.

3. 문서 분류

  • 추출된 텍스트를 기반으로 문서가 어떤 종류인지 분리합니다. 예를 들어, 여권, 운전면허증, 보험 서류 등으로 분류할 수 있습니다.
  • LLM 기반 : Bedrock을 사용하여 추출된 텍스트를 분석하고, 문서 유형을 자동으로 식별합니다.
  • Embedding 기반 : 텍스트를 벡터로 변환 후 기존 문서와 비교해 가장 유사한 유형을 찾아냅니다.

4. 정보 추출

  • 문서에서 중요한 데이터를 추출합니다:
  •  Textract Forms API를 사용해 양식에서 이름, 날짜, 금액 등의 데이터를 추출합니다.
  • 쿼리 기능을 통해 특정 정보를 추출할 수 있습니다(예: “의사의 이름은 무엇인가?”).
  • Foundation 모델을 통해 손글씨나 추출이 어려운 데이터를 보완하고 정확도를 높입니다.

5. 데이터 정규화 및 변환

  • 추출된 데이터는 정해진 포맷으로 변환이 필요할 수 있습니다.
  • Bedrock을 사용해 텍스트를 표준화하고, 오류를 수정할 수 있습니다.

6. 검증 및 규칙 기반 처리

  • 추출된 데이터를 규칙 기반 검증을 통해 확인합니다. 문서에 필요한 필드(ex:이름, 주소 등)가 정확하게 포함되었는지 확인합니다.
  • Confidence Score를 통해 신뢰도가 낮은 문서를 사람 검증 단계로 이동시킬 수 있습니다.
  • Generative AI를 사용하여 오류가 발생한 경우 수정할 수 있습니다.

7. 검토 및 최종 검증

  • 모든 데이터가 추출되고 정규화된 후, 검토 단계를 거쳐 사람이 직접 검증할 수 있습니다.
  • 검증된 데이터는 다운스트림 시스템으로 전송되어 추가 처리가 이루어집니다.

8. 최종 출력 및 시스템 통합

  • 검증된 데이터는 데이터베이스나 앱으로 전달되어 최종 결정 또는 후속 작업에 사용됩니다.

워크샵에서는 앞에서 설명한 이론과 파이프라인을 기준으로 실습을 해보았습니다.

결론

이번 세션에서는 AWS의 IDP(Intelligent Document Processing) 솔루션과 Generative AI를 활용해 문서 처리의 효율성과 정확성을 극대화하는 방법을 배울 수 있었습니다. 특히 Amazon Textract, Amazon Comprehend, 그리고 Bedrock이 어떻게 서로 결합해 데이터 추출, 보강, 검증, 그리고 분석까지의 전 과정을 지원하는지 실습을 통해 확인할 수 있었습니다.

이번 세션은 저에게 Generative AI와 AWS IDP 서비스가 실제 업무에 어떻게 적용될 수 있을지를 생각하게 했으며, 앞으로의 워크플로우 설계에 중요한 참고 자료가 될 수 있을것 같다고 생각하게 해주었습니다.
글 │메가존클라우드, AI & Data Analytics Center (ADC), Data Architecture Team, 조민경 매니저
게시물 주소가 복사되었습니다.