[reinvent 2024] 생성형 AI가 AWS를 통해 법률 기술을 어떻게 변화시키고 있는가

Summary

NetDocuments는 법률 분야를 위한 클라우드 기반 문서 관리에서 선두주자입니다. 그들의 플랫폼은 전 세계 문서 저장, 공유 및 협업을 가능하게 합니다. ND가 혁신적인 솔루션과 의미 기반 검색으로 문서 관리를 어떻게 발전시키는지 알아보세요. 매일 수백만 개의 문서를 처리합니다. 법률 산업, 특히 로펌과 기업 법무 부서는 종종 크고 복잡한 문서로 어려움을 겪습니다. 생성적 AI가 발전함에 따라 새로운 생산성 향상 애플리케이션이 등장하고 있습니다. 방대한 문서 저장소 검색, 파일 요약, Q&A 시스템 지원 및 문서 초안 작성. 이 세션에서는 생성적 AI가 법률 업무를 어떻게 변화시키고, 효율성을 높이며, 문서 중심의 작업 흐름을 간소화하여 직업을 혁신할 수 있는지 살펴봅시다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: How generative AI is transforming legal tech with AWS
  • Date: 2024년 12월 4일(수)
  • Venue: MGM Grand | Level 3 | Chairmans 355
  • Speaker:
  • John Motz(CTO, NetDocuments)
  • Olta Alushi(Sr SA leader, AWS)
  • Pallavi Nargund(Principal Solutions Architect, Amazon)
  • Industry:
  • Cross-Industry Solutions
  • Professional Services

들어가며

생성 AI는 법률 기술 분야를 급속히 변화시키고 있으며, 법률 전문가들이 지루한 작업을 자동화하고 효율성을 크게 향상시킬 수 있도록 하고 있습니다. 이 세션에서는 AWS가 이 기술을 통합하여 더 스마트한 법률 연구와 문서 처리를 가능하게 하는 방법을 논의합니다. 주요 주제는 법 실무의 필수적인 인간 요소인 공감과 옹호를 유지하면서 생산성을 향상시키는 데 중점을 둡니다. 논의된 혁신은 자동화된 예측과 빠른 계약 작성으로 이어질 수 있는 생성 AI가 법률 산업의 미래를 어떻게 재구성할 수 있는지를 보여줍니다. AWS와 함께 법률 워크플로우를 재정의하는 최첨단 도구와 전략에 대한 귀중한 통찰을 얻을 수 있을 것입니다.

법률 산업과 생성형 AI

만약 우리가 법률계약 작성 시간을 단축시키거나 변호사나 법률 전문가가 사례를 예측하는 데 걸리는 시간을 줄일 수 있다면 어떨까요? 연구에 따르면 오늘날 법률 업무의 최대 44%가 자동화될 수 있으며, 이는 다른 산업보다 높은 수치입니다.

생성형 AI의 가능성은 법률 전문가들이 그들의 직업에서 가장 인간적인 측면, 즉 공감, 인간성을 발휘할 수 있도록 해주는 데 있습니다.

법률 기술이 직면한 주요 과제도 존재합니다.

  • 첫째, 대규모의 비정형 데이터를 관리하는 데 어려움이 있습니다. 비정형 데이터란 깔끔하게 정리되지 않은 데이터를 뜻하며, 법률 문서처럼 복잡하고 다양한 형식의 데이터를 다루기가 어렵습니다.
  • 둘째, 법률 기술의 가치와 실력 균형에 대한 문제가 있습니다. 자동화는 실무 경험이 부족한 초보 변호사들에게 영향을 줄 수 있는데, 이런 경험이 실무능력 향상에 필수적입니다.
  • 또한, 데이터 프라이버시와 보안 문제도 중요합니다. 데이터가 디지털화되고 클라우드로 옮겨지는 과정에서 휴먼 에러나 잘못된 설정으로 인한 데이터 유출 위험이 커집니다.
  • 마지막으로, 잘못된 시스템 선택은 생산성 저하를 불러일으킬 수 있습니다. 기술은 인력을 대체하는 대신, 인간적 요소를 강화해야 한다는 점이 강조됩니다.

플라이휠(Flywheel) 개념의 문서 처리 시스템을 도입하면 투자 대비 성과(ROI)가 개선되며, 법률 전문가들이 복잡한 쿼리를 효율적으로 수행하고 계약 생성 시간을 크게 단축할 수 있습니다.

문서 처리 접근 방식을 통해 그 개념을 설명해 보겠습니다. 먼저 문서 저장소를 매핑합니다.

이 데이터를 조직의 모든 사람이 검색할 수 있도록 중앙 집중화한 후, 자연어 처리로 내용을 분석합니다.

그런 다음 메타데이터를 추출하여 더 잘 정리합니다. AI와 기계 학습 기능을 추가하여 패턴을 분석하고 데이터가 가지는 의미에 대해 학습하는 시스템을 만듭니다.

법률 전문가들이 이 데이터 세트에 대해 조회하게 되면, 몇 분 안에 정확하고 맥락을 고려한 응답을 생성합니다.

시간이 지남에 따라 개선되고, 계약 초안 작성은 몇 주에서 몇 시간으로, 계약 자동작성 및 완성하는데 몇 시간에서 몇 분 내에 완료되므로, 생산성이 최대 15%까지 향상됩니다.

NetDocuments의 여정

NetDocuments는 법률 문서관리 분야에서 20년 이상 운영되고 있는 회사입니다. 전 세계적으로 6개 지역에서 사업을 운영하고 있으며, 그 지역의 여러 국가에서 사업을 진행하고 있습니다. 약 5,000개의 회사가 고객이며, 현재 꽤 빠르게 성장하고 있습니다.

저희는 전 세계적으로 185,000명의 사용자를 보유하고 있으며, 이들은 법률 전문가, 비서 등입니다. 80억 개 이상의 문서와 200억 개 이상의 파일이 있으며, 21페타바이트의 데이터를 보유하고 있지만, 이는 거의 매일 변화하고 있습니다. 아마도 가장 중요하고 인상적인 점은 하루에 약 6억 5천만 건의 거래를 처리하고 있다는 것입니다.

초기 계약서의 초안을 자동생성할때 몇가지 파라미터가 필요합니다.

왼편의 스크린샷에 나타는 방식은 전형적인 구식 방법으로, 수동적이고 제한적이며 다소 부정확합니다.

오픈편의 새로운 방법에서는 보세요; 한 회사에는 수천 개, 잠재적으로 수만 개의 계약이 있을 수 있는 관리 회사들이 있습니다. 그들은 규칙이 있고, 준수가 있으며, 매개변수가 있습니다.

100,000개의 계약 중에서 이 15개는 정말로 나쁜 해지 조항이 있습니다. 이걸 살펴보고 잠재적으로 재작성해야 합니다. 이 간단한 예는 회사가 파헤치는 데 몇 주가 걸릴 수 있는 것을 몇 분 만에 처리할 수 있게 해줍니다. 

위험을 간소화하고, 실제로 그 과정을 플래그하고 자동화함으로써 회사 내의 위험을 극적으로 줄일 수 있습니다.

 법률 AI 어시스턴트를 통해 수많은 법률조항과 사건, 계약문서에 질문과 답변을 LLM을 통해 주고 받을 수 있습니다.

AWS Titan과 의미론적 데이터, LLM 서비스를 활용하여 이룬 성과입니다.

법률 기술의 유스케이스와 참조 아키텍처

법률 산업의 도전 과제와 특히 법률 산업 내에서 문서나 비구조적 데이터가 핵심 객체라는 것에 대해 많은 내용을 다루었습니다. 법률 산업에서 다루는 연간 수십억 개의 문서가 대상입니다. 

고객들이 요청하는 많은 사용 사례를 묶어보면 3 가지 범주로 분류할 수 있습니다.

첫 번째는 요약입니다. 모든 것이 문서로부터 시작하기 때문에, 사건 및 사안별 계약 요약, 사건요약, 각조항 요약 등이 필요합니다. 사건과 사안들을 다루면서 승인과정에서 첨부된 코멘트들도 요약이 필요합니다.

문서 요약은 법률 연구 분야에서 매우 중요하므로, 문서를 요약하고 생성 AI가 그 문서를 요약하여 사용자에게 접근할 수 있도록 하면 법률 전문가가 많은 시간을 절약할 수 있습니다.

두 번째는 대화형 Q&A와 검색입니다. 대단위 문서세트에 대한 Q&A가 가능해야하고, 데이터에 대한 사람과 대화하는 듯한 문답시스템이 있어야합니다. 여기서의 아이디어는 사건 관리를 지식 관리로 전환하는 것입니다. 비구조화된 데이터나 사건의 양을 잘 파악하고 이를 분류하고 잘 정리하며 검색 가능하게 만들어야 합니다. 

세 번째 사례는 텍스트 생성입니다. 표준화된 템플릿이 있다면 표준화된 계약서나 RFI 프로세스를 초안을 만들 수 있습니다. 자동화된 워크플로우를 통해 문서의 초안 버전을 생성할 수 있도록 하는 것입니다.

대규모 언어 모델(LLM)은 텍스트 생성 또는 텍스트 관련 작업을 위한 특정 기초 모델의 하위 집합입니다. 우리는 모두 기초 모델, 즉 대규모 언어 모델을 그대로 사용할 수 없다는 것을 알고 있습니다. 커스터마이징이 필요합니다. 

여기서 여러분이 익숙한 네 가지 단계가 있습니다. 

항상 프롬프트 엔지니어링에서 시작하는데, 여기서 기초 모델의 출력을 귀하의 필요에 맞게 조정하는 방법에 대한 구체적인 지침을 지정합니다.

두 번째는 검색 증강 생성으로, 여기서 핵심은 방대한 데이터 집합에서 올바른 또는 관련된 맥락을 식별하는 것입니다. 단일 데이터 소스가 아니라 여러 데이터 소스가 있을 수 있습니다. 따라서 이러한 방대한 데이터 집합에서 올바른 맥락을 얻고 관련 정보를 사용하여 프롬프트를 보강 하고자 합니다. 그러나, 때때로 RAG 아키텍처만으로는 충분하지 않습니다. 원하는 모델 성능이나 정확성을 얻지 못할 수 있습니다. 

세 번째로 미세조정 단계가 있습니다. 기초 모델의 가중치를 조정하여 전문화된 작업을 위한 전문화된 모델을 생성하지만, 기본 생성 능력을 유지하는 방식으로, 기초 모델을 미세 조정하거나 사전 훈련할 수 있습니다.  그것만으로는 충분하지 않은 경우도 있는데, 기초 모델이 사용 사례에 맞지 않는 편향을 가지고 있거나, 학습데이터가 충분하지않은 경우입니다.

마지막으로, 그러한 경우에는 모델을 처음부터 훈련하는 것을 선택해야 합니다. 이제 모든 단계를 진행하면서 시간 비용과 복잡성이 증가하지만, 정확성도 증가합니다.

결론적으로, 사용 사례가 무엇인지 살펴보고, 다양한 단계를 평가한 다음, 기초 모델을 맞춤화하기 위해 올바른 방법론을 사용하는 것을 권장합니다.

모델 선택 관점에서 기본적으로 모델간의 경쟁이 있습니다. 항상 새로운 모델이 등장하고 있으며, 어떤 모델도 모든 사용 사례에 적합하지 않습니다. 따라서, 결국 고객이 선택할 수 밖에 없습니다.

RAG는 2가지 워크플로우가 있습니다.

가장 먼저 준비되어야할 데이터 주입 워크플로우는 기존 보유 데이터로부터 문서를 다루기쉬운 단위인 청크로 나뉘어 임베딩 모델을 통해 벡터스토어로 저장되어야 합니다.

따라서 문서 청크화, 적절한 임베딩 모델 선택, 사용 사례에 맞는 적절한 벡터 저장소 선택이 결정해야 할 주요 결정 지점이 될 것입니다. 

들어올 문서들은 다양한 형식으로 들어올 것입니다. PDF, 워드 문서, 텍스트 파일 등이 될 것이며, 스캔한 PDF는 레이아웃이 되어 있지 않습니다. 그래서 이 문서들이 어떻게 청크로 나뉘어야 하는지를 이해하는 것이 중요합니다.

사용자로부터 요청이 들어오면, 텍스트 생성 워크플로우가 동작합니다.

이곳에서 임베딩 모델이 그 쿼리를 벡터 표현으로 변환하여 벡터 데이터베이스를 검색하고 그로부터 컨텍스트를 생성합니다. 그 컨텍스트는 여러분이 작성할 프롬프트와 함께 제공되어 대형 언어 모델에 전달되고, 그러면 결과를 얻습니다.

Amazon Bedrock은 벡터 저장소의 본질적으로 통합되어 있으며, 문서 워크플로를 이해하기 위해 관리되는 RAG 아키텍처를 구축할 수 있습니다. 지식 기반의 중요한 측면은 향상된 정확성입니다. 

의미론적 검색 관련 기능을 구축하고 싶거나 대규모 문서를 이해하고 분석하고 싶을 때, 문서가 얼마나 잘 청크화되었는지를 이해하는 것이 중요합니다. 

문서에 부모-자식 관계가 있는 경우, 문서의 청크를 자동으로 그룹화하여 계층 구조가 유지되도록 합니다. 따라서 그 문서를 검색할 때, 계층 구조가 유지되기 때문에 문서의 정확성이 향상됩니다. 특히 법률 문서에서 의미론적 검색과 유사하게, 의미론적 청크화 기능은 문서에 관련된 텍스트가 흩어져 있기 때문에 매우 중요합니다.

기술 프로세스에서 계약처리와 관련된 아키텍처는 모든 조직이 가지고 있는 것입니다.

사건이 발생하면 사건 관리 또는 계약 관리를 지식 관리로 전환하는 것이 필수적입니다. 우리는 실행된 계약을 가져와서 처리하는 동시에 메타데이터를 추출하여 벡터 저장소에 저장하도록 설계했습니다.

실행된 계약 목록을 가져와서 추가하고, 메타데이터를 추출하고, 그 메타데이터를 벡터 데이터베이스에 연결하여, 지식 기반을 만들었습니다. 이를 사용하여 대화형 인터페이스를 구축할 수 있습니다. 이 인터페이스는 쿼리를 받아들이고 요청이 무엇인지 이해하며, 이것이 NDA라는 특정 메타데이터를 추출하고, 사용자가 지식 기반을 검색하여 올바른 결과를 구축하고 최종 응답을 보냅니다.

계약 전 정보요청서(RFI) 프로세스를 구현한 아키텍처입니다. 이는 이전에 실행된 RFI에서 새로운 RFI를 생성하는 데 몇 주에서 며칠로 단축시켜 직원들의 생산성을 향상시킵니다.

비슷한 방법으로  증언이 있는 많은 비디오파일을 처리할 경우, Amazon Transcribe를 사용하여 텍스트를 전사하고, 이를 S3에 저장한 다음, Amazon Q for Business에 넣어 접근 가능하게 만들 수 있습니다. 

그러면, 여러분은 빠르게 살펴보며 “누가 증언했으며, 그 내용은 무엇이었나요?” “이 증언을 요약해 줄 수 있나요?”와 같은 질문을 할 수 있습니다.

마무리

비즈니스 프로세스나 워크플로우를 개선할 수 있는 상위 세 가지 사용 사례와 상황에 대해 생각해 보세요. 그리고, 생성적 AI 사용 사례에서 가장 큰 가치를 가져오는 것이 무엇인를 놓치지 마십시오. 또 하나는, AWS 커뮤니티와 함께하는 것입니다.

결론

기술 채택에 대해 보수적일 것이라는 법률 업계에 대한 개인적인 선입견을 깨버린 세션이었습니다.

수많은 문서로 이루어진 법률조항, 사건 및 사안 등의 대단위 문서세트와 이 문서들이 가진 공통성인 비정형성들을 어떻게 다룰것인지 잘 보여주었습니다.

대단위 문서세트를 다루기위한 워크플로우 및 아키텍처 설계와 비정형 문서를 LLM의 임베딩 스토어에 저장하기위해 문서를 청크단위로 세세하게 쪼개어 저장하는 일련의 과정들은 비단 법률 기술에서만 필요한 과정이 아닐것입니다.

그리고, 프로세스마다 워크플로우를 배치해서 생성형 AI의 도움을 받고 효율성을 높이는 부분도 인상깊었습니다.

계약 자동생성이나 법률 AI-assistant도 빼놓을 수가 없네요.

세션의 내용이 다소 낯설고 다가가기 힘들긴 했었지만, 생성형 AI를 정말로 필요로 하는 곳에서 가치를 발하는 모습을 볼 수 있어서 좋았고, 이것이 구현된 구체적인 사례를 확인하니 더 보람있는 시간이었습니다.

글 │메가존클라우드, Strategic Technology Center(STC), CS1그룹, CA1팀, 이태훈 SA
게시물 주소가 복사되었습니다.