[reinvent 2024] AWS 기반 생성형 AI에 대한 감사 및 규정 준수 가속화

Summary


생성형 AI는 혁신을 가져오지만, 책임 있는 사용과 관련된 도전 과제가 있습니다. 이 세션에서는 Amazon Bedrock과 Amazon S3, AWS Lambda, Amazon VPC 등의 AWS 서비스를 활용한 생성형 AI 애플리케이션의 사용법을 안내합니다. 또한, 준수 및 거버넌스를 위한 AWS Organizations, AWS Audit Manager, AWS CloudTrail을 활용하여 인프라 감사와 증거 수집 자동화를 통한 감사 준비 보고서를 만드는 방법을 소개합니다.


리인벤트 2024 테크 블로그의 더 많은 글이 보고 싶다면?

Tech Blog

AWS re:Invent 2024 Tech Blog written by MegazoneCloud

Overview

  • Title: Accelerating auditing and compliance for generative AI on AWS
  • Date: 2024년 12월 2일(월)
  • Venue: Mandalay Bay | Lower Level North | South Pacific E | Mint Green
  • Speaker:
  • Andrew Kane(WW Tech Lead – GenAI Security and Compliance, Amazon Web Services)
  • John Fischer(Sr Specialist Solutions Architect, Amazon Web Services)
  • Industry: Professional Services

들어가며

세션은 생성형 AI와 전통적인 AI의 감사와 규정준수 활동에 대해 다루며, 생성형 AI 응용 프로그램의 수명 주기에 초점을 맞춥니다.

생성형  AI의 규정준수 활동은 비결정론적 특성 때문에 복잡하며, 이는 전통적인 AI 모델의 예측 가능한 출력과는 다릅니다. 여기서 비결정적 특성은 동일한 입력에 동일한 결과라는 것을 보장하는 전통적인 AI 모델과는 다르게 학습데이터에 따라 동일한 입력이라 하더라도 다른 결과를 도출해내는 생성형 AI가 가진 통제하기 어려운 성질을 말합니다.

LLM과 같은 생성형 AI 모델은 방대한 비구조적 데이터로 훈련되며, 이는 전통적인 AI의 유한한 데이터셋과 다르게 인터넷 전체를 포함할 수 있습니다. 생성형 AI의 출력은 예측하기 어려우며, 기술적인 소비자뿐만 아니라 다양한 소비자를 대상으로 하는 경우가 많습니다. 생성형 AI를 통한 출력에서 편향이 없도록 보장하는 것은 복잡하며, 이는 S3 버킷 암호화 확인과 같은 전통적인 AI의 직관적인 작업과는 다릅니다.

생성형 AI는 다양한 산업 분야에서 사용되며, 그 사용이 점점 더 증가하고 있습니다. 그러나 생성형 AI는 기존의 소프트웨어와는 다르게, 데이터를 기반으로 학습하고 예측하므로, 기존의 감사와 규정준수 방법으로는 충분하지 않습니다. 

본 세션을 통해 AWS가 생성형 AI에 대한 감사와 규정준수에 대한 노력이 어떠한 기준과 방식으로 이루어지는지 살펴보겠습니다.

Agenda

본 세션의 주요 아젠다는 다음과 같습니다.

  • 전통적인 AI와 생성형 AI에 대한 감사 및 규정준수 관점에서의 주요 차이점
  • 생성형 AI 애플리케이션의 근황
  • 생성형 AI 에 대한 AWS가 제안하는 Best Practice
  • 주요 사항들

생성형 AI가 전통적인 AI와 다른 점

아젠다에서 전통적인 AI라고 소개되었던 예측형(Predictive) AI와 생성형 AI의 비교입니다.

예측형 AI는 유한한 데이터셋을 가지고, 우리가 질문하기 전에 어느 정도 답변을 유추하여 예상할 수 있다고 합니다. 그러나, 생성형 AI는 대규모언어모델 기반으로 움직이며, 결론이 결정적이지 않아 결과를 알 수 없다고 합니다. 동일한 입력을 하더라도 동일한 출력을 보장할 수 없다고 합니다.

생성형 AI 애플리케이션의 근황

생성형 AI의 도움으로 효율성과 생산성이 향상됨에 따라 사용자 경험이 개선되고, 비용도 절감되면서, 새로운 서비스를 제공하고 있습니다. 경쟁에서도 우위를 점하고있고, 창의성과 혁신이 나타나고 있죠.

모두 생성형 AI가 가져다 주는 이점이고, 이걸 책임감있게 제품을 만들기위해 노력하고 있다고 합니다.

생성형 AI 에 대한 AWS가 제안하는 Best Practice

생성형 AI를 감사하는 모범 사례이며, 8가지 영역으로 구분되며, 정확성, 올바름, 사생활, 회복력, 책임, 안전, 보안, 지속가능성에 대한 내용으로 이루어져 있습니다. 우리는 이것을 본 적이 있습니다. 

기존  IT시스템과도 관련이 있고, AI와 무관한 AWS시스템에서도 강조하던 모범 사례 특성들이 있습니다. (https://aws.amazon.com/architecture/well-architected)

후반부에 이것을 다뤄보고 싶습니다.

정확성

생성형 AI가 부정확한 답변을 내어 놓는 상황을 방지하려면 어떻게 해야할까요?

실제로 작업중인 도메인을 기반으로 시스템이 정확하다는 사실을 테스트기록을 통한 감사 및 규정준수를 통해 증명할 수 있어야합니다. 학습 데이터에 관해서는 검증도 필요합니다. 

데이터는 어디에서 취득한 것인가? 데이터를 구입한 이후로 변조된 적이 있는가?  조직 내에 도움을 주기위해 데이터를 가공한 사람이 있는가?  혹은 일부 데이터가 마음에 들지않아서 최근 1주일 내 변경한 사람은 누구인가?

이 모든 물음에 답할 수 있는 추적성이 필요함은 말할 필요도 없을 것이며, 데이터를 제공한 데이터 회사는 데이터가 변형 되었으므로 데이터 공정성에 책임질 수 없다고 할 것입니다.

정확하지않은 답변은 시스템의 신뢰도에 영향을 주고, 평판과 금전적인 피해, 더 나아가서 군용, 재무용 시스템에 영향을 끼칠 경우 더 심각한 피해를 초래할 수 있습니다.

이의 해결을 위해 Amazon Bedrock 모델평가를 사용할 수 있습니다. 생성된 데이터세트를 불러와 모델을 자동으로 테스트할 수 있습니다. 또한, Audit Manager를 통해 무결성 검사를 할 수 있습니다. 학습데이터들이 변조되지 않았는지 모니터링하고, 수동입력이 필요한 경우 해당항목을 추적하는 방법까지 제공됩니다.

공정성

생성형 AI를 제공할때 다양성, 평등, 인종, 성별, 종교, 나이, 정치적 견해 등 다양한 관점에서 공정성을 취해야 합니다. 대규모모델을 구매하여 사용할때 미세조정 등을 통해서도 데이터세트를 제어할 수 없기 때문에 구매 전에 사용하고 싶은 모델인지, 라이센스나 설명을 확인해야 합니다. 또한, 제공된 데이터세트에 편향이 감지되면, 이것을 수정하고 미세 조정을 수행하여 공정성 측면에서 더 나은 데이터세트를 얻을 수 있습니다.

개인정보 보호

생성형 AI를 통해 상세한 정보를 얻으려면 상세한 학습데이터가 필요합니다. 이를 다루는 사람은 생성형 AI를 통해 상세한 정보를 얻겠지만, 리버스엔지니어링을 통해 학습데이터로의 접근이 불가하도록 암호화되고, 유추할 수 없도록 차등 개인정보보호를 통해 개인정보의 접근을 막을 수 있습니다.

개인데이터가 필요한 경우 모델에 데이터가 들어갈때 혹은 출력되어 나올때 보안처리가 필요합니다. 개인정보에 대한 배우자 동의처리, 생성형 AI가 실행되는 위치에 대한 법률에 대한 반영과 수정된 법률에 대응할 수 있어야합니다. 또한, 개인정보의 유출에 대한 확대절차에 대한 마련도 신속한 사고대응을 위해 필요합니다.

이를 추적하기 위한 예시로서, S3버킷에 대한 데이터이벤트를 CloudTrail Lake로 조회하여 원천데이터를 접근하거나 데이터작업업무를 감사할 수 있습니다.

회복력

회복력은 생성형 AI에서도 주요한 항목입니다. AWS는 AI가 아닌 IT시스템에서도 달성해야하는 주요 항목이며, Region-set이라는 지리적으로 가까운 Region을 묶어 그룹을 만들어 그룹 내 부하급증에 대해 워크로드를 분배하여 처리하도록 구성하고 있습니다. 특정 Region의 문제발생시 Region-set 내 다른 Region이 대응하는 것은 물론입니다.

책임

지금 생성형 AI의 8가지 항목 중 책임을 말할 차례입니다. 책임은 나머지 7개 항목으로부터 귀결되는 마지막 항목입니다. 모든 항목의 마지막은 책임으로 귀결된다는 것이지요.

생성형 AI를 구축하고, 운영하는 사람 모두 결과에 대한 책임이 있고, 생성하는 모든 것에 대해 책임을 져야합니다. 

책임을 지기위해 내부검토 등의 감사와 규정준수 등의 업무를 수행해야합니다.

IT세계에 존재하는 수많은 규정준수를 이행하기 위해 AWS Config의 Conformance pack의 도움을 받을 수 있습니다. 이것을 통해 세계의 규정들에 현재 시스템의 설정이 부합하는지 확인할 수 있습니다.

안전

생성형 AI가 제시하는 결과의 범위는 통제 가능해야 합니다. 나아가서는 고객에게 제공하고 싶지않은 정보를 제공하지않도록 하는 것도 중요합니다. 

이의 해결을 위해 Amazon Bedrock GuardRails가 준비되어 있습니다. 이는 AI모델과 분리되어 있으며, 고객이 직접 컨트롤할 수 있습니다. 콘텐츠나 특정단어를 필터링하거나, 특정주제를 거부하거나, 개인정보를 마킹처리하는 등의 제공정보의 울타리를 설정할 수 있습니다.

보안

모든 것에 최우선하는 첫번째 작업(Job Zero) 보안에 대한 이야기입니다. 모든 데이터는 전송 중에도, 저장 중에도 암호화되어 있어야하며, 고객의 데이터는 모델의 학습데이터와 공유되지 않아야하며, 프롬프트나 결과데이터가 모델 내에 저장되지 않아야하며, 고객의 모든 API호출은 해당Region에 머물러야합니다. 그리고, Amazon Bedrock은 그걸 해내고 있습니다.

전송 중 암호화는 최소한 TLA1.2 이상이며, 저장 중 암호화는 AES-256을 사용합니다. 고객이 원할때는 KMS키 암호화도 가능합니다. 또한, 20개 이상의 규정준수 표준을 적용하고 있습니다. Bedrock사용에 대한 접근권한 조정을 위해 Control Tower가 준비되어 있습니다. 학습데이터와 모델의 생성과 접근을 승인된 계정으로 제한할 수 있습니다. 이의 모니터링을 위해 SecurityHub가 제공됩니다.

클라우드 보안태세 모니터링의 제공을 위해 Config, Guardrail 등에서 감지된 Findings를 외부 보안솔루션으로 전달하여 연동할 수도 있고, 외부솔루션으로부터도 제공받을 수  있습니다.

지속가능

모든 일에 대해 지속가능하다는 것은 AWS에 매우 중요한 점이며, 이를 위해 인프라를 효율적으로 바꾸고, Graviton, Trainium 등을 개발하여 소비에너지 단위당 더 많은 처리능력을 얻고 있습니다.

이의 가시화를 위해 AWS콘솔의 빌링부분에서 Customer Carbon Footprint Tool을 제공합니다. 사용 중인 서비스에 따라 탄소배출량을 추정할 수 있습니다. 해당 지역의 예상 탄소배출량을 확인하고, 높은 탄소배출원을 식별하는데 도움을 줍니다.이는 AI의 책임감있는 사용을 확장하고, 탄소배출권 등을 활용하는데 일익을 담당할 것입니다.

결론

다소 지루하지만, 하지않으면 안되는 이야기로 가득 차 있었던 세션이었습니다.
생성형 AI는 어떠해야 하는가, AWS는 어떤 준비를 하고 있는가를 확인하게 되었습니다. 서두에서 생성형 AI의 주요항목 8가지에 대한 기시감을 말씀드린 바 있습니다. 그래서, 그 2가지를 한번 비교해 보았습니다.

  • 생성형 AI의 모범사례 8개 항목
    – Accuracy
    – Fair
    – Privacy
    – Resilience
    – Responsible
    – Safe
    – Secure
    – Sustainable

  • AWS Well-Architected Framework 6개 항목
    – Operational Excellence
    – Security
    – Reliability
    – Performance Efficiency
    – Cost Optimization
    – Sustainability


뭔가 겹쳐보이지 않으십니까?  아마도 중복되는 부분은 IT시스템으로서 당연히 가져야할 덕목인지도 모릅니다.

  • 생성형 AI의 영역 중 기존 AWS와 중복 혹은 대응되는 항목 
    • Resilience (회복력) ←→ Reliability (신뢰성)
    • Secure (보안) ←→ Secure (보안)
    • Sustainable (지속가능) ←→ Sustainability (지속가능성)


그렇다면, 그에서 벗어나는 항목 5가지는 어떤 것일까요?

  • 생성형 AI의 영역 중 기존 AWS와 중복 혹은 대응되지않는 항목 
    • Accuracy (정확성)
    • Fair (공정성)
    • Privacy (개인정보보호)
    • Responsible (책임)
    • Safe (안전)

다소 기술적인 것으로 달성하기 어려운 주제이면서도 일면 도덕적인 주제가 아닌가하는 생각이 듭니다.
역으로 그렇기 때문에 생성형 AI가 갖춰야하는 주요항목이 되었을지도 모릅니다.

AI는 우리 사회를 어떻게 변모시킬지 아직 알 수 없고, 그저 우리는 이렇게 두리뭉술하나마 약한 울타리라도 쳐서 우리 사회가 약속한 선을 넘지않도록 경고하고 있는것일지도 모르겠습니다.

글 │메가존클라우드, Strategic Technology Center(STC), CS1그룹, CA1팀, 이태훈 SA
게시물 주소가 복사되었습니다.