[메클 인사이트] AI가 어려워? 데이터도 어려워? 일단 데이터 파운데이션(Data Foundation)부터 시작🎲

동영상 타임라인


00:20 나야 TechExam
00:54 🧑🏻‍💻데이터 엔지니어 등장
02:22 🧑🏻‍💻데이터 엔지니어(Data Engineer)가 뭐길래?
05:20 🤖스마트폰 날씨 췍! 알고보면 #AI #ML #LLM #RNN #데이터
07:20 🤖영어 공부 어플 #챗봇 #GenAI
08:10 🤖보험 약관 #검색 #RAG #GenAI
11:02 📊보고서 지옥 탈출! 데이터 파운데이션
12:46 📊고객 사례: 도입 배경 & 도입 성과 15:45 🗝️SaaS가 뭐길래?
18:05 🗝️스노우플레이크 & 트로코(Snowflake & trocco)
19:16 ⚡메가존클라우드 데이터팀: 멋지다! 대단해! 엄청나!
20:31 ⚡DataLab Service: 데이터 엑셀러레이터 프로그램

들어가며

최신 IT 뉴스에서는 기업이 경쟁력을 가지려면 ‘생성형 AI(Gen AI 또는 Generative AI)’를 도입해야 한다고 말합니다. 메가존클라우드 또한 여러분의 비즈니스 성장 위해 AX(AI Transformation)을 각 사업 형태에 맞춰 다양하게 제안하고 있는데요. 그렇다면 비즈니스 성장을 위한 생성형 AI(Gen AI)의 핵심은 무엇일까요? 
🍪 생성형 AI이란 무엇일까요?

생성형 AI(Gen AI 또는 Generative AI)는 방대한 데이터를 딥러닝(Deep Learning)을 통해 사전 학습을 시킴으로서 데이터 간의 연관도를 분석하고 이를 바탕으로 ‘문서, 이미지, 동영상’ 등 결과물로 산출하는 것입니다. 사실 이것도 데이터 기반 접근이 있었기에 가능한 기술이죠. 조금 더 자세히 설명하자면, RNN(Recurrent Neural Network)이라는 순환신경망 구조에 대한 이해가 필요합니다. 해당 딥러닝(Deep Learning) 아키텍처는 인간의 두뇌를 본떠 만든 계층 구조로서 뉴런과 같은 연결 노드를 사용하여 컴퓨터를 가르칠 수 있습니다. 이와 같은 학습을 통해서 컴퓨터는 규칙적인 신호 처리 분석 및 자연어 처리, 이미지 분석, 음성 인식 문제를 해결하는데 효과적입니다. 생성형 AI 는 방금 말씀드린 RNN 보다 진보된 트랜스포머 모델(Transformer Model)이라는 신경망 아키텍처를 사용합니다.  이 모델을 사용함으로써 병렬 처리가 어려워 학습 속도가 느렸던 RNN 의 한계를 극복하고 자연어 처리 분야에 상당한 수준의 성과를 거둘 수 있었습니다. 이런 기술이 적용한 유명한 서비스가 바로 ChatGPT 입니다. 이외에도 텍스트로 이미지를 생성할 수 있는 Stable Diffusion과 같은 생성형AI 도 있지요.
지금 이야기가 너무 어렵나요? 사실 여러분은 어렵게 생각하실 필요 없습니다. 어려운데 어떻게 어렵게 생각할 필요가 없을까요? 어려운 것도 쉽게 이야기하는 메가존클라우드의 테크 칼럼을 통해 재미있는 테크 이야기 전해드립니다.

오늘의 테크 전문가 소개 

  • 성함: 최경진
  • 소속/직함: 메가존클라우드 Cloud Tech Center(CTC) 팀장
  • 특징
    • 대한민국 1호 Snowflake Data Superhero
    • 데이터 엔지니어 전문가
    • 메가존클라우드 AWS SA(Solutions Architect) 및 Snowflake 담당 
이야기를 시작하기에 앞서 오늘의 테크 칼럼의 기술 자문에 대해 소개하자면, 최경진 SA(Solutions Architect)님은 메가존클라우드 Cloud Tech Center(CTC) 에서  데이터 팀을 리드하고 있으며, 대한민국 1호 스노우플레이크 데이터 슈퍼히어로(Snowflake Data Superhero)이자 데이터 엔지니어 전문가입니다. 지난 5년 간 메가존클라우드에서 AWS SA(Solution Architect)와 스노우플레이크(Snowflake) 등 다양한 서비스를 담당하며 데이터 파운데이션(Data Foundation) 구축을 위해 활약했답니다.


CTC 소속 데이터팀은 어떤 업무를 할까?

CTC(Cloud Technology Center)는 AWS 사업을 주로 수행하고 있는 기술조직으로 메가존클라우드가 설립된 2018년부터 AWS 인프라 구축 및 기술 지원을 도맡고 있는 메가존클라우드 대표 SA(Solutions Artchitect) 조직입니다.
데이터팀은 AWS Native 서비스 중 Database 및 Analytics 서비스 중점적으로 architecting 및 implementation 을 제공하고 있으며, 지난해부터는 보다 고객 친화적인 데이터 플랫폼을 제공해드리기 위해서 다양한 3rd party 솔루션도 같이 소개해드리고 있습니다

‘데이터 엔지니어’는 개발자와 무엇이 다를까요?

데이터 엔지니어(Data Engineer)는 단어에서 미루어 짐작할 수 있듯이 데이터를 다루는 전반적인 업무를 맡고 있습니다. 보통 엔지니어가 데이터를 다룬다고 할 때, 데이터 파이프라인(Data Pipeline)을 구축한다고 표현하는데요. 이 작업에는 많은 업무가 포괄적으로 있습니다. 이해하기 쉽게 설명하려면 데이터 다룰 때 필요한 업무가 무엇인지 설명 드려볼게요.

 ‘데이터 엔지니어’의 필수 역량과 업무 소개

1. 클라우드 인프라 구축 역량

기본적으로 데이터 파이프라인을 구축하기 위해서는 클라우드 기반으로 인프라를 구축할 있어야 합니다.즉, AWS SA(Solutions Architect)와 같이 인프라를 구축할 수 있는 역량이 필요합니다.

2. ETL 또는 ELT 작업 등 개발자 역량

다양한 종류의 데이터를 수집하고 이를 적절한 데이터로 가공해서 원하는 데이터 형태로 만들기 위해서는 흔히 ETL 또는 ELT 라고 하는 작업을 거쳐야 합니다. 이를 위해서는 인프라 역량 뿐만 아니라 개발자 역량도 필요합니다.

3. 데이터 분석가 역량

마지막으로 데이터 분석가, 데이터 사이언티스트와 협업하는 영역인 Data mart 구축, BI 대시보드 구축, AI/ML 기반 서비스 구축 등이 있는데요. 요즘에는 다양한 로우코드(Low Code), 노코드(No Code) 솔루션이 많은 덕분에 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트 등 각 역할의 경계가 흐려지고 있는 추세입니다.
아무래도 데이터를 수집 초기부터 다루고, 필요로 하는 데이터로 가공하는데 있어서 데이터 엔지니어가 주도적인 역할을 하기 때문에 앞으로 가장 유망한 직무 중 하나로 떠오르고 있습니다.

데이터는 데이터 엔지니어 같은 전문가들만 다를 수 있는 것일까요?

데이터 엔지니어인 전문가 입장에서 설명하면, 듣는 입장에서 어려운 것처럼 들릴 수도 있겠지만,  사실 데이터 기술은 이미 우리 일상 곳곳에서 손쉽게 접할 수 있습니다.

혹시 “시리야~”, “오케이 구글”, “헤이 빅스비” 등 휴대폰을 통해 가상 비서를 찾아보신 적 있으신가요? 사실 여기에는 AI/ML 기술 중 “음성인식 및 자연어 처리” 기술과 앞서 소개 드린 트랜스포머 모델(Transformer Model)이라는 신경망 아키텍처가 적용된 기술입니다. 이렇게 기술적으로 파고들면 복잡하지만, 사실 우리가 일상에서는 편하게 사용하고 있는 기술이죠. 우리의 일상에서 생성형 AI 기술이 적용된 또 다른 사례를 소개해볼게요.

우리의 일상생활 속 데이터 기술? 챗봇(Chatbot)!

최근에는 생성형 AI(GenAI 또는 Generative AI) 기술을 적용한 솔루션이나 챗봇(Chatbot) 과 같은 서비스를  쉽게 접하실 수 있는데요.
가장 대표적으로 영어 학습 사례를 볼 수 있습니다. 예전에는 전화 영어(음성 통화)를 통해 원어민과 영어회화 공부하는 사람도 많았죠? 지금은 ChatGPT를 사용하여 영어 회화 코치를 받거나 영어 학습 앱에서 이 기능을 차용하여 효율적으로 공부할 수 있도록 도와주는 기능이 늘어나고 있습니다. 혹시 ChatGP 를 활용한 영어 공부를 안 해보셨다면 한번 해보시길 추천 드려요. 시중에 관련된 책도 많답니다.

우리의 일상생활 속 데이터 기술? 보험약관 AI 검색! #RAG

여러분은 보험을 가입할 때 약관 다 읽어보시나요? 사실은 내용이 너무 많아서 다 읽어보긴 어렵거나, 각자 관심 있는 부분만 골라고 보고 싶지 않으신가요? 예를 들면, 내가 관심 있는 질병에 대해 보장 받을 수 있는지, 아니면 수술 비용이나, 어떤 혜택을 더 받을 수 있는지 등 제가 정말 궁금한 몇 가지만 중점적으로 살펴보고, 그 외 보장 기간과 비용을 중점으로 보고 싶지 않나요
보험 약관은 기재된 내용이 많고, 일상 용어도 아니다 보니 다 읽기 어렵거나 귀찮을 수 있죠. 그래서 혹시 먼저 관심 있거나 궁금한 약관 또는 보장 사항이 있는 지를 먼저 살펴보고 싶은 적 없나요? 마치 포털 사이트의 검색 창에서 암 보험 상품 검색해서 원하는 답변만 찾아보고 싶은 적 없나요?
RAG(Retrieval-Augmented Generation)라는 기술을 적용하여, 요즘에는 “보험 상품 약관 문서”에서 필요한 부분을 콕 찝어서  “암보험 보장 내용  또는  당뇨 보장 내용” 등 궁금한 사항을 검색하면 해당 부분을 알기 쉽게 정리해서 설명을 받을 수 있습니다. 이렇게 일상 속에서 쉽게 볼 수 있고 또 우리의 삶의 편의를 높여주는 기술이 알고 보면 데이터 기술로 이뤄지고 있는 것이죠. 

왜 우리는 데이터 활용을 어렵게 느끼는 걸까?

사실 잘 인식하고 있지 못했을 뿐, 이렇게 우리 일상 속 곳곳에 데이터 기술이 적용되고 있는데요. 여기서 이런 질문을 드리고 싶네요.
“우리는 일상속에서 데이터 개발 기술로 편리하게 살고 있는데,
왜 업무에서는 데이터 활용을 어렵게 느끼고 있을까요?”

데이터 파운데이션(Data Foundation)

이를 위해서 제가 데이터 파운데이션(Data Foundation)이라는 개념을 먼저 소개해드리려고 합니다.
데이터 파운데이션(Data Foundation)이란 데이터를 효과적으로 수집, 관리, 저장, 조직화해서 
엔터프라이즈 데이터(Enterprise Data)로 활용하기 위한 토대를 마련할 수 있도록 수행하는 
기본 인프라, 프로세스 및 전략 활동을 의미합니다. 
더 설명하자면, 여러분들이 회사에서 사용하고 있는 모든 종류의 데이터를 한 곳에 모아서 안전하게 관리하고 필요로 하는 데이터 형태로 변형하여 쉽게 사용할 수 있도록 준비하는 활동을 의미합니다. 이와 같은 활동을 위해서는 앞서 소개한 데이터 파이프라인(Data Foundation) 구축과 같은 작업이 수반되어야 합니다. 좋은 결과를 얻기 위해서는 무엇보다 다음과 같은 고민이 필요합니다.

데이터 파운데이션 도입 전, 의미 있는 성과를 위해 고려해야 할 것

  • 내가 가지고 있는 데이터가 무엇이 있을까?
  • 내가 필요로 하는 데이터가 어디에 있을까?
  • 내가 가지고 있는 데이터로 무엇을 할 수 있을까?
위와 같은 3가지에 대한 고민이 필요합니다. 이 과정을 통해서 여러분이 잘 알고 있는 데이터 외에도 잊고 있던 데이터 또는 잘 모르던 모든 데이터를 투명하게 통합되고 많은 사람이 이에 쉽게 접근할 수 있는 환경을 갖추게 됩니다.

‘데이터 파운데이션’ 적용한 고객사례

데이터 파운데이션(Data Fondation)에 대한 이해를 돕기 위해, 유명한 글로벌 제조 기업의 사례를 통해 데이터 파운데이션(Data Fondation)이 필요한 사례와 성과를 소개해볼게요.

The Challenge

  • 해당 기업은 글로벌 기업으로 해외에 본사가 있고,
  • 한국 소속 담당자 단 한 명이 글로벌 향으로 매달 판매 리포트 발간 업무를 담당하고 있었습니다.
    • 자사의 매월 판매 수치와 여러 경쟁사의 판매 수치 등 데이터를 모두 엑셀로 취합 후
    • 도표와 차트 등 데이터 시각화(Data Visualization) 작업하여 리포트를 작성
    • 이를 매월 전 세계 지사로 리포트 발행했습니다.

AS IS(Pain Points)

  • 실무자는 월간 2회의 보고서를 수기로 매번 작성을 해야 하는 데,
    실문자가 휴가를 가거나 일이 생겨도 이것을 대체할 수 있는 사람이 마땅히 없었습니다. 
  • 전 세계 여러 지사에서 매달 리포트를 기다리고 있는데, 이분이 개인 사정으로 그 업무를 하지 못하면 당월의 ‘한국 지사의 판매 리포트’는 지연이 되는 거지요. (업무 지연)
  • 여기서 또 다른 페인 포인트는  보고서를 매월 2번 작성해야한다고 말씀드렸잖아요?
    • 첫 번째 보고서는 ‘자사의 판매 데이터’와 ‘경쟁사들의 판매 예상 데이터’를 임의로 넣어서 리포트를 발행하고
    • 두 번째 보고서는 그 사이에 구매한 ‘경쟁사들의 실제 판매 데이터’를 넣어서 최종 리포트를 발간합니다.
  • 똑같은 양식의 리포트이지만, 실제 데이터를 돈 주고 사오는 기간동안에도 참고할 리포트가 있어야 하기에 , 똑같은 작업을 두번 씩 수기로 해야하는 겁니다.
  • 담당자의 업무 부담이 클 수 밖에 없었죠.

TO BE(Outcomes)

  • [대시보드 구축] 매달 한국 지사의 판매 실적과 경쟁사와 판매 실적을 비교할 수 있는 대시보드를 구축 
  • [반복 업무 최소화] 월 최소 2회 이상 씩 리포트를 수기로 작성 업무 생략
  • [리포트 자동 생성] 단순히 매출 데이터 파일을 클라우드에 업로드 하는 것 만으로 기존과 유사한 템플릿의 리포트를 자동 생성
  • [업무 시간 단축] 이를 통해서 실무자는 데이터 검수 작업만 수행하게 됨으로서 혁신적으로 업무 시간 단축
  • [효율적인 업무 협업] 리포트 작업에 익숙지 않은 인력(인턴 등)도 리포트를 다운로드 할 수 있게 되어서 , 단순 수작업 업무 배분 및 협업 가능
  • 여기서, 주목할 부분은 “실무자”가 데이터 비전문가라는 부분입니다.

데이터 비전문가를 위한 솔루션 SaaS(Software as a Service)

(개발자나 엔지니어가 아닌) 데이터 비전문가도 데이터 기술을 업무에 쉽게 사용할 수 있다고 하니 실무에서 매우 유용할 거 같지 않나요? 어떻게 “데이터 비전문가”도 “데이터 전문가”처럼 데이터를 분석해서 잘 활용할 수 있을까요?
요즘은 좋은 SaaS 제품이 많아서 비전문가(엔지니어가 아닌 분)도 충분히 데이터를 가공하고, 분석을 통한 활용을 할 수 있는데요. SaaS(Software as a Service)를 모르시는 분을 위해 짧게 설명을 해볼게요.

클라우드 컴퓨팅(Cloud Computing) 3가지

클라우드 컴퓨팅을 구분하는 개념으로 IaaS, PaaS, SaaS 등 3가지로 분류할 수 있습니다.

IaaS

IaaS는 Infrastructure as a Service의 약자이며, 클라우드 인프라를 제공하는 클라우드 서비스 제공 업체인AWS, Azure, GCP 와 같은 CSP(Cloud Service Provider) 벤더를 의미합니다. 이러한 IaaS 에서 서비스를 구축하기 위해서는 우선 인프라 설계를 하고, 구축을 진행해야 합니다.

PaaS

PaaS는 Platform as a Service의 약자로 자주 사용하는 인프라 구성을 배포하기 쉽게 만든 서비스를 말합니다. 인프라에 대한 지식이 부족해도 서비스를 개발해서 구축하는데 크게 문제가 없습니다.

SaaS

마지막으로 SaaS는 Software as a Service의 약자로 인프라 구성은 물론이고, 제공하고자 하는 서비스의 모든 편의 기능이 이미 구축되어있는 서비스를 말합니다. 사용자들은 브라우저와 같은 프로그램을 통해 접속해서 로그인하고 바로 주요 기능을 사용할 수가 있습니다.

SaaS는 어떤 장점이 있을까요?

SaaS의 장점은 다음과 같습니다.

① 용이한 확장성

컴퓨팅 및 스토리지가 유연하게 확장 및 축소가 가능하기에 언제든지 확장을 할 수가 있습니다.

② 사용 편의성

다운로드 또는 설치가 필요 없고, 인터넷 연결만 있다면 디바이스에 상관없이 브라우저를 통해서 사용이 가능합니다.

③ 실시간 개선

서비스 업데이트를 수시로 할 수 있기에 별도 업데이트 작업을 하지 않고도 최신 기능을 사용할 수 있습니다.
다른 다양한 데이터 SaaS 제품과 마찬가지로 위와 같은 장점을 가지고 있기에 쉽고 빠르게 데이터 처리 및 분석 기능을 사용해볼 수가 있습니다.

스노우플레이크(Snowflake)

여러가지 좋은 SaaS 제품이 시중에 많이 나와있지만, 오늘은 스노우플레이크(Snowflake)에 대해 설명해볼게요.
스노우플레이크(Snowflake) 는 SaaS 형 데이터플랫폼으로 페타바이트급 빅 데이터(Big data)를 저장할 수 있고, 데이터 분석 결과를 매우 빠르게 조회할 수 있는 데이터 서비스입니다.
데이터 엔지니어가 아니더라도 쿼리(Query) 또는 파이썬(Python)과 같은 언어를 사용할 수 있다면 데이터를 가공하고 분석하는데 크게 어려움 없이 사용할 수 있습니다.

뿐만 아니라 하나의 플랫폼에서 애플리케이션을 개발하여 서비스를 제공할 수 있고, 요즘 가장 핫한 LLM(Long Language Model) 기능을 포함한 ML(Machine Learning) 기능도 제공하고 있어서 ML(Machine Learning)에 대한 개념이 부족해도 나만의 ML 서비스를 만들어볼 수 있습니다.

트로코(trocco)

또 다른 SaaS 제품으로 트로코(trocco)를 소개해드리고 싶은데요. 트로코(trocco)는 스노우플레이크(Snowflake) 파트너사 솔루션으로서 데이터 수집에 특화되어있는 소프트웨어입니다.
대표적으로 세일즈포스(Salesforce)에 있는 영업기회(Prospects)와 같은 데이터를 직관적인 UI 사용으로 추출하여 엑셀(구글 시트) 또는 스노우플레이크(Snowflake) 와 같은 데이터 플랫폼을 통해 데이터를 받아볼 수 있습니다.

메가존클라우드의 역할과 강점

SaaS 제품만 있으면 비전문가도 충분히 데이터를 잘 활용할 수 있을 텐데, 많은 고객이 메가존클라우드 데이터팀를 찾는 이유가 무엇일까요?
  • 고객의 문제를 정확하게 진단하고, 필요한 솔루션을 제안해드릴 수 있습니다.
  • 물론 고객사에 적합한 데이터 기반 인프라를 구축해드릴 수도 있습니다.
  • 메가존클라우드는 매우 다양한 메이저 파트너사와 함께하고 있습니다.
  • 따라서 수 많은 솔루션 중 고객에게 적합한 솔루션을 찾아서 제안드릴 수 있습니다.
즉, 굳이 여기저기 연락할 필요없이 메가존클라우드 데이터팀에게 물어보시면 올인원(All in One)으로 해답을 제시해드릴 수 있습니다.

마무리하며

오늘 데이터 파운데이션(Data Foundation)에 대한 소개부터 데이터 전문 솔루션에 대해서 소개했는데요. 마지막으로 강조하고 싶은 것은  데이터를 통해서 유의미한 결과를 도출하는 일은 SA(Solutions Architect)와 같은 전문가의 도움을 받아서 빠르게 도입하는 것을 추천해드리지만, 궁극적으로는 여러분이 직접 데이터를 잘 사용할 수 있는 환경과 경험을 갖춰 데이터 분석 문화를 만들 필요가 있다는 것입니다.
이를 위해서 메가존클라우드 데이터팀에서는 데이터 분석 엑셀러레이트 프로그램인 데이터랩 서비스(DataLab Service)를 제공하고 있으니 관심 가지고 찾아주시기 바랍니다!

🍪DataLab Service(데이터랩)에 대해 궁금하신가요?

메가존클라우드 데이터팀의 ‘데이터 분석 엑셀러레이트 프로그램’ 일환으로 Partner-Led Data Lab을 통해 Build Lab & Design Lab 등 두 가지 서비스 지원합니다. 고객의 AWS 도입 상황에 따라 두 가지 프로그램을 운영하고 있는데요. 특히, 사내 기술 팀이 없어서 준비가 갖춰져 있지 않고, AWS 전문가의 실제 아키텍처 권장 사항이 필요한 고객을 위한 디자인랩(Design Lab) 프로그램도 있으니 적극적으로 문의주세요.
  • Build Lab :  (기술 팀이 있는) 고객을 위한 3~5일 집중 프로그램
  • Design Lab :  (기술 팀이 없는) 고객을 위한 1~2일 프로그램
데이터 분석 프로젝트 관련 
– 전문지식을 갖춘 데이터 엔지니어가 A부터 Z까지 함께 하는 여정
– 종합 지원 아키텍처 지침과 모범 사례와 데이터 분석 프로젝트 경험 보유
– 최적의 결과를 위해 AWS 데이터베이스, 분석, AI/ML, 서버리스 서비스 활용


📬데이터랩(DataLab Service) 서비스를 받아보고 싶다면? 온라인 상담신청


#SaaS #SoftwareasaService #AI #GenAI #생성형AI #데이터 #Data #데이터파운데이션 #DataFoundation #메가존 #메가존클라우드 #Megazone #MegazoneCloud

전문가 자문 및 인터뷰이

메가존클라우드 Cloud Technology Center Data Team 최경진 팀장

기획/제작

메가존클라우드 마케팅그룹 김주성 매니저

PD

메가존클라우드 마케팅그룹 진다솔 매니저
글 │메가존클라우드 마케팅그룹 김주성 매니저
게시물 주소가 복사되었습니다.