AIㆍML / 데이터ㆍ분석

"큰 힘에는 큰 책임이 따르는 법" 생성형 AI를 만난 데이터 거버넌스의 과제

Isaac Sacolick | InfoWorld 2024.02.28
최근 필자의 마음에 자리잡은 주제인 데이터 거버넌스에 대해, 챗GPT에 다음과 같은 프롬프트를 던져서 물어보기로 했다. “데이터 거버넌스가 뭐야?” AI는 “데이터 거버넌스는 기업 안에서 데이터가 적절하게 관리되고 보호되며 활용되고 있는지를 보장하는 일련의 과정과 정책, 표준, 지도를 말한다”라고 답했다. 좋은 대답이다. 그리고 지금 시점에서는 데이터 거버넌스와 그 의미에 대해 더욱 많은 이야기를 할 수 있을 것이다. 
 
ⓒ Getty Images Bank
 

생성형 AI의 시대에 데이터 거버넌스란 

데이터 거버넌스는 데이터 보안과 관리, 품질, 분류를 포함한 여러 법칙을 망라한다. 사용 정책을 정의하고, 고급 데이터 소스를 생성하고, 데이터셋을 프로파일하고, 용어를 기록하며 데이터의 생애주기를 관할하는 것도 들어간다. 기업 모델에 따라 전략을 마련하는 CDO, 데이터셋에 대한 정책을 정립하는 데이터 소유자, 데이터 품질 향상 책임자인 데이터 스튜어드의 역할을 정의하기도 한다. 
 
데이터 무결성 도구 업체 프리사이즐리(Precisely)의 CTO 텐두 요거트쿠는 “데이터 거버넌스는 기업이 핵심 데이터를 찾고 이해하고 견인하도록 이끄는 데이터 무결성의 핵심 요소로 정확한 보고와 지식에 근거한 결정을 목적으로 한다”라고 정의했다. “데이터 거버넌스는 데이터의 의미, 계보, 영향력에 대한 이해를 제공해 기업이 법규를 준수하고 AI 모델이 믿을 수 있는 데이터를 받아 신뢰할 수 있는 결과를 낸다는 확신을 준다.”

요거트쿠는 데이터 거버넌스가 과거에는 법규 준수에 집중한 기술적 약속이었다며 “AI가 도입되면서 데이터는 가장 필수적인 기업 자산이 되었고, 데이터 거버넌스도 엔터프라이즈 전반에 걸쳐 매우 중요한 위치에 올랐다”라고 설명했다. 

생성형 AI를 실험하거나 LLM으로 애플리케이션을 구축하는 기업에 있어 데이터 거버넌스의 책임과 직원의 AI 도구 활용에 따른 위험은 더욱 커지고 있고, 비구조화된 데이터에 대한 시야도 중요해졌다. 데이터 거버넌스가 생성향 AI 도구와 역량에 내재된 기회와 위험에 적응하기 위해 발전해 나가는 전략에 대한 여러 전문가의 의견에도 일치점이 있었다.

 

생성형 AI 도구와 LLM을 활용할 때 데이터 정책을 리뷰한다 

데이터 거버넌스 부서는 데이터 카탈로그를 감독하고 중앙화된 데이터셋을 직원이 활용해 머신러닝 모델, 대시보드나 다른 분석 도구 구축에 쓸 수 있도록 데이터 활용 전략을 전달해야 한다. 데이터 거버넌스 부서는 LLM 내의 엔터프라이즈 데이터 소스를 사용하고 생성형 AI 도구를 실행하는 방법과 그 사용 여부를 포함하도록 정책을 업데이트하고 있다. 개발자와 데이터 과학자는 그 정책을 리뷰하고, 생성형 AI 실험을 지원하기 위해 데이터셋에 대한 어떤 질문이라도 데이터 소유자와 상의해야 한다. 

클라우드 기반 소프트웨어 업체 이그나이트(Egnyte)의 공동 설립자이자 CSO인 크리스 라히리는 “생성형 AI로 데이터 복잡성이 더 커지기 마련이므로 기업은 좋은 데이터 거버넌스와 프라이버시 정책을 적절히 배치하고 이들 모델을 훈련하는 데이터의 안전을 보장해야 한다. 기업은 AI 도구에 어떤 데이터가 쓰이는지, 기업이 사용하는 오픈AI, PaLM, 내부 LLM 같은 서드파티 중 어떤 것을 사용하는지에 세심한 주의를 기울여야 한다”라고 조언했다. 

프라이버시, 데이터 보호, 수용 가능한 활용법에 대한 생성형 AI 전략을 리뷰하라. 많은 기업이 생성형 AI 사용례에 필요한 데이터셋을 사용하기 전에 데이터 소유자의 요청과 허가를 받을 것을 의무화하고 있다. 데이터셋을 사용하기 전에 위험, 법규준수, 법적 기능 등이 GDPR, CCPA, PCI, HIPAA, 기타 데이터 법규준수 표준에 부합하는지를 협의하라. 

데이터 정책은 또한, 서드파티 데이터 소스를 사용할 때의 데이터 공급망과 책임도 고려해야 한다. EDB의 CPEO 조지프 드 브리스는 “특정 지역 내에서 보호받는 데이터와 관련된 보안 사고가 일어나면, 업체는 자사와 고객사 모두  데이터, 특히 AI/ML 플랫폼에 사용되는 데이터의 적절한 완화에 대한 양측의 책임에 있어 명확해질 필요가 있다”라고 말했다. 

생성형 AI가 가져올 기회를 반기는 사용자는 특히 기업의 데이터 프라이버시, 보안, 법규준수 정책을 이해함으로써 가장 중요한 것을 우선시한다는 마인드를 장착하는 것이 특히 중요할 것이다. 
 

데이터 품질 이니셔티브를 가속화한다 

아타카마(Attacama), 콜리브라(Collibra), 익스페리언(Experian), IBM, 인포매티카, 피르사이즐리, SAP, SAS, 탤런드(Talend) 등 데이터 품질 솔루션을 제공하는 업체는 많다. 전 세계 데이터 품질 도구 시장은 2022년 40억 달러 규모였고 연간 17.7% 속도로 성장을 거듭하고 있다. AI 도구와 LLM으로 실험을 시작한 기업이 늘어나면서 성장률은 더 높아질 것으로 전망된다. 

유니버설 애널리틱스 업체 피위크 프로(Piwik Pro) COO 마테우즈 크렘파는 “AI는 연료가 되는 데이터의 품질을 따라가기 때문에 AI 관련 작업의 과제 대부분이 데이터 품질과 직결된다. 데이터 품질이 나쁘면 결론을 잘못 유도하거나 오류가 있는 인사이트를 내면서 결과물에 심각한 영향을 미친다”라고 설명했다. 

크렘파는 데이터 품질의 과제가 빅데이터의 크기, 밀도, 다양성에서 온다며 특히 LLM이 기업의 비구조화된 데이터 소스와 관련이 있다고 말했다. 내부용 LLM을 개발하려는 기업은 문서, 협업 도구, 코드 리포지토리, 기업의 지식과 지적 자산을 저장하는 기타 도구에서 추출한 정보를 모두 망라하는 데이터 품질 이니셔티브로 확장해야 할 필요가 있다. 

데이터 마이그레이션 서비스 업체 하코다(Hakkoda)의 데이터 거버넌스 책임자 캐런 메핀은 “데이터 거버넌스는 LLM 시스템에 방대한 데이터 공급뿐 아니라 안전하고 현명한 공급으로 무게를 옮겨가고 있다. 핵심은 데이터가 그저 크기만 한 것이 아니라 똑똑하고 정확하며 이해 가능하고 개인 정보에 유의하고, 지적 자산과 공정성의 위험 및 영향력을 존중하는 데이터여야 한다는 것”이라고 지적했다. 

데이터 품질은 기업의 목표와 데이터 유형에 따라 각기 다른 도구를 사용하면서 개선될 수 있다. 
 
  • 전통적 데이터 품질 도구는 과잉 정보를 삭제하고, 데이터 필드를 정상화하며, 기업 규칙에 어긋나는 데이터를 검증하고, 비정상성을 탐지하며 품질 메트릭을 연산한다. 
  • MDM(Master data management) 도구를 사용하면 기업이 다양한 데이터 소스를 연결하고, 고객과 제품 같은 사업 개체에서 진실 공급원(source of truth)을 생성할 수 있다. 
  • CDP(Customer data platforms)는 고객 정보 중앙화에 특화된 도구로, 마케팅, 영업, 고객 서비스, 기타 고객 상호작용을 가능하게 한다. 

업그레이드와 새로운 데이터 품질 도구가 비구조화된 데이터 소스 지원을 개선하고 생성형 AI 사용례를 위한 데이터 품질 역량을 확대할 것을 기대하라. 

데이터 이전 및 자동화 업체 마틸리온(Matillion) CISO 그렘 캔투-파크는 “AI는 거버넌스의 우선순위와 AI 애플리케이션과 모델에 공급되는 데이터 파이프라인과 데이터 계보에 더 나은 가시성을 제공하는 관행을 바라보는 관점이 완전히 달라야 한다”라며 데이터 계보의 중요성에 집중했다.

데이터 계보는 데이터 생애주기를 밝히고, 누가, 언제, 어디서, 왜, 어떻게 데이터를 변경했는지에 대한 질문에 답할 수 있다. AI가 데이터의 시야와 사용례를 확대하기 때문에 데이터 계보를 이해하는 것은 기업과 직원에 더욱 중요해지고 있다. 보안과 위험 관리 부서는 물론이다. 
 

데이터 관리와 파이프라인 구조를 리뷰한다 

데이터 거버넌스 책임자는 정책과 데이터 품질을 넘어 데이터 관리 및 아키텍처 기능까지 영향력을 확대해야 한다. 사전 예방적 데이터 거버넌스는 더 많은 직원이 데이터와 분석, 이제는 AI까지 활용해 업무를 수행하고 현명한 의사결정을 할 수 있도록 지원한다. 기업이 데이터를 생성형 AI 사용례로 얼마나 빠르고 쉽게, 안전하게 확정할 수 있는지는 데이터를 저장, 액세스, 제품화, 카탈로그화, 문서화하는 방법에 달려 있다.  

테라데이터(Teradata)의 CPD 힐러리 애쉬턴은 가장 흥미로운 AI 사용례를 현실화하는 방법으로 다음의 3가지를 제안한다. 
 
  • 재사용가능한 데이터 제품 또는 알려진 우수한 데이터의 선별된 집합을 만들어 데이터를 더욱 효과적으로 제어하고 신뢰를 심을 수 있도록 지원한다. 
  • 데이터 중력을 존중해 다양한 환경에서 데이터를 이동하지 않고도 더 많은직원이 정보에 접근할 수 있게 한다. 
  • 개방적이고 연결된 생태계를 가능하게 한 강력한 거버넌스를 갖춘 AI/ML 데이터 파이프라인을 포함해 확장성에 집중한 파일럿 AI 프로젝트를 실행한다. 
 
데이터팀의 핵심은 사용하기 쉬운 프레임워크와 플랫폼을 식별하고 다양한 사용례를 지원하는 것이다. 디지털 트랜스포메이션 서비스 업체 엔소노(Ensono)의 부사장 션 마호니는 “거버넌스 프레임워크는 팀이 기술 발전 속도에 더 빠르게 대응할 수 있도록 더욱 민첩한 모습을 갖추기 시작했다”라고 말했다. 마호니는 데이터 거버넌스 책임자도 이러한 도구를 검토하고 참여할 것을 제안했다. 
 
  • 데이터 메쉬를 생성하는 직원에게 데이터 관리를 위임하기 
  • 생성형 AI와 LLM에 내재된 확장성과 복잡성을 처리하는 벡터 데이터베이스 
  • 더 많은 시스템에 데이터 거버넌스를 확장하는 실시간 모니터링 도구 
 
또한, 데이터 거버넌스, 관리, 아키텍처가 데이터 저장에 대한 글로벌 규정을 이해하는 방법도 고려해야 한다. EDB의 드 브리스는 “기업은 AI 플랫폼에 공급할 때 민첩성을 위해 전 세계적으로 제한이 덜한 데이터를 배포하고, 규제가 엄격한 데이터를 로컬에 유지하면서 데이터 거버넌스 관행을 높이기 위해 전 세계적으로 분산된 데이터베이스를 구현해야 한다”라고 권했다. 
 

데이터 거버넌스를 생성형 AI 워크플로우에까지 확장한다 

데이터 거버넌스 기능은 생성형 AI 도구와 LLM의 사용법에 전략과 베스트 프랙티스가 필요함을 꼭 고려해야 한다. 앞서 필자가 챗GPT의 답변을 인용해 독자에게 이 답변이 생성형 AI에서 나왔음을 알린 것도 하나의 예다. 좋은 데이터 거버넌스는 투명성 증진 과정이나 허용된 도구, 데이터 프라이버시 문제를 최소화하는 관행에 대해 직원에게 충분한 교육을 제공한다.

AI 플랫폼 업체 포어소트(Forethought) CEO 디온 니콜라스는 “현재 관찰되는 가장 큰 변화는 데이터 프라이버시와 주권을 유지하면서 동시에 데이터를 올바르게 견인하고 공유하고 배우는 방법의 대두다. 예를 들어, 퍼플렉시티(Perplexity) 같은 LLM 기반 검색은 항상 데이터 소스를 인용하고, 프라이빗 AI(Private AI) 같은 데이터 수정 기술 업체는 데이터를 LLM에 전송하거나 입력하기 전에 사용자가 데이터를 변형하거나 수정하게 해준다”라고 설명했다. 

데이터 거버넌스 책임자가 고려할 만한 새로운 사전대비책으로는 직원이 프롬프트 사용례를 기록하고 기업 전체와 공유하는 프롬프트 라이브러리 구축이 있다. 이러한 규칙은 많은 데이터 거버넌스 부서가 이미 데이터 카탈로그와 데이터 사전 유지를 위해 하고 있는 지식 관리 관행을 더욱 확장한다. 

데이터 클라우드와 언어 모델을 위한 AI 코프로세서 업체 릴레이셔널AI(RelationaAI)의 리서치 ML 부사장 부사장 니콜라스 바실로글로우는 “LLM은 전문가 지식과 함께 보통 지식 그래프 안에 저장된 잘 정제되고 정리된 콘텐츠를 연료로 삼는다. 지식 그래프를 위한 좋은 거버넌스 관행이 있어도 그것을 잘 정책화해서 관리하는 방법은 명확하지 않다”라고 말했다

필자는 유명한 스파이더맨의 대사인 “큰 힘에는 큰 책임이 따른다”라는 말을 좋아한다. 생성형 AI의 가능성이 빠르게 진화하는 지금, 관건은 데이터 거버넌스 팀도 방정식의 이면에서 한 단계 더 성장할 것인지 여부가 될 것이다. 
editor@itworld.co.kr 
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.