AIㆍML

AI는 데이터 거버넌스에 어떤 영향을 미치는가

ozef de Vries | InfoWorld 2024.06.19
오늘날 AI 도입과 생성형 AI 역량의 급증은 다른 어떤 요인보다도 접근 가능한 데이터가 매우 풍부하다는 점에 탄력을 받았다. AI와 머신러닝용 데이터를 수집, 정리, 구성, 보호하는 것은 그 자체로 하나의 프로젝트가 되었으며, 거버넌스 차원에서 AI 도구 자체가 중요한 역할을 담당하게 되었다. 그 결과 데이터 거버넌스가 엄청나게 개선되어 기업 전체에 도움이 된다.

데이터베이스는 여전히 데이터의 기본 저장소로 남아 있지만, 지속력이나 데이터베이스 전문성이 부족한 신생업체의 제품을 포함해 AI 기반 데이터 거버넌스 도구의 생태계가 곳곳에 존재한다. 시간이 지남에 따라 더 많은 거버넌스 기능이 데이터베이스 소프트웨어 제품 및 클라우드 데이터베이스 서비스와 점점 통합될 것이다.
 
ⓒ Getty Images Bank

데이터 거버넌스 자동화에 AI를 사용하면 즉각적인 성과를 거둘 수 있다. 기업이 데이터를 더 잘 관리할수록, 머신러닝 운영(MLOps) 담당자가 데이터로 AI 기반 애플리케이션을 더 잘 구축할 수 있다. 더 넓게 보면, 데이터 거버넌스에 AI를 추가하면 모든 조직의 데이터 분석, 규정 준수 및 데이터 품질 노력에 긍정적인 영향을 미친다.

AI가 거버넌스 관련 프로세스를 현대화하는 방법과 AI로 강화된 도구가 AI/ML 애플리케이션과 데이터 랭글링 전반의 성공을 보장하는 데 어떻게 도움이 되는지 살펴보자.
 

데이터 카탈로그화

데이터가 어디에 있는지 알고 있는가? 거버넌스가 제대로 작동하려면 기업은 모든 주요 데이터 저장소의 전체 인벤토리를 파악하고 그 안에 무엇이 포함되어 있는지 이해해야 한다. 운영 동향과 이상 징후를 파악하는 반정형 로그는 말할 것도 없고, 클라우드 데이터 저장소가 무분별하게 확산되면서 엔터프라이즈 데이터를 식별, 액세스, 분류하는 작업은 점점 더 어려워지고 있다. 데이터 카탈로그 소프트웨어는 이러한 모든 리포지토리를 지도 위에 올려놓는다.

AI는 기업과 관련된 모든 데이터 저장소를 자동으로 검색하는 것부터 시작해 조직의 데이터를 카탈로그화하는 모든 단계를 지원할 수 있다. 카탈로그화 도구의 범위는 다양하지만, 일부는 AI를 사용해 액세스 제어 정책을 구성하거나 조직의 데이터 패브릭 전체에서 자연어 검색을 가능하게 한다. AI 기반 카탈로그는 데이터 자산 분류와 관련된 수작업을 크게 줄여주고 데이터의 출처와 변경 과정을 보여주는 데이터 계보를 보여준다.
 

메타데이터 관리

메타데이터의 효과적인 관리, 즉 회사 데이터를 설명하는 정보를 관리하는 것은 성공적인 거버넌스의 기본이다. AI 카탈로그 도구는 메타데이터를 식별하여 데이터 자산을 적절히 분류할 수 있지만, 메타데이터 관리 또한 건강한 데이터 자산을 위해 필수적이다. 따라서 데이터 통합 소프트웨어부터 데이터 통합 가시성 플랫폼에 이르기까지 다양한 제품에서 메타데이터 관리 기능을 제공하고 있다.

AI가 접목된 메타데이터 관리 도구는 수동 데이터 분류의 지루함을 덜어주고 메타데이터 설명의 차이를 조정하는 데 도움을 준다. 과거에는 기업이 메타데이터를 비교적 정적인 것처럼 취급했지만, 오늘날에는 AI 도구가 데이터 저장, 사용, 흐름에 대한 동적 메타데이터를 지속적으로 모니터링하고 수집할 수 있다. 무엇보다도 데이터 자산에 대한 심층 메타데이터는 최적의 스토리지 플랫폼을 AI가 추천하거나 잠재적인 데이터 통합 파이프라인을 제안하는 데 사용된다.
 

데이터 품질

AI가 데이터 거버넌스에 미친 가장 큰 영향은 정확성, 완전성, 일관성, 고유성, 적시성, 유효성 등 6가지 차원으로 구성된 데이터 품질에 있었다. 이러한 특성이 결여된 데이터는 당연히 운영에 치명적이다. 데이터 과학자와 애널리스트가 일상적으로 데이터를 사용하기 전에 데이터 정리에만 뼈가 빠져라 일해야 했던 것은 말할 것도 없다.

AI/ML 도구는 자동으로 누락된 값을 추론하고, 데이터 형식을 정규화하고, 데이터 이상 징후를 표시하는 등의 작업을 수행할 수 있다. 여전히 사람이 판단을 내려야 하지만(이름이 같은 두 고객을 구분하기 등), 전체적으로 시간이 크게 절약된다. AI 도구가 대량의 데이터에서 패턴을 학습함에 따라 추천, 상관관계, 수정 사항은 꾸준히 개선되고 있다. 이러한 기준선은 데이터의 품질을 실시간으로 모니터링하는 데 사용할 수 있다.
 

데이터 모델링

데이터베이스 또는 전체 데이터 아키텍처의 구조화는 데이터 요구 사항을 수집 및 분석하고 이를 수용하기 위한 논리적 및 물리적 모델을 개발하는 것에서 시작된다. 여러 제품에서는 데이터 아키텍트와 엔지니어가 데이터 모델의 시각적 표현을 쉽게 생성할 수 있도록 AI를 사용한다.

오늘날 많은 기업에서 데이터 모델링은 AI/ML 애플리케이션을 지원하기 위해 그 중요성이 더욱 커지고 있다. 많은 AI 데이터 도구가 AI 학습을 위해 데이터 세트에서 주요 데이터 특성을 도출하는 자동화된 피처 엔지니어링을 제공한다. 이 활동은 자동화된 머신러닝(AutoML)과 함께 다양한 유형의 모델 선택을 지원한다: 애플리케이션을 구동하거나 예측 분석을 촉진하는 데 적합한 머신러닝 모델을 선택하는 것이다. 모델을 제대로 학습시킬 데이터가 너무 적은 경우, AI 기반 데이터 시뮬레이션 도구는 기존 데이터 저장소를 연결하여 실제와 매우 유사한 합성 데이터를 생성할 수 있다.
 

데이터 정책 및 수명 주기 관리

모든 기업은 국가, 연방, 주, 산업 및 국제 규정과 내부 비즈니스 규칙에 따라 데이터 취급에 관한 정책을 수립해야 한다. 대기업에서는 데이터 거버넌스 위원회에서 이러한 정책을 설정하고 규정과 절차가 변경되면서 계속 진화하는 문서에 방법을 명시한다. 생성형 AI의 자연어 기능은 문서의 첫 번째 초안을 생성하고 이후 변경 작업을 훨씬 덜 부담스럽게 만들 수 있다.

AI는 데이터 사용 패턴, 규정 요건, 내부 워크플로우를 분석함으로써 조직이 데이터 보존 정책을 정의하고 시행하며 수명이 다한 데이터를 자동으로 식별하는 데 도움을 줄 수 있다. AI는 보관 또는 삭제 프로세스를 시작할 수도 있다. 자동화된 데이터 아카이빙은 위험을 줄이고 규정 준수를 보장할 뿐만 아니라 저장 공간을 확보하고 스토리지 비용을 절감하는 데 도움이 된다.
 

데이터 가용성

AI 기반 재해 복구 시스템은 잠재적인 장애 시나리오를 예측하고 예방 조치를 수립하여 다운타임과 데이터 손실을 최소화함으로써 기업이 건전한 복구 전략을 개발하는 데 도움을 줄 수 있다. AI가 탑재된 백업 시스템은 백업의 무결성을 보장하고 재해 발생 시 자동으로 복구 절차를 시작하여 손실되거나 손상된 데이터를 복원할 수 있다.

AI가 적용된 스토리지 관리 시스템은 여러 스토리지 위치에 데이터를 복제하고 분산하여 고가용성과 짧은 지연 시간을 보장할 수 있다. 동시에 AI 기반 예측 분석은 센서, 장비 로그, 과거 유지보수 기록에서 데이터를 수집하여 잠재적인 장애 또는 다운타임을 예측할 수 있다. 애초에 데이터 가용성 손실을 방지하는 데 예측 유지보수를 능가하는 것은 없다.
 

사람은 여전히 필요해

데이터 거버넌스 중 상당 부분은 AI의 활용도가 낮다. 데이터 검색부터 데이터 정리, 정책 관리에 이르기까지 거버넌스와 관련된 많은 작업은 반복적인 수작업으로 가득 차 있지만, AI는 인간보다 훨씬 더 정확하게 처리하고 쉽게 완료할 수 있다. 특히 MLOps는 AI 애플리케이션을 구축하고 학습시킬 수 있는 깨끗하고 체계적인 데이터 저장소를 추구하기 때문에 큰 장점이다.

하지만 AI는 의미 있는 의미에서 지능적이지 않다는 점을 기억하라. 사소한 데이터 불일치를 해결하는 데도 인간만이 습득하고 소화할 수 있는 폭넓은 경험에서 비롯된 컨텍스트가 필요할 수 있다. 그 누구도 엔터프라이즈 데이터 아키텍처의 생성을 기계에 위임하지 않을 것이다. AI는 이미 데이터 거버넌스에서 수작업의 상당 부분을 없애고 있다. 하지만 AI가 사람의 생각을 대신해 주지는 않는다.
editor@itworld.co.kr 
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.