이터 패브릭이 필요한지가 아니라, 데이터 패브릭을 어떻게 평가하는지, 비즈니스 요구사항을 충족하는 데이터 패브릭은 무엇인지, 그리고 효율적으로 이를 구현하려면 어떻게 해야 하는지를 묻는 대기업이 많아졌다. 그러나 새 솔루션을 평가하는 것은 간단치 않은 일이다. 2024년 포레스터 웨이브 온 엔터프라이즈 데이터 패브릭(Forrester Wave on Enterprise Data Fabric) 보고서에 따르면 2022년 포레스터가 평가를 시작한 이후 패브릭 기능을 제공하는 새로운 업체가 20개 넘게 등장했다.
대기업에 데이터 패브릭이 필요한 이유
데이터 패브릭이 가치를 제공할 수 있는 두 가지 비즈니스 시나리오를 고려해 보자.첫째, 재무 용도로 SAP를 사용 중인 한 대형 글로벌 제조업체가 다른 엔터프라이즈 시스템, SaaS 플랫폼, 클라우드 데이터베이스의 데이터를 사용해서 종단간 생성형 AI 지원 운영 워크플로우를 구축하려고 한다. 이 회사는 실시간 분석을 수행하고 직원이 생성형 AI 프롬프트를 사용해 정보를 쿼리할 수 있도록 하기 위해 이러한 다양한 데이터 소스를 매끄럽게 연결할 방법이 필요하다. 이 통합 과제를 해결하기 위한 솔루션은 SAP 데이터스피어(Datasphere)다.
두 번째 예는 정부 기관으로, 사례 관리와 부서간 워크플로우에 로우 코드 플랫폼을 사용하고 있지만 이제 인사 및 재무 시스템의 데이터 스토어와 통합해야 하는 상황이다. 이 기업은 로우코드 비즈니스 프로세스 자동화 플랫폼으로 애피안 데이터 패브릭(Appian Data Fabric)과 페가 프로세스 페브릭(Pega Process Fabric)을 검토한다. 두 플랫폼 모두 조직의 플랫폼과 더 광범위한 엔터프라이즈 솔루션 생태계 간에 데이터와 워크플로우를 통합하는 데 도움이 된다.
포레스터의 웨이브에 소개된 그 외의 데이터 패브릭 솔루션으로는 클라우데라, 인포매티카(Informatica), 디노도(Denodo), 구글, 휴렛 패커드 엔터프라이즈, IBM, 인터시스템즈(InterSystems), K2뷰(K2view), 마이크로소프트, 오라클, 클릭(Qlik), 솔릭스 테크놀로지(Solix Technologies), 테라데이터(Teradata), TIBCO 소프트웨어 등이 있다.
콜레스(Coalesce)의 공동 창업자이자 CEO인 아몬 페트로시안은 "데이터 패브릭은 다양한 정형 및 비정형 데이터 소스를 통합해서 엔터프라이즈 전반의 통합된 시야와 액세스를 제공해 비즈니스 인사이트를 가속화한다. 데이터 패브릭을 구현할 때는 대량의 데이터를 처리하기 위한 확장성, 다양한 데이터 유형에 대한 유연성, 그리고 견고한 보안 조치를 고려하는 것이 중요하다"라고 말했다.
데이터 패브릭은 액세스를 중앙화하고 관리 서비스를 제공함으로써 애플리케이션과 사람 중심의 접근 방식을 취한다. 데이터 패브릭은 '데이터 엔지니어가 부가적인 데이터 관리와 과도한 엔지니어링 작업 없이 소비 애플리케이션을 위한 표준 액세스 패턴을 간소화하려면 어떻게 해야 하는가?'라는 질문에 답한다.
프로메튬(Promethium) 창업자 케이시 라이는 "데이터 패브릭은 다양한 소스와 환경에 걸쳐 데이터를 통합, 관리, 조율하도록 설계된 솔루션"이라면서 "원활한 데이터 검색, 가상 데이터 통합, 데이터 제품 제공을 실현하는 기능과 함께 기업 내의 관련 데이터에 대한 통합되고 일관적인 시야를 제공한다”라고 말했다.
라이는 데이터 패브릭이 필요한 조직을 나타내는 다음 세 가지 지표를 언급했다.
- 회사에 데이터 사일로와 단편화가 발생하고 있다.
- 비즈니스 사용자가 즉각적인 의사 결정을 위해 실시간 분석을 요구한다.
- 경영진이 생성형 AI를 구현하고 비즈니스 사용자를 위한 셀프 서비스 분석을 강화하고자 한다.
쿠모 AI(Kumo AI)의 엔지니어링 책임자이자 공동 창업자 헤마 라가반은 "데이터 패브릭 아키텍처를 사용하기로 결정하면 중앙 데이터 전략으로 가게 된다. 회사 조직이 사업부(LOB)로 구성돼 있고 한 LOB의 데이터, 인사이트, 모델이 다른 LOB에 도움이 된다면 데이터 패브릭 아키텍처는 기업의 다양한 부분에 걸쳐 신속하게 가치를 실현하는 데 도움이 될 것"이라고 말했다.
데이터 패브릭과 데이터 통합 플랫폼의 차이
많은 조직이 데이터베이스, 데이터 레이크 및 기타 시스템 간의 데이터 이동을 위해 데이터 통합 플랫폼에 이미 투자했다. 데이터 파이프라인과 데이터 스트리밍 기술은 자동화와 실시간 데이터 처리 기능을 제공하며, 서비스형 통합 플랫폼(iPaaS)은 시스템 전반의 데이터와 워크플로우를 연결하는 데 도움이 된다.그렇다면 이러한 다른 유형의 플랫폼과 데이터 패브릭의 차이는 무엇일까?
SAP BTP의 최고 마케팅 및 솔루션 책임자 JG 키라푸라스는 "데이터 패브릭은 다양한 IT 시스템과 비즈니스 애플리케이션 전반의 메타데이터와 데이터를 연결, 관리, 감독하는 데이터 아키텍처와 전용 소프트웨어 솔루션의 조합이다. 데이터 패브릭 전략을 구현하면 조직의 데이터 사용자는 실시간으로 데이터에 액세스하고 포괄적인 조직의 집단 지식 소스를 유지하고 데이터 관리 프로세스를 자동화할 수 있다”라고 말했다.
실시간 데이터 통합과 데이터 변환은 데이터 패브릭의 중요한 기능이지만 사실 대표적인 기능은 기업의 데이터 소스에 대한 중앙화, 표준화되고 관리되는 액세스를 제공하는 것이다.
SADA의 AI/ML 부문 부 CTO인 사이먼 마골리스는 "데이터 패브릭을 평가할 때는 데이터 패브릭이 다양한 기업 데이터 소스와 상호 연결되어 엄격한 데이터 통제를 유지하면서 데이터를 즉시, 신속하게 사용할 수 있도록 보장한다는 점을 이해해야 한다"면서 "다른 데이터 집계 솔루션과 달리 기능적인 데이터 패브릭은 서비스 전반의 데이터 배포를 위한 "원스톱 상점" 역할을 하면서 클라이언트 액세스, 거버넌스, 전문가 제어 프로세스를 간소화한다”라고 말했다.
데이터 패브릭은 다른 데이터 거버넌스 및 데이터옵스 플랫폼의 기능을 결합한다. 데이터 패브릭은 최종 사용자가 조직의 데이터 집합을 찾고 검색할 수 있도록 일반적으로 데이터 카탈로그 기능을 제공한다. 많은 데이터 패브릭이 데이터 거버넌스 리더가 액세스 제어를 중앙화하도록 지원하면서 데이터 엔지니어에게 데이터 품질을 개선하고 마스터 데이터 리포지토리를 만들기 위한 툴을 제공한다. 그 외의 차별화 기능으로는 데이터 보안, 데이터 개인정보 보호 기능, 데이터 모델링 기능이 있다.
데이터 통합의 비즈니스 및 기술적 이점
데이터 통합(data unification)은 곧 비즈니스 최종 사용자와 데이터 전문가에게는 광범위한 기능을 의미한다. 비즈니스 리더는 간소한 셀프 서비스 기능을 원하고, 데이터 전문가에게는 조직의 개별 데이터 집합과 데이터 유형을 표준화된 방식으로 관리하기 위한 자동화와 운영 기능이 필요하다. 데이터 소스와 플랫폼이 많은 조직에서 통합은 신뢰할 수 있는 데이터와 더 우수한 비즈니스 역량을 효율적으로 연결할 수 있다.테라데이터의 최고 제품 책임자인 힐러리 애쉬튼은 "강력한 데이터 패브릭은 업계 모범 사례를 통합하고 체계적이고 안정적인 프로세스를 보장함으로써 데이터 탐색에 혁명을 가져온다. 이 지능적 접근 방식은 데이터의 신뢰성을 강화하고 궁극적으로 더 큰 비즈니스 가치를 이끈다”라고 말했다.
데이터 패브릭 투자를 평가하고 정당화하는 한 가지 방법은 데이터 과학 이니셔티브에 데이터를 사용할 수 있도록 하기 위한 복잡성, 비용, 시간을 검토하는 것이다. 데이터 과학자와 엔지니어는 50%~80%의 시간을 데이터 랭글링에 소비한다. 데이터 통합은 반복적인 작업을 줄여 데이터 소스를 결합하고 정리하는 데 도움이 될 수 있다.
IBM의 데이터 패브릭 제품 관리 부사장인 미드핫 샤히드는 "현실에서 AI 프로젝트의 절반 이상이 견고한 엔터프라이즈 데이터 기반의 부재로 인해 프로덕션까지 이르지 못한다. 개별적인 사일로와 시스템 전반을 아우르는 통합된 시야가 없으면 조직은 효과적으로 데이터를 통합하고 관리하기가 어렵다. 데이터 패브릭 아키텍처는 조직이 하이브리드 클라우드 IT 환경에서 데이터의 가치를 실형하기 위한 필수 요소"라고 말했다.
통합은 IT 및 데이터 전문가에게 다양한 데이터 유형을 다룰 수 있는 옵션, 일반적인 플랫폼과의 즉각적인 통합, 데이터 집합 표준화를 위한 자동화 기능, 그리고 애플리케이션 개발 및 데이터 과학 이니셔티브와 통합하기 위한 툴을 제공해야 한다.
솔릭스 테크놀로지의 회장 존 오트맨은 "데이터 통합은 데이터가 플랫폼에 물리적으로 저장되어 있는지 여부에 관계없이 모든 정형, 비정형 및 반정형 데이터를 하나의 데이터 카탈로그 뷰로 모으는 기능을 의미한다. 이 통합된 데이터 기능이 있으면 실무자는 데이터 수명 주기 전반에서 버전 제어를 적용해 데이터 거버넌스와 ACID 트랜잭션을 수립할 수 있다. 데이터 패브릭이 제공하는 가치는 머신러닝, 고급 분석, 생성형 AI, 그리고 기업 데이터를 통한 수익화를 추구하는 기타 NoSQL 애플리케이션과 같은 다운스트림 애플리케이션에 필요한 데이터 변환을 실현하는 데 있다”라고 말했다.
데이터 패브릭 구현에 따르는 과제
데이터 패브릭에 대한 이야기가 너무 좋기만 해서, 전문가들에게 구현 단계의 과제에 대해서도 물었다.테라데이터의 애쉬튼은 "데이터 패브릭을 구현하는 많은 기업이 기존 데이터 아키텍처의 복잡성을 과소평가하고, 데이터 사일로에 대한 종합적인 이해 없이 데이터 패브릭 솔루션에 성급하게 뛰어든다. 두 번째로 큰 실수는 데이터 품질과 규정 준수를 보장하기 위한 핵심 요소인 데이터 거버넌스, 신뢰, 보안의 중요성을 간과하는 것"이라고 말했다.
데이터 패브릭 솔루션을 성공적으로 구현하려면 IT 팀은 비전 성명을 정의하고 목표의 윤곽을 잡고 비즈니스 요구사항의 우선순위를 분류하고 플랫폼의 기술적 역량을 평가해야 한다. 목표는 중앙화와 통합이므로 거버넌스와 보안을 보장하는 것이 데이터 패브릭 구현 계획의 중심이다.
데이터 요구사항과 기반 모델의 정의는 깊게 들어가야 하는 영역 중 하나다. 인사이트소프트웨어(insightsoftware)의 데이터 및 분석 부문 총괄 관리자인 제이 앨러다이스는 "대부분의 데이터 패브릭 솔루션은 표준화된 접근 방식을 제공하지만 처음에는 도메인별 컨텍스트가 부족하다”라고 말했다.
예를 들어 전사적 자원 관리(ERP) 시스템은 조직의 재무, 제품, 공급망에 대한 풍부한 정보를 저장하고, 고객 데이터 플랫폼(CDP)은 여러 마케팅 및 판매 시스템의 고객과 잠재 고객 정보를 중앙화하는 데 도움이 된다. 데이터 패브릭은 이러한 도메인에 저장된 상호 연결된 풍부한 데이터를 어느 정도까지 표현할 수 있을까?
인플럭스데이터(InfluxData)의 수석 개발자 애드버킷 아나이스 도티스-조지우는 "데이터는 그 데이터를 사용하는 사람들만큼 다양하고 고유하므로 궁극적으로 모두의 요구에 맞는 하나의 데이터 패브릭은 존재하지 않는다. 하나의 데이터 패브릭이 모든 조직에 충분하다는 말은 하나의 공급망이 모든 비즈니스에 맞는다는 말과 같다. 어느 분야든 데이터의 특징, 데이터 엔지니어링과 관련된 고유한 과제, 이 데이터를 유의미한 데이터 과학 작업을 위해 활용하는 방법을 이해할 수 있는 전문가가 필요하다”라고 말했다.
기술 팀에 또 다른 과제는 변경 관리와 최종 사용자 도입에 충분한 주의를 기울이지 않는 것이다.
4V 서비스(4V Services)의 CTO이자 저자인 데이비드 카셀은 "데이터 소유자는 보안 요구사항이 지켜지지 않거나 데이터 공유가 조직에서 자신의 역할을 위협할지도 모른다는 두려움을 느낄 수 있다. 데이터의 혜택을 얻는 사람들이 늘어난다고 해서 통제력을 잃는 것이 아니라는 점을 설득하는 것이 중요하다”라고 말했다.
중앙화해야 할 데이터를 식별하고 데이터 거버넌스 모범 사례를 구현하는 것은 구현 계획의 필수 단계다.
프리사이슬리(Precisely)의 제품 관리 SVP 에밀리 워싱턴은 "조직은 필수 데이터의 통합을 자동화해서 데이터 사일로를 허물고 메타데이터 성숙도를 높여 가장 자주 사용되는 데이터를 지속적으로 카탈로그화, 프로파일링, 식별해야 한다. 또한 견고한 데이터 거버넌스 정책과 관행을 수립해 데이터 품질, 보안, 규정 준수를 보장하고, 비즈니스 전반에서 언제든 이 데이터를 사용해서 자신 있는 의사 결정을 내릴 수 있도록 사용자 친화적인 방법을 만드는 것도 중요하다”라고 말했다.
C데이터(CData)의 선임 기술 에반젤리스트인 제로드 존슨은 "데이터 사용자와 협력해서 실시간 데이터가 필요한 경우와 과거 데이터가 더 나은 경우를 판단해야 하며, 그에 따라 시스템과 정책, 프로세스를 설계해야 한다”라고 권장했다.
데이터 패브릭은 누구에게 필요한가?
모멘토(Momento)의 창업자이며 CEO인 카와자 샴스는 "데이터 패브릭은 비용이 많이 들지만 비용 때문에 저지연 실시간 데이터가 고객 경험 강화를 위해 할 수 있는 역할을 간과하면 안 된다”라고 말했다.수백 개 이상의 데이터 플랫폼, 애플리케이션, SaaS 및 기타 서비스를 연결하는 모든 데이터 통합 이니셔티브는 쉽지도, 빠르지도 않고 비용이 적게 들지도 않는다. 쉽고 빠르고 저렴했다면 데이터 웨어하우스, 빅데이터 플랫폼, 데이터 레이크, 레이크하우스, 기타 데이터 관리 플랫폼으로 이미 과제를 해결했을 것이다.
AI로 인해 데이터 통합의 중요성이 높아지고 있으며 플랫폼은 데이터 통합, 데이터 옵스, 자동화, 셀프 서비스 비즈니스 기능, 데이터 거버넌스를 하나의 데이터 패브릭 우산 아래 모음으로써 자체적으로 어느 정도의 통합을 수행하고 있다. 데이터의 무게가 부담스럽고 분석 기능을 매끄럽게 제공하지 못하는 조직이라면 데이터 패브릭이 해결책이 될 수 있을지 검토해볼 필요가 있다.
editor@itworld.co.kr