2019.07.02

데이터 레이크, 새로운 데이터웨어하우스가 된다

James Kobielus | InfoWorld
데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가?

누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다.

사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.
 
ⓒ GettyImagesBank
 

데이터 웨어하우스의 쇠퇴

그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다.

핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다.

데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.
 

데이터 레이크의 부상

흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면, 데이터 레이크는 각 데이터가 본래의 형식과 스키마에 따라, 일반적으로 “블롭(blob)” 또는 파일로 저장되는 다중 구조 데이터의 시스템 또는 저장소다.

일반적으로 데이터 레이크는 소스 시스템 데이터의 원형 사본과 보고, 시각화, 분석, 머신 러닝 등의 작업에 사용되는 변환된 데이터를 포함한 모든 기업 데이터의 단일 저장소 역할을 한다. 분산 파일 또는 객체 저장소, 머신러닝 모델 라이브러리, 그리고 고도로 병렬화된 프로세싱 및 스토리지 리소스 클러스터를 포용한다. 또한 데이터 레이크는 저장되는 객체를 대상으로 공통적인 스키마와 의미 체계를 강제하는 대신 일반적으로 읽기 스키마(schema on read)를 수행하며 통계적 모델을 사용해서 유의미한 상관 관계와 패턴을 추출한다.

이는 데이터 웨어하우징에 대한 대부분의 접근 방식에 지대한 영향을 미치는 인먼과 킴벌의 개념과도 일맥상통한다. 근본적으로 데이터 웨어하우스는 승인된 “진실한 단일 버전”의 데이터 레코드를 집계, 보존, 관리하기 위해 존재한다. 이 개념은 데이터가 관리되는 특정 애플리케이션 도메인과 데이터가 사용되는 특정 사용 사례로부터 중립적이다. 데이터 웨어하우스의 핵심은 일반적으로 데이터 기반의 의사 결정을 지원하는 것이며, 이 개념은 AI 기반의 추론이라는 새로운 세계로 매끄럽게 확장된다.
 

차세대 데이터 웨어하우스

작년 여러 소식을 통해 드러난 업계의 흐름을 보면 데이터 웨어하우스의 역할이 바뀌고 있다. 대부분의 데이터 웨어하우스 핵심 사용례는 여전히 의사 결정 지원(비즈니스 인텔리전스, 보고, 온라인 분석 프로세싱 등)이지만, 의사 결정 자동화로의 전환도 꾸준히 진행되고 있다. 즉, 데이터 웨어하우스는 이제 데이터 기반 추론을 위한 머신러닝 애플리케이션을 구축하는 데이터 사이언스 파이프라인을 지원하고 있다.

새로운 세대의 데이터 웨어하우스는 사실 머신러닝 모델을 구축하고 학습시키는 데 사용되는 정제, 통합, 승인된 데이터를 통제하도록 설계된 데이터 레이크다. 예를 들어 아마존 웹 서비스는 작년 가을 아마존 리인벤트(re:Invent) 컨퍼런스에서 AWS 레이크 포메이션(AWS Lake Formation)을 발표했다. 이 새로운 관리형 서비스의 용도는 안전한 데이터 레이크를 구축하는 과정을 간소화, 가속화하는 데 있다. AWS는 AWS 레이크 포메이션에 데이터 레이크라는 명칭을 사용하지 않고, 이미 의사 결정 지원 애플리케이션에 중점을 둔 전통적인 데이터 웨어하우스인 아마존 레드시프트(Redshift)를 제공하고 있지만, 사실 AWS 레이크 포메이션은 클라우드 데이터 웨어하우스의 특성을 모두 담고 있다.

AWS 레이크 포메이션은 데이터 웨어하우스처럼 보이고 걷고 행동한다. 사실 AWS의 설명 자체가 데이터 웨어하우스와의 비교를 유도한다. “데이터 레이크는 큐레이션 및 보호되는 중앙화된 저장소로, 모든 데이터를 원래의 형식과 분석을 위해 준비된 형식, 두 가지 모두로 저장한다. 데이터 레이크는 데이터 사일로를 허물고 다양한 유형의 분석을 결합해서 통찰력을 얻고 더 나은 의사 결정을 내릴 수 있게 해준다.”

실제로 AWS의 말을 들어보면 AWS 레이크 포메이션은 의사 결정 지원과 AI 기반 의사 결정 자동화, 두 가지 모두를 위한 일종의 궁극적인 데이터 웨어하우스라는 인상을 준다. 구체적으로 AWS는 이 서비스가 “사용자가 아파치 스파크용 아마존 EMR, 아마존 레드시프트, 아마존 아테나, 아마존 세이지메이커, 아마존 퀵사이트 등 원하는 분석 및 머신러닝 서비스에서 활용하는 데이터 집합을 관리하도록 설계됐다”고 설명한다.

또 다른 주목할 만한 사례는 데이터브릭스(Databricks)가 최근 발표한 델타 레이크(Delta Lake) 오픈소스 프로젝트다. 아파치 2.0 라이선스로 제공되는 델타 레이크의 목적은 ‘머신러닝 파이프라인을 지원하기 위해 데이터 레이크에 유지되는 데이터 집합을 집계, 정제, 큐레이션, 관리하는 것’으로, AWS 레이크 포메이션과 비슷하다.

델타 레이크는 아파치 스파크에서 액세스가 가능한, 예를 들어 HDFS, 아마존 S3 또는 마이크로소프트 애저 블롭 스토리지와 같은 기존의 온프레미스 또는 클라우드 데이터 스토리지 플랫폼 위에 위치한다. 델타 레이크는 데이터브릭스가 말하는 “트랜잭션 스토리지 레이어”를 제공하기 위해 파케이(Parquet)로 데이터를 저장한다. 파케이는 오픈소스 열 기반 스토리지 형식으로, 데이터 프로세싱 프레임워크에 관계없이 하둡 생태계의 모든 프로젝트에 사용할 수 있다. 낙관적 동시성 직렬성, 스냅샷 격리, 데이터 버전 관리, 롤백, 스키마 강제를 통해 ACID 트랜잭션을 지원한다.

데이터 레이크와 AWS 레이크 포메이션의 중요한 차이점 하나는 델타 레이크는 이 파이프라인에서 배치 데이터와 스트리밍 데이터를 모두 처리한다는 것이다. 또 다른 차이는 델타 레이크는 모든 데이터에 대해 ACID 트랜잭션을 지원하므로 수백 개의 애플리케이션에서 복수의 동시 쓰기와 읽기가 가능하다는 점이다. 또한 개발자는 감사와 롤백을 위해, 또는 MLFlow 머신러닝 실험의 결과를 재현하기 위한 목적 등으로 각 델타 레이크의 이전 버전에 액세스할 수 있다.

넓게 보면 델타 레이크는 가장 널리 도입된 오픈소스 데이터 웨어하우징 프로젝트인 아파치 하이브와 경쟁하는 듯이 보인다. 다만 하이브의 경우 전적으로 HDFS 기반 스토리지에 의존하며 최근까지 ACID 트랜잭션을 지원하지 않았다. 1년 전에 발표된 하이브 3에 이르러서야 하둡 기반 데이터 웨어하우스에 ACID 지원이 추가됐다. 하이브 3는 델타 파일을 사용해서 트랜잭션 CRUD(Create Read Update Delete) 테이블에서 작업의 스냅샷 격리와 원자성을 제공한다.
 

AI 기반 의사 결정 자동화를 위한 기반

AWS 레이크 포메이션, 델타 레이크, 하이브 3에 이르기까지, 최근 업계의 움직임은 데이터 레이크가 모든 의사 결정 지원과 의사 결정 자동화 애플리케이션, 모든 트랜잭션 데이터 애플리케이션을 위한 거버넌스 허브가 되는 날이 다가오고 있음을 시사한다. 이러한 추세가 더 가속화되기 위해서는 하이브 3, 델타 레이크와 같은 오픈 프로젝트가 업체와 사용자들 사이에서 더 폭넓은 지지를 확보해야 한다.

향후 “데이터 웨어하우징”은 비즈니스 인텔리전스를 위한 구조화된 데이터를 대상으로 하는 관리되는 다중 도메인 저장소를 지칭하는 용어로 존속될 가능성이 높다. 그러나 기반이 되는 데이터 플랫폼은 클라우드 기반 인공 지능 파이프라인을 위한 핵심적인 데이터 거버넌스 기반을 제공하기 위해 계속 발전할 것이다.

기업 데이터 웨어하우스의 발전을 이끄는 힘은 BI가 아니라 AI다.  editor@itworld.co.kr


2019.07.02

데이터 레이크, 새로운 데이터웨어하우스가 된다

James Kobielus | InfoWorld
데이터 웨어하우스는 여전히 건재한가, 아니면 곧 사라질 기술인가?

누구나 혼란을 느낄 만한 질문이다. 한쪽에서 보면 데이터 웨어하우징은 무척 뜨겁다. 데이터 웨어하우징 시장에서는 오래 전부터 혁신과 신생 기업들의 활동이 꾸준히 이어져왔다.

사실 이 추세가 시작된 시점은 어플라이언스 규격이 데이터 웨어하우징 주류에 편입된 10년 전이지만, 몇 년 전에 시장이 새로운 세대의 클라우드 데이터 웨어하우스로 전환되면서 새롭게 탄력을 받았다. 지난 몇 년 동안 스노우플레이크(Snowflake)라는 클라우드 데이터 웨어하우스 업체가 과도하다고 할 만큼 많은 지지 기반을 확보했다.
 
ⓒ GettyImagesBank
 

데이터 웨어하우스의 쇠퇴

그러나 다른 한쪽에서 보면 데이터 웨어하우징은 빅 데이터, 머신러닝, 인공 지능과 같은 새로운 산업 패러다임에 밀려 차차 쇠퇴하는 중이다. 이 추세를 보면 데이터 웨어하우징이 기업 IT 우선 순위에서 내려가는 듯하지만, 사실 대부분의 조직은 다양한 다운스트림 애플리케이션을 구동하기 위해 최소 하나, 많은 경우 여러 개의 데이터 웨어하우스를 두고 있다.

핵심적인 기업 워크로드로서 데이터 웨어하우징이 가진 꾸준함은 몇 년 전에 필자가 데이터 웨어하우스가 아직 건재한 이유에 대한 글을 썼던 이유가 되기도 했다. 또한 같은 이유로, 업계에서는 데이터 레이크(Data Lake)와 클라우드 컴퓨팅의 시대에 데이터 웨어하우스의 유효성을 유지하기 위해 데이터 웨어하우스의 개념을 새롭게 다듬기도 했다.

데이터 웨어하우징은 번성 중일뿐만 아니라 현재 클라우드 컴퓨팅 산업의 성장을 이끄는 최전방의 핵심 요소로 인식되고 있다. 그러나 스노우플레이크와 같이 데이터 웨어하우징이라는 이름표를 붙이고 시장에서 활동하는 플랫폼에만 초점을 맞추면 이 분야에서 일어나는 여러가지 흐름을 놓치기 쉽다.
 

데이터 레이크의 부상

흔히 말하는 “데이터 레이크”가 차세대 데이터 웨어하우스로 빠르게 부상 중이다. 데이터 레이크 개념에 익숙하지 않은 사람들을 위해 설명하자면, 데이터 레이크는 각 데이터가 본래의 형식과 스키마에 따라, 일반적으로 “블롭(blob)” 또는 파일로 저장되는 다중 구조 데이터의 시스템 또는 저장소다.

일반적으로 데이터 레이크는 소스 시스템 데이터의 원형 사본과 보고, 시각화, 분석, 머신 러닝 등의 작업에 사용되는 변환된 데이터를 포함한 모든 기업 데이터의 단일 저장소 역할을 한다. 분산 파일 또는 객체 저장소, 머신러닝 모델 라이브러리, 그리고 고도로 병렬화된 프로세싱 및 스토리지 리소스 클러스터를 포용한다. 또한 데이터 레이크는 저장되는 객체를 대상으로 공통적인 스키마와 의미 체계를 강제하는 대신 일반적으로 읽기 스키마(schema on read)를 수행하며 통계적 모델을 사용해서 유의미한 상관 관계와 패턴을 추출한다.

이는 데이터 웨어하우징에 대한 대부분의 접근 방식에 지대한 영향을 미치는 인먼과 킴벌의 개념과도 일맥상통한다. 근본적으로 데이터 웨어하우스는 승인된 “진실한 단일 버전”의 데이터 레코드를 집계, 보존, 관리하기 위해 존재한다. 이 개념은 데이터가 관리되는 특정 애플리케이션 도메인과 데이터가 사용되는 특정 사용 사례로부터 중립적이다. 데이터 웨어하우스의 핵심은 일반적으로 데이터 기반의 의사 결정을 지원하는 것이며, 이 개념은 AI 기반의 추론이라는 새로운 세계로 매끄럽게 확장된다.
 

차세대 데이터 웨어하우스

작년 여러 소식을 통해 드러난 업계의 흐름을 보면 데이터 웨어하우스의 역할이 바뀌고 있다. 대부분의 데이터 웨어하우스 핵심 사용례는 여전히 의사 결정 지원(비즈니스 인텔리전스, 보고, 온라인 분석 프로세싱 등)이지만, 의사 결정 자동화로의 전환도 꾸준히 진행되고 있다. 즉, 데이터 웨어하우스는 이제 데이터 기반 추론을 위한 머신러닝 애플리케이션을 구축하는 데이터 사이언스 파이프라인을 지원하고 있다.

새로운 세대의 데이터 웨어하우스는 사실 머신러닝 모델을 구축하고 학습시키는 데 사용되는 정제, 통합, 승인된 데이터를 통제하도록 설계된 데이터 레이크다. 예를 들어 아마존 웹 서비스는 작년 가을 아마존 리인벤트(re:Invent) 컨퍼런스에서 AWS 레이크 포메이션(AWS Lake Formation)을 발표했다. 이 새로운 관리형 서비스의 용도는 안전한 데이터 레이크를 구축하는 과정을 간소화, 가속화하는 데 있다. AWS는 AWS 레이크 포메이션에 데이터 레이크라는 명칭을 사용하지 않고, 이미 의사 결정 지원 애플리케이션에 중점을 둔 전통적인 데이터 웨어하우스인 아마존 레드시프트(Redshift)를 제공하고 있지만, 사실 AWS 레이크 포메이션은 클라우드 데이터 웨어하우스의 특성을 모두 담고 있다.

AWS 레이크 포메이션은 데이터 웨어하우스처럼 보이고 걷고 행동한다. 사실 AWS의 설명 자체가 데이터 웨어하우스와의 비교를 유도한다. “데이터 레이크는 큐레이션 및 보호되는 중앙화된 저장소로, 모든 데이터를 원래의 형식과 분석을 위해 준비된 형식, 두 가지 모두로 저장한다. 데이터 레이크는 데이터 사일로를 허물고 다양한 유형의 분석을 결합해서 통찰력을 얻고 더 나은 의사 결정을 내릴 수 있게 해준다.”

실제로 AWS의 말을 들어보면 AWS 레이크 포메이션은 의사 결정 지원과 AI 기반 의사 결정 자동화, 두 가지 모두를 위한 일종의 궁극적인 데이터 웨어하우스라는 인상을 준다. 구체적으로 AWS는 이 서비스가 “사용자가 아파치 스파크용 아마존 EMR, 아마존 레드시프트, 아마존 아테나, 아마존 세이지메이커, 아마존 퀵사이트 등 원하는 분석 및 머신러닝 서비스에서 활용하는 데이터 집합을 관리하도록 설계됐다”고 설명한다.

또 다른 주목할 만한 사례는 데이터브릭스(Databricks)가 최근 발표한 델타 레이크(Delta Lake) 오픈소스 프로젝트다. 아파치 2.0 라이선스로 제공되는 델타 레이크의 목적은 ‘머신러닝 파이프라인을 지원하기 위해 데이터 레이크에 유지되는 데이터 집합을 집계, 정제, 큐레이션, 관리하는 것’으로, AWS 레이크 포메이션과 비슷하다.

델타 레이크는 아파치 스파크에서 액세스가 가능한, 예를 들어 HDFS, 아마존 S3 또는 마이크로소프트 애저 블롭 스토리지와 같은 기존의 온프레미스 또는 클라우드 데이터 스토리지 플랫폼 위에 위치한다. 델타 레이크는 데이터브릭스가 말하는 “트랜잭션 스토리지 레이어”를 제공하기 위해 파케이(Parquet)로 데이터를 저장한다. 파케이는 오픈소스 열 기반 스토리지 형식으로, 데이터 프로세싱 프레임워크에 관계없이 하둡 생태계의 모든 프로젝트에 사용할 수 있다. 낙관적 동시성 직렬성, 스냅샷 격리, 데이터 버전 관리, 롤백, 스키마 강제를 통해 ACID 트랜잭션을 지원한다.

데이터 레이크와 AWS 레이크 포메이션의 중요한 차이점 하나는 델타 레이크는 이 파이프라인에서 배치 데이터와 스트리밍 데이터를 모두 처리한다는 것이다. 또 다른 차이는 델타 레이크는 모든 데이터에 대해 ACID 트랜잭션을 지원하므로 수백 개의 애플리케이션에서 복수의 동시 쓰기와 읽기가 가능하다는 점이다. 또한 개발자는 감사와 롤백을 위해, 또는 MLFlow 머신러닝 실험의 결과를 재현하기 위한 목적 등으로 각 델타 레이크의 이전 버전에 액세스할 수 있다.

넓게 보면 델타 레이크는 가장 널리 도입된 오픈소스 데이터 웨어하우징 프로젝트인 아파치 하이브와 경쟁하는 듯이 보인다. 다만 하이브의 경우 전적으로 HDFS 기반 스토리지에 의존하며 최근까지 ACID 트랜잭션을 지원하지 않았다. 1년 전에 발표된 하이브 3에 이르러서야 하둡 기반 데이터 웨어하우스에 ACID 지원이 추가됐다. 하이브 3는 델타 파일을 사용해서 트랜잭션 CRUD(Create Read Update Delete) 테이블에서 작업의 스냅샷 격리와 원자성을 제공한다.
 

AI 기반 의사 결정 자동화를 위한 기반

AWS 레이크 포메이션, 델타 레이크, 하이브 3에 이르기까지, 최근 업계의 움직임은 데이터 레이크가 모든 의사 결정 지원과 의사 결정 자동화 애플리케이션, 모든 트랜잭션 데이터 애플리케이션을 위한 거버넌스 허브가 되는 날이 다가오고 있음을 시사한다. 이러한 추세가 더 가속화되기 위해서는 하이브 3, 델타 레이크와 같은 오픈 프로젝트가 업체와 사용자들 사이에서 더 폭넓은 지지를 확보해야 한다.

향후 “데이터 웨어하우징”은 비즈니스 인텔리전스를 위한 구조화된 데이터를 대상으로 하는 관리되는 다중 도메인 저장소를 지칭하는 용어로 존속될 가능성이 높다. 그러나 기반이 되는 데이터 플랫폼은 클라우드 기반 인공 지능 파이프라인을 위한 핵심적인 데이터 거버넌스 기반을 제공하기 위해 계속 발전할 것이다.

기업 데이터 웨어하우스의 발전을 이끄는 힘은 BI가 아니라 AI다.  editor@itworld.co.kr


X