네트워크 / 오픈소스 / 클라우드

데이터브릭스, 델타 레이크 API 오픈소스로 개방…아파치 아이스버그 견제

Anirban Ghoshal | InfoWorld 2022.06.29
한동안 오픈소스 기술 논쟁에 휘말렸던 데이터브릭스가 델타 레이크 API를 오픈소스화하겠다고 28일 밝혔다. 델타 레이크와 관련된 오픈소스 기술은 리눅스 재단에서 관리할 예정이다. 
 
ⓒ Getty Images Bank

데이터브릭스는 그동안 내부 핵심 기술인 델타 레이크를 오픈소스 기술이라고 홍보했는데, 올해초 델타 레이크가 상용 소프트웨어에 가깝다는 비판을 받아 논쟁의 중심에 서 있었다. 특히 구글 출신이자 현 스노우플레이크의 제품 관리 부문 선임 매니저 제임스 말론이 아파치 아이스버그가 유일한 오픈소스 데이터 아키텍처라고 소개하는 글을 올리면서 논쟁에 불을 지폈다. 

말론은 수직적인 운영 방식을 지적하며 델타 레이크는 오픈 소스 기술이 아니라 오픈 코드에 가깝다고 평가했으며, 클라우데라, 드리미오, 구글, 마이크로소프트, 오라클, SAP, AWS, HPE, 버티카 같은 경쟁사도 비판에 동의했다. 

벤타나 리서치의 리서치 디렉터 매트 아슬렛은 “이번 발표로 데이터브릭스는 오픈소스 기술을 제공하는 업체라는 점을 더 명확히 알릴 수 있을 것”이라며, “특히 경쟁사로부터 촉발된 혼란을 어느 정도 정리할 수 있을 것”이라고 설명했다. 컨스텔레이션 리서치 수석 애널리스트 더그 헨셴 역시 “스노우플레이크 같은 경쟁사는 델타 레이크가 상용 기술이라는 점을 고객에게 알리고 싶었을 것”이라며 “이번 발표로 데이터브릭스 고객은 데이터가 상용 기술에 종속되지 않고 개방형 플랫폼 형태에 안전하게 저장된다고 믿을 수 있을 것”이라고 평가했다. 

데이터 레이크 시장에 확산되는 기업용 오픈소스 

데이터브릭스가 오픈소스 전략을 확대하는 배경에는 최근 데이터 레이크 시장 변화가 영향을 준 것으로 보인다. 데이터 레이크 시장에선 오픈소스 기술 기반 서비스가 점점 많아지고 있다. 특히 아파치 아이스버그 같은 오픈소스 기술이자 새로운 경쟁 기술이 등장함에 따라 경쟁 구도가 심화되고 있다.

아파치 아이스버그는 대규모 분석 테이블을 위한 고성능 쿼리 기능을 제공하는 기술로 시장에서 주목받고 있다. 지난 4월 구글이 빅 레이크에서 아파치 아이스버그를 지원한다고 발표했으며, 스노우플레이크는 이달 초 아파치 아이스버그 테이블 기능을 프리뷰 형태로 공개했다. 스타버스트(Starburst)와 드리미오(Dremio) 역시 아파치 아이스버그를 활용한 서비스를 내놓았다. 아이스버그는 아니지만, 데이터 인프라 업체 원하우스는 오픈소스 기술 아파치 후디(Hudi)로 비슷한 서비스를 제공하고 있다. 

아말감 인사이트의 박현 대표 애널리스트는 “경쟁 오픈소스 기술이 등장하면서 데이터 레이크 시장에서 선택할 수 있는 옵션이 많아졌다”라며, “데이터브릭스도 더 강력한 기능을 제공해야 한다는 압박을 받고 있을 것”이라고 설명했다. 
전통적인 테이블 구조가 행과 열로 이뤄진 것에 반해, 델타 레이크 같은 기술은 ACID (Atomicity, Consistency, Isolation, and Durability) 속성을 제공해 메타데이터를 저장하도록 지원하고 궁극적으로 데이터 수집 속도를 높인다. 

델타 레이크는 데이터 레이크하우스의 형식을 추구한다. 즉 저장과 분석 기능을 모두 제공하는 것인데 기존에 제공되는 형식으로 데이터 저장만 하는 기존 데이터 레이크와는 대조되는 개념이다. 또한 데이터를 SQL 같은 구조화된 형식으로 저장하는 데이터 웨어하우스와 비교되곤 한다.

오픈소스 ML옵스, ML플로우 2.0 공개

델타 레이크와 별개로 데이터브릭스는 같은 날 엔드 투 엔드 머신러닝 라이프사이클을 관리하는 ‘ML플로우 2.0’를 새로 공개했다. ML플로우는 ML옵스 기술이자 오픈소스 플랫폼이다.

ML플로우 2.0은 ML플로우 파이프라인을 제공하면서 모델 유형을 활용해 미리 정의된 템플릿을 제공한다. 이를 통해 데이터 과학자는 별도의 프로덕션 엔지니어 지원 없이 모델을 좀 더 빠르게 개발할 수 있다. 

머신러닝 개발이 점점 복잡해지고, 알고리즘 모델을 실제 애플리케이션 코드에 적용하는 과정도 어려워지면서 ML플로우 2.0 류의 기술이 주목받고 있다. 아마존 세이지메이커(Sagemaker), 애저 머신러닝, 구글 클라우드 AI, 데이터로봇(Datarobot), 도미노 데이터(Domino Data), 데이터이쿠(Dataiku), 이과지오(Iguazio) 서비스도 ML플로우와 유사한 기능을 제공한다. 

박현 애널리스트는 “일반적인 ML옵스 서비스는 모델 운영 과정에서 필요한 코딩이나 생산 문제에 집중한다”라며, “다른 서비스에 비해 데이터브릭스는 오픈소스 형태로 중립적인 기술을 제공하며 통합된 데이터 및 모델 관리 방식을 추구한다는 차별점이 있다”라고 설명했다. 

헨셴은 “많은 기업이 ML옵스를 도입하는 데 어려움을 겪고 있고, 심지어 머신러닝 모델을 성공적으로 생성한 이후에도 ML옵스 도입에 실패하고 있다”라며, “ML플로우 2.0은 스트리밍 분석을 프로덕션 단계의 데이터 파이프라인으로 더 쉽게 가져올 수 있도록 도와줄 것”이라고 평가했다. 
editor@itworld.co.kr
 Tags
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.