AIㆍML

데이터브릭스, LLM 훈련 강화 꾀하려 라일락.AI 인수

Anirban Ghoshal | InfoWorld 2024.03.21
데이터 레이크하우스 업체인 데이터브릭스가 미국 보스턴 기반의 라일락 AI(Lilac AI)를 인수한다고 밝혔다. 데이터브릭스는 이번 인수를 통해 구조화되지 않은 데이터 탐색과 활용, 생성형 AI 기반 애플리케이션 구축을 지원할 것이라고 발표했다.

공식 블로그에서는 라일락 AI를 데이터 과학자가 생성형 AI에 중점을 두고 모든 텍스트 데이터셋을 검색, 클러스터링, 분석할 수 있는 확장 가능하고 사용자 친화적인 도구라고 소개했다. 또란 라일락 AI는 기업이 생성형 AI 기반 애플리케이션에 사용할 LLM의 데이터를 검색, 정량화, 편집할 수 있는 가든(Garden)이라는 서비스를 제공한다. 
 
ⓒ Getty Images Bank

가든을 사용하는 데이터 과학자와 연구자는 데이터 클러스터를 탐색하고, 인간의 피드백과 분류기로 새로운 데이터 카테고리를 도출하며, 여기서의 인사이트를 기반으로 데이터셋을 맞춤화할 수 있다.

데이터브릭스는 라일락 AI의 솔루션이 모델 결과물의 편향이나 독성을 분석하고 RAG용 데이터를 준비하며 LLM을 미세 조정하고 사전 훈련할 수 있다고 밝혔다.

데이터브릭스 이사진은 인수 후 라일락의 가든을 통합해 데이터브릭스 기업 고객이 생성형 AI 애플리케이션 개발을 가속화할 수 있을 것이라고 설명했다. 또한, 라일락 제품이 생성형 AI 기반 애플리케이션을 개발하는 모자이크ML의 엔드투엔드 도구 모음에 필수적인 기능으로 편입될 것이라고 예상했다.

또한 경영진은 데이터 과학 및 AI 연구 커뮤니티에서 오픈소스 프로젝트로 라일락 AI의 인기가 높았으며, 데이터브릭스의 산하의 모자이크 AI 팀이 지난 1년 동안 라일락을 활용해 데이터를 큐레이팅한 것도 인수 배경이 되었다고 설명했다.

라일락 설립자인 대니얼 스밀코프와 니카일 토라트는 구글 출신의 개발자다. 토라트는 구글 이미지 검색 사용자 인터페이스의 기술 책임자를, 스밀코프는 구글에서 텐서플로우.js를 공동 개발한 이력을 지녔다.

데이터브릭스는 지난 1년 동안 스노우플레이크 등의 경쟁업체를 의식해 생성형 AI 역량을 강화할 목적으로 여러 업체를 인수했다. 지난해에도 LLM 및 모델 트레이닝 소프트웨어 업체인 모자이크 ML을 13억 달러에 인수한 바 있다. 

2023년 5월에는 AI 중심 데이터 거버넌스 플랫폼 업체 오케라(Okera)를 인수했다. 인수 조건은 비공개다. 오케라 인수는 데이터브릭스의 데이터 거버넌스 역량을 강화하는 동시에 자체 개발한 오픈소스 돌리 2.0 LLM 같은 LLM을 학습 및 관리할 수 있을 것이라는 기대를 받았다.

클라우드 기반 데이터 웨어하우스 업체인 스노우플레이크 역시 생성형 AI 제품을 강화하고 데이터 관리 업체를 인수했다. 2023년 5월 미국 신생업체 니바(Neeva)를 비공개 금액에 인수해 데이터 클라우드 플랫폼에 생성형 AI 기반 검색 기능 추가를 꾀했다. 2023년 2월에는 데이터 클린룸 강화를 위해 립이어(LeapYear)를 인수했다. 그 직전에도 인공지능 기반 시계열 예측 플랫폼 업체 미스트 AI(Myst AI)를 인수해 최근 3년 동안 7곳의 업체를 인수하며 적극적인 행보를 보였다.
editor@itworld.co.kr 
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.