데이터ㆍ분석 / 애플리케이션

빅 데이터를 위한 하둡, 그 이상의 방법은 없는가

Jaikumar Vijayan | Computerworld 2012.11.01
살람은 "진정 빅쿼리에 주목해야 하는 이유는 빅쿼리의 기초 기술이 아니라 대기업에서 IT 비용을 감소시켜줄 수 있는 잠재력에 있다"고 말했다.
 
살람은 "빅쿼리는 대규모 데이터 세트를 분석하는데 있어서, 전통적인 기업 데이터 플랫폼에 비해 훨씬 비용대비 효과적인 방법을 제공한다. 기존 비용 방정식을 바꿔버릴 잠재력은 물론 기업들이 그들의 빅 데이터로 실험을 할 수 있게 해준다"고 말했다.

BI 업체, 하둡 환경의 데이터 분석 툴 발표 
SAS, SAP, 오라클, 테라데이터, HP 등의 비즈니스 인텔리전스 제품의 주요 개발업체들은 향상된 데이터 분석 능력을 제공하는 툴을 공급하기 위해 노력해왔다. 구글처럼, 이런 개발업체 대부분은 하둡 플랫폼을 다른 툴을 통해 분석하기 위한 다중-구조적 데이터를 준비하고 옮기는, 주로 거대 데이터 저장 용도로 보고 있다.
 
바로 지난 주, SAP는 대형 조직들이 하둡 환경을 SAP의 HANA 인-메모리 데이터베이스와 관련 기술들과 통합할 수 있게 해주는 새로운 빅 데이터 번들을 공개했다.
 
이 번들 제품은 SAP HANA 플랫폼을 이용해 하둡 환경으로부터 데이터를 읽고 로드한 후, 그 데이터에 SAP의 리포팅, 분석 툴을 이용해 빠른 상호 분석을 수행한다.
 
몇 주 전, SAS는 비슷한 능력의 하이 퍼모먼스 애널리틱 서버(High Performance Analytic Server)를 발표했다. HP는 버티카(Vertica)의 인수로 취득한 기술로, 테라데이터는 자체 애스터-하둡 어댑터(Aster-Hadoop Adaptor)로, IBM은 네테자(Netezza) 툴 세트로, 비슷한 기능을 제공하고 있거나, 곧 제공할 예정이다.
 
최근 이 비즈니스는 상당한 창업 바람을 일으키고 있다.
 
메타마켓(Metamarkets)은 실시간으로 막대한 양의 새로운 스트리밍 데이터를 기업들이 분석할 수 있도록 설계된 클라우드-기반 서비스를 개발했다. 
 
메타마켓 CEO 마이클 드리스콜은 이 서비스의 중심은 내부적으로 개발된 드루이드(Druid)라 불리는 분산된 인-메모리, 원주 데이터 기술이라고 말했다. 드리스콜은 드루이드를 개념상 드레멜과 비교했다.
 
드리스콜은 "드레멜은 애초부터 분석 데이터 저장이 되는 것을 가정하고 설계됐다"고 설명했다. 또한 "칼럼-지향, 평행, 인-메모리 설계로 인해, 전통적인 데이터 저장보다 수백, 수천 배 빠르다"고.
 
드리스콜은 "메타마켓은 이와 아주 비슷한 아키텍처를 갖고 있다"며, "칼럼-지향적이고, 분산적이며, 인-메모리"라고 말했다. 이에 "메타마켓의 기술은 데이터가 데이터 저장소로 스트림되기도 전에 기업들이 데이터에 쿼리를 실행할 수 있게 해줘 드레멜보다도 더 빠른 통찰을 얻을 수 있게 해준다"고 설명했다.
 
메타마켓은 올해 초 드루이드를 오픈 소스 커뮤니티에 출시하면서 이 기술에 대한 더 많은 개발 활동을 끌어내려고 했다. 드리스콜은 "이런 기술에 대한 수요는 속도에 대한 필요에 의해 발생되고 있다"고 말했다.
 
드리스콜은 "하둡은 밀리초 단위의 쿼리 응답 시간이 필요한 기업들에게는 절대적으로 너무 느리다"며, "전통적인 개발업체에 의해 제공되는 분석 기술들은 하둡보다는 빠르지만, 드레멜이나 드루이드에 비할 바가 못된다고 말했다.
 
또다른 벤처업체인 노디블(Nodeable)은 스트림리듀스(StreamReduce)라는 클라우드-호스티드 서비스를 제공하는데 이는 메타마켓와 흡사하다.
 
스트림리듀스는 백타입(BackType)이 지난해 트위터에 인수되기 전에 원래 개발했던 오픈소스 데이터 분석 기술인 스톰(Storm)으로 만들어졌다. 또한 트위터 내부에서도 사용되는 스톰은 기업들이 스트리밍 데이터에 실시간 분석을 할 수 있게 해준다.
 
노디블 CEO 데이브 로센버그은 "노디블은 하둡 커넥터를 제공해 기업들이 하둡 환경에 저장된 데이터에 상호 쿼리를 실행할 수 있게 해준다"고 말했다.
 
노디블은 클라우드 시스템 관리 업체로 시작했지만, 빅 데이터 분석 기술에서 기회를 포착한 후 기업 노선을 변경했다. 로센버그는 "하둡의 실시간 보완재가 없다는 것을 깨달았다. 노디블은 자체적으로 얼마나 하둡과 실시간에 가까워질 수 있는지 물었다"고 말했다.
 
로센버그는 "노디블 등의 서비스는 하둡을 대체하는게 아니라 보완하는 것"이라고 주장했다.
 
스트림리듀스는 향후 전통적인 배치 프로세싱을 위해, 하둡 환경이나 다른 데이터 저장소에 저장될 수 있는 스트리밍 데이터로부터 이전가능한 정보를 추출해 낼 수 있는 방법을 제공해 준다고 설명했다. 
 
노디블과 메타마켓이 제공하는 스트리밍 엔진은 드레멜같은 기술과 한 가지 중요한 점에서 차이가 있다. 노디블과 메타마켓은 미가공 데이터가 데이터베이스에 도달하기 이전에 분석하기 위해 고안된 것이라는 점이다. 드레멜과 다른 기술들은 이미 하둡 환경 같은 데이터 저장소에 존재하는 데이터의 즉각적인 쿼리 작업을 위해 만들어졌다.
 
한편, 이런 상황에서 주요 하둡 관련 업체들도 보고만 있지 않았다.
 
상업적 하둡 기술의 최대 개발업체인 클라우데라는 지난주 하둡 분산 파일 시스템(Hadoop Distributed File System)에 저장된 데이터의 실시간 쿼리 엔진인 클라우데라 임팔라(Cloudera Impala)라는 기술을 출시했다.
 
클라우데라에 의하면, 임팔라 기술을 통해 기업들은 한 시스템에서 구조적, 비구조적 데이터 배치와 실시간 작업을 할 수 있게 될 것이다. editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.