데이터ㆍ분석

빅 데이터 패권은 누가? 하둡에 도전하는 HPCC

Allen Bernard | CIO 2013.02.15
하지만 위키본의 빅 데이터 애널리스트 제프 켈리는 다소 관점이 다르다. 비록 하둡이 이런 분야에 성숙도가 떨어지지만, 생산 환경에 사용할 의도로 나온 것이 아니기 때문에, 이런 차이점들이 현재로선 그리 중요하지 않을 수 있다는 설명이다.
 
켈리에 따르면, 하둡은 막대한 양의 데이터에서 연관성을 찾아내어 이전까지는 관련짓기 어려웠던 데이터 요점들을 이어주는데 사용된다. 이런 요점들이 드러난 후, 데이터는 종종 좀더 전통적인 비즈니스 인텔리전스 솔루션과 데이터 웨어하우스로 옮겨져 심도 있는 분석에 들어가게 된다.
 
켈리는 “현재 하둡은 대규모 중간 대기 구역으로 가장 널리 사용되고 있다”라며 “근본적으로, [하둡은] 많은 양의 다중-비구조적 데이터에 구조를 더해주는 플랫폼으로, 그 데이터가 관게적 형식의 데이터베이스 기술로 분석될 수 있게 해주는 역할을 한다”라고 말했다.
 
ECL: 드래그-앤-드롭 인터페이스를 가진 고급 쿼리 언어
빌라누스트레는 ECL이 SQL같은 고급 쿼리 언어와 아주 유사하다는 것이 또 다른 주요 이점이라고 말했다. 마이크로소프트 엑셀에 통달했다면, ECL을 배우는데 전혀 어려움이 없을 정도다.
 
쿼리 개발은 HPCC가 드래그-앤-드롭 인터페이스를 사용해 쿼리를 만들 수 있게 해주는 오픈소스 케틀 프로젝트(Kettle project)에 의해 더욱 간단해졌다. 이런 이점은 하둡의 피그(Pig)나 하이브(Hive) 쿼리 언어에서는 아직 누릴 수 없다.
 
빌라누스트레는 HPCC는 실제적 질문에 대답할 수 있도록 설계됐다고 강조했다. 하둡은 이용자들이 찾은 각각의 변수들마다 따로 쿼리를 준비해야 하지만 HPCC는 그러지 않아도 된다.
 
빌라누스트레는 “ECL은 서술적이라는 점에서 좀 SQL같은 면이 있기 때문에, 컴퓨터에게 어떻게 할지를 이야기하기보다 무엇을 원하는지 말하면 된다”라며, 반면 피그와 하이브는 꽤 원시적이라 할 수 있다고 설명했다.
 
그는 이어 “피그와 하이브는 프로그래밍, 유지, 확장, 코드 재사용 모두 상당히 까다로운데, 이는 컴퓨터 언어의 특성에 배치되는 측면이 있다”라고 덧붙였다.
 
하둡의 장점, 확장성, 유연성, 저비용
그러나 클라우데라(Cloudera)의 제품 부회장 찰스 제들류스키는 이런 관점에 동의하지 않는다. 이베이(eBay), 셰브론(Chevron) 노키아(Nokia)같은 다양한 회사들에 턴키식으로 하둡 구현을 제공하는 클라우데라는 하둡 관련 기업들 가운데서도 가장 인지도가 높고 성공적인 업체다.
 
제들류스키는 “사실 오늘날의 하둡에게는 이전까지의 데이터 관리 시스템보다도 더 넓은 범위의 최종사용자들의 구미를 맞출 수 있는 능력이 있다. 그리고 이 점이 언제나 하둡의 강점이었다”라며, “하둡이 우수한 3가지 분야를 꼽자면, 확장성, 유연성, 저렴성을 들 수 있다”고 말했다.
 
제들류스키의 주장을 정리하면 다음과 같다 : 유연하고 튼튼함은 물론, 저비용이 바로 많은 이들을 하둡에 관심을 가지게 했다. 그러나 하둡이 별도의 하드웨어상에서 실행되기 때문에, 모든 것을 관리해줄 이를 채용하거나 클라우데라같은 서드파티 제공자에게 그 일을 맡겨야 한다. 반면 HPCC는 하둡처럼 하드웨어상에서 실행되면서도, 필요로 하는 상당수의 기능을 곧바로 사용 가능하다.
 
만약 클라이언트 기업이 엔터프라이즈급 기능성을 제공하는 좀더 강력한 솔루션을 찾고있다면, HPCC를 선택하는 편이 낫다. 반면, 빅 데이터가 무엇인지 느껴보는데 주안점을 둔다면, 하둡이 더 나은 선택이 될 것이다. 하둡 개발자들의 거대한 오픈소스 생태계와 수많은 서드파티 업체들이 그 배후에 있기 때문이다.
 
한편 제들류스키는 다음과 같이 말했다. “데이터 폭발이 이 모든 것들을 주도하는 큰 트렌드다. 데이터는 무어의 법칙보다도 더 빠르게 증가하고 있어서, 데이터를 다루기 위해 다른 아키텍처와 다른 작업 방식이 필요한 상황이다. 그리고 데이터가 무어의 법칙보다도 빠르게 증가하는 이유는 바로 가정, TV, 전화기, 탑승하는 비행기 등등 더 많은 것들이 컴퓨터에 연결되기 때문이다. 이렇게 다 컴퓨터에 묶이게 되면, 그 모든 것들이 엄청난 속도로 데이터를 쏟아내게 된다.” ciokr@idg.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.