2013.02.15

빅 데이터 패권은 누가? 하둡에 도전하는 HPCC

Allen Bernard | CIO
빅 데이터라는 표현이 나오면 항상 따라오는 말이 바로 하둡(Hadoop)이다. 막대한 양의 데이터를 접속 가능하게 만든 기술이 바로 오픈소스 아파치 하둡 프로젝트(Apache Hadoop project)에 기반한 것이었기 때문이었다.
 
외부에서 들여다보면, 하둡이 곧 빅 데이터이고, 빅 데이터가 곧 하둡처럼 보이기도 한다. 이 둘 가운데 하나가 빠지면 안될 것 같이 보이는 것이다. 그러나 하둡보다도 여러 가지 면에서 더욱 성숙되고 기업에 적합한 경쟁자가 엄연히 존재한다. 바로 고성능 컴퓨팅 클러스터(High Performance Computing Cluster, HPCC)다.
 
데이터 서비스 업체 렉시스넥시스(LexisNexis)의 자회사인 HPCC 시스템(HPCC System)은 2000년대 초반부터 15억 달러 규모의 ‘서비스로의 데이터’(data-as-a-service: DaaS) 를 도맡아왔다.
 
하둡처럼, HPCC는 아파치 2.0 라이선스하의 오픈소스이며 무료로 이용할 수 있다. 두 모두 상품 하드웨어와 IP 네트워크를 통해 상호 연결된 로컬 스토리지를 활용하여 아키텍처에 걸쳐 병렬 데이터 프로세싱과 쿼리를 할 수 있게 해준다.
 
렉시스넥시스 정보 보안 부회장이자 HPCC 시스템 이니셔티브의 수장인 플라비오 빌라누스트레에 따르면 여기까지가 하둡과 HPCC의 공통점이다.
 
HPCC가 하둡보다 더 성숙했고 똑똑한가?
HPCC는 12년 이상 생산적으로 활용되어 왔음에도, HPCC 오픈소스 버전(HPCC open source version)이 이용가능해진 것은 겨우 일년 남짓에 불과하다. 반면 하둡은 원래 구글에서 로그파일을 분석하기 위해 규합한 너치 프로젝트(Nutch project)의 일부였고, 2006년부터는 빅 데이터 프로젝트의 사실상 표준이 되었다. 이전까지는 자체 아파치 프로젝트도 아니었음에도 불구하고 그렇다.
 
그리고 그 결과 HPCC의 60여 기업 이용자들을 수적으로 크게 앞서기 시작했다. 아울러 하둡은 수백만 명이 참여하는 오픈소스 커뮤니티와 선도적인 위치의 이점을 취하려고 속속 등장하는 전체 신생 기업 생태계를 등에 업고 있다.
 
그러나 HPCC는 C++에 기반한 기업 제어 언어(enterprise control language, ECL)라는 고급 프로그래밍 언어를 사용하는 성숙한 기업 전용 패키지다. 하둡의 자바(Java)와 비교되는 대표적인 특징이다. 이로 인해 HPCC가 하둡에 비해 사용 편이성은 물론 백업과 제작 복구에 있어서도 유리하다고 빌라누스트레는 말했다.
 
빌라누스트레에 따르면 운영체제상에서 C++가 네이티브로 실행되기 때문에 HPCC의 속도가 향상되는 반면, 자바는 실행에 있어서 자바 가상 머신(Java virtual machine, JVM)을 필요로 한다.
 
또한 HPCC는 더욱 미션-크리티컬한 기능성을 보유하고 있다고 포레스터 리서치 부회장이자 애플리케이션 개발과 딜리버리 수석 분석가 보리스 에벨슨은 설명했다.
 
에벨슨에 따르면 HPCC 사용의 역사가 훨씬 길기 때문에, HPCC에게는 하둡에 없는 보안, 복구, 감사, 준수 등의 레이어를 가지고 있다. 또 검색 중 잃은 데이터도 완전히 없어지지 않는다. 테라데이타와 같은 전통적인 데이터 웨어하우스처럼 복구가 가능하다.
 
상대적으로 이는 하둡에게는 단점이다. 시만텍(Symantec) 빅 데이터 선임 관리자 랙스 스리니바산은 이런 단점에 대해 2012년 5월 블로그 포스트에 기업 하둡의 문제를 다루며 다음과 같이 기술했다.
 
“하둡 클러스터를 위한 신뢰할 수 있는 백업 솔루션이 존재하지 않는다. 3개의 복사본을 저장하는 하둡의 방식은 백업과 같지 않다. 아카이빙이나 특정시간 복구도 제공되지 않는다.”
 


2013.02.15

빅 데이터 패권은 누가? 하둡에 도전하는 HPCC

Allen Bernard | CIO
빅 데이터라는 표현이 나오면 항상 따라오는 말이 바로 하둡(Hadoop)이다. 막대한 양의 데이터를 접속 가능하게 만든 기술이 바로 오픈소스 아파치 하둡 프로젝트(Apache Hadoop project)에 기반한 것이었기 때문이었다.
 
외부에서 들여다보면, 하둡이 곧 빅 데이터이고, 빅 데이터가 곧 하둡처럼 보이기도 한다. 이 둘 가운데 하나가 빠지면 안될 것 같이 보이는 것이다. 그러나 하둡보다도 여러 가지 면에서 더욱 성숙되고 기업에 적합한 경쟁자가 엄연히 존재한다. 바로 고성능 컴퓨팅 클러스터(High Performance Computing Cluster, HPCC)다.
 
데이터 서비스 업체 렉시스넥시스(LexisNexis)의 자회사인 HPCC 시스템(HPCC System)은 2000년대 초반부터 15억 달러 규모의 ‘서비스로의 데이터’(data-as-a-service: DaaS) 를 도맡아왔다.
 
하둡처럼, HPCC는 아파치 2.0 라이선스하의 오픈소스이며 무료로 이용할 수 있다. 두 모두 상품 하드웨어와 IP 네트워크를 통해 상호 연결된 로컬 스토리지를 활용하여 아키텍처에 걸쳐 병렬 데이터 프로세싱과 쿼리를 할 수 있게 해준다.
 
렉시스넥시스 정보 보안 부회장이자 HPCC 시스템 이니셔티브의 수장인 플라비오 빌라누스트레에 따르면 여기까지가 하둡과 HPCC의 공통점이다.
 
HPCC가 하둡보다 더 성숙했고 똑똑한가?
HPCC는 12년 이상 생산적으로 활용되어 왔음에도, HPCC 오픈소스 버전(HPCC open source version)이 이용가능해진 것은 겨우 일년 남짓에 불과하다. 반면 하둡은 원래 구글에서 로그파일을 분석하기 위해 규합한 너치 프로젝트(Nutch project)의 일부였고, 2006년부터는 빅 데이터 프로젝트의 사실상 표준이 되었다. 이전까지는 자체 아파치 프로젝트도 아니었음에도 불구하고 그렇다.
 
그리고 그 결과 HPCC의 60여 기업 이용자들을 수적으로 크게 앞서기 시작했다. 아울러 하둡은 수백만 명이 참여하는 오픈소스 커뮤니티와 선도적인 위치의 이점을 취하려고 속속 등장하는 전체 신생 기업 생태계를 등에 업고 있다.
 
그러나 HPCC는 C++에 기반한 기업 제어 언어(enterprise control language, ECL)라는 고급 프로그래밍 언어를 사용하는 성숙한 기업 전용 패키지다. 하둡의 자바(Java)와 비교되는 대표적인 특징이다. 이로 인해 HPCC가 하둡에 비해 사용 편이성은 물론 백업과 제작 복구에 있어서도 유리하다고 빌라누스트레는 말했다.
 
빌라누스트레에 따르면 운영체제상에서 C++가 네이티브로 실행되기 때문에 HPCC의 속도가 향상되는 반면, 자바는 실행에 있어서 자바 가상 머신(Java virtual machine, JVM)을 필요로 한다.
 
또한 HPCC는 더욱 미션-크리티컬한 기능성을 보유하고 있다고 포레스터 리서치 부회장이자 애플리케이션 개발과 딜리버리 수석 분석가 보리스 에벨슨은 설명했다.
 
에벨슨에 따르면 HPCC 사용의 역사가 훨씬 길기 때문에, HPCC에게는 하둡에 없는 보안, 복구, 감사, 준수 등의 레이어를 가지고 있다. 또 검색 중 잃은 데이터도 완전히 없어지지 않는다. 테라데이타와 같은 전통적인 데이터 웨어하우스처럼 복구가 가능하다.
 
상대적으로 이는 하둡에게는 단점이다. 시만텍(Symantec) 빅 데이터 선임 관리자 랙스 스리니바산은 이런 단점에 대해 2012년 5월 블로그 포스트에 기업 하둡의 문제를 다루며 다음과 같이 기술했다.
 
“하둡 클러스터를 위한 신뢰할 수 있는 백업 솔루션이 존재하지 않는다. 3개의 복사본을 저장하는 하둡의 방식은 백업과 같지 않다. 아카이빙이나 특정시간 복구도 제공되지 않는다.”
 


X