2015.06.09

스파크, 스톰에 이은 실시간 하둡 처리의 새로운 경쟁자 '아펙스' 급부상

Serdar Yegulalp | InfoWorld
하둡에서 스트리밍 데이터를 실시간으로 처리한다고 하면, 보통 스톰 아니면 스파크, 둘 가운데 하나를 선택하게 된다. 그러나 상용 제품에서 오픈소스화된 세 번째 경쟁자가 곧 등장한다. 이 솔루션 역시 하둡 울타리를 벗어나 발전할 가능성이 있다.


데이터토렌트(DataTorrent) RTS(real-time streaming)는 오래 전부터 아파치 재단의 하둡 관련 오픈소스 프로젝트군에 포함되지 않는, 라이브 데이터 처리를 위한 상용 제품으로 판매됐다.

현재 데이터토렌트사는 코어 데이터토렌트 RTS 엔진을 오픈소스화해서 경쟁 솔루션과 같이 아파치 2.0 라이선싱으로 제공하고 궁극적으로는 아파치 재단에 기증하기 위해 준비 작업을 하고 있다.

기업용으로 설계된 데이터토렌트
데이터토렌트 RTS 엔진의 오픈소스 버전인 프로젝트 아펙스(Project Apex)는 단순히 스톰, 스파크와 경쟁하는 것이 아니라 이 둘을 뛰어넘어 더 빠른 속도를 제공한다(데이터토렌트 측은 스파크에 비해 10~100배 더 빠른 속도라고 주장한다).

또한 프로그램하기도 더 쉬우며, 내고장성(fault tolerance), 확장성과 같은 기업 요구 사항을 더 충실하게 지원하며 기업에게 하둡의 가치를 더 명확하게 입증할 수 있는 솔루션을 목표로 한다.

데이터토렌트 메모리 내 처리 플랫폼의 오픈소스 버전인 프로젝트 아펙스는 기존 데이터토렌트 스택(그림에서 초록색)의 일부분으로, 또는 자체 구성 요소로 작동할 수 있다.



데이터토렌트 마케팅 담당 부사장인 존 파넬리에 따르면, 데이터토렌트 RTS/프로젝트 아펙스의 목적은 스파크의 스트리밍 처리 과정을 더 쉽게 해주는 것이다. 파넬리는 "스파크는 개발 프레임워크에 가깝다"며, "모든 것을 수작업으로 직접 써야 하고 맵리듀스 패러다임에서 생각하고 프로그램해야 한다"고 말했다.

파넬리는 "스파크에는 이벤트 처리, 이벤트 순서를 보장하는 기능, 플랫폼 레벨의 내고장성과 같은, 기업에서 반길 만한 중요한 기능들이 없다"고 지적했다.

아펙스(Apex)는 프로그램을 위해 스칼라(Scala)가 필요없으며 이는 기존 자바 프로그래머가 사용하는 도구에 있어 큰 변화 없이 이를 활용할 수 있음을 의미한다. 스파크는 스칼라로 작성되어 있고 스칼라 외에도 다른 언어, 예를 들어 파이썬이나 자바 등으로도 프로그램이 가능하지만 스파크를 사용할 때 최선의 결과를 얻으려면 보통 스칼라를 사용해야 한다.

파넬리는 스파크 사용자 관점에서 아펙스가 기존 데이터에서 인사이트를 얻기 위한 일괄처리(batch) 중심의, 많은 시간을 소비하는 작업에서 벗어나는 데에도 도움이 될 것으로 생각한다. 파넬리는 "일괄처리 제품을 사용해 스트리밍을 하는 것보다 스트리밍 제품을 사용해 일괄처리를 하는 편이 낫다"고 말했다.

하둡은 이제 시작일 뿐
아펙스가 오픈소스로 운영되는 데는 상용 데이터토렌트 RTS 제품으로 사용자를 유인하기 위한 목적도 있음은 분명하다.

그래픽 앱 디자인(graphical app design), 작업 부하의 동적 최적화(dynamic optimizations of workloads)와 같이 아펙스가 제공하는 코어를 기반으로 확장되는 여러 가지 기능은 하둡이 기업 고객에게 제대로 전달하지 못하는 가치 제안을 위한 시도라고 할 수 있다. 예를 들어 모인 데이터에서 실시간으로 실행가능한 인사이트를 생성하는 것 등이다.

일부 기업이 하둡을 도입하지 않는다면 이는 어느 한 가지 문제로 인한 것이 아니다. 하둡이 실제 수행하는 작업에 비해 과도한 솔루션이라는 인식 외에, 수반되는 문제를 감수하기에는 비용과 복잡성이 너무 높다는 의견도 있다.

하둡 업체들은 이런 문제를 해결하기 위해 노력하고 있지만 하둡이 대기업에게만 매력적이라고 믿는 데는 이유가 있다. 스파크, 프로젝트 아펙스와 같이 하둡 내의 개별 조각을 둘러싼 재사용 및 개발 문화도 있다.

이들의 실시간 처리 기능이 유용성을 갖기 위해 꼭 하둡과 결합되어야 하는 것은 아님에도 불구하고 실제로는 하둡과 결합되어 활용되는 시나리오가 가장 흔하다.

오픈소스로 제공되는 아펙스는, 하둡에서 일어나는 다른 요소와 무관하게 유용성을 갖는 또 다른 옵션을 추가해준다. editor@itworld.co.kr


2015.06.09

스파크, 스톰에 이은 실시간 하둡 처리의 새로운 경쟁자 '아펙스' 급부상

Serdar Yegulalp | InfoWorld
하둡에서 스트리밍 데이터를 실시간으로 처리한다고 하면, 보통 스톰 아니면 스파크, 둘 가운데 하나를 선택하게 된다. 그러나 상용 제품에서 오픈소스화된 세 번째 경쟁자가 곧 등장한다. 이 솔루션 역시 하둡 울타리를 벗어나 발전할 가능성이 있다.


데이터토렌트(DataTorrent) RTS(real-time streaming)는 오래 전부터 아파치 재단의 하둡 관련 오픈소스 프로젝트군에 포함되지 않는, 라이브 데이터 처리를 위한 상용 제품으로 판매됐다.

현재 데이터토렌트사는 코어 데이터토렌트 RTS 엔진을 오픈소스화해서 경쟁 솔루션과 같이 아파치 2.0 라이선싱으로 제공하고 궁극적으로는 아파치 재단에 기증하기 위해 준비 작업을 하고 있다.

기업용으로 설계된 데이터토렌트
데이터토렌트 RTS 엔진의 오픈소스 버전인 프로젝트 아펙스(Project Apex)는 단순히 스톰, 스파크와 경쟁하는 것이 아니라 이 둘을 뛰어넘어 더 빠른 속도를 제공한다(데이터토렌트 측은 스파크에 비해 10~100배 더 빠른 속도라고 주장한다).

또한 프로그램하기도 더 쉬우며, 내고장성(fault tolerance), 확장성과 같은 기업 요구 사항을 더 충실하게 지원하며 기업에게 하둡의 가치를 더 명확하게 입증할 수 있는 솔루션을 목표로 한다.

데이터토렌트 메모리 내 처리 플랫폼의 오픈소스 버전인 프로젝트 아펙스는 기존 데이터토렌트 스택(그림에서 초록색)의 일부분으로, 또는 자체 구성 요소로 작동할 수 있다.



데이터토렌트 마케팅 담당 부사장인 존 파넬리에 따르면, 데이터토렌트 RTS/프로젝트 아펙스의 목적은 스파크의 스트리밍 처리 과정을 더 쉽게 해주는 것이다. 파넬리는 "스파크는 개발 프레임워크에 가깝다"며, "모든 것을 수작업으로 직접 써야 하고 맵리듀스 패러다임에서 생각하고 프로그램해야 한다"고 말했다.

파넬리는 "스파크에는 이벤트 처리, 이벤트 순서를 보장하는 기능, 플랫폼 레벨의 내고장성과 같은, 기업에서 반길 만한 중요한 기능들이 없다"고 지적했다.

아펙스(Apex)는 프로그램을 위해 스칼라(Scala)가 필요없으며 이는 기존 자바 프로그래머가 사용하는 도구에 있어 큰 변화 없이 이를 활용할 수 있음을 의미한다. 스파크는 스칼라로 작성되어 있고 스칼라 외에도 다른 언어, 예를 들어 파이썬이나 자바 등으로도 프로그램이 가능하지만 스파크를 사용할 때 최선의 결과를 얻으려면 보통 스칼라를 사용해야 한다.

파넬리는 스파크 사용자 관점에서 아펙스가 기존 데이터에서 인사이트를 얻기 위한 일괄처리(batch) 중심의, 많은 시간을 소비하는 작업에서 벗어나는 데에도 도움이 될 것으로 생각한다. 파넬리는 "일괄처리 제품을 사용해 스트리밍을 하는 것보다 스트리밍 제품을 사용해 일괄처리를 하는 편이 낫다"고 말했다.

하둡은 이제 시작일 뿐
아펙스가 오픈소스로 운영되는 데는 상용 데이터토렌트 RTS 제품으로 사용자를 유인하기 위한 목적도 있음은 분명하다.

그래픽 앱 디자인(graphical app design), 작업 부하의 동적 최적화(dynamic optimizations of workloads)와 같이 아펙스가 제공하는 코어를 기반으로 확장되는 여러 가지 기능은 하둡이 기업 고객에게 제대로 전달하지 못하는 가치 제안을 위한 시도라고 할 수 있다. 예를 들어 모인 데이터에서 실시간으로 실행가능한 인사이트를 생성하는 것 등이다.

일부 기업이 하둡을 도입하지 않는다면 이는 어느 한 가지 문제로 인한 것이 아니다. 하둡이 실제 수행하는 작업에 비해 과도한 솔루션이라는 인식 외에, 수반되는 문제를 감수하기에는 비용과 복잡성이 너무 높다는 의견도 있다.

하둡 업체들은 이런 문제를 해결하기 위해 노력하고 있지만 하둡이 대기업에게만 매력적이라고 믿는 데는 이유가 있다. 스파크, 프로젝트 아펙스와 같이 하둡 내의 개별 조각을 둘러싼 재사용 및 개발 문화도 있다.

이들의 실시간 처리 기능이 유용성을 갖기 위해 꼭 하둡과 결합되어야 하는 것은 아님에도 불구하고 실제로는 하둡과 결합되어 활용되는 시나리오가 가장 흔하다.

오픈소스로 제공되는 아펙스는, 하둡에서 일어나는 다른 요소와 무관하게 유용성을 갖는 또 다른 옵션을 추가해준다. editor@itworld.co.kr


X