2016.04.18

아파치 스톰 1.0이 준비한 회심의 일격

Serdar Yegulalp | InfoWorld
아파치 스파크(Apache Spark)와 아파치 스톰(Apach Storm)의 스트리밍 데이터 처리 성능을 놓고 벌이는 빅데이터 전문가들의 논쟁을 정리하자면, 대부분 "그래, 스톰이 빠르고 확장성도 좋은 것은 알겠어. 그런데 사용이 너무 어려워. 실제로도 스파크가 점점 승기를 올려가고 있어. 새롭고 멋진 솔루션이 있는데 옛날 것을 고집할 이유가 뭐야?"라는 식의 결론으로 마무리되는 것을 확인할 수 있다.

아파치 스톰 1.0은 이런 지적에서 출발해, 단순히 속도만을 강조하던 이전의 모습을 벗고 사용, 구동 편의성까지 고려한 솔루션이다.

최근 아파치 측이 진행한 발표를 살펴보면, 아파치 스톰 1.0은 이전 버전에 비해 '최대 16배' 빠르게 결과값 도출이 가능하며, 지연율은 60% 수준으로 감소해 "대부분의 활용 사례에 있어 이전 버전보다 3배 나은 성능을 보장한다."

수 기가바이트 규모의 주어진 스톰 셋업, 혹은 '토폴로지(topology)' 관련 데이터의 노드 간 공유 및 명령행에서의 업데이트를 가능케 하는, 다시 말해 각 노드에서의 수동 재배열 필요성을 없애주는 새로운 분산형 캐시 API를 선보이는 등 아파치가 내놓은 일련의 전략적 개선 사항들은 성능을 큰 폭으로 개선하는 성과로 이어졌다.

이제 로컬 파일시스템뿐 아니라 하둡 HDFS 스토어에 숨어있는 데이터들 역시 필요에 따라 꺼내보는 것이 가능해졌다.

새로운 배칭(batching) 방법론은 미미한 지연율 증가만으로 유의미한 수준의 속도 개선(1 마이크로-벤치마크(micro-benchmark)가 5배 향상)을 이끌어내는 역할을 했다.

버전 1.0의 여타 다양한 변화 또한 스톰의 사용성 개선에 기여했다. 스톰의 이전 디버깅 릴리즈들은 처리 기능인 커스텀 '볼트(bolt)'를 작성해 라이브 데이터를 추출하는 방식을 취하는 것이 일반적이었다.

하지만 버전 1.0에서는 스톰 내부를 이동하는 데이터의 일부만을 샘플링 하는 방식이 가능해졌다. 이런 방식은 사용자에게 UI 안에서 검사를 가능케 하고, 추후 검사를 위한 디스크 내 저장을 지원한다는 장점이 있다.

신형 로그-검색 기능 역시 사용자들에게 스톰 감독 노드(supervisor node)의 토폴로지 전역에 거친 로그 검색을 지원함으로써 편의성을 증진했다.

성능, 이용 편의성 등의 측면에서 봤을 때 스톰의 경쟁자는 스파크만이 아니다. 프로젝트 에이펙스(Project Apex) 스트리밍 프레임워크, 일명 데이터토렌트 RTS(DataTorrent RTS)는 스파크 스트리밍 대비 '10~100배 빠른' 속도, 스파크 및 스톰을 능가하는 개발 및 배치 편의성 등의 가치를 내세우며 아파치 진영을 위협하고 있다. editor@itworld.co.kr


2016.04.18

아파치 스톰 1.0이 준비한 회심의 일격

Serdar Yegulalp | InfoWorld
아파치 스파크(Apache Spark)와 아파치 스톰(Apach Storm)의 스트리밍 데이터 처리 성능을 놓고 벌이는 빅데이터 전문가들의 논쟁을 정리하자면, 대부분 "그래, 스톰이 빠르고 확장성도 좋은 것은 알겠어. 그런데 사용이 너무 어려워. 실제로도 스파크가 점점 승기를 올려가고 있어. 새롭고 멋진 솔루션이 있는데 옛날 것을 고집할 이유가 뭐야?"라는 식의 결론으로 마무리되는 것을 확인할 수 있다.

아파치 스톰 1.0은 이런 지적에서 출발해, 단순히 속도만을 강조하던 이전의 모습을 벗고 사용, 구동 편의성까지 고려한 솔루션이다.

최근 아파치 측이 진행한 발표를 살펴보면, 아파치 스톰 1.0은 이전 버전에 비해 '최대 16배' 빠르게 결과값 도출이 가능하며, 지연율은 60% 수준으로 감소해 "대부분의 활용 사례에 있어 이전 버전보다 3배 나은 성능을 보장한다."

수 기가바이트 규모의 주어진 스톰 셋업, 혹은 '토폴로지(topology)' 관련 데이터의 노드 간 공유 및 명령행에서의 업데이트를 가능케 하는, 다시 말해 각 노드에서의 수동 재배열 필요성을 없애주는 새로운 분산형 캐시 API를 선보이는 등 아파치가 내놓은 일련의 전략적 개선 사항들은 성능을 큰 폭으로 개선하는 성과로 이어졌다.

이제 로컬 파일시스템뿐 아니라 하둡 HDFS 스토어에 숨어있는 데이터들 역시 필요에 따라 꺼내보는 것이 가능해졌다.

새로운 배칭(batching) 방법론은 미미한 지연율 증가만으로 유의미한 수준의 속도 개선(1 마이크로-벤치마크(micro-benchmark)가 5배 향상)을 이끌어내는 역할을 했다.

버전 1.0의 여타 다양한 변화 또한 스톰의 사용성 개선에 기여했다. 스톰의 이전 디버깅 릴리즈들은 처리 기능인 커스텀 '볼트(bolt)'를 작성해 라이브 데이터를 추출하는 방식을 취하는 것이 일반적이었다.

하지만 버전 1.0에서는 스톰 내부를 이동하는 데이터의 일부만을 샘플링 하는 방식이 가능해졌다. 이런 방식은 사용자에게 UI 안에서 검사를 가능케 하고, 추후 검사를 위한 디스크 내 저장을 지원한다는 장점이 있다.

신형 로그-검색 기능 역시 사용자들에게 스톰 감독 노드(supervisor node)의 토폴로지 전역에 거친 로그 검색을 지원함으로써 편의성을 증진했다.

성능, 이용 편의성 등의 측면에서 봤을 때 스톰의 경쟁자는 스파크만이 아니다. 프로젝트 에이펙스(Project Apex) 스트리밍 프레임워크, 일명 데이터토렌트 RTS(DataTorrent RTS)는 스파크 스트리밍 대비 '10~100배 빠른' 속도, 스파크 및 스톰을 능가하는 개발 및 배치 편의성 등의 가치를 내세우며 아파치 진영을 위협하고 있다. editor@itworld.co.kr


X