데이터ㆍ분석 / 오픈소스

아파치 재단, 하둡용 분석 소프트웨어 ‘스파크’ 정식 버전 발표

Joab Jackson | IDG News Service 2014.06.02
아파치 소프트웨어 재단이 하둡 데이터 처리 플랫폼 상의 작업을 가속화시켜 주는 분석 소프트웨어인 스파크(Spark)의 첫 번째 정식 버전을 발표했다.

“하둡용 스위치 아미 칼”로 불리우는 아파치 스파크는 표준 아파치 하둡 맵리듀스 상에서 구동하는 것보다 100배 이상 빠른 데이터 분석 작업을 생성할 수 있도록 해 준다. 맵리듀스는 배치 모드에서 작업을 실행하기 때문에 하둡 클러스터에서 성능 상의 병목현상을 일으킨다는 지적을 받아 온 것이 사실이다.

스파크는 5초 이하의 극히 짧은 배치 작업을 통해 분석을 처리하기 때문에 맵리듀스의 대안으로 평가되고 있다. 또한 트위터 스톰(Twitter Storm)과 같은 실시간 스트림 중심 하둡 프레임워크보다 나은 안정성을 제공한다.

아파치 스파크는 실시간 데이터의 지속적인 분석은 물론, 소프트웨어 라이브러리 덕분에 기계학습이나 그래프 처리 등과 관련된 좀 더 연산 집약적인 작업까지 다양한 작업에 활용할 수 있다.

스파크를 사용해 개발자는 자바나 스칼라, 파이썬에서 데이터 분석 작업을 작성할 수 있으며, 1.0 버전 발표와 함께 안정적인 API를 제공해 개발자들이 자체 애플리케이션에서 스파크와 인터랙션할 수 있다.

또한 1.0 버전에 새로 추가된 스파크SQL은 구조화된 데이터에 대한 액세스를 지원해 비구조화된 데이터와 함께 좀 더 심도 깊은 데이터 분석 작업을 진행할 수 있다.

아파치 스파크는 YARN(Yet Another Resource Negotiator)이나 HBase 분산 데이터베이스는 물론 하둡의 분산 파일 시스템(HDFS)와도 완벽하게 호환된다.

버클리의 AMP 랩이 처음 개발한 스파크는 아파치가 2013년 6월 인큐베이터 프로젝트로 채택했다. 클라우데라, 피보털, IBM, 인텔, 맵알 등 주요 업체들은 모두 스파크를 자사의 하둡 스택에 포함시켰으며, 스파크 개발자 중 일부가 설립한 데이터브릭스(Databricks)는 스파크의 상용 지원을 제공하기도 한다. 야후와 NASA는 일일 데이터 운영에 스파크를 사용하고 있다.

다른 아파치 프로젝트와 마찬가지로 아파치 스파크는 아파치 라이선스 2.0이 적용된다.  editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.