BI|분석 / 개발자 / 데이터ㆍ분석 / 애플리케이션 / 오픈소스

빅데이터 분석에 스파크를 이용해야 하는 5가지 이유

Peter Schlampp | InfoWorld 2015.03.20
아파치 스파크(Apache Spark)는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 빅데이터의 차세대 '빅씽(Big Thing)'으로 가장 빨리 자리를 굳히고 있다.

지난 몇 년간 하둡이 빅데이터 처리의 가장 지배적인 패러다임으로 부상하면서 몇 가지가 분명해졌다.

첫째, 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS)은 빅데이터에 적합한 스토리지 플랫폼이다.

둘째, YARN은 빅데이터 환경에 도입할 수 있는 자원 할당 및 관리 프레임워크다.

가장 중요할 것으로 판단되는 셋째는 모든 문제를 해결하는 하나의 프로세싱 프레임워크는 없다는 것이다. 맵 리듀스는 놀라운 기술이지만 모든 문제를 해결하지 못한다.

하둡에 의지하는 기업들은 중요한 질문에 대한 해답을 찾기 위해 다양한 분석 인프라와 프로세스를 필요로 한다. 또한 데이터 준비, 기술적 분석(Descriptive analysis), 검색, 예측 분석, 기타 머신 학습과 그래프 프로세싱 등 고급 분석도 요구된다.

여기에서 그치지 않는다. 이런 요소들과 연동되어, 이미 보유한 기능과 자원을 이용할 수 있게끔 지원하는 툴 세트가 필요하다. 현재까지는 이런 기준 모두를 만족시키는 하나의 프로세싱 프레임워크는 존재하지 않는다. 이 부분이 스파크의 기본적인 장점이다.

스파크는 상대적으로 역사가 짧은 데이터 프로젝트지만 앞선 요건을 모두 충족하고 있다. 다음은 스파크의 시대에 접어들었음을 설득시키는 5가지 이유다.

1. 고급 분석을 '현실'로 만드는 스파크
유수 대기업과 혁신 기업의 상당수가 고급 분석 기능 확대 방안을 모색하고 있다. 그러나 최근 뉴욕에서 열린 데이터 분석 관련 이벤트에서 실시된 조사결과에 따르면, 전사적으로 고급 분석 기술을 도입해 활용하고 있는 기업의 비율은 20%에 불과했다.

나머지 80%는 데이터 준비와 기본 분석 작업만도 벅차다고 말하고 있다. 이들 기업의 몇 안 되는 데이터 과학자들은 시간의 대부분을 기본 분석 수행과 관리에 쏟아 붓고 있다.

스파크는 즉각적인 고급 분석을 위한 프레임워크를 제공한다. 이 프레임워크에는 고속 쿼리 수행 툴, 머신 학습 라이브러리, 그래프 프로세싱 엔진, 스트리밍 분석 엔진이 포함되어 있다.

스파크는 구하기 힘든 데이터과학자가 있어도 분석하기 힘든 맵리듀스와는 달리 쉽고 빠르게 이용할 수 있는 라이브러리를 기본 제공한다. 덕분에 데이터과학자들은 데이터 준비와 품질 관리 이상의 업무를 맡아 처리할 수 있다. 더 나아가 스파크는 분석 결과를 정확히 해석할 수 있도록 지원한다.

2. 모든 것을 더 편하게 만들어주는 스파크
하둡은 오랜 기간 이용이 어렵고, 이를 이용할 수 있는 사람을 찾기는 더 어렵다는 비판을 받아왔다. 새 버전이 발표될 때마다 더 간편해지고, 강력해지고 있지만 아직까지도 이런 비판을 면치 못하고 있다.

스파크의 경우 사용자가 자바와 맵리듀스 프로그래밍 패턴 등 여러 복잡한 내용을 이해할 필요가 없다. 데이터베이스와 파이썬이나 스칼라 등의 스크립팅 기술을 조금 갖고 있다면 누구나 이용할 수 있다는 장점이 있다.

이는 기업들이 데이터를 이해하고, 툴을 이용해 이를 처리할 수 있는 사람을 더 쉽게 찾을 수 있다는 의미다. 또한 개발업체는 더 빨리 분석 솔루션을 개발, 개선할 수 있다.

3. 하나 이상의 언어를 말하는 스파크
이쯤해서 한 가지 질문을 묻는 것이 타당하지 않을까 싶다. "SQL이 존재하지 않았었다면, 지금 SQL을 발명해 빅데이터 분석이라는 큰 도전과제를 해결하지 않았을까?"

아마 아닐 것이다. 최소한 SQL 하나만 발명하지는 않을 것이다. 우리는 좀더 유연하게 필요한 대답을 얻고, 데이터 체계화와 검색에 더 많은 선택지를 갖고, 데이터를 더 빨리 분석 프레임워크로 이동시키고 싶어할 것이다.

스파크는 SQL만을 중시하는 사고방식을 없앤다. 기업이 직면한 도전과 보유한 데이터에 맞게 가장 빨리, 그리고 가장 효과적으로 데이터 분석을 시작할 수 있도록 해준다.

4. 더 빨리 결과를 도출하는 스파크
비즈니스 수행 속도가 계속 증가하면서 실시간 결과 도출의 필요성 또한 커지고 있다.

스파크는 디스크 액세스가 필요한 다른 기법보다 몇 배는 빨리 결과를 제시하는 병렬 인-메모리 프로세싱 기능을 제공한다.

즉시 결과가 제시되기 때문에 나날이 느려지는 분석 속도와 이로 인한 비즈니스 프로세스의 속도가 지연되는 현상을 없앨 수 있다. 개발업체들이 스파크 기반의 애플리케이션을 개발하기 시작하면, 분석 워크플로우의 속도도 크게 개선될 전망이다.

결과값 도출 준비 시간을 가속화한다는 것은 반복적으로 분석을 수행해 더 정확한 답을 찾을 수 있다. 스파크는 분석가들이 더 빨리 답을 찾을 수 있도록 해준다.

5. 하둡 개발업체를 가리지 않는 스파크
주요 하둡 배포판 대다수가 스파크를 지원하고 있다. 여기에는 이유가 있다. 스파크는 개발업체 중립적인 솔루션이다. 사용자를 특정 개발업체에 메여 있지 않아도 된다는 의미다.

스파크는 오픈소스다. 따라서 향후 하둡 개발업체를 바꿔야 할지 고민하지 않고도 자유롭게 스파크 기반의 분석 인프라를 구현할 수 있다. 개발업체를 바꿔도 분석 기능을 그대로 이전시킬 수 있다.

스파크가 단 기간에 모멘텀을 형성할 수 있었던 이유는 빅데이터 분석을 활용하는 기업의 요구와 일치하기 때문이다. '스파크의 시대'는 이제 막 시작됐을 뿐이다. 기업들이 스파크의 잠재력을 제대로 활용하기 시작하면, 스파크는 다양한 빅데이터 분석 환경의 핵심 기술 가운데 하나로 자리를 굳힐 것이다.

그리고 스파크 생태계는 계속 성장을 해나갈 전망이다. 빅데이터를 실시간 고급 분석하기 원하는 기업이라면 지금 당장 스파크를 검토해야 한다. editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.