데이터ㆍ분석 / 애플리케이션

빅 데이터를 위한 하둡, 그 이상의 방법은 없는가

Jaikumar Vijayan | Computerworld 2012.11.01
하둡(Hadoop)과 맵리듀스(MapReduce)는 오랫동안 빅 데이터의 중심이었지만, 일부 기업들은 이제 거대하고 지속적으로 성장해가는 데이터세트에서 비즈니스 가치를 뽑아내는 새롭고 더 빠른 방법을 찾고 있다. 
 
많은 대형 조직들이 여전히 오픈소스 하둡 빅 데이터 프레임워크로 돌아서고 있지만, 이를 창시한 구글과 다른 이들은 이미 좀더 새로운 기술로 움직이고 있다.
 
아파치 하둡 플랫폼은 구글 파일 시스템과 구글 맵리듀스 기술의 오픈소스 버전이다. 이는 거대 검색엔진업체가 상용 하드웨어 상의 막대한 볼륨의 데이터를 관리하기 위한 목적으로 개발된 것이다.
 
아파치 하둡은 구글이 웹을 훑고 검색하는데 사용된 처리 기술의 핵심이었다. 지난 3년동안 수백 개의 기업들이 빠르게 성장하는 구조적 데이터, 반-구조적 데이터, 비구조적 데이터를 관리하기 위해 하둡을 채택했다.
 
오픈소스 기술은 로그(log)나 이벤트 데이터 분석(event data analysis), 보안 이벤트 관리, 소셜 미디어 분석(analytics), 그리고 페타바이트급 데이터 세트를 포함하는 애플리케이션 등에서, 전통적인 기업 데이터웨어하우징(warehousing) 기술보다 더 값싼 옵션임이 증명됐다.

하둡 설계의 한계가 새로운 빅 데이터 기술 요구
애널리스트들은 일부 기업들이 기술의 제한때문이 아니라, 설계된 목적때문에, 하둡 이후를 생각하기 시작했다고 주장했다.
 
하둡은 데이터가 배치로 수집되고 처리되는 경우에 배치-프로세싱(batch-processing) 작업을 맡기 위해 만들어졌다. 하둡 환경에서의 데이터는 쪼개져서 고도로 분산된 상품 서버나 노드에 저장된다.
 
데이터로부터 보고서를 받기 위해서는, 사용자는 우선 업무를 쓰고, 제출한 후, 모든 노드에 분산되고 처리될 때까지 기다려야 한다.
 
데이터베이스와 분석 전문가인 커트 모내시는 "하둡 플랫폼이 잘 작동하고 있지만, 몇몇 핵심 애플리케이션의 경우 충분히 빠르지 못하다"고 말했다. 예를 들어, 하둡은 대규모 데이터베이스에 상호적인, 즉각적인 쿼리를 실행하는데는 적합하지 않다.
 
모내시는 "하둡은 상호 쿼리에 있어서 문제가 있다"며, "만약 몇 초간의 지연시간(latencies)를 참을 수 있다면, 하둡은 쓸만하다. 그러나 하둡 맵리듀스는 1초 미만의 지연시간을 요구하는 곳에서는 절대로 유용하지 않을 것"이라고 말했다. 
 
즉각적인 응답 능력을 필요로 하는 기업들은 이미 자사의 빅 데이터 분석을 위해 하둡 이후를 모색하고 있다.
 
사실 구글은 5년 전부터 내부적으로 개발된 기술인 드레멜(Dremel)을 사용하기 시작했다. 드레멜은 상호 분석을 하거나 전세계에 위치하는 수천 대의 서버들이 만들어내는 막대한 로그 데이터 양을 '쿼리'한다.
 
구글은 드레멜 기술이 상용 기기의 공유 클러스터에 대한 거대 데이터세트의 상호 분석을 지원한다고 말했다. 
 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.