데이터ㆍ분석 / 애플리케이션

'하둡과 통합된다'는 BI업체를 검증하는 질문 세 가지

Jaikumar Vijayan | Computerworld 2012.09.28
빅 데이터가 뜨면서 빅 데이터의 핵심 기술 가운데 하나인 하둡에 대해 BI업체들이 경쟁하듯 지원 제품을 내놓고 있다. 포레스터 애널리스트는 이들 가운데 정말 하둡과 통합되는지를 따져보려면 BI업체들에 몇 가지 질문을 던져보라고 조언했다.
 
BI업체가 하둡과 완벽하게 통합되는 제품이라고 소개하면, 기업들은 BI업체들에게 꼼꼼하게 따져봐야 할 질문들이 많다.
 
포레스터의 애널리스트 보리스 에벨슨은 회사 블로그에서 “정확히 빅 데이터 지원이 무엇을 의미하는지 설명하지 않은 채 하둡이 이슈가 되니까 BI업체들이 빅 데이터를 지원한다고 발표하고 있다”라고 꼬집었다. 에벨슨은 "IT관리자가 하둡 통합에 대한 BI업체들의 주장을 그대로 받아들이기 전에 이들 업체들에 구체적인 설명을 요구해야 한다"고 주장했다.
 
에벨슨은 "하둡은 그리 단순한 기술이 아니다. 데이터 접근, 데이터 통합, DBMS, 시스템 관리, 보고, 분석, 데이터 탐색 등과 같은 하둡 생태계 내에서 특정 틈새 분야에 각각 대응하는 다양한 프로젝트의 집합체"라고 밝혔다.
 
에벨슨은 기업들은 이런 특성을 인식하고 하둡과 BI를 통합했다는 주장을 평가할 때 어떤 질문을 해야 할 지를 알아야 한다고 말했다. 에벨슨은 이메일에서 통해 "기업이 정당한 이유로 하둡과 빅 데이터를 사용하고 분석을 수행하는 BI툴을 사용하고자 한다면, 통합의 수준이 중요하다"고 주장했다. 
 
지난 2년 동안 점점 더 많은 기업들이 오픈소스와 웹에서 대규모 비정형 데이터를 저장하고 구성할 수 있는 하둡 분산 파일 시스템(HDFS)의 상용 버전을 사용하기 시작했다. CRM, ERP, 총계정 원장 시스템에서 트랜잭션 데이터뿐 아니라 트위터 등 소셜 미디어와 마이크로 블로그와 기계 센서, 웹에서 새로운 많은 데이터를 취합하기 시작했다.
 
새로운 대규모 비정형 데이터는 하둡 시스템에서 분석됐는데, 이는 하둡 시스템이 좀더 손쉽게 구성할 수 있기 때문이다.
 
하둡에 관심을 갖는 기업은 하둡 빅 데이터 시스템에서 데이터에 대한 추출, 접근, 검색, 분석, 가시화, 보고를 위한 툴을 제공하는 IT업체의 전체 생태계를 양산했다. 현재 많은 BI업체들이 관계형 DBMS와 하둡 환경을 통합하기 위한 제품을 제공하고 있다.
 
에벨슨은 하둡 환경용 BI 툴을 고려할 때, 기업은 우선 해당 툴이 하둡의 커뮤니티 버전뿐 아니라 클라우데라(Cloudera)와 호튼웍스(Hortonworks)같은 업체가 판매하는 상용 버전과도 호환되는지 여부를 알아야 한다고 설명했다.  에벨슨은 기업들은 BI 툴과 하둡의 어떤 특정 컴포턴트가 통합되는지도 파악해야 한다. 하둡의 수많은 컴포넌트가 하이브(Hive), H베이스(Hbase), 피그(Pig), 스쿱(Sqoop) 등의 기술을 포함하고 있다고 덧붙였다.
 
에벨슨이 말한 질문의 핵심은 다음과 같다.
 
- BI 툴이 하둡 데이터와 상호작용하기 하기 위해 SQL이나 SQL같은 쿼리 언어를 사용하나?
- H베이스와 카산드라 같은 NoSQL DBMS에 접근할 수 있나?
- 데이터 모델 없이 HDFS 데이터를 탐색할 수 있나?
 
에벨슨은 "BI 툴이 정말로 하둡과 통합되는지를 확인하려면, 여러 단계의 검증이 필요하다"고 말했다. ciokr@idg.co.kr
 Tags BI 하웁
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.