데이터ㆍ분석 / 데이터센터 / 애플리케이션 / 클라우드

빅 데이터의 열쇠 하둡 총정리 3 RDBMS에서 하둡으로 가는 길

Brian Proffitt | ITWorld 2012.01.18
탑 다운 방식, CXO가 명령하는 경우
하둡을 배치하는 또 다른 흔한 방식은 탑 다운으로, 위에서 아래로 명령이 전달되는 경우다. 최신 동향을 살펴보는 최고 임원진이 하둡 시스템의 저장 비용이 아주 싸다는 데 주목하고, 하둡 솔루션이 자사에 적합한지 아닌지 공식적으로 살펴보기 시작할 것이다.
 
머시의 최근 고용주인 호튼웍스(Hortonworks, Inc)도 탑 다운 방식으로 도입했다. 호튼웍스는 2011년 6월 말 머시와 야후 하둡 팀의 몇몇 직원들에 의해 설립됐으며 훈련, 지원, 배치 서비스 등과 오픈소스 하둡 제품들을 제공한다.
 
머시의 설명에 따르면, 호튼웍스는 새로운 잠재 고객과 일하게 될 것이며 고객들의 요구에 따른 몇 가지 권고사항들을 만들 수 있다. 그들은 개념 증명을 위해 20 노드에서 100 노드 수준으로 소규모 하둡 클러스터를 어디든 배치해볼 것이며, 이를 통해 고객들은 스스로 하둡의 가치를 볼 수 있을 것이다. 
 
이런 공식적인 프로세스는 클라우데라(Cloudera)나 맵알(MapR) 등의 다른 하둡 업체들이 제공하는 것과 유사하며, 따라서 하둡에 대한 자문과 지원을 얻고 싶다면 여기저기에서 강력한 옵션들을 찾을 수 있을 것이다.
 
스쿱(Sqoop)을 잡아라
스스로 하든 혹은 도와줄 누군가를 고용하든 간에 분명 어느 시점에서는 현재의 저장소에서 하둡으로 데이터를 옮겨가야 할 것이다.
 
특히 RDBMS에서 옮길 경우 클라우데라의 스쿱(SQL-to-Hadoop)이야말로 최상의 툴이다. 스쿱은 명령어 애플리케이션으로 개별 테이블들이나 전체 데이터베이스들을 하둡 분산형 파일시스템(HDFS)으로 불러올 수 있다. 
 
스쿱은 DB인풋포맷 자바 커넥터(DBInputFormat Java connector)를 사용하는데 이는 맵리듀스(MapReduce)가 마이에스큐엘(MySQL)과 포스트그레스큐엘(Postgresql), 오라클 및 다른 인기 있는 데이터베이스들이 기반한 JDBC 인터페이스를 통해 RDBMS의 데이터를 불러올 수 있다.
 
스쿱도 맵리듀스에 필요한 자바 클래스들을 생성해, 테이블 행을 분리된 정보 영역들로 역직렬화(deserialize)함으로써, 데이터와 상호작용할 수 있다. 뿐만 아니라 스쿱을 이용해 RDBMS 데이터를 곧바로 하이브 데이터 웨어하우스(Hive data warehouse)로 불러올 수도 있다.
 
이런 기능 덕분에 사용자들이 하둡으로의 데이터 마이그레이션에 대비해 준비해야 할 일들은 거의 없으며, 데이터 중복제거나 RDBMS 유지보수 등 상식적인 일들만 해주면 된다.
 
하이브(Hive)를 살펴보라
이번 연재 기사의 첫 회에서도 설명했듯 하이브는 하둡 프레임워크의 일부분으로 분석가들은 이를 이용해 HDFS 내에서도 데이터 구조화 및 데이터 쿼리를 수행할 수 있다. 분석가들은 하이브 쿼리언어(Hive QL)을 이용해 데이터를 요약하고, 쿼리를 수행하고, 분석할 수 있으며 이 언어는 기존의 SQL과 매우 유사해 별로 어렵지 않게 사용할 수 있다.
 
하이브는 또한 하이브 쿼리언어가 필요한 정보를 제공할 수 없다고 판명된 경우, 맵리듀스 프로그래머들이 직접 그들이 만든 데이터 매퍼(data mapper)와 데이터 리듀서(data reducer)를 불러오게 할 예정이다.
 
단 하이브를 고려할 때 다음의 한 가지를 주의해야 한다. 
하둡은 일괄 처리 시스템(batch processing system)이기 때문에 매우 높은 지연시간을 가지는 하이브 쿼리들로 옮기는 과정에서 아주 높은 지연시간을 가진다(몇 초가 아니라 몇 분이 될 수도 있다). 
 
따라서 하이브는 실시간 프로세싱에 적합한 시스템이 아니다. 실시간 프로세싱이 필요하다면 아파치 카산드라(Apache Cassandra)를 이용하는 편이 좋다. 카산드라는 오픈소스 분산형 데이터베이스 관리 시스템으로 실시간 요구들을 처리하는데 훨씬 적합하다.
 
하둡으로 가는 길 
하둡으로 데이터 마이그레이션하는 경로는 기업의 필요에 따라 다양할 것이지만, 하둡은 분명 엄청난 가치를 제공할 것이다.
 
하둡은 엄밀한 의미에서 빅 데이터에 국한되지 않는다. 더 저렴한 저장공간을 필요로 하고 엄청난 양의 데이터를 효율적으로 분석하고자 하는 기업이라면 어디든지 사용할 수 있다. 혹시 하둡이 필요하지 않나? editor@itworld.co.kr
 
*Brian Proffitt는 베테랑 리눅스 및 오픈소스 저널리스트이자 애널리스트로 클라우드, 가상화 및 소비자 IT에 대한 다년 간의 경력을 가지고 있다. 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.