탑 다운 방식, CXO가 명령하는 경우
하둡을 배치하는 또 다른 흔한 방식은 탑 다운으로, 위에서 아래로 명령이 전달되는 경우다. 최신 동향을 살펴보는 최고 임원진이 하둡 시스템의 저장 비용이 아주 싸다는 데 주목하고, 하둡 솔루션이 자사에 적합한지 아닌지 공식적으로 살펴보기 시작할 것이다.
머시의 최근 고용주인 호튼웍스(Hortonworks, Inc)도 탑 다운 방식으로 도입했다. 호튼웍스는 2011년 6월 말 머시와 야후 하둡 팀의 몇몇 직원들에 의해 설립됐으며 훈련, 지원, 배치 서비스 등과 오픈소스 하둡 제품들을 제공한다.
머시의 설명에 따르면, 호튼웍스는 새로운 잠재 고객과 일하게 될 것이며 고객들의 요구에 따른 몇 가지 권고사항들을 만들 수 있다. 그들은 개념 증명을 위해 20 노드에서 100 노드 수준으로 소규모 하둡 클러스터를 어디든 배치해볼 것이며, 이를 통해 고객들은 스스로 하둡의 가치를 볼 수 있을 것이다.
이런 공식적인 프로세스는 클라우데라(Cloudera)나 맵알(MapR) 등의 다른 하둡 업체들이 제공하는 것과 유사하며, 따라서 하둡에 대한 자문과 지원을 얻고 싶다면 여기저기에서 강력한 옵션들을 찾을 수 있을 것이다.
스쿱(Sqoop)을 잡아라
스스로 하든 혹은 도와줄 누군가를 고용하든 간에 분명 어느 시점에서는 현재의 저장소에서 하둡으로 데이터를 옮겨가야 할 것이다.
특히 RDBMS에서 옮길 경우 클라우데라의 스쿱(SQL-to-Hadoop)이야말로 최상의 툴이다. 스쿱은 명령어 애플리케이션으로 개별 테이블들이나 전체 데이터베이스들을 하둡 분산형 파일시스템(HDFS)으로 불러올 수 있다.
스쿱은 DB인풋포맷 자바 커넥터(DBInputFormat Java connector)를 사용하는데 이는 맵리듀스(MapReduce)가 마이에스큐엘(MySQL)과 포스트그레스큐엘(Postgresql), 오라클 및 다른 인기 있는 데이터베이스들이 기반한 JDBC 인터페이스를 통해 RDBMS의 데이터를 불러올 수 있다.
스쿱도 맵리듀스에 필요한 자바 클래스들을 생성해, 테이블 행을 분리된 정보 영역들로 역직렬화(deserialize)함으로써, 데이터와 상호작용할 수 있다. 뿐만 아니라 스쿱을 이용해 RDBMS 데이터를 곧바로 하이브 데이터 웨어하우스(Hive data warehouse)로 불러올 수도 있다.
이런 기능 덕분에 사용자들이 하둡으로의 데이터 마이그레이션에 대비해 준비해야 할 일들은 거의 없으며, 데이터 중복제거나 RDBMS 유지보수 등 상식적인 일들만 해주면 된다.
하이브(Hive)를 살펴보라
이번 연재 기사의 첫 회에서도 설명했듯 하이브는 하둡 프레임워크의 일부분으로 분석가들은 이를 이용해 HDFS 내에서도 데이터 구조화 및 데이터 쿼리를 수행할 수 있다. 분석가들은 하이브 쿼리언어(Hive QL)을 이용해 데이터를 요약하고, 쿼리를 수행하고, 분석할 수 있으며 이 언어는 기존의 SQL과 매우 유사해 별로 어렵지 않게 사용할 수 있다.
하이브는 또한 하이브 쿼리언어가 필요한 정보를 제공할 수 없다고 판명된 경우, 맵리듀스 프로그래머들이 직접 그들이 만든 데이터 매퍼(data mapper)와 데이터 리듀서(data reducer)를 불러오게 할 예정이다.
단 하이브를 고려할 때 다음의 한 가지를 주의해야 한다.
하둡은 일괄 처리 시스템(batch processing system)이기 때문에 매우 높은 지연시간을 가지는 하이브 쿼리들로 옮기는 과정에서 아주 높은 지연시간을 가진다(몇 초가 아니라 몇 분이 될 수도 있다).
따라서 하이브는 실시간 프로세싱에 적합한 시스템이 아니다. 실시간 프로세싱이 필요하다면 아파치 카산드라(Apache Cassandra)를 이용하는 편이 좋다. 카산드라는 오픈소스 분산형 데이터베이스 관리 시스템으로 실시간 요구들을 처리하는데 훨씬 적합하다.
하둡으로 가는 길
하둡으로 데이터 마이그레이션하는 경로는 기업의 필요에 따라 다양할 것이지만, 하둡은 분명 엄청난 가치를 제공할 것이다.
하둡은 엄밀한 의미에서 빅 데이터에 국한되지 않는다. 더 저렴한 저장공간을 필요로 하고 엄청난 양의 데이터를 효율적으로 분석하고자 하는 기업이라면 어디든지 사용할 수 있다. 혹시 하둡이 필요하지 않나? editor@itworld.co.kr
*Brian Proffitt는 베테랑 리눅스 및 오픈소스 저널리스트이자 애널리스트로 클라우드, 가상화 및 소비자 IT에 대한 다년 간의 경력을 가지고 있다.