데이터ㆍ분석 / 데이터센터 / 애플리케이션 / 클라우드 / 클라우드 오피스

빅 데이터의 열쇠 하둡 총정리 1 : 개념과 알아둬야 할 것

Brian Proffitt | ITworld.com 2012.01.11
맵리듀스는 개념화하기가 조금 더 어렵다. 머시는 그것을 데이터 처리 및 프로그래밍 패러다임이라고 표현했지만 이 말은 또 무슨 뜻일까? 젯(Jet)이 마이크로소프트 액세스(Microsoft Access)의 엔진인 것처럼 맵리듀스를 데이터베이스 엔진과 유사한 것으로 생각하는 편이 이해가 편하다(많은 사람들이 젯을 잘 생각해내지 못하겠지만 말이다).
 
정보 요청이 들어오면 맵리듀스는 두 요소들을 이용한다. 하둡 마스터 노드에 있는 잡트래커(JobTracker)와 하둡 네트워크 내의 각 노드에 위치한 테스크트래커(TaskTracker)들이다. 프로세스는 상당히 선형적이다. 맵리듀스는 데이터 요청을 별개의 작업 셋으로 나누고, 잡트래커를 이용해 맵리듀스의 일을 테스크트래커들에게 전달한다. 네트워크 지연시간을 줄이기 위해 작업은 해당 데이터가 위치한 노드와 동일한 노드에 할당되거나 최소한 같은 랙(rack)에 들어 있는 노드에 할당된다.
 
그림에서 볼 수 있듯 하둡에는 분산형 파일시스템과 맵리듀스 말고도 다른 것들이 포함되어 있다. 이 그림은 하둡 프레임워크에 대해 호튼웍스에서 제시한 설명으로 하둡과 함께 사용될 수 있는 여러 다른 구성요소들을 보여주고 있다. 여기에는 다음의 요소들이 포함된다.
 
- H카탈로그(HCatalog): 하둡 데이터용 테이블 및 스토리지 관리 서비스
 
- 피그(Pig): 맵리듀스용 프로그래밍 및 데이터 플로우 인터페이스
 
- 하이브(Hive): SQL과 유사한 언어인 하이브QL(HiveQL)을 이용해 하둡 데이터 쿼리를 생성하는 데이터 웨어하우징 솔루션
 
하둡 프레임워크 
머시는 "하이브야말로 사람들이 소위 NoSQL 데이터베이스에서 기대하는 것보다 하둡을 훨씬 쉽게 이용할 수 있게 만들어 줄 것"이라고 말했다. 하이브QL을 이용해 데이터 분석가들은 RDBMS에서 이용하던 것과 거의 동일한 쿼리들을 가진 하둡 데이터베이스에서 정보를 빼낼 수 있다. 물론 SQL과 하이브 QL는 엄연히 다르므로 하둡으로의 이동은 일종의 이행기를 거치게 되겠지만 이 차이들은 그렇게 크지 않다.
 
하둡 전문가로 가는 길 
데이터 분석가들은 하둡을 받아들이는데 큰 문제를 겪지 않겠지만, DBA들은 훨씬 많은 학습 과제를 짊어진다. 분산형 파일시스템은 RDBMS의 데이터베이스 테이블 스토리지라는 기존의 영역에서 완전히 벗어난 것이기 때문이다.
 
모두가 각기 다른 하둡 구성요소들의 프레임워크 구성이라는 말은 곧 관리자들이 서로 다른 수많은 요소들을 동시에 관리해야 함을 의미하므로, 장래 관리자들에게 하둡의 복잡성은 분명히 엄청난 장애물이 될 것이다. 물론 관리를 편하게 해줄 멋진 GUI를 기대해서도 안 된다. 하둡, 하이브, 스쿱(Sqoop), 그리고 하둡 생태계에 있는 기타 툴들은 모두 명령 행에서 제어를 받는다. 하둡이 자바 기반으로 만들어졌고, 맵리듀스가 자바 클래스들을 사용하고 있으므로 상호작용의 많은 부분들은 개발자(특히 자바 개발자)의 입장에서 다루는 편이 훨씬 편리할 것이다.
 
하둡과 관련된 대부분의 직업들은 일반적으로 대규모의 분산형 시스템을 다뤄본 경험과 시스템 설계 및 스케일링(scaling), 성능, 스케줄링(scheduling)을 통한 시스템 개발에 대한 정확한 이해를 요구한다. 자바에서의 경험뿐 아니라 프로그래머들은 데이터 구조와 병렬 프로그래밍 기술도 직접 다뤄보고 좋은 배경 지식들을 갖추고 있어야 한다. 여기에 종류를 불문하고 클라우드 경험은 큰 플러스 요인이다.
 
이런 것들을 한번에 모두 겸비하기는 어렵다. 따라서 하둡으로 옮기고자 하는 시스템 엔지니어들과 관리자들을 위해 호튼웍스는 아파치 하둡 관리하기 클래스(Administering Apache Hadoop class) 3일 교육 과정을 제공할 예정이다. 클라우데라는 이미 클라우데라 대학 커리큘럼(Cloudera University curriculum)의 일환으로 활발한 관리 수업을 열고 있다. 뿐만 아니라 하이브, 피그, 개발자 훈련 코스들도 들을 수 있다. 아파치 사이트의 하둡 지원(Hadoop Support) 위키에서 그 외 추가적인 수업들을 찾을 수 있다.
 
앞으로 다룰 내용
다음 하둡 총정리 기사에서는 하둡으로 갈아타는 것이 기업들에게 어떤 의미와 영향을 가져다 줄 지에 대해 살펴볼 것이다. 어떤 기업들이 하둡을 이용해야 하며, 배치들은 보통 어떻게 일어나는지를 보게 될 것이다. 그리고 마지막 편에는 기존의 RDBMS에서 하둡으로 옮겨가는데 따른 비용과 관계된 기술들뿐 아니라 하둡 데이터를 다른 어떤 RDBMS보다 훨씬 빠르고 저렴하게 분석하는데 사용되는 툴들을 소개할 것이다. editor@itworld.co.kr
 
*Brian Proffitt는 베테랑 리눅스 및 오픈소스 저널리스트이자 애널리스트로 클랑드, 가상화 및 소비자 IT에대한 다년간의 경력을 가지고 있다. 
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.