아파치 하둡은 클러스터 컴퓨팅 환경에서 간단한 프로그래밍 모델로 대용량 데이터에 대한 분산처리를 할 수 있는 프레임워크다. 기업들은 이를 이용해 매일 생성, 수집되는 데이터들을 효과적이고 저렴하게 저장, 처리, 관리, 분석할 수 있다. 아마존, AOL, 애플, 이베이, 페이스북, 넷플릭스, HP 등의 글로벌 기업들이 현재 하둡을 사용하고 있다.
16일 공개된 최신버전은 지난 4년간 개발됐으며 다양한 신기능이 추가됐다. 가장 눈에 띄는 것은 맵리듀스의 후속 버전인 YARN(Yet Another Resource Negotiator)이다. 이번 버전에서는 주요 기능을 두개의 데몬으로 분리했는데 하나가 리소스 관리이고 다른 하나는 업무 스케줄링과 모니터링이다.
YARN은 HDFS(Hadoop Distributed File System)의 최상단에서 빅 데이터용 애플리케이션들을 실행하는 대용량, 분산 운영체제 역할을 한다. 하둡 2와 YARN를 이용하면 하둡 생태계의 안정적인 기반 내에서 배치 작업과 쌍방향 실시간 워크로드를 조합할 수 있다.
아파치는 YARN을 ‘맵리듀스 버전 2’로 명명했다. 이전 버전의 API와 호환되고 맵리듀스로 작성된 애플리케이션은 다시 컴파일해 YARN에서 실행할 수 있다. 아파치 측은 “수십개의 아파치 프로젝트가 하둡에 통합됐다”며 "10개 이상의 프로젝트가 추가로 통합될 것"이라고 밝혔다.
하둡 2의 GA 버전은 지난 7월 나온 프리뷰 버전의 후속이다. 프리뷰 버전에도 YARN이 포함돼 있었다. 아파치 하둡 2는 아파치 라이선스 v2.0에 따라 배포될 예정이다. editor@idg.co.kr