대량의 데이터 처리를 위해 만들어진 소프트웨어 프레임워크인 아파치 하둡의 창시자 더그 커팅과 만나 이야기를 나눴다.
2011년 '클라우드'에 이어 가장 큰 화두가 된 용어는 빅 데이터였다. 2012년 빅 데이터는 공공과 민간 분야의 많은 IT 조직들이 본격적으로 도입을 고민해야 할 기술이 될 것으로 보인다.
근본적인 문제는 결국 '최종 사용자가 생성하는, 많은 경우 막대한 양의 비정형 데이터를 어떻게 저장하고, 이것을 의미있고 유용한 정보로 변환하려면 어떻게 해야 하는가'다.
기업들이 이 문제를 해결하기 위해 도입한 툴 가운데 하나가 대규모 데이터의 분산 처리를 위한 오픈 소스 프레임워크인 하둡(Hadoop)이다.
하둡을 만든 더그 커팅은 "하둡을 통해 조직들은 이전보다 훨씬 더 많은 양의 정보를 분석할 수 있게 됐다"며, "하둡은 검색 엔진들이 웹 전체를 분석하기 위해 사용하는 기술을 토대로 개발됐다. 지금은 이 기술이 다른 많은 영역에서 사용되고 있다"고 말했다.
올해 안으로 하둡 2.0 출시될 듯
지난 1월 하둡은 마침내 버전 1.0에 도달했다. 현재 이 소프트웨어는 아파치 소프트웨어 재단의 후원하에 개발되고 있다.
커팅은 "올해에는 하둡 2.0이 나오게 된다. 향상된 성능과 높은 가용성, 분산 컴퓨팅 메타포의 증대를 통해 더 많은 애플리케이션을 지원할 것이다. 하둡은 빅 데이터를 위한 분산 운영 체제 커널이 되고 있다"고 전했다.
하둡의 모태는 오픈 소스 검색 엔진을 만들기 위한 프로젝트인 너치(Nutch)다. 커팅도 참여했던 너치 역시 아파치 소프트웨어 재단에서 개발하고 있다.
커팅은 "하둡을 중심으로 한 생태계에서 현재 10여 가지의 프로젝트가 진행 중"이라며, "이는 하둡 기술과 여기 사용된 오픈 소스 개발 모델의 효용성을 입증하는 것"이라고 말했다. 개발자들은 보통 하둡의 유용함을 발견하는 데서 시작해, 이후 그것을 향상시키고자 그 위에 새로운 시스템을 구축한다.
그는 "아파치의 커뮤니티 기반 소프트웨어 개발 방식은 사용자들이 생산적으로 협력하면서 모두가 공유할 수 있는 기술을 구축하도록 이끈다"고 말했다.
하둡을 지원하는 업체, '증가'
아마존(아마존 엘라스틱 맵리듀스를 통해), IBM을 비롯한 클라우드 컴퓨팅 분야의 주요 업체들도 하둡 기술을 제공한다.
지난 12월 마이크로소프트는 윈도우 애저 클라우드 서비스에서 하둡의 '제한적 프리뷰'를 공개했다. 야후가 설립한 호튼웍스(Hortonworks)와 커팅이 수석 설계자로 있는 클라우데라(Cloudera) 역시 하둡 관련 서비스를 제공한다.
호튼웍스는 현재 4만 2,000노드의 하둡 환경을 운영 중인데, 이는 이 프로젝트의 핵심 드라이버다.