더그 커팅(Doug Cutting)은 야후에서 근무할 때 세계 최대의 하둡(Hadoop) 클러스터 중 하나를 구축한 팀을 이끌었으며, 기업들이 페타바이트 수준의 체계가 없는 데이터를 저장하고 분석할 수 있도록 하는 오픈소스 하둡 프레임워크의 만들어 낸 사람이다. 익사이트(Excite), 애플, 팔로알토 연구소(Xerox PARC)에서 엔지니어로 근무했으며, 현재 아파치 재단이 관리하고 있는 오픈소스 검색엔진 기술인 루센(Lucene)과 넛치(Nutch)의 개발자이기도 하다.
커팅은 현재 하둡의 상용 버전 버전을 판매 지원하는 클라우데라의 아키텍트로 재직중이다. 인터뷰에서 커팅은 하둡에 대한 기업들의 관심이 증가하고 있는 이유에 관해서 이야기했다.
CIO 또는 CFO에게 하둡을 어떻게 설명하는가? 왜 기업들은 하둡에 관심을 가져야 하는가?
하둡은 정말 단순한 수준에서 이전보다 훨씬 많은 데이터를 적절히 저장하고 처리할 수 있도록 돕는다. 더 많은 데이터와 이를 처리할 수 있는 능력을 바탕으로 기업들은 더 많은 것을 보고 배우고 할 수 있다. 하둡을 통해 사용자들은 이전에는 전혀 실용적이지 않던 모든 종류의 분석을 수행할 수 있다. 사용자는 전체 인구 통계자료의 패턴을 수개월 또는 수년에 걸쳐 살펴볼 수 있다.
사용자는 '우리는 가격을 어떻게 매겨야 하는가?', '우리는 지금 무엇을 팔아야 하는가?', '우리는 광고를 어떻게 해야 하는가?' 등의 문제에 대해 패턴을 만들고 예측을 하고 결정을 내릴 수 있는 충분한 데이터를 갖고 있다. 이것을 통해 더 오랜 시간 동안 데이터를 보유할 수 있을 뿐 아니라 주어진 기간 동안 더 풍부한 데이터를 보유할 수도 있다.
하이브(Hive)와 피그(Pig)는 무엇인가? 왜 기업들은 이 프로젝트들에 대해서 알아야 하는가?
하이브는 하둡에 저장되어 있는 데이터를 쿼리 처리할 수 있는 수단을 제공한다. 많은 사람들이 SQL을 사용하는 것에 익숙하기 때문에 일부 애플리케이션에 있어서 SQL은 매우 유용한 툴이다. 피그는 전혀 다른 언어이다. SQL이 아니다. 피그는 긴요한 데이터 흐름 언어이며, 하둡 클러스터들의 더 높은 수준의 프로그래밍을 할 수 있는 대안적인 방법이다.
만약 배치(Batch)가 아닌 실시간 분석을 하고 싶다면 HBase를 이용하면 된다. 하둡을 중심으로 성장한 프로젝트들의 전체 생태계가 있으면 계속해서 성장하고 있다. 하둡은 분산된 운영체제의 커널이며, 커널 주변의 다른 모든 구성요소들은 현재 개발 중에 있다. 피그와 하이브는 그런 것들의 좋은 예라 할 수 있다. 단순히 하둡만을 사용하는 사람은 없다. 그들은 여러 개의 다른 툴들도 사용하고 있다.
지금 왜 하둡에 관심이 집중되고 있다고 생각하는가?
하둡은 상대적으로 새로운 기술이다. 사람들은 하둡이 얼마나 유용한지 알아가고 있다. 개인적으로 하둡은 여전히 성장 중이며, 사람들은 더 많은 용도를 찾아내고 있는 중이라고 생각한다. 수 년간 소프트웨어는 하드웨어에 뒤처져 있었으며, 우리는 지금 그 차이를 따라잡고 있다. 기업들은 이제 구매할 여력이 되는 하드웨어를 제대로 활용할 수 있는 소프트웨어를 갖게 되었다. 그리고 그들은 이제 이것을 이용해서 할 수 있는 모든 것을 찾아내고 있다.
하둡이 사용되는 일부 작업에는 적합하지 않은 관계형 데이터베이스 기술을 어떤 것인가?
그 중 일부는 기술적 문제이다. 페타바이트 용량의 '조인 오버 테이블(Join over Table)'을 가진 SQL 쿼리를 작성하려고 할 때 그 누구도 방법을 모른다. 데이터베이스에서 작업을 하는 표준적인 방법은 특정 수준에 머물게 된다. 이것들은 현재 사람들이 감당할 수 있는 수준으로 분산된 병렬성을 지원하도록 설계되지 않았다.