2012.10.25

하둡, 신뢰성 · 가용성 더 높인다 ··· 클라우데라 등 신제품 잇단 발표

Joab Jackson | IDG News Service
기업들이 대용량 데이터 분석 업무에 하둡(Hadoop)을 활용하는 방안을 계속해서 검토하고 있는 가운데 하둡 소프트웨어 업체들이 기업용 제품의 신뢰성과 사용성을 높일 수 있는 신제품을 잇달아 출시하고 있다.

클라우데라(Cloudera)와 맵R(MapR)은 최근 하둡 배보판용 새 기능을 개발하고 있다고 밝혔다. 기업용 소프트웨어 업체인 VM웨어와 스플렁크(Splunk)도 아파치 하둡 데이터 프로세싱 플랫폼과 다른 IT 시스템들을 함께 사용할 때 편의성을 높일 수 있는 제품들을 발표했다. 
 
이러한 신제품들은 최근 미국 뉴욕에서 열리고 있는 오라일리 스트레이타 컨퍼런스와 하둡 월드 2012 행사에서 공개됐다. 이 자리에서 클라우데라의 COO인 커크 던은 "하둡이 사용된 분야를 분석해보니 이종 데이터 타입의 결합 등 이전에는 할 수 업무가 대부분이었다"고 말했다. 그 결과 하둡 업체들은 기업들이 새로운 분야에 적용하면서 부딪히는 어려움들에 대한 요구사항들을 처리하는데 매진하고 있다.
 
먼저 클라우데라는 코드명 '임팔라(Impala, 아프리카산 영양)'로 불리는 데이터베이스 엔진 개선 작업을 하고 있다. H베이스 데이터베이스에 저장된 데이터셋을 SQL을 통해 쿼리하는 기능을 담당하는 부분이다. 기존까지 기업들은 H베이스에 대응하는 SQL 쿼리를 실행하는데 주로 하이브(Hive)를 사용해 왔지만 속도가 문제였다. 이것은 하이브가 디스크에 저장된 각 쿼리의 결과를 요구하는 맵 리듀스(Map Reduce) 프레임워크를 사용하기 때문인데 특히 다중 서브 쿼리가 단일 쿼리를 형성할 필요가 있을 때 속도 문제에 부딪혔다.
 
반면 현재 개발중인 임팔라 데이터베이스 엔진은 하이브 메타데이터 디렉토리를 사용한다. 클라우데라 제품담당 부사장 찰리 제들위스키는 "인터페이스로 여전히 SQL을 제공하지만 맵 리듀스를 우외하는 방식이기 때문에 하이브보다 훨씬 빠르게 쿼리를 실행한다"고 말했다.
 
클라우데라는 제품 발표일을 정확히 밝히지는 않았지만 임팔라는 결국 클라우데라 상용제품인 '클라우데라 엔터프라이즈 RTQ'(Real-Time Query)에 포함될 것으로 보인다. 업체는 그동안 임팔라 소스 코드를 아파치 파운데이션 라이선스로 공개해 왔으며 카라마스피어(Karmasphere), 마이크로스트래티지, 펜타호(Pentaho),  태블로(Tableau) 등 많은 BI(business intelligence) 소프트웨어 업체들이 이미 자사 제품에서 임팔라를 테스트했다.
 
한편 맵R은 H베이스 데이터베이스 배포판의 신뢰성을 높이는 새로운 기능을 추가하고 있다. 복제와 미러링 등을 통해 일단 한쪽에서 시스템이 다운되도 즉시 백업 카피로 전환하는 기능이다.
 
맵R의 기술 마케팅 담당 부사장인 잭 노리스는 "기존 H베이스 일반 버전은 미러링 기능을 지원하지만 지울 수 없는 HDFS(Hadoop File System)를 사용하고 있어 H베이스 백업 카피로 전환하는데 최대 30분까지 걸릴 수 있다"고 말했다. 업체는 그동안 자체 파일 시스템을 사용해 왔으며 이를 테이블 처리까지 확대하고 있다. 노리스는 "(자사 파일시스템에서)파일과 테이블들은 볼륨과 디렉토리에 내에 나란히 존재한다"며 "새로운 H베이스는 이런 테이블들을 직접 읽기 때문에 시스템 다운시 즉시 복구가 가능하다"고 말했다.
 
맵R의 개발작업에는 다른 새로운 기능을 추가하는 것도 포함돼 있다. 데이터베이스를 더 일관되게 실행할 수 있는 기능이 추가돼 데이터 추가와 업데이트가 더 신속히 처리된다. 또한 대규모 오브젝트에 맞춰 행과 열의 크기를 최대 1GB까지 지원하고 1조개 이상의 테이블을 만들 수 있다. 맵R의 H베이스 M7 버전은 아파치 H베이스와 바이너리 수준의 호환성을 갖고 있으며  M7의 자체 데이터 저장 소프트웨어와 함께 클러스터 내에서 아파치 H베이스를 실행할 수 있다. M7 베타버전은 현재 일부 사용자에게만 공개돼 있지만 향후 M5 배포판을 대체할 예정이다.
 
이밖에 다른 많은 업체들 역시 하둡 컨퍼런스를 통해 신제품을 내놓았다. 기계 검색 소프프웨어 업체인 스플렁크는 스플렁크와 하둡 간의 데이터 연동을 지원하는 제인 '스플렁크 하둡 커넥터'를 출시했다. 업체는 또한 '스플렁크 앱'이라는 하둡용 스플렁크 모니터링 모듈도 내놓았다. VM웨어는 가상 환경에서 하둡을 실행할 수 있는 소프트웨어 개발 프로젝트인 '세렌지티'(Serengeti)의 최신 버전을 발표했다. editor@idg.co.kr 


2012.10.25

하둡, 신뢰성 · 가용성 더 높인다 ··· 클라우데라 등 신제품 잇단 발표

Joab Jackson | IDG News Service
기업들이 대용량 데이터 분석 업무에 하둡(Hadoop)을 활용하는 방안을 계속해서 검토하고 있는 가운데 하둡 소프트웨어 업체들이 기업용 제품의 신뢰성과 사용성을 높일 수 있는 신제품을 잇달아 출시하고 있다.

클라우데라(Cloudera)와 맵R(MapR)은 최근 하둡 배보판용 새 기능을 개발하고 있다고 밝혔다. 기업용 소프트웨어 업체인 VM웨어와 스플렁크(Splunk)도 아파치 하둡 데이터 프로세싱 플랫폼과 다른 IT 시스템들을 함께 사용할 때 편의성을 높일 수 있는 제품들을 발표했다. 
 
이러한 신제품들은 최근 미국 뉴욕에서 열리고 있는 오라일리 스트레이타 컨퍼런스와 하둡 월드 2012 행사에서 공개됐다. 이 자리에서 클라우데라의 COO인 커크 던은 "하둡이 사용된 분야를 분석해보니 이종 데이터 타입의 결합 등 이전에는 할 수 업무가 대부분이었다"고 말했다. 그 결과 하둡 업체들은 기업들이 새로운 분야에 적용하면서 부딪히는 어려움들에 대한 요구사항들을 처리하는데 매진하고 있다.
 
먼저 클라우데라는 코드명 '임팔라(Impala, 아프리카산 영양)'로 불리는 데이터베이스 엔진 개선 작업을 하고 있다. H베이스 데이터베이스에 저장된 데이터셋을 SQL을 통해 쿼리하는 기능을 담당하는 부분이다. 기존까지 기업들은 H베이스에 대응하는 SQL 쿼리를 실행하는데 주로 하이브(Hive)를 사용해 왔지만 속도가 문제였다. 이것은 하이브가 디스크에 저장된 각 쿼리의 결과를 요구하는 맵 리듀스(Map Reduce) 프레임워크를 사용하기 때문인데 특히 다중 서브 쿼리가 단일 쿼리를 형성할 필요가 있을 때 속도 문제에 부딪혔다.
 
반면 현재 개발중인 임팔라 데이터베이스 엔진은 하이브 메타데이터 디렉토리를 사용한다. 클라우데라 제품담당 부사장 찰리 제들위스키는 "인터페이스로 여전히 SQL을 제공하지만 맵 리듀스를 우외하는 방식이기 때문에 하이브보다 훨씬 빠르게 쿼리를 실행한다"고 말했다.
 
클라우데라는 제품 발표일을 정확히 밝히지는 않았지만 임팔라는 결국 클라우데라 상용제품인 '클라우데라 엔터프라이즈 RTQ'(Real-Time Query)에 포함될 것으로 보인다. 업체는 그동안 임팔라 소스 코드를 아파치 파운데이션 라이선스로 공개해 왔으며 카라마스피어(Karmasphere), 마이크로스트래티지, 펜타호(Pentaho),  태블로(Tableau) 등 많은 BI(business intelligence) 소프트웨어 업체들이 이미 자사 제품에서 임팔라를 테스트했다.
 
한편 맵R은 H베이스 데이터베이스 배포판의 신뢰성을 높이는 새로운 기능을 추가하고 있다. 복제와 미러링 등을 통해 일단 한쪽에서 시스템이 다운되도 즉시 백업 카피로 전환하는 기능이다.
 
맵R의 기술 마케팅 담당 부사장인 잭 노리스는 "기존 H베이스 일반 버전은 미러링 기능을 지원하지만 지울 수 없는 HDFS(Hadoop File System)를 사용하고 있어 H베이스 백업 카피로 전환하는데 최대 30분까지 걸릴 수 있다"고 말했다. 업체는 그동안 자체 파일 시스템을 사용해 왔으며 이를 테이블 처리까지 확대하고 있다. 노리스는 "(자사 파일시스템에서)파일과 테이블들은 볼륨과 디렉토리에 내에 나란히 존재한다"며 "새로운 H베이스는 이런 테이블들을 직접 읽기 때문에 시스템 다운시 즉시 복구가 가능하다"고 말했다.
 
맵R의 개발작업에는 다른 새로운 기능을 추가하는 것도 포함돼 있다. 데이터베이스를 더 일관되게 실행할 수 있는 기능이 추가돼 데이터 추가와 업데이트가 더 신속히 처리된다. 또한 대규모 오브젝트에 맞춰 행과 열의 크기를 최대 1GB까지 지원하고 1조개 이상의 테이블을 만들 수 있다. 맵R의 H베이스 M7 버전은 아파치 H베이스와 바이너리 수준의 호환성을 갖고 있으며  M7의 자체 데이터 저장 소프트웨어와 함께 클러스터 내에서 아파치 H베이스를 실행할 수 있다. M7 베타버전은 현재 일부 사용자에게만 공개돼 있지만 향후 M5 배포판을 대체할 예정이다.
 
이밖에 다른 많은 업체들 역시 하둡 컨퍼런스를 통해 신제품을 내놓았다. 기계 검색 소프프웨어 업체인 스플렁크는 스플렁크와 하둡 간의 데이터 연동을 지원하는 제인 '스플렁크 하둡 커넥터'를 출시했다. 업체는 또한 '스플렁크 앱'이라는 하둡용 스플렁크 모니터링 모듈도 내놓았다. VM웨어는 가상 환경에서 하둡을 실행할 수 있는 소프트웨어 개발 프로젝트인 '세렌지티'(Serengeti)의 최신 버전을 발표했다. editor@idg.co.kr 


X