2015.03.10

오픈소스 데이터웨어하우스 타조, 하둡을 DW 세계로 데려가다

Joab Jackson | IDG News Service
오픈소스 아파치 패키지인 타조(Tajo)는 분명 상대적으로 덜 알려져 있지만 분석을 위한 데이터웨어하우스 내에 하둡 데이터를 넣을 수 있는 방법을 제공한다.

자사의 하둡 배포판으로부터 좀더 인텔리전스를 추출하기를 원하는 조직들은 오픈소스 데이터웨어하우스 소프트웨어인 '타조(Tajo)'를 통해 그 방법을 발견할 수 있을지 모른다.

아파치 소프트웨어 재단(Apache Software Foundation)은 타조가 이미 상업용으로 준비를 마쳤다고 천명했다.

하둡 데이터셋을 데이터웨어하우스로 실행하기 위한 아파치 소프트웨어인 타조의 새로운 버전은 자바 프로그램과 오라클과 포스트그레SQL(PostGreSQL)과 같은 서드 파티 데이터베이스들과의 좀더 나은 연결성(connectivity)을 제공하기 위해 업데이트했다.

스파크(Spark) 또는 하이브(Hive)와 같은 다른 아파치 빅데이터 프로젝트보다 덜 알려졌지만 타조는 조직들이 자사의 상업용 데이터웨어하우스에서 벗어날 수 있게 하는데 적합할 수 있다.

또한 타조는 하둡 데이터 프로세싱 플랫폼에 데이터셋을 분석하기를 원하는 조직들에게 하둡의 맵리듀스(MapReduce) 프레임워크를 대신, 친밀한 상업용 비즈니스 인텔리전스 툴을 사용할 수 있게 한다.

타조는 HDFS(Hadoop Distributed File System)에 저장된 대량의 데이터셋을 정리하기 위해 필수적인 ETL(Extract-Transform-Load process) 운영을 수행하는데, 사용자들과 외부 프로그램들은 SQL을 통해 이 데이터를 접근할 수 있다.

3월 9일 발표된 타조의 최신 버전은 JDBC(Java Database Connectivity) 드라이버가 새롭게 향상됐다. 타조 프로젝트 매니저들은 표준 RDBMS로 사용하기 쉽게 타조를 만들었다고 말했다.

이 드라이버는 다양한 상업용 비즈니스 인텔리전스 소프트웨어 패키지와 다른 SQL 기반의 툴에서 테스트를 진행했다. 또한 타조는 오라클과 포스트그레SQL 시스템 양쪽의 SQL 명령어를 내부 탑재했다.

데이터베이스 시스템으로 성장하고 있는 타조의 새로운 기능은 웹 개발자를 위한 JSON(JavaScript Object Notation)을 완벽히 지원한다. 타조는 아마존 S3(Simple Storage Service)와 바로 작업할 수 있다.

한국의 빅데이터 인프라스트럭처 스타트업인 그루터(Gruter)는 타조를 개발을 이끌어 오고 있으며, 인텔, 엣시(Etsy), NASA, 클라우데라, 그리고 호튼웍스 출신의 엔지니어들이 이 프로젝트에 기여하고 있다.

한국을 기반으로 하기 때문에 이 소프트웨어는 하이브(Hive)나 임팔라(Impala)와 같은 다른 오픈소스 SQL 기반의 하둡 패키지와 비교했을 때 세계적으로는 잘 알려지지 않았다.

그러나 이 소프트웨어는 적어도 2013년에 최초 테스트를 거쳐 구성됐다. 그루터에 따르면, 타조는 빠른 속도에 강점을 갖고 있다. 한국의 SK텔레콤은 1.7TB의 데이터를 타조에서 실행해 대부분의 경우 하이브 또는 임팔라보다 빠른 속도로 질의를 해결할 수 있다는 것을 파악했다.

대부분의 벤치마킹이 그렇듯, 이 결과는 특정 워크로드에 따른 결과치일 수도 있으며, 하이브와 임팔라의 새로운 버전은 타조와의 속도 차이를 근접하게 따라붙었을 수도 있다.

현재 SK텔레콤은 이 소프트웨어를 업무적으로 사용하고 있으며, 고려대학교와 NASA 산하의 제트 추진 연구소(Jet Propulsion Laboratory), 한국의 음악 스트리밍 서비스 멜론 또한 분석 처리를 위해 이 소프트웨어를 사용하고 있다. 타조는 ETL 작업을 이행하는데 하이브보다 1.5~10배 이상 빠르다.

아파치 소프트웨어 재단은 하둡을 포함해 카산드라 NoSQL 데이터베이스, 그리고 아파치 HTTP 서버 등 350개 이상의 오픈소스 프로젝트를 지원, 제공하고 있다. editor@itworld.co.kr


2015.03.10

오픈소스 데이터웨어하우스 타조, 하둡을 DW 세계로 데려가다

Joab Jackson | IDG News Service
오픈소스 아파치 패키지인 타조(Tajo)는 분명 상대적으로 덜 알려져 있지만 분석을 위한 데이터웨어하우스 내에 하둡 데이터를 넣을 수 있는 방법을 제공한다.

자사의 하둡 배포판으로부터 좀더 인텔리전스를 추출하기를 원하는 조직들은 오픈소스 데이터웨어하우스 소프트웨어인 '타조(Tajo)'를 통해 그 방법을 발견할 수 있을지 모른다.

아파치 소프트웨어 재단(Apache Software Foundation)은 타조가 이미 상업용으로 준비를 마쳤다고 천명했다.

하둡 데이터셋을 데이터웨어하우스로 실행하기 위한 아파치 소프트웨어인 타조의 새로운 버전은 자바 프로그램과 오라클과 포스트그레SQL(PostGreSQL)과 같은 서드 파티 데이터베이스들과의 좀더 나은 연결성(connectivity)을 제공하기 위해 업데이트했다.

스파크(Spark) 또는 하이브(Hive)와 같은 다른 아파치 빅데이터 프로젝트보다 덜 알려졌지만 타조는 조직들이 자사의 상업용 데이터웨어하우스에서 벗어날 수 있게 하는데 적합할 수 있다.

또한 타조는 하둡 데이터 프로세싱 플랫폼에 데이터셋을 분석하기를 원하는 조직들에게 하둡의 맵리듀스(MapReduce) 프레임워크를 대신, 친밀한 상업용 비즈니스 인텔리전스 툴을 사용할 수 있게 한다.

타조는 HDFS(Hadoop Distributed File System)에 저장된 대량의 데이터셋을 정리하기 위해 필수적인 ETL(Extract-Transform-Load process) 운영을 수행하는데, 사용자들과 외부 프로그램들은 SQL을 통해 이 데이터를 접근할 수 있다.

3월 9일 발표된 타조의 최신 버전은 JDBC(Java Database Connectivity) 드라이버가 새롭게 향상됐다. 타조 프로젝트 매니저들은 표준 RDBMS로 사용하기 쉽게 타조를 만들었다고 말했다.

이 드라이버는 다양한 상업용 비즈니스 인텔리전스 소프트웨어 패키지와 다른 SQL 기반의 툴에서 테스트를 진행했다. 또한 타조는 오라클과 포스트그레SQL 시스템 양쪽의 SQL 명령어를 내부 탑재했다.

데이터베이스 시스템으로 성장하고 있는 타조의 새로운 기능은 웹 개발자를 위한 JSON(JavaScript Object Notation)을 완벽히 지원한다. 타조는 아마존 S3(Simple Storage Service)와 바로 작업할 수 있다.

한국의 빅데이터 인프라스트럭처 스타트업인 그루터(Gruter)는 타조를 개발을 이끌어 오고 있으며, 인텔, 엣시(Etsy), NASA, 클라우데라, 그리고 호튼웍스 출신의 엔지니어들이 이 프로젝트에 기여하고 있다.

한국을 기반으로 하기 때문에 이 소프트웨어는 하이브(Hive)나 임팔라(Impala)와 같은 다른 오픈소스 SQL 기반의 하둡 패키지와 비교했을 때 세계적으로는 잘 알려지지 않았다.

그러나 이 소프트웨어는 적어도 2013년에 최초 테스트를 거쳐 구성됐다. 그루터에 따르면, 타조는 빠른 속도에 강점을 갖고 있다. 한국의 SK텔레콤은 1.7TB의 데이터를 타조에서 실행해 대부분의 경우 하이브 또는 임팔라보다 빠른 속도로 질의를 해결할 수 있다는 것을 파악했다.

대부분의 벤치마킹이 그렇듯, 이 결과는 특정 워크로드에 따른 결과치일 수도 있으며, 하이브와 임팔라의 새로운 버전은 타조와의 속도 차이를 근접하게 따라붙었을 수도 있다.

현재 SK텔레콤은 이 소프트웨어를 업무적으로 사용하고 있으며, 고려대학교와 NASA 산하의 제트 추진 연구소(Jet Propulsion Laboratory), 한국의 음악 스트리밍 서비스 멜론 또한 분석 처리를 위해 이 소프트웨어를 사용하고 있다. 타조는 ETL 작업을 이행하는데 하이브보다 1.5~10배 이상 빠르다.

아파치 소프트웨어 재단은 하둡을 포함해 카산드라 NoSQL 데이터베이스, 그리고 아파치 HTTP 서버 등 350개 이상의 오픈소스 프로젝트를 지원, 제공하고 있다. editor@itworld.co.kr


X