2014.08.11

구글, 새로운 DW기술 ‘메사’ 공개

Joab Jackson | IDG News Service
구글은 7일, 다수의 데이터센터에 걸쳐 클라우드 기반 분석 기능을 수행할 수 있는 새로운 데이터 웨어하우스(DW) 시스템을 선보였다.

구글은 “메사는 수페타바이트에 이르는 데이터를 제어할 수 있으며 초당 수백만 건의 데이터열을 업데이트하고 하루에 수조개의 쿼리를 처리할 수 있다”고 설명했다. 메사를 다수의 데이터센터에 걸쳐 적용하면 하나의 데이터센터에 이상이 생긴다 해도 전체 DW를 운영하는데 문제가 생기지 않는다.

구글은 본래 자사의 인터넷 광고 사업에 필요한 각종 데이터 저장 및 분석 기능을 위해 메사를 개발했다. 하지만 메사는 이 용도 외에도 다양한 DW 작업에도 응용될 수 있다. 구글 연구진은 논문을 통해 “메사는 업스트림 서비스에서 생성된 데이터를 입력 받아 내부에서 데이터를 종합한 후, 이를 사용자 쿼리를 통해 출력한다”고 설명했다.

구글에게 있어 메사는 기존의 기업 DW를 비롯해 다른 데이터 분석 시스템으로는 처리할 수 없었던 다수의 운영 문제에 대한 해결 방안을 제공했다.

예를 들어, 대부분의 상용 DW는 하루에 한 번, 혹은 일주일에 한 번 주기로 데이터 세트를 업데이트한다. 하지만 구글은 데이터가 생성되자마자 바로 이를 분석할 수 있는 시스템이 필요했다.

또한, 이 외에도 구글은 쿼리에 최대한 일관성을 부여하고자 했는데, 이는 즉 어떤 데이터센터에서 쿼리를 처리한다 해도 항상 같은 값이 나오도록 만드는 것이었다.

이러한 ‘일관성’은 특히 관계 데이터베이스 시스템의 장점으로 간주되지만, 관계 데이터베이스 상에서는 페타베이트 단위의 데이터를 처리하는 것이 어려울 수 있다. 특히, 만약 기업에서 가동 시간 및 반응성을 향상시키기 위해 흔히 하는 것처럼 데이터베이스를 다수의 서버에 걸쳐 복제하게 되면 이는 더욱 어려워진다.

물론, 카산드라(Cassandra)와 같은 NoSQL 데이터베이스를 사용하면 페타바이트 단위의 데이터를 처리할 수 있긴 하다. 그러나 구글은 기존 기술에서보다 훨씬 더 큰 정확성을 위해 메사를 개발했다.

메사는 콜로서스(Colossus) 분산 파일 시스템과 같은 구글의 자체 개발 기술에 기반한다. 콜로서스는 구글의 빅테이블(BigTable) 분산 데이터 스토리지 시스템과 맵리듀스(MapReduce) 데이터 분석 프레임워크를 바탕으로 한다. 이 외에도 구글의 개발자들은 일관성을 향상시키기 위해 ‘팍소트(Paxos)’라고 명명된 분산 동기화 프로토콜을 사용했다.

확장성과 일관성 외에도 메사는 일반 서버에서도 운영될 수 있다는 장점이 있다. 이 때문에 메사는 고가의 특화된 별도의 하드웨어를 필요로 하지 않으며, 나아가 클라우드 서비스로써 운영될 수 있는 것이다.

그러나 모나쉬 리서치(Monash Research)의 데이터베이스 부문 리서치 수석 애널리스트 커트 모나쉬는 “메사의 용도는 다소 제한적일 수도 있다”고 전망했다.

모나쉬는 “몇 초 분의 일 단위의 반응 시간이나 구글 정도로 거대한 데이터를 보유한 기업은 한정돼 있기 때문이다”라고 설명했다. 이어, “게다가 맵리듀스는 관계 쿼리를 다루는데 있어 최적화된 방안이라고는 할 수 없다. 바로 이 이유 때문에 하이브(Hive), 임팔라(Impala), 샤크(Shark)와 같은 하둡 기반 SQL(SQL-on-Hadoop) 기술이 등장한 것”이라고 덧붙였다.

모나쉬는 “일반 기업들은 구글의 메사 이전에 시중에 있는 상용, 혹은 오픈소스 솔루션을 우선적으로 조사해야 한다”고 말했다.

‘메사(Mesa)’라고 명명된 새로운 DW 기술은 다음 달 중국 항저우에서 개최될 ‘대용량 데이터베이스 컨퍼런스(Conference on Very Large Data Bases)’에서 자세하게 설명될 예정이다. editor@itworld.co.kr 


2014.08.11

구글, 새로운 DW기술 ‘메사’ 공개

Joab Jackson | IDG News Service
구글은 7일, 다수의 데이터센터에 걸쳐 클라우드 기반 분석 기능을 수행할 수 있는 새로운 데이터 웨어하우스(DW) 시스템을 선보였다.

구글은 “메사는 수페타바이트에 이르는 데이터를 제어할 수 있으며 초당 수백만 건의 데이터열을 업데이트하고 하루에 수조개의 쿼리를 처리할 수 있다”고 설명했다. 메사를 다수의 데이터센터에 걸쳐 적용하면 하나의 데이터센터에 이상이 생긴다 해도 전체 DW를 운영하는데 문제가 생기지 않는다.

구글은 본래 자사의 인터넷 광고 사업에 필요한 각종 데이터 저장 및 분석 기능을 위해 메사를 개발했다. 하지만 메사는 이 용도 외에도 다양한 DW 작업에도 응용될 수 있다. 구글 연구진은 논문을 통해 “메사는 업스트림 서비스에서 생성된 데이터를 입력 받아 내부에서 데이터를 종합한 후, 이를 사용자 쿼리를 통해 출력한다”고 설명했다.

구글에게 있어 메사는 기존의 기업 DW를 비롯해 다른 데이터 분석 시스템으로는 처리할 수 없었던 다수의 운영 문제에 대한 해결 방안을 제공했다.

예를 들어, 대부분의 상용 DW는 하루에 한 번, 혹은 일주일에 한 번 주기로 데이터 세트를 업데이트한다. 하지만 구글은 데이터가 생성되자마자 바로 이를 분석할 수 있는 시스템이 필요했다.

또한, 이 외에도 구글은 쿼리에 최대한 일관성을 부여하고자 했는데, 이는 즉 어떤 데이터센터에서 쿼리를 처리한다 해도 항상 같은 값이 나오도록 만드는 것이었다.

이러한 ‘일관성’은 특히 관계 데이터베이스 시스템의 장점으로 간주되지만, 관계 데이터베이스 상에서는 페타베이트 단위의 데이터를 처리하는 것이 어려울 수 있다. 특히, 만약 기업에서 가동 시간 및 반응성을 향상시키기 위해 흔히 하는 것처럼 데이터베이스를 다수의 서버에 걸쳐 복제하게 되면 이는 더욱 어려워진다.

물론, 카산드라(Cassandra)와 같은 NoSQL 데이터베이스를 사용하면 페타바이트 단위의 데이터를 처리할 수 있긴 하다. 그러나 구글은 기존 기술에서보다 훨씬 더 큰 정확성을 위해 메사를 개발했다.

메사는 콜로서스(Colossus) 분산 파일 시스템과 같은 구글의 자체 개발 기술에 기반한다. 콜로서스는 구글의 빅테이블(BigTable) 분산 데이터 스토리지 시스템과 맵리듀스(MapReduce) 데이터 분석 프레임워크를 바탕으로 한다. 이 외에도 구글의 개발자들은 일관성을 향상시키기 위해 ‘팍소트(Paxos)’라고 명명된 분산 동기화 프로토콜을 사용했다.

확장성과 일관성 외에도 메사는 일반 서버에서도 운영될 수 있다는 장점이 있다. 이 때문에 메사는 고가의 특화된 별도의 하드웨어를 필요로 하지 않으며, 나아가 클라우드 서비스로써 운영될 수 있는 것이다.

그러나 모나쉬 리서치(Monash Research)의 데이터베이스 부문 리서치 수석 애널리스트 커트 모나쉬는 “메사의 용도는 다소 제한적일 수도 있다”고 전망했다.

모나쉬는 “몇 초 분의 일 단위의 반응 시간이나 구글 정도로 거대한 데이터를 보유한 기업은 한정돼 있기 때문이다”라고 설명했다. 이어, “게다가 맵리듀스는 관계 쿼리를 다루는데 있어 최적화된 방안이라고는 할 수 없다. 바로 이 이유 때문에 하이브(Hive), 임팔라(Impala), 샤크(Shark)와 같은 하둡 기반 SQL(SQL-on-Hadoop) 기술이 등장한 것”이라고 덧붙였다.

모나쉬는 “일반 기업들은 구글의 메사 이전에 시중에 있는 상용, 혹은 오픈소스 솔루션을 우선적으로 조사해야 한다”고 말했다.

‘메사(Mesa)’라고 명명된 새로운 DW 기술은 다음 달 중국 항저우에서 개최될 ‘대용량 데이터베이스 컨퍼런스(Conference on Very Large Data Bases)’에서 자세하게 설명될 예정이다. editor@itworld.co.kr 


X