2015.09.24

구글 클라우드 데이터프록, “하둡 및 스파크 클러스터 생성 90초면 충분”

Katherine Noyes | IDG News Service
빅데이터로부터 인사이트를 얻는 것은 쉽지도 빠르지도 않은 일이다. 하지만 구글은 하둡과 스파크를 위한 새로운 매니지드 서비스로 이런 기존의 통념을 바꿔놓고자 한다.

구글이 공개 베타 방식으로 새로 출시한 클라우드 데이터프록(Cloud Dataproc)은 기업이 클러스터를 신속하게 생성하고 쉽게 관리하고 또 필요할 때 해제할 수 있도록 지원한다.

기업이 빠르게 진화하는 빅데이터 기술의 수용하는 데 애를 먹는 경우가 많다. 콘스텔레이션 리서치의 대표 애널리스트 호글러 뮬러는 “일반적인 기업에게는 빅데이터를 설치하고 운영하는 것이 쉽지 않은 일이다”라며, 두 가지 오픈소스 제품을 결합할 때는 “일이 한층 더 복잡해진다”라고 지적했다.

또 하둡과 스파크 클러스터를 쉽게 구현하고 운영할 수 있다면, 기업에게는 상당한 가치를 가져다 줄 것이며, 구글의 클라우드 데이터프록은 궁극적으로 더 많은 부하와 활용, 고객으로 더 나은 규모의 경제 효과를 얻을 수 있다고 평가했다.

구글은 클라우드 데이터프록이 전통적인 자체 구축 방식 제품과 경쟁 클라우드 서비스와 비교해 수많은 이점을 제공한다고 주장한다. 우선 시간이다. 스파크나 하둡 클러스터를 자체 인프라나 IaaS를 통해 생성하는 데는 최소 5~30분의 시간이 걸린다. 하지만 클라우드 데이터프록은 90초면 클러스터를 생성할 수 있으며, 규모 확대나 해제 역시 같은 시간에 처리할 수 있다는 것이 구글의 설명이다.

가격은 클러스터 내의 가상 CPU 한 시간당 1센트이며, 비용이 더 저렴한 선점형 인스턴스를 포함해 전체 비용을 더 절감할 수 있다. 또 많은 클라우드 서비스 업체가 거의 1시간 단위의 과금을 하지만, 클라우드 데이터프록은 분 단위, 그리고 최소 10분 기준으로 과금을 한다.

빅쿼리나 클라우드 스토리지, 클라우드 빅테이블, 클라우드 로깅, 클라우드 모니터링 등의 다른 구글 클라우드 플랫폼 서비스와의 통합 기능이 내장되어 있다는 것도 장점이다.

구글은 클라우드 데이터프록이 관리형 서비스이기 때문에 기업은 관리자나 전용 소프트웨어의 도움없이도 스파크와 하둡을 사용할 수 있다고 강조했다. 또 구글 개발자 콘솔, 구글 클라우드 SDK, 클라우드 데이터프록 REST API를 통해 클러스터와 인터랙션하고 스파크와 하둡 작업을 처리할 수 있다.

현재 클라우드 데이터프록은 스파크 1.5와 하둡 2.7.1을 기반으로 구현되어 있다.  editor@itworld.co.kr


2015.09.24

구글 클라우드 데이터프록, “하둡 및 스파크 클러스터 생성 90초면 충분”

Katherine Noyes | IDG News Service
빅데이터로부터 인사이트를 얻는 것은 쉽지도 빠르지도 않은 일이다. 하지만 구글은 하둡과 스파크를 위한 새로운 매니지드 서비스로 이런 기존의 통념을 바꿔놓고자 한다.

구글이 공개 베타 방식으로 새로 출시한 클라우드 데이터프록(Cloud Dataproc)은 기업이 클러스터를 신속하게 생성하고 쉽게 관리하고 또 필요할 때 해제할 수 있도록 지원한다.

기업이 빠르게 진화하는 빅데이터 기술의 수용하는 데 애를 먹는 경우가 많다. 콘스텔레이션 리서치의 대표 애널리스트 호글러 뮬러는 “일반적인 기업에게는 빅데이터를 설치하고 운영하는 것이 쉽지 않은 일이다”라며, 두 가지 오픈소스 제품을 결합할 때는 “일이 한층 더 복잡해진다”라고 지적했다.

또 하둡과 스파크 클러스터를 쉽게 구현하고 운영할 수 있다면, 기업에게는 상당한 가치를 가져다 줄 것이며, 구글의 클라우드 데이터프록은 궁극적으로 더 많은 부하와 활용, 고객으로 더 나은 규모의 경제 효과를 얻을 수 있다고 평가했다.

구글은 클라우드 데이터프록이 전통적인 자체 구축 방식 제품과 경쟁 클라우드 서비스와 비교해 수많은 이점을 제공한다고 주장한다. 우선 시간이다. 스파크나 하둡 클러스터를 자체 인프라나 IaaS를 통해 생성하는 데는 최소 5~30분의 시간이 걸린다. 하지만 클라우드 데이터프록은 90초면 클러스터를 생성할 수 있으며, 규모 확대나 해제 역시 같은 시간에 처리할 수 있다는 것이 구글의 설명이다.

가격은 클러스터 내의 가상 CPU 한 시간당 1센트이며, 비용이 더 저렴한 선점형 인스턴스를 포함해 전체 비용을 더 절감할 수 있다. 또 많은 클라우드 서비스 업체가 거의 1시간 단위의 과금을 하지만, 클라우드 데이터프록은 분 단위, 그리고 최소 10분 기준으로 과금을 한다.

빅쿼리나 클라우드 스토리지, 클라우드 빅테이블, 클라우드 로깅, 클라우드 모니터링 등의 다른 구글 클라우드 플랫폼 서비스와의 통합 기능이 내장되어 있다는 것도 장점이다.

구글은 클라우드 데이터프록이 관리형 서비스이기 때문에 기업은 관리자나 전용 소프트웨어의 도움없이도 스파크와 하둡을 사용할 수 있다고 강조했다. 또 구글 개발자 콘솔, 구글 클라우드 SDK, 클라우드 데이터프록 REST API를 통해 클러스터와 인터랙션하고 스파크와 하둡 작업을 처리할 수 있다.

현재 클라우드 데이터프록은 스파크 1.5와 하둡 2.7.1을 기반으로 구현되어 있다.  editor@itworld.co.kr


X