2013.03.22

빅 데이터를 퍼블릭 클라우드에 올려야 할 때

James Kobielus | InfoWorld
클라우드는 모든 이에게 크고 하얗고 푹신푹신한 꿈의 공간이다. 누군가가 자사의 빅 데이터 전략이 모든 데이터를 클라우드에 올리는 것이라고 할 때, 이들이 몽상가인지, 아니면 대가들이 컨퍼런스에서 한 말을 그대로 따라하고 있는 것 뿐인지 알 수가 없다.
 
빅 데이터와 클라우드 패러다임에는 실질적으로 겹치는 부분이 아주 넓기 때문에 누구라도 기존 자체 구축한 하둡이나 NoSQL, 아니면 데이터 웨어하우스 환경에 대해 “클라우드 기반의 빅 데이터를 실행하고 있다”고 주장할 수 있다. 클라우드는 현재 퍼블릭 클라우드나 SaaS, 멀티 테넌트 호스트 환경 뿐만 아니라 이른바 “프라이빗” 배치까지도 포함하는 것으로 이해되고 있다는 것을 잊어서는 안될 것이다.
 
하지만 만약 실질적인 클라우드의 정의를 구독 기반의 퍼블릭 서비스로 한정한다면, 상당히 어려운 문제에 봉착하게 된다. 어떤 빅 데이터 애플리케이션이 퍼블릭 클라우드나 SaaS 환경에 더 적합한지를 파악해야 하기 때문이다.
 
또 하나의 문제는 외부의 서비스 업체에게 관리를 맡겨서 빅 데이터의 확장성, 탄력성, 성능, 비용 효율성, 안정성, 관리성을 강화할 수 있는 것은 “언제”인가 하는 것이다. 이제 퍼블릭 클라우드 상의 빅 데이터를 위한 몇 가지 명확한 유즈 케이스를 살펴보자.
 
이미 클라우드에서 호스팅되고 있는 엔터프라이즈 애플리케이션 : 수많은 조직들, 특히 중소중견 기업들처럼 외부 서비스 업체로부터 클라우드 기반의 애플리케이션을 사용하고 있다면, 소스 트랜잭션 데이터의 상당 부분은 이미 퍼블릭 클라우드에 있다. 만약 상당 기간의 이력 데이터를 클라우드 플랫폼에 저장하고 있다면, 이미 빅 데이터 규모로 축적되어 있을 것이다. 여기에 더해 서비스 업체나 다른 협력업체 중 한 곳에서 부가적인 분석 서비스, 즉 고객 이탈 분석이나 마케팅 최적화, 고객 데이터에 대한 오프사이트 백업 및 아카이빙를 제공한다면, 빅 데이터를 자체적으로 구축하는 것보다 기존 퍼블릭 클라우드 상의 환경을 강화하는 것이 훨씬 합리적이다.
 
상당한 사전처리가 필요한 대규모 외부 데이터 소스 : 예를 들어, 소셜 미디어 데이터의 전체 피드에 대한 고객 심리 모니터링를 수행한다고 할 때, 이를 적절하게 처리하기 위한 서버나 스토리지, 대역폭 등을 내부적으로 갖추고 있지는 않을 것이다. 퍼블릭 클라우드 기반의 빅 데이터 서비스가 제공하는 소셜 미디어 필터링 서비스를 강화해야 하는 가장 분명한 예 중 하나이다.
 
자체 빅 데이터 역량을 넘어서는 전술적인 애플리케이션 : 이미 특정 애플리케이션 전용으로 자체 구축한 빅 데이터 플랫폼을 보유하고 있는 경우가 있다. 비구조화 데이터 소스에 대한 대규모 ETL용 전용 하둡 클러스터가 대표적인 예이다. 이런 환경에서 멀티채널 마케팅이나 소셜 미디어 분석, 지리정보 분석, 탄력적인 데이터 과학 샌드박스 등의 기존 플랫폼에 맞지 않거나 필요에 따라 온디맨드 서비스를 이용하는 것이 더 비용 효율적인 새로운 애플리케이션을 지원해야 할 때는 퍼블릭 클라우드를 사용하는 것이 합리적인 방안이 될 수 있다. 실제로 퍼블릭 클라우드는 페타바이트 규모의 빅 데이터 역량을 최대한 빨리 갖추어야 할 때 이용할 수 있는 유일한 옵션이기도 하다.
 
규모는 크지는 단기간 사용하는 분석 샌드박스의 탄력적인 프로비저닝 : 단기적인 데이터 과학 프로젝트가 있는데, 통상보다 큰 실험적인 데이터 마트(즉 샌드박스)를 필요로 한다면, 퍼블릭 클라우드가 실효성 있는 또는 수용할만한 유일한 옵션이 될 것이다. 클라우드 기반의 서버와 스토리지를 프로젝트 기간 동안 할당하고, 프로젝트가 종료되는 대로 신속하게 회수하면 된다. 필자를 이를 ‘버블 마트’ 배치 모델이라고 부르는데, 클라우드에 안성맞춤이다.
 
이미 이런 상황에 퍼블릭 클라우드를 배치한 경우라면, 클라우드 기반 빅 데이터를 어디서 시작할 것인지는 전략적인 문제가 되지 않는다. 클라우드 기반 빅 데이터 서비스가 성숙해지고, 가격대 성능이나 확장성, 민첩성, 관리성이 지속적으로 개선되면서 오히려 어디에서 멈출 것인지가 문제가 될 것이다. 2010년대의 말에 이르면 더 많은 애플리케이션과 데이터가 퍼블릭 클라우드로 옮겨질 것이고, 자체 빅 데이터 환경을 배치한다는 것은 오늘날 자체 서버를 설계하는 것만큼이나 비실용적인 방법이 될 것이다.  editor@itworld.co.kr


2013.03.22

빅 데이터를 퍼블릭 클라우드에 올려야 할 때

James Kobielus | InfoWorld
클라우드는 모든 이에게 크고 하얗고 푹신푹신한 꿈의 공간이다. 누군가가 자사의 빅 데이터 전략이 모든 데이터를 클라우드에 올리는 것이라고 할 때, 이들이 몽상가인지, 아니면 대가들이 컨퍼런스에서 한 말을 그대로 따라하고 있는 것 뿐인지 알 수가 없다.
 
빅 데이터와 클라우드 패러다임에는 실질적으로 겹치는 부분이 아주 넓기 때문에 누구라도 기존 자체 구축한 하둡이나 NoSQL, 아니면 데이터 웨어하우스 환경에 대해 “클라우드 기반의 빅 데이터를 실행하고 있다”고 주장할 수 있다. 클라우드는 현재 퍼블릭 클라우드나 SaaS, 멀티 테넌트 호스트 환경 뿐만 아니라 이른바 “프라이빗” 배치까지도 포함하는 것으로 이해되고 있다는 것을 잊어서는 안될 것이다.
 
하지만 만약 실질적인 클라우드의 정의를 구독 기반의 퍼블릭 서비스로 한정한다면, 상당히 어려운 문제에 봉착하게 된다. 어떤 빅 데이터 애플리케이션이 퍼블릭 클라우드나 SaaS 환경에 더 적합한지를 파악해야 하기 때문이다.
 
또 하나의 문제는 외부의 서비스 업체에게 관리를 맡겨서 빅 데이터의 확장성, 탄력성, 성능, 비용 효율성, 안정성, 관리성을 강화할 수 있는 것은 “언제”인가 하는 것이다. 이제 퍼블릭 클라우드 상의 빅 데이터를 위한 몇 가지 명확한 유즈 케이스를 살펴보자.
 
이미 클라우드에서 호스팅되고 있는 엔터프라이즈 애플리케이션 : 수많은 조직들, 특히 중소중견 기업들처럼 외부 서비스 업체로부터 클라우드 기반의 애플리케이션을 사용하고 있다면, 소스 트랜잭션 데이터의 상당 부분은 이미 퍼블릭 클라우드에 있다. 만약 상당 기간의 이력 데이터를 클라우드 플랫폼에 저장하고 있다면, 이미 빅 데이터 규모로 축적되어 있을 것이다. 여기에 더해 서비스 업체나 다른 협력업체 중 한 곳에서 부가적인 분석 서비스, 즉 고객 이탈 분석이나 마케팅 최적화, 고객 데이터에 대한 오프사이트 백업 및 아카이빙를 제공한다면, 빅 데이터를 자체적으로 구축하는 것보다 기존 퍼블릭 클라우드 상의 환경을 강화하는 것이 훨씬 합리적이다.
 
상당한 사전처리가 필요한 대규모 외부 데이터 소스 : 예를 들어, 소셜 미디어 데이터의 전체 피드에 대한 고객 심리 모니터링를 수행한다고 할 때, 이를 적절하게 처리하기 위한 서버나 스토리지, 대역폭 등을 내부적으로 갖추고 있지는 않을 것이다. 퍼블릭 클라우드 기반의 빅 데이터 서비스가 제공하는 소셜 미디어 필터링 서비스를 강화해야 하는 가장 분명한 예 중 하나이다.
 
자체 빅 데이터 역량을 넘어서는 전술적인 애플리케이션 : 이미 특정 애플리케이션 전용으로 자체 구축한 빅 데이터 플랫폼을 보유하고 있는 경우가 있다. 비구조화 데이터 소스에 대한 대규모 ETL용 전용 하둡 클러스터가 대표적인 예이다. 이런 환경에서 멀티채널 마케팅이나 소셜 미디어 분석, 지리정보 분석, 탄력적인 데이터 과학 샌드박스 등의 기존 플랫폼에 맞지 않거나 필요에 따라 온디맨드 서비스를 이용하는 것이 더 비용 효율적인 새로운 애플리케이션을 지원해야 할 때는 퍼블릭 클라우드를 사용하는 것이 합리적인 방안이 될 수 있다. 실제로 퍼블릭 클라우드는 페타바이트 규모의 빅 데이터 역량을 최대한 빨리 갖추어야 할 때 이용할 수 있는 유일한 옵션이기도 하다.
 
규모는 크지는 단기간 사용하는 분석 샌드박스의 탄력적인 프로비저닝 : 단기적인 데이터 과학 프로젝트가 있는데, 통상보다 큰 실험적인 데이터 마트(즉 샌드박스)를 필요로 한다면, 퍼블릭 클라우드가 실효성 있는 또는 수용할만한 유일한 옵션이 될 것이다. 클라우드 기반의 서버와 스토리지를 프로젝트 기간 동안 할당하고, 프로젝트가 종료되는 대로 신속하게 회수하면 된다. 필자를 이를 ‘버블 마트’ 배치 모델이라고 부르는데, 클라우드에 안성맞춤이다.
 
이미 이런 상황에 퍼블릭 클라우드를 배치한 경우라면, 클라우드 기반 빅 데이터를 어디서 시작할 것인지는 전략적인 문제가 되지 않는다. 클라우드 기반 빅 데이터 서비스가 성숙해지고, 가격대 성능이나 확장성, 민첩성, 관리성이 지속적으로 개선되면서 오히려 어디에서 멈출 것인지가 문제가 될 것이다. 2010년대의 말에 이르면 더 많은 애플리케이션과 데이터가 퍼블릭 클라우드로 옮겨질 것이고, 자체 빅 데이터 환경을 배치한다는 것은 오늘날 자체 서버를 설계하는 것만큼이나 비실용적인 방법이 될 것이다.  editor@itworld.co.kr


X