2013.06.27

IDG 블로그 | 빅 데이터에는 데이터 가상화가 필요하다

James Kobielus | InfoWorld
클라우드의 빅 데이터를 보면 많은 수의 노드, 클러스터, 티어에 걸쳐 수많은 잠재적 기능 서비스 계층이 흩어져 있어 어떻게 다루어야 하는지 엄두가 나지 않곤 한다.

심호흡을 하자. 첫 번째 단계는 포괄적인 클라우드 데이터 가상화 인프라스트럭처 계획을 수립하는 것이다. 가상화된 클라우드 분석론은 새로운 시대의 빅 데이터 패러다임이다. 여러 종류로 이루어진 리소스로서의 빅 데이터에 대한 일원화된 접근, 모델링, 배포, 최적화, 관리를 가능하게 하는 통합 접근 방법이다.

데이터 가상화는 모든 가상화가 그렇듯이 이종으로 구성된 인프라스트럭처를 하나의 논리적으로 통합된 리소스인 것처럼 접근, 관리, 최적화할 수 있게 해주는 방법이다. 이를 통해 일부 서비스, 기능 또는 기타 리소스의 내부적 구현에서 외부 인터페이스를 추상화할 수 있다.

데이터 가상화의 중심은 관계형, 하둡, NoSQL 등의 이질적 백엔드 데이터 리포지토리에 대해 논리적으로 통합된 접근, 쿼리, 보고, 예측 분석 및 기타 애플리케이션을 지원하는, SQL 가상화 접근 방법에 사용되는 것과 같은 추상화 계층이다. 물론 데이터 가상화는 경우에 따라 여러 지리적 위치와 클라우드 환경에 걸쳐 분산되어 있는 스토리지 및 서버 플랫폼과 같은 인프라스트럭처 가상화의 다른 계층들에 의존할 수 있다.

얼마나 많은 계층을 논하든, 가상화는 데이터와 관련하여 매력적이지 않은 주제의 전형이다. 그러나 빅 데이터 클라우드 플랫폼에서 다음과 같은 비즈니스 임무를 처리해야 한다면 가상화가 기반이 되어야 한다.

- 탄력적인 유체 토폴로지의 고급 분석 리소스
- 소스, 형식, 스키마에 관계없이 닥치는 대로 정보를 집어삼키는 리소스
- 저장된 정보와 이동 중인 정보의 동적인 혼합체를 지속, 집계, 처리하는 민첩한 리소스
- 프라이빗 클라우드와 퍼블릭 클라우드 모두에 걸쳐 가치 사슬 내에서, 그리고 사슬을 타고 확산되는 연합된 리소스
- 기존 도구 및 애플리케이션과의 상호운용성을 손상시키지 않고 백엔드 데이터 플랫폼을 변경, 확장/축소하고 발전시킬 수 있게 해주는 매끄러운 상호운용성 리소스

물론 어려운 주문이다. 데이터 가상화와 가상화된 기반이라는 것은 말로 할 때보다 실제 행동으로 옮길 때 훨씬 더 어렵다. 게다가 구현, 관리 또는 최적화에 따르는 비용이 저렴하지도 않다.

클라우드 기반 빅 데이터에는 날로 복잡해지는 가상화된 인프라스트럭처가 필요하다. 대부분의 데이터 전문가들이 이 까다로운 주제에 접근하는 방법이 천문학자들이 우주의 암흑 물질 지도를 작성할 때 사용하는 방법과 거의 같다는 사실은 놀라운 일도 아니다. 필수적이지만 따분하고 지루한 일이다. 사실을 말하자면 빅 데이터 전문가들은 전략적 망원경의 방향을 신기술의 하늘에서 가장 밝게 빛나는 매력적인 주제들(하둡, NoSQL 등)을 향하도록 하는 편을 훨씬 더 선호할 것이다.

클라우드 빅 데이터 애플리케이션의 범위가 확장되면 거의 틀림없이 가상화도 더 진행해야 한다. 혼성 빅 데이터 클라우드의 끈질긴 이종성이 그 방향으로 유도한다. 프라이빗 클라우드 내에서 지속적으로 이루어지는 빅 데이터 플랫폼 반죽으로 인해 기존 설비와 새로운 접근 방법 사이를 연결하는 가상화 패브릭이 필요해진다.

반죽을 유발하는 것은 지속적인 플랫폼 현대화와 마이그레이션 작업, 혁신적인 전용 플랫폼을 클라우드에 도입해야 할 필요성, 그리고 업체의 제품 향상 주기다. 모든 빅 데이터 이니셔티브를 하나의 “만능” 공용 클라우드 서비스에 모을 수 있을 때까지는 퍼블릭, 프라이빗, 하이브리드 클라우드 아키텍처의 다양한 조합에 대한 접근을 가상화해야 한다.

데이터 가상화의 범위는 비즈니스 요구 사항과 빅 데이터 환경의 복잡성에 따라, 그리고 위험, 복잡성, 골치 아픈 일을 얼만큼 용인하느냐에 따라 달라진다.

앞으로 수년 동안 더욱 복잡한 분석 모델, 규칙, 정보가 빅 데이터 클라우드에서 융합되면서 이 플랫폼은 가상화된 접근, 실행, 관리의 중심이 될 것이다. 맵리듀스(MapReduce)는 핵심적인(그러나 유일하지는 않은) 개발 프레임워크가 된다. 맵리듀스는 인라인 분석과 트랜잭션 컴퓨팅을 위한, 더 큰 범위를 다루지만 아직 대부분 정의되지 않은 가상화 아키텍처의 일부분이 될 것이다.

클라우드 빅 데이터 우주를 끝에서 끝까지 연결할 계층, 인터페이스, 추상화를 설계한 사람은 아직 없다. 이것 역시 어려운 일이다.  editor@itworld.co.kr


2013.06.27

IDG 블로그 | 빅 데이터에는 데이터 가상화가 필요하다

James Kobielus | InfoWorld
클라우드의 빅 데이터를 보면 많은 수의 노드, 클러스터, 티어에 걸쳐 수많은 잠재적 기능 서비스 계층이 흩어져 있어 어떻게 다루어야 하는지 엄두가 나지 않곤 한다.

심호흡을 하자. 첫 번째 단계는 포괄적인 클라우드 데이터 가상화 인프라스트럭처 계획을 수립하는 것이다. 가상화된 클라우드 분석론은 새로운 시대의 빅 데이터 패러다임이다. 여러 종류로 이루어진 리소스로서의 빅 데이터에 대한 일원화된 접근, 모델링, 배포, 최적화, 관리를 가능하게 하는 통합 접근 방법이다.

데이터 가상화는 모든 가상화가 그렇듯이 이종으로 구성된 인프라스트럭처를 하나의 논리적으로 통합된 리소스인 것처럼 접근, 관리, 최적화할 수 있게 해주는 방법이다. 이를 통해 일부 서비스, 기능 또는 기타 리소스의 내부적 구현에서 외부 인터페이스를 추상화할 수 있다.

데이터 가상화의 중심은 관계형, 하둡, NoSQL 등의 이질적 백엔드 데이터 리포지토리에 대해 논리적으로 통합된 접근, 쿼리, 보고, 예측 분석 및 기타 애플리케이션을 지원하는, SQL 가상화 접근 방법에 사용되는 것과 같은 추상화 계층이다. 물론 데이터 가상화는 경우에 따라 여러 지리적 위치와 클라우드 환경에 걸쳐 분산되어 있는 스토리지 및 서버 플랫폼과 같은 인프라스트럭처 가상화의 다른 계층들에 의존할 수 있다.

얼마나 많은 계층을 논하든, 가상화는 데이터와 관련하여 매력적이지 않은 주제의 전형이다. 그러나 빅 데이터 클라우드 플랫폼에서 다음과 같은 비즈니스 임무를 처리해야 한다면 가상화가 기반이 되어야 한다.

- 탄력적인 유체 토폴로지의 고급 분석 리소스
- 소스, 형식, 스키마에 관계없이 닥치는 대로 정보를 집어삼키는 리소스
- 저장된 정보와 이동 중인 정보의 동적인 혼합체를 지속, 집계, 처리하는 민첩한 리소스
- 프라이빗 클라우드와 퍼블릭 클라우드 모두에 걸쳐 가치 사슬 내에서, 그리고 사슬을 타고 확산되는 연합된 리소스
- 기존 도구 및 애플리케이션과의 상호운용성을 손상시키지 않고 백엔드 데이터 플랫폼을 변경, 확장/축소하고 발전시킬 수 있게 해주는 매끄러운 상호운용성 리소스

물론 어려운 주문이다. 데이터 가상화와 가상화된 기반이라는 것은 말로 할 때보다 실제 행동으로 옮길 때 훨씬 더 어렵다. 게다가 구현, 관리 또는 최적화에 따르는 비용이 저렴하지도 않다.

클라우드 기반 빅 데이터에는 날로 복잡해지는 가상화된 인프라스트럭처가 필요하다. 대부분의 데이터 전문가들이 이 까다로운 주제에 접근하는 방법이 천문학자들이 우주의 암흑 물질 지도를 작성할 때 사용하는 방법과 거의 같다는 사실은 놀라운 일도 아니다. 필수적이지만 따분하고 지루한 일이다. 사실을 말하자면 빅 데이터 전문가들은 전략적 망원경의 방향을 신기술의 하늘에서 가장 밝게 빛나는 매력적인 주제들(하둡, NoSQL 등)을 향하도록 하는 편을 훨씬 더 선호할 것이다.

클라우드 빅 데이터 애플리케이션의 범위가 확장되면 거의 틀림없이 가상화도 더 진행해야 한다. 혼성 빅 데이터 클라우드의 끈질긴 이종성이 그 방향으로 유도한다. 프라이빗 클라우드 내에서 지속적으로 이루어지는 빅 데이터 플랫폼 반죽으로 인해 기존 설비와 새로운 접근 방법 사이를 연결하는 가상화 패브릭이 필요해진다.

반죽을 유발하는 것은 지속적인 플랫폼 현대화와 마이그레이션 작업, 혁신적인 전용 플랫폼을 클라우드에 도입해야 할 필요성, 그리고 업체의 제품 향상 주기다. 모든 빅 데이터 이니셔티브를 하나의 “만능” 공용 클라우드 서비스에 모을 수 있을 때까지는 퍼블릭, 프라이빗, 하이브리드 클라우드 아키텍처의 다양한 조합에 대한 접근을 가상화해야 한다.

데이터 가상화의 범위는 비즈니스 요구 사항과 빅 데이터 환경의 복잡성에 따라, 그리고 위험, 복잡성, 골치 아픈 일을 얼만큼 용인하느냐에 따라 달라진다.

앞으로 수년 동안 더욱 복잡한 분석 모델, 규칙, 정보가 빅 데이터 클라우드에서 융합되면서 이 플랫폼은 가상화된 접근, 실행, 관리의 중심이 될 것이다. 맵리듀스(MapReduce)는 핵심적인(그러나 유일하지는 않은) 개발 프레임워크가 된다. 맵리듀스는 인라인 분석과 트랜잭션 컴퓨팅을 위한, 더 큰 범위를 다루지만 아직 대부분 정의되지 않은 가상화 아키텍처의 일부분이 될 것이다.

클라우드 빅 데이터 우주를 끝에서 끝까지 연결할 계층, 인터페이스, 추상화를 설계한 사람은 아직 없다. 이것 역시 어려운 일이다.  editor@itworld.co.kr


X