2015.09.21

글로벌 칼럼 | 하둡이 곤경에 빠졌다고? 그건 가트너만의 생각일뿐이다

Andrew C. Oliver | InfoWorld
"거짓말, 새빨간 거짓말, 그리고 IT 산업."
5월 말, 가트너는 하둡 산업 전반에 걸친 헛소리같은 설문조사를 발표한 적이 있다. 284명의 가트너 리서치 회원 CIO들을 대상으로 한 이 설문조사에서 가트너는 응답자 가운데 26% 만이 하둡을 배포 중이거나 파일럿 프로젝트를 하고 있거나 실험 중에 있다고 주장했다.

이 설문조사는 샘플 규모가 너무 작아 오차의 폭이 너무 커 실제 세계에서 필자와 같은 사람들의 엄청난 반론을 받고 있다.

가트너는 예전부터 잘못하고 있었다. 반면 최근 앳스케일(AtScale)이 2,100명을 대상으로 한 설문조사는 실제 현장에서 하는 얘기들과 상당히 근접한 것을 볼 수 있었다. 가장 드라마틱한 것은 이 설문조사에서 응답자의 76%가 하둡을 사용할 계획이거나 또는 이미 사용하고 있거나 더 많이 사용할 계획이라고 말했다는 점이다.

물론, 앳스케일 숫자는 조금 걸러서 들을 필요는 있다. 앳스케일이 하둡 솔루션 제공업체이며 이번 설문조사가 자체적으로 실시한 것이기 때문이다. 하지만 필자는 적어도 이 설문조사 결과가 가트너의 완전히 암울한 상황 예상보다는 좀더 실제 상황에 가까운 그림을 그리고 있다고 말할 수 있다.

하둡 킬러 앱, BI
이번 가트너의 설문조사에 충격을 받은 이가 있을 지 모른다. 하지만 앳스케일 설문조사는 하둡의 킬러 애플리케이션이 비즈니스 인텔리전스(business intelligence)라는 것을 시사하고 있다. 하둡을 사용할 계획이라는 응답자 가운데 69%가 BI를 선택했으며, 65%는 이미 사용하고 있었다.

이것이 놀랍다면 '가장 흔해빠진 하둡과 스파크 프로젝트'라는 기사를 읽어보자.

대부분의 기업은 빅데이터를 갖고 있지 않다. 단지 많은 새로운 비정형 또는 반정형 데이터 소스를 갖고 있을 뿐이다. 그리고 기업들은 이 데이터들을 합치고 시각화 툴로 연결시키면 인사이트를 얻을 수 있을 것으로 생각한다.

이 보고서에 따르면 대부분 기업들은 타블로(Tableau) 또는 엑셀(Excel)을 사용해 인사이트를 획득하길 원한다. 이미 하둡을 사용하고 있는 기업은 아마도 타블로를 사용하고 있었으며(51%), 하둡을 사용하지 않는 기업은 엑셀을 사용하고 있었다(60%).

이런 상황은 필자가 본 현장과 일치한다. 필자 회사의 주 소득원은 데이터 레이크, 일명 엔터프라이즈 데이터 허브라고도 하는 것을 구축하는 일이다.

이 설문조사에 따르면, 새로운 하둡 기반의 시스템들은 일반적으로 테라데이터(Teradata)나 네티자(Netezza)를 대신하지 못한다. 대신, 고객들은 새로운 형태의 데이터를 조정하기 위한 기존 MPP(Massive Parallel Processing)를 증가시키길 원하거나 MPP를 갖출 준비가 전혀 되어있지 않았다.

필자의 경험상으로, 기업들은 자신들의 MPP 시스템들이 자신들이 원하는 만큼 커질 수 없다는 점을 발견한다. 그리고 기업들은 기존 하드웨어 또는 아마존에 하둡을 밀어넣을 수 있으며 그들의 성장에 맞춰 노드들을 추가할 수 있다는 걸 발견한다.

이번 연구에 따르면, 하둡 솔루션의 낮은 비용은 대부분의 기업들을 끌어들이는 주요 요소가 아니었다. 그러나 비용과 규모는 항상 연관이 있다. 만약 자신이 현재 BI와 애널리틱스를 찾고 있다면 상업용 하드웨어 컬럼러 데이터베이스를 구입할 생각은 하지 않을 것이다.

사실 자신이 네티자로 아키텍처를 그렸고 그 다음으로 하이브나 H베이스(HBase)에 더해 피닉스(Phoenix) 아키텍처를 생각한다면 매우 유사한 구조를 보게 될 것이다. IBM의 네티자를 어떻게 생각하느냐? 좋다, 이는 스파크를 생각나게 한다

셀프 서비스가 기업들의 목표
대부분의 기업들은 하둡에서 셀프 서비스 단계에 도달하기를 희망한다. 이번 연구에 따르면, 주요 비즈니스 가치에 도달했던 기업들은 이미 일부 셀프 서비스 단계에 도달했다.

셀프 서비스는 다양한 의미를 내포한다. 한쪽에는 하둡을 관리하기 위한 이를 포함해 일부 사람들이 필요하다. 다른 한편으로 데이터 호수에 충분한 데이터 양이 필요한데, 새로운 피드는 각각의 새로운 보고서 또는 대시보드를 필요치 않는다.

또한 SQL과 함께 질의를 할 수 있는 일반적인 스트럭처와 뷰가 필요하다. 그렇다, 사람들이 셀프 서비스를 실행하는 주요 방법은 SQL 툴과 함께하는 것이다.

이번 연구에 따르면, 대부분의 사람들이 셀프서비스에 도달하지 못하며, 그들이 찾고자 하는 확실한 가치를 달성하지 못한다.

빈약한 10 노드 클러스터들은 패배한다
하둡 2의 최소 단위는 12노드다. 이보다 작은 것은 없으며, 이미 SQL 서버 내 더 느린 버전을 갖고 있다. 이번 연구에 따르면, 클러스터들을 크면 클수록 좀더 많은 가치에 달성할 수 있다.

이는 그리 충격적인 사실은 아니다. 필자가 이미 몇번이나 언급한 사실이다. 하이브는 느리지만 데이터 양에서는 좋으며 다른 하둡 기술들도 언급할 수 있다.

만약 10노드 클러스터를 갖고 있다면, 이는 간신히 기능적으로 겨우 구색만 갖췄을뿐이다. 이를 통해서는 자신이 원하는 가치에 다다를 수 없다.

기업이 하둡을 도입하는 이유는 수익 창출(14%) 또는 확장(37%)으로, 비용 절감보다 더 중요한 비즈니스 요소로 나타났다. 그러나 실제로는 확장하지 못하며 그래서 가치에 도달하지도 못한다.

필자는 이것들이 연관성이 있다고 수없이 말해왔으며, 다른 설문조사에서도 이와 같은 사실을 발견했다. 자신이 의사결정권을 가진 경영진이며, 결연을 맺은 업체와 함께 진행하고 있다면 가치에 도달할 기회가 20% 이상 올라간다. 경험상으로 경영진들은 보통 더 큰 클러스터에서 결과를 도출한다.

깊게 탐구하기
필자는 오픈소스 개발자들로 자사의 뼈대를 만들었다. 그러나 현재 필자는 소위 영업이라 부르는, 영업 엔지니어링 역할을 더 많이 하고 있다.

'초점을 맞춰야 하는 산업군은 어디인가'와 같은 재미있는 질문에 대응하곤 하는데, 필자는 금융 서비스, 헬스 케어, 소매, 제조업 등을 꼽았다. 이는 주로 기능적인 것으로, 지금까지 우리가 어떻게 해 왔는지, 그리고 우리가 지금 어디에 있고, 누가 우리를 가장 많이 요청하는 지에 대한 것들이다.

이번 설문조사에 따르면, 소매업종은 하둡을 사용하는 기업 목록조차 만들지 못했다. 사실 소매업종은 초기 성공 사례가 많이 발굴됐던 대표적인 업종이었다.

제조, 컨설팅, 통신, 금융 서비스, 그리고 헬스케어는 모두 하둡 사용 기업 목록을 만들었다. 필자의 견해로는 이 기회요소들은 금융 서비스와 헬스케어 분야에서 꽤 빨리 성장하고 있다.
금융 서비스 업체들은 비교적 성숙한 하둡 사용자들을 많이 보유했을 것이라 예상하지만 사실 이는 최고 은행권에만 국한되어 있다. 차순위 금융권들은 가까스로 구색은 갖추고 있지만, 전문가를 보유하길 원한다.

반면, 미국 건강보험법(Affordable Care Act)은 전자 의료 기록의 의미있는 사용을 위한 필요에 의해 추진됐다. 전자 의료 기록은 감염 관리, 주민 건강 관리 등 서로 다른 시스템으로부터의 데이터를 포함한다.

실제로 의미있는 정보를 끌어내는 것은 다양한 데이터소스로부터 데이터를 통합하고 있다는 걸 의미한다. 이런 얘기는 지금까지 무수히 들어왔던 수많은 데이터 통합, 데이터 레이크, BI 등과 꽤나 유사하게 들린다.

인재 격차
가트너의 하둡에 대한 전망이 옳다면, 하둡 기술 전문가들을 찾는데 어려움이 없을 것이다.

필자는 하둡 숙련자들을 뽑는다는 건 쉬운 일이 아니라고 자신있게 말할 수 있다. 현재 자신이 하둡 숙련자를 보유하고 있다면 그들에게 좀더 많은 봉급을 지불해야 하며, 1,000명이나 모자른 인력난으로 인해 그들이 다른 곳으로 가지 않도록 힘을 쏟아야 한다.

앳스케일의 설문조사에 따르면, 하둡을 적용하는데 가장 큰 과제로 응답자의 61%가 인력이라고 판단했다. 이는 한때 하둡을 적용한 고객들도 마찬가지였다. 이 기업들은 관리, 보안, 성능, 거버넌스, 접근성 등 하둡의 새로운 용처를 발견했음에도 불구하고 인력 충원에 어려움을 겪고 있었다. 인력은 인식하는 것보다 더 큰 문제였다.

하둡의 빛나는 미래가 보인다
앳스케일 연구에서 49%의 응답자가 이미 가치를 찾았으며, 45%는 가치에 도달하는데 낙관적이라고 나타났다. 단지 6%만이 비관적이었으며 3%는 하둡 사용 계획을 줄일 것이라고 응답했다.

이 숫자를 그대로 믿기에는 너무 낙관적이다. 그렇긴 하지만 이 설문조사는 필자가 현장에서 봤던 것들을 반영하고 있다. 주로 통합을 위한 빠르고 안정적인 적용과 급속도로 빨리 성숙되어가는 기술, 그리고 그 속에서 가치를 얻고자 하는 이들이 바로 그것이다. editor@itworld.co.kr


2015.09.21

글로벌 칼럼 | 하둡이 곤경에 빠졌다고? 그건 가트너만의 생각일뿐이다

Andrew C. Oliver | InfoWorld
"거짓말, 새빨간 거짓말, 그리고 IT 산업."
5월 말, 가트너는 하둡 산업 전반에 걸친 헛소리같은 설문조사를 발표한 적이 있다. 284명의 가트너 리서치 회원 CIO들을 대상으로 한 이 설문조사에서 가트너는 응답자 가운데 26% 만이 하둡을 배포 중이거나 파일럿 프로젝트를 하고 있거나 실험 중에 있다고 주장했다.

이 설문조사는 샘플 규모가 너무 작아 오차의 폭이 너무 커 실제 세계에서 필자와 같은 사람들의 엄청난 반론을 받고 있다.

가트너는 예전부터 잘못하고 있었다. 반면 최근 앳스케일(AtScale)이 2,100명을 대상으로 한 설문조사는 실제 현장에서 하는 얘기들과 상당히 근접한 것을 볼 수 있었다. 가장 드라마틱한 것은 이 설문조사에서 응답자의 76%가 하둡을 사용할 계획이거나 또는 이미 사용하고 있거나 더 많이 사용할 계획이라고 말했다는 점이다.

물론, 앳스케일 숫자는 조금 걸러서 들을 필요는 있다. 앳스케일이 하둡 솔루션 제공업체이며 이번 설문조사가 자체적으로 실시한 것이기 때문이다. 하지만 필자는 적어도 이 설문조사 결과가 가트너의 완전히 암울한 상황 예상보다는 좀더 실제 상황에 가까운 그림을 그리고 있다고 말할 수 있다.

하둡 킬러 앱, BI
이번 가트너의 설문조사에 충격을 받은 이가 있을 지 모른다. 하지만 앳스케일 설문조사는 하둡의 킬러 애플리케이션이 비즈니스 인텔리전스(business intelligence)라는 것을 시사하고 있다. 하둡을 사용할 계획이라는 응답자 가운데 69%가 BI를 선택했으며, 65%는 이미 사용하고 있었다.

이것이 놀랍다면 '가장 흔해빠진 하둡과 스파크 프로젝트'라는 기사를 읽어보자.

대부분의 기업은 빅데이터를 갖고 있지 않다. 단지 많은 새로운 비정형 또는 반정형 데이터 소스를 갖고 있을 뿐이다. 그리고 기업들은 이 데이터들을 합치고 시각화 툴로 연결시키면 인사이트를 얻을 수 있을 것으로 생각한다.

이 보고서에 따르면 대부분 기업들은 타블로(Tableau) 또는 엑셀(Excel)을 사용해 인사이트를 획득하길 원한다. 이미 하둡을 사용하고 있는 기업은 아마도 타블로를 사용하고 있었으며(51%), 하둡을 사용하지 않는 기업은 엑셀을 사용하고 있었다(60%).

이런 상황은 필자가 본 현장과 일치한다. 필자 회사의 주 소득원은 데이터 레이크, 일명 엔터프라이즈 데이터 허브라고도 하는 것을 구축하는 일이다.

이 설문조사에 따르면, 새로운 하둡 기반의 시스템들은 일반적으로 테라데이터(Teradata)나 네티자(Netezza)를 대신하지 못한다. 대신, 고객들은 새로운 형태의 데이터를 조정하기 위한 기존 MPP(Massive Parallel Processing)를 증가시키길 원하거나 MPP를 갖출 준비가 전혀 되어있지 않았다.

필자의 경험상으로, 기업들은 자신들의 MPP 시스템들이 자신들이 원하는 만큼 커질 수 없다는 점을 발견한다. 그리고 기업들은 기존 하드웨어 또는 아마존에 하둡을 밀어넣을 수 있으며 그들의 성장에 맞춰 노드들을 추가할 수 있다는 걸 발견한다.

이번 연구에 따르면, 하둡 솔루션의 낮은 비용은 대부분의 기업들을 끌어들이는 주요 요소가 아니었다. 그러나 비용과 규모는 항상 연관이 있다. 만약 자신이 현재 BI와 애널리틱스를 찾고 있다면 상업용 하드웨어 컬럼러 데이터베이스를 구입할 생각은 하지 않을 것이다.

사실 자신이 네티자로 아키텍처를 그렸고 그 다음으로 하이브나 H베이스(HBase)에 더해 피닉스(Phoenix) 아키텍처를 생각한다면 매우 유사한 구조를 보게 될 것이다. IBM의 네티자를 어떻게 생각하느냐? 좋다, 이는 스파크를 생각나게 한다

셀프 서비스가 기업들의 목표
대부분의 기업들은 하둡에서 셀프 서비스 단계에 도달하기를 희망한다. 이번 연구에 따르면, 주요 비즈니스 가치에 도달했던 기업들은 이미 일부 셀프 서비스 단계에 도달했다.

셀프 서비스는 다양한 의미를 내포한다. 한쪽에는 하둡을 관리하기 위한 이를 포함해 일부 사람들이 필요하다. 다른 한편으로 데이터 호수에 충분한 데이터 양이 필요한데, 새로운 피드는 각각의 새로운 보고서 또는 대시보드를 필요치 않는다.

또한 SQL과 함께 질의를 할 수 있는 일반적인 스트럭처와 뷰가 필요하다. 그렇다, 사람들이 셀프 서비스를 실행하는 주요 방법은 SQL 툴과 함께하는 것이다.

이번 연구에 따르면, 대부분의 사람들이 셀프서비스에 도달하지 못하며, 그들이 찾고자 하는 확실한 가치를 달성하지 못한다.

빈약한 10 노드 클러스터들은 패배한다
하둡 2의 최소 단위는 12노드다. 이보다 작은 것은 없으며, 이미 SQL 서버 내 더 느린 버전을 갖고 있다. 이번 연구에 따르면, 클러스터들을 크면 클수록 좀더 많은 가치에 달성할 수 있다.

이는 그리 충격적인 사실은 아니다. 필자가 이미 몇번이나 언급한 사실이다. 하이브는 느리지만 데이터 양에서는 좋으며 다른 하둡 기술들도 언급할 수 있다.

만약 10노드 클러스터를 갖고 있다면, 이는 간신히 기능적으로 겨우 구색만 갖췄을뿐이다. 이를 통해서는 자신이 원하는 가치에 다다를 수 없다.

기업이 하둡을 도입하는 이유는 수익 창출(14%) 또는 확장(37%)으로, 비용 절감보다 더 중요한 비즈니스 요소로 나타났다. 그러나 실제로는 확장하지 못하며 그래서 가치에 도달하지도 못한다.

필자는 이것들이 연관성이 있다고 수없이 말해왔으며, 다른 설문조사에서도 이와 같은 사실을 발견했다. 자신이 의사결정권을 가진 경영진이며, 결연을 맺은 업체와 함께 진행하고 있다면 가치에 도달할 기회가 20% 이상 올라간다. 경험상으로 경영진들은 보통 더 큰 클러스터에서 결과를 도출한다.

깊게 탐구하기
필자는 오픈소스 개발자들로 자사의 뼈대를 만들었다. 그러나 현재 필자는 소위 영업이라 부르는, 영업 엔지니어링 역할을 더 많이 하고 있다.

'초점을 맞춰야 하는 산업군은 어디인가'와 같은 재미있는 질문에 대응하곤 하는데, 필자는 금융 서비스, 헬스 케어, 소매, 제조업 등을 꼽았다. 이는 주로 기능적인 것으로, 지금까지 우리가 어떻게 해 왔는지, 그리고 우리가 지금 어디에 있고, 누가 우리를 가장 많이 요청하는 지에 대한 것들이다.

이번 설문조사에 따르면, 소매업종은 하둡을 사용하는 기업 목록조차 만들지 못했다. 사실 소매업종은 초기 성공 사례가 많이 발굴됐던 대표적인 업종이었다.

제조, 컨설팅, 통신, 금융 서비스, 그리고 헬스케어는 모두 하둡 사용 기업 목록을 만들었다. 필자의 견해로는 이 기회요소들은 금융 서비스와 헬스케어 분야에서 꽤 빨리 성장하고 있다.
금융 서비스 업체들은 비교적 성숙한 하둡 사용자들을 많이 보유했을 것이라 예상하지만 사실 이는 최고 은행권에만 국한되어 있다. 차순위 금융권들은 가까스로 구색은 갖추고 있지만, 전문가를 보유하길 원한다.

반면, 미국 건강보험법(Affordable Care Act)은 전자 의료 기록의 의미있는 사용을 위한 필요에 의해 추진됐다. 전자 의료 기록은 감염 관리, 주민 건강 관리 등 서로 다른 시스템으로부터의 데이터를 포함한다.

실제로 의미있는 정보를 끌어내는 것은 다양한 데이터소스로부터 데이터를 통합하고 있다는 걸 의미한다. 이런 얘기는 지금까지 무수히 들어왔던 수많은 데이터 통합, 데이터 레이크, BI 등과 꽤나 유사하게 들린다.

인재 격차
가트너의 하둡에 대한 전망이 옳다면, 하둡 기술 전문가들을 찾는데 어려움이 없을 것이다.

필자는 하둡 숙련자들을 뽑는다는 건 쉬운 일이 아니라고 자신있게 말할 수 있다. 현재 자신이 하둡 숙련자를 보유하고 있다면 그들에게 좀더 많은 봉급을 지불해야 하며, 1,000명이나 모자른 인력난으로 인해 그들이 다른 곳으로 가지 않도록 힘을 쏟아야 한다.

앳스케일의 설문조사에 따르면, 하둡을 적용하는데 가장 큰 과제로 응답자의 61%가 인력이라고 판단했다. 이는 한때 하둡을 적용한 고객들도 마찬가지였다. 이 기업들은 관리, 보안, 성능, 거버넌스, 접근성 등 하둡의 새로운 용처를 발견했음에도 불구하고 인력 충원에 어려움을 겪고 있었다. 인력은 인식하는 것보다 더 큰 문제였다.

하둡의 빛나는 미래가 보인다
앳스케일 연구에서 49%의 응답자가 이미 가치를 찾았으며, 45%는 가치에 도달하는데 낙관적이라고 나타났다. 단지 6%만이 비관적이었으며 3%는 하둡 사용 계획을 줄일 것이라고 응답했다.

이 숫자를 그대로 믿기에는 너무 낙관적이다. 그렇긴 하지만 이 설문조사는 필자가 현장에서 봤던 것들을 반영하고 있다. 주로 통합을 위한 빠르고 안정적인 적용과 급속도로 빨리 성숙되어가는 기술, 그리고 그 속에서 가치를 얻고자 하는 이들이 바로 그것이다. editor@itworld.co.kr


X