2016.08.11

데이터 분석 프로젝트 확장을 위한 실행 지침

Stacy Collett | Computerworld
미 환경 보호국(U.S. Environmental Protection Agency)의 새로운 수석 데이터 과학자는 기관에서의 빅데이터 분석 도입을 2007년 아이폰 조기 도입에 비유했다. 미 환경 보호국의 로빈 토퉁갈은 "얼리 어댑터들은 그것이 정확히 무엇인지 몰랐지만 가치를 인지했기 때문에 사용하고 싶어했다"고 말했다.


Credit: Getty Images Bank

여러 혁신 리더들도 같은 생각이다. IDC는 지난해 약 1,220억 달러의 매출을 기록한 빅데이터와 비즈니스 분석 시장이 연간 총 23.1%의 성장률을 기록하면서 2019년에는 1,870억 달러로 성장할 것으로 전망했다.

대부분의 빅데이터와 분석 툴 얼리 어댑터들은 자사가 인사이트를 지향하는 기업이 되는데 도움되기를 바란다. 하지만 목표를 이루기까지는 ▲필요한 데이터 접근의 어려움 ▲더욱 강력한 컴퓨터 시스템의 필요 ▲가치 제안이 아직 입증되지 않은 기술에 대한 사용자들 사이의 열정 심기 등 여러 문제에 직면할 것이다. 데이터 분석 인프라를 확장하기 위한 여러 이야기와 요령에 대해 알아보도록 하자.

직감이 아닌 데이터에 의지하기
클라우드 및 가상화 소프트웨어 벤더인 VM웨어(VMware) IT기업 애플리케이션 및 플랫폼 부사장 에이본 싱 푸리는 "VM웨어 영업 계획팀은 한 때 수동 프로세스, 스프레드시트, 그리고 '직감(gut feeling)'을 이용해 자사의 4,000명에 달하는 국제 영업 직원들과 200명의 영업 운영 직원들을 위한 목표를 설정했었다"고 말했다. 

VM웨어는 국제적인 시장 전략과 지역 시장의 미묘한 차이를 처리하기에 충분히 유연한 영업 자동화 툴이 필요했다. 그래서 데이터 및 분석 기반 시스템으로 영업 프로세스를 강화하기에 이르렀다. 푸리와 그의 팀은 다차원 모델링 역량을 개발해 서드파티 시장 연구원의 데이터와 CRM, 마스터 데이터 관리, ERP, 기업 데이터 웨어하우스 시스템을 통합했다.

이 새로운 플랫폼은 집계를 수행하고 거대한 데이터 볼륨에서 신속한 분석을 실시하는 피보탈 소프트웨어(Pivotal Software)의 그린플럼(Greenplum) 시스템을 기반으로 구축된 기존의 기업 데이터 웨어하우스를 활용한다. 그리고 집계된 데이터는 애너플랜(Anaplan)의 비즈니스 모델링 및 영업 계획 툴로 보내진다. 데이터를 웨어하우스에서 모델링으로 이동하면서 시스템 성능부터 문제가 발생했다.

푸리는 "모델을 실행하는데 수 시간이 소요되었다. 그래서 우리는 IBM의 운영 결정 관리 솔루션을 기반으로 그 사이에 계층을 삽입했다"고 설명했다. 이제 비즈니스 사용자들은 데이터 웨어하우스와 애너플랜 툴 사이에서 모델링 툴로 이동하는 데이터에 적용해야 하는 조건을 관리해 모델링 속도를 제어할 수 있다.

또한 비즈니스 사용자는 스스로 조건을 변경하고 가정 분석(what-if analysis)을 수행할 수 있다. 푸리는 "사용자들이 셀프서비스를 가능한 많이 활용하게끔 해놓았기 때문에 IT 부서가 모든 작은 변화를 처리할 필요가 없다"고 말했다.

현재 VM웨어의 영업팀은 3년 분량의 데이터를 분석해 목표에 대한 그룹들의 성과를 파악하고 미래 계획을 결정할 수 있다. 인메모리(In-memory) 분석 툴의 한 모델에는 약 55억 개의 데이터 셀이 들어 있다고. VM웨어의 영업 계획 프로세스는 향상된 가정 분석 역량 덕분에 8주에서 4주로 단축되었으며 할당 정확도는 65%에서 70%로 증가했고 관할권 분쟁은 30%나 감소했다.

- 푸리의 조언: 기존의 데이터 웨어하우스 투자를 활용하라. "기존의 데이터 그리고 속도와 처리를 통해 얻게 된 아키텍처의 시너지 효과를 솔루션 구축의 기초로 활용했기 때문에 처음부터 시작하는 것보다 훨씬 나았다.

크라우드소싱(Crowdsourcing)으로 데이터 덧붙이기
2013년 BNY 멜론(BNY Mellon)은 한 조각의 데이터가 조직에 유입되는 순간부터 모든 단계를 아우르는 전체 수명주기 동안 마치 소포를 가져다가 배달하는 회사처럼 전체 배송 과정을 추적할 수 있는 분석 시스템을 상상했다.

BNY 멜론의 NEXEN 디지털 에코시스템(NEXEN Digital Ecosystem)에서 빅데이터 및 분석 구성요소인 디지털 펄스(Digital Pulse)가 해당 기능을 제공한다. 이 플랫폼은 모든 비즈니스 라인에서 데이터를 수집하고 한 곳에 보관한 후 시각화, 예측 분석, 기계 학습을 적용해 데이터를 분석한다. 사업부는 그 결과를 이용해 프로세스와 성과를 개선하고 고객 경험을 향상시킨다.

BNY 멜론 고객 경험 제공 상무이사 제니퍼 콜은 "이제 분석은 일상적인 업무에 녹아 들어 있다"고 말했다. 예를 들어, 3개의 조종실에는 BNY 멜론이 가입되어 있는 모든 전용 통신로를 통해 전 세계의 최신 현금 잔고를 보여주는 거대한 모니터들이 있다. 콜은 "이를 통해 생성되는 데이터를 실시간으로 볼 수 있다. 예전에는 불가능했던 일이다"고 전했다.

콜은 "35개 국가의 100개 시장에서 이질적인 유형의 데이터를 수집하는 것이 초기에는 벅찬 일이었다. 하지만 팀 리더들은 기본적으로 데이터의 소화를 크라우드소싱화함으로써 부담을 완화했다"고 설명했다.

소규모 거버넌스팀이 데이터 선택 및 준비에 관한 설명서를 작성하고 모든 사업부로 전송했다. 사용자들은 설명서에 따랐으며 거버넌스팀에게 시스템에 제출하고 싶은 데이터를 이야기했다. 해당 팀은 요청 사항을 검토하여 제안된 데이터가 적절한 형식이며 가치를 높이고 페이로드가 자동화되도록 했다.

콜은 "이 작업을 전 세계 5만 명과 1만 3,000명의 기술 전문가들에게 확대하면서 훨씬 수월해졌다"고 말했다. 물론, 이 작업에는 약 1년의 구축 기간이 소요되었다.

초기 이해당사자들의 투입에도 불구하고 도입이 여전히 큰 문제였다. 콜은 "BNY 멜론 분석 시스템은 우리가 시각적인 결과를 사용자의 손에 쥐어줄 때까지 도약하지 못했다"고 말했다. 현재 1만 3,000명의 직원들과 3,500명의 외부 사용자들이 해당 플랫폼을 이용하고 있다. 매월 14억 개 이상의 데이터 '이벤트'가 저장되고 있으며 124개의 애플리케이션이 이행되었다.

- 콜의 조언: 피드백 루프를 단축하기 위해서라면 무엇이든 하라. 최종 사용자 또는 해당 사안 전문가에게 무엇이든 시각적으로 제시하면 반복이 가능하다.

데이터 설득의 미학
미국 캘리포니아 주 패서디나에 위치하고 있는 NASA의 제트추진력연구소(Jet Propulsion Laboratory, JPL) IT CTO이자 CIO를 맡고 있는 톰 소더스톰은 "혁신 리더들은 부서들이 데이터를 공유하도록 설득하는데 있어서 힘든 싸움에 직면할 수 있다. 경우에 따라 사람들은 그 소유로 인한 이익을 얻거나 데이터 때문에 창피를 당하고 싶지 않기 때문에 데이터 접근을 허용하지 않으려 한다"고 말했다.

소더스톰은 데이터 소유자들에게 프로토타입을 통해 예상되는 결과를 미리 보여줌으로써 공유하도록 설득했다. 예를 들어, 소더스톰은 "우리는 대형 프로젝트가 끝날 때 사람들이 어떤 결과를 원하는지 알고 싶었다. 우리는 시간의 경과에 따른 HR 근무 시간 기록표, 제목, 프로젝트 코드를 찾고 있었다. 이 데이터는 민감하며 데이터를 소유한 사람들은 이를 포기하지 않고 싶어했다"고 말했다.

그래서 소더스톰은 프로젝트에 참여한 IT직원에 관한 데이터만 공유하기로 합의한 프로젝트 지지자인 CIO에게 "이제 우리는 샘플 보고서를 분석하고 구축할 하위 데이터 집합이 있다"고 말했다. 그러자 그 이해당사자는 '이것이 바로 내가 찾던 것이다. 나머지 JPL에 대해서는 어떻게 얻을 수 있는가?'라고 반문했다는 것이다.

이에 대해 소더스톰은 "우리가 데이터에 접근할 수 있도록 허용하면 된다. 시각적인 분석이 시작의 핵심이었으며 우리는 계속해서 예측 및 규범 분석을 진행했다"고 말했다.

현재 JPL의 데이터 소유자들은 공유를 원한다. 예를 들어, 소더스톰은 우주선 그룹이 "확장하거나 패턴을 분석하거나 메시지를 검색하거나 우주선을 서로 비교할 수 있는 300억 개의 데이터 포인트(Data Point)에 직접 접근할 수 있다. 예전에는 불가능했었다"고 말했다.

- 소더스톰의 조언: 우선 열정적인 개발자 및 비즈니스 사용자를 통해 비즈니스 사용사례를 찾아라. 자신이 원하는 것에 관한 1페이지 분량의 제안서를 작성하고 그들이 볼 수 있도록 프로토타입을 간단히 완성하라. 인적 자원 데이터는 가치를 신속하게 보여줄 수 있는 가능성이 가장 크다. 
현재 JPL은 사업부들에 데이터 과학자를 파견하고 있다. 데이터 과학자들은 자신의 부서의 쟁점을 이해하며 신속하게 대응할 수 있지만 결속력은 느슨한 형태로 협력하고 있다.

분석 실무자 커뮤니티 구축
EPA 수석 데이터 과학자 로빈 토퉁갈은 "EPA의 데이터 분석 도입은 해당 기관이 수동 과정에서 전자 보고로 이행하고 센서를 이용해 공기 질, 수질, 토질과 관련된 지표 등의 환경 데이터를 수집하기 시작하면서 시작되었다"고 말했다.

토퉁갈은 2015년 9월에 모든 데이터로부터 인사이트를 얻기 위해 고용되었다. 그는 8개월 만에 민첩한 스타트업에 일반적인 접근방식을 이용해 실행 가능한 분석 플랫폼을 구축했으며 신속하게 혁신하며 실수로부터 배웠다.

토퉁갈은 규모에 대해서는 이중적인 접근방식을 취했다. "데이터 과학자들은 구글(Google), 페이스북(Facebook), 트위터(Twitter), 링크드인(LinkedIn) 등의 모든 새 플랫폼과 기술을 살피며 이런 것들을 활용해 임무를 수행할 수 있는 방법에 대해 묻고 있다"고 설명했다.

토퉁갈은 "우리는 가치를 정확히 알 수 없지만 이런 기술이 무엇인가를 하는데 도움이 될 수 있다는 것을 알고 있다"고 말했다. 또한 얼리 어댑터로 유명하며 분석이 가치를 제공한다고 생각하는 EPA 내의 약 10개 그룹과 협력하고 있다.

토퉁갈은 "그들이 나에게 찾아와 데이터, 자원, 사람들을 제공함으로써 배울 의지가 있다"며, "가치가 있다는 사실을 알기 때문에 데이터 과학자들을 통해 기관의 사람들이 훈련하고 있다"고 말했다.

현재 토퉁갈은 매주 분석 활동을 논의하고 공유하는 약 200명의 분석 실무자들로 구성된 커뮤니티를 구축했다. 그는 "그룹이 자체적으로 생태계로 성숙해져 서로를 도울 수 있기를 바란다"고 덧붙였다. editor@itworld.co.kr


2016.08.11

데이터 분석 프로젝트 확장을 위한 실행 지침

Stacy Collett | Computerworld
미 환경 보호국(U.S. Environmental Protection Agency)의 새로운 수석 데이터 과학자는 기관에서의 빅데이터 분석 도입을 2007년 아이폰 조기 도입에 비유했다. 미 환경 보호국의 로빈 토퉁갈은 "얼리 어댑터들은 그것이 정확히 무엇인지 몰랐지만 가치를 인지했기 때문에 사용하고 싶어했다"고 말했다.


Credit: Getty Images Bank

여러 혁신 리더들도 같은 생각이다. IDC는 지난해 약 1,220억 달러의 매출을 기록한 빅데이터와 비즈니스 분석 시장이 연간 총 23.1%의 성장률을 기록하면서 2019년에는 1,870억 달러로 성장할 것으로 전망했다.

대부분의 빅데이터와 분석 툴 얼리 어댑터들은 자사가 인사이트를 지향하는 기업이 되는데 도움되기를 바란다. 하지만 목표를 이루기까지는 ▲필요한 데이터 접근의 어려움 ▲더욱 강력한 컴퓨터 시스템의 필요 ▲가치 제안이 아직 입증되지 않은 기술에 대한 사용자들 사이의 열정 심기 등 여러 문제에 직면할 것이다. 데이터 분석 인프라를 확장하기 위한 여러 이야기와 요령에 대해 알아보도록 하자.

직감이 아닌 데이터에 의지하기
클라우드 및 가상화 소프트웨어 벤더인 VM웨어(VMware) IT기업 애플리케이션 및 플랫폼 부사장 에이본 싱 푸리는 "VM웨어 영업 계획팀은 한 때 수동 프로세스, 스프레드시트, 그리고 '직감(gut feeling)'을 이용해 자사의 4,000명에 달하는 국제 영업 직원들과 200명의 영업 운영 직원들을 위한 목표를 설정했었다"고 말했다. 

VM웨어는 국제적인 시장 전략과 지역 시장의 미묘한 차이를 처리하기에 충분히 유연한 영업 자동화 툴이 필요했다. 그래서 데이터 및 분석 기반 시스템으로 영업 프로세스를 강화하기에 이르렀다. 푸리와 그의 팀은 다차원 모델링 역량을 개발해 서드파티 시장 연구원의 데이터와 CRM, 마스터 데이터 관리, ERP, 기업 데이터 웨어하우스 시스템을 통합했다.

이 새로운 플랫폼은 집계를 수행하고 거대한 데이터 볼륨에서 신속한 분석을 실시하는 피보탈 소프트웨어(Pivotal Software)의 그린플럼(Greenplum) 시스템을 기반으로 구축된 기존의 기업 데이터 웨어하우스를 활용한다. 그리고 집계된 데이터는 애너플랜(Anaplan)의 비즈니스 모델링 및 영업 계획 툴로 보내진다. 데이터를 웨어하우스에서 모델링으로 이동하면서 시스템 성능부터 문제가 발생했다.

푸리는 "모델을 실행하는데 수 시간이 소요되었다. 그래서 우리는 IBM의 운영 결정 관리 솔루션을 기반으로 그 사이에 계층을 삽입했다"고 설명했다. 이제 비즈니스 사용자들은 데이터 웨어하우스와 애너플랜 툴 사이에서 모델링 툴로 이동하는 데이터에 적용해야 하는 조건을 관리해 모델링 속도를 제어할 수 있다.

또한 비즈니스 사용자는 스스로 조건을 변경하고 가정 분석(what-if analysis)을 수행할 수 있다. 푸리는 "사용자들이 셀프서비스를 가능한 많이 활용하게끔 해놓았기 때문에 IT 부서가 모든 작은 변화를 처리할 필요가 없다"고 말했다.

현재 VM웨어의 영업팀은 3년 분량의 데이터를 분석해 목표에 대한 그룹들의 성과를 파악하고 미래 계획을 결정할 수 있다. 인메모리(In-memory) 분석 툴의 한 모델에는 약 55억 개의 데이터 셀이 들어 있다고. VM웨어의 영업 계획 프로세스는 향상된 가정 분석 역량 덕분에 8주에서 4주로 단축되었으며 할당 정확도는 65%에서 70%로 증가했고 관할권 분쟁은 30%나 감소했다.

- 푸리의 조언: 기존의 데이터 웨어하우스 투자를 활용하라. "기존의 데이터 그리고 속도와 처리를 통해 얻게 된 아키텍처의 시너지 효과를 솔루션 구축의 기초로 활용했기 때문에 처음부터 시작하는 것보다 훨씬 나았다.

크라우드소싱(Crowdsourcing)으로 데이터 덧붙이기
2013년 BNY 멜론(BNY Mellon)은 한 조각의 데이터가 조직에 유입되는 순간부터 모든 단계를 아우르는 전체 수명주기 동안 마치 소포를 가져다가 배달하는 회사처럼 전체 배송 과정을 추적할 수 있는 분석 시스템을 상상했다.

BNY 멜론의 NEXEN 디지털 에코시스템(NEXEN Digital Ecosystem)에서 빅데이터 및 분석 구성요소인 디지털 펄스(Digital Pulse)가 해당 기능을 제공한다. 이 플랫폼은 모든 비즈니스 라인에서 데이터를 수집하고 한 곳에 보관한 후 시각화, 예측 분석, 기계 학습을 적용해 데이터를 분석한다. 사업부는 그 결과를 이용해 프로세스와 성과를 개선하고 고객 경험을 향상시킨다.

BNY 멜론 고객 경험 제공 상무이사 제니퍼 콜은 "이제 분석은 일상적인 업무에 녹아 들어 있다"고 말했다. 예를 들어, 3개의 조종실에는 BNY 멜론이 가입되어 있는 모든 전용 통신로를 통해 전 세계의 최신 현금 잔고를 보여주는 거대한 모니터들이 있다. 콜은 "이를 통해 생성되는 데이터를 실시간으로 볼 수 있다. 예전에는 불가능했던 일이다"고 전했다.

콜은 "35개 국가의 100개 시장에서 이질적인 유형의 데이터를 수집하는 것이 초기에는 벅찬 일이었다. 하지만 팀 리더들은 기본적으로 데이터의 소화를 크라우드소싱화함으로써 부담을 완화했다"고 설명했다.

소규모 거버넌스팀이 데이터 선택 및 준비에 관한 설명서를 작성하고 모든 사업부로 전송했다. 사용자들은 설명서에 따랐으며 거버넌스팀에게 시스템에 제출하고 싶은 데이터를 이야기했다. 해당 팀은 요청 사항을 검토하여 제안된 데이터가 적절한 형식이며 가치를 높이고 페이로드가 자동화되도록 했다.

콜은 "이 작업을 전 세계 5만 명과 1만 3,000명의 기술 전문가들에게 확대하면서 훨씬 수월해졌다"고 말했다. 물론, 이 작업에는 약 1년의 구축 기간이 소요되었다.

초기 이해당사자들의 투입에도 불구하고 도입이 여전히 큰 문제였다. 콜은 "BNY 멜론 분석 시스템은 우리가 시각적인 결과를 사용자의 손에 쥐어줄 때까지 도약하지 못했다"고 말했다. 현재 1만 3,000명의 직원들과 3,500명의 외부 사용자들이 해당 플랫폼을 이용하고 있다. 매월 14억 개 이상의 데이터 '이벤트'가 저장되고 있으며 124개의 애플리케이션이 이행되었다.

- 콜의 조언: 피드백 루프를 단축하기 위해서라면 무엇이든 하라. 최종 사용자 또는 해당 사안 전문가에게 무엇이든 시각적으로 제시하면 반복이 가능하다.

데이터 설득의 미학
미국 캘리포니아 주 패서디나에 위치하고 있는 NASA의 제트추진력연구소(Jet Propulsion Laboratory, JPL) IT CTO이자 CIO를 맡고 있는 톰 소더스톰은 "혁신 리더들은 부서들이 데이터를 공유하도록 설득하는데 있어서 힘든 싸움에 직면할 수 있다. 경우에 따라 사람들은 그 소유로 인한 이익을 얻거나 데이터 때문에 창피를 당하고 싶지 않기 때문에 데이터 접근을 허용하지 않으려 한다"고 말했다.

소더스톰은 데이터 소유자들에게 프로토타입을 통해 예상되는 결과를 미리 보여줌으로써 공유하도록 설득했다. 예를 들어, 소더스톰은 "우리는 대형 프로젝트가 끝날 때 사람들이 어떤 결과를 원하는지 알고 싶었다. 우리는 시간의 경과에 따른 HR 근무 시간 기록표, 제목, 프로젝트 코드를 찾고 있었다. 이 데이터는 민감하며 데이터를 소유한 사람들은 이를 포기하지 않고 싶어했다"고 말했다.

그래서 소더스톰은 프로젝트에 참여한 IT직원에 관한 데이터만 공유하기로 합의한 프로젝트 지지자인 CIO에게 "이제 우리는 샘플 보고서를 분석하고 구축할 하위 데이터 집합이 있다"고 말했다. 그러자 그 이해당사자는 '이것이 바로 내가 찾던 것이다. 나머지 JPL에 대해서는 어떻게 얻을 수 있는가?'라고 반문했다는 것이다.

이에 대해 소더스톰은 "우리가 데이터에 접근할 수 있도록 허용하면 된다. 시각적인 분석이 시작의 핵심이었으며 우리는 계속해서 예측 및 규범 분석을 진행했다"고 말했다.

현재 JPL의 데이터 소유자들은 공유를 원한다. 예를 들어, 소더스톰은 우주선 그룹이 "확장하거나 패턴을 분석하거나 메시지를 검색하거나 우주선을 서로 비교할 수 있는 300억 개의 데이터 포인트(Data Point)에 직접 접근할 수 있다. 예전에는 불가능했었다"고 말했다.

- 소더스톰의 조언: 우선 열정적인 개발자 및 비즈니스 사용자를 통해 비즈니스 사용사례를 찾아라. 자신이 원하는 것에 관한 1페이지 분량의 제안서를 작성하고 그들이 볼 수 있도록 프로토타입을 간단히 완성하라. 인적 자원 데이터는 가치를 신속하게 보여줄 수 있는 가능성이 가장 크다. 
현재 JPL은 사업부들에 데이터 과학자를 파견하고 있다. 데이터 과학자들은 자신의 부서의 쟁점을 이해하며 신속하게 대응할 수 있지만 결속력은 느슨한 형태로 협력하고 있다.

분석 실무자 커뮤니티 구축
EPA 수석 데이터 과학자 로빈 토퉁갈은 "EPA의 데이터 분석 도입은 해당 기관이 수동 과정에서 전자 보고로 이행하고 센서를 이용해 공기 질, 수질, 토질과 관련된 지표 등의 환경 데이터를 수집하기 시작하면서 시작되었다"고 말했다.

토퉁갈은 2015년 9월에 모든 데이터로부터 인사이트를 얻기 위해 고용되었다. 그는 8개월 만에 민첩한 스타트업에 일반적인 접근방식을 이용해 실행 가능한 분석 플랫폼을 구축했으며 신속하게 혁신하며 실수로부터 배웠다.

토퉁갈은 규모에 대해서는 이중적인 접근방식을 취했다. "데이터 과학자들은 구글(Google), 페이스북(Facebook), 트위터(Twitter), 링크드인(LinkedIn) 등의 모든 새 플랫폼과 기술을 살피며 이런 것들을 활용해 임무를 수행할 수 있는 방법에 대해 묻고 있다"고 설명했다.

토퉁갈은 "우리는 가치를 정확히 알 수 없지만 이런 기술이 무엇인가를 하는데 도움이 될 수 있다는 것을 알고 있다"고 말했다. 또한 얼리 어댑터로 유명하며 분석이 가치를 제공한다고 생각하는 EPA 내의 약 10개 그룹과 협력하고 있다.

토퉁갈은 "그들이 나에게 찾아와 데이터, 자원, 사람들을 제공함으로써 배울 의지가 있다"며, "가치가 있다는 사실을 알기 때문에 데이터 과학자들을 통해 기관의 사람들이 훈련하고 있다"고 말했다.

현재 토퉁갈은 매주 분석 활동을 논의하고 공유하는 약 200명의 분석 실무자들로 구성된 커뮤니티를 구축했다. 그는 "그룹이 자체적으로 생태계로 성숙해져 서로를 도울 수 있기를 바란다"고 덧붙였다. editor@itworld.co.kr


X