2017.10.27

철 지난 애널리틱스 전략은 잊어라", 애널리틱스 향후 전망 5가지

John De Goes | InfoWorld
정보화 시대에서는 일찍 일어난 새가 아니라 데이터를 가진 새가 벌레를 잡는다. 구글, 페이스북, 애플 등 거대 기업들이 데이터를 병적으로 수집하는 이유도 이 시대에서 '정보가 곧 금'이라는 것을 알고 있기 때문이다.

그러나 데이터는 단순히 수집해 보유하는 것만으로는 가치가 없다. 더 중요한 것은 이런 데이터를 정제해 통합하고, 거기에서 유의미한 정보를 도출해 내는 과정이 필요하다. 그리고 그 과정이 끝난 후에야 의사 결정과 상품 제작에 데이터를 '활용'할 수 있게 된다.

그렇지만 오늘날 과포화 상태인 애널리틱스 시장 상황에서도 제대로 된 애널리틱스 전략을 세우는 것이 불가능하지만은 않다. 광활하고 복잡한 애널리틱스 분야에 대한 이해를 돕기 위해, 이 분야에 대해 개인적으로 생각하는 향후 5년 이내의 전망을 소개하려 한다. 어쩌면 이 예측 내용으로 좀 더 데이터 주도적인 기업으로 거듭나는 것이 가능해 질 지도 모른다.

1. 앱으로 이전하는 BI
지난 20여 년 동안 우리는 혁명을 목격해 왔다. 하루아침에 일어나는 혁명이 아니라, 오랜 시간을 두고 일어나는 혁명 말이다. 사실 너무 오랜 시간이 걸려서 혁명이 혁명인줄 모르는 사람들도 있다.

BI는 죽어가고 있다. 아니, 좀 더 정확히 말하자면 다시 태어나고 있다. 창립 20주년이 넘은 기업 '태블로(Tableau)'는 마지막 'BI' 업체였다. 그리고 솔직히 말해 태블로는 주력 BI 솔루션도 아니다. 원래는 데이터 시각화 툴이었던 것이 충분한 BI 요소를 갖추게 됨에 따라 당시 업계를 호령하던 골리앗과 맞설 수 있게 된 것 뿐이다.

매년 사용자들은 허브스팟(HubSpot), 세일즈포스(SalesForce), 메일침프(MailChimp)와 같은 앱들을 통해 점점 더 많은 애널리틱스를 우겨넣고 있다. 애널리틱스는 비즈니스 애플리케이션의 구조 그 자체로의 이전이라고 할 수 있을 것이다.

핵심은 비즈니스 애플리케이션들이 자사의 데이터와 사용사례에 맞춘 자체적인 애널리틱스 인터페이스를 갖춰가고 있다는 것이다. 이런 통합 및 커스터마이징 덕분에, 애널리틱 인터페이스는 복잡하고 난해한 일반 용도의 BI보다 훨씬 더 접근성이 높다는 장점을 가지고 있다. 물론 데이터 사일로 요금 증가와, 큰 그림을 보기 어려워진다는 불편함은 감수해야 하겠지만 말이다.

이런 트렌드는 B2B 앱들이 데이터 인텔리전스 서비스 경쟁을 시작하면서 앞으로도 쭉 지속될 전망이다(이제 볼품없는 한 페이지짜리 애널리틱스 대시보드는 과거의 유물이 될 것이다).

2. 엔진보다는 컴파일러
역사적으로 새로운 애널리틱스는 다음의 두 가지 가운데 하나의 방식으로 서비스되어왔다. 첫 번째는 사전 컴퓨팅(precomputation, OLAP 엔진처럼 공통 집합이 사전에 계산되어 인메모리로 저장되는 경우), 두 번째는 애널리틱스 엔진이다(여기에는 테라데이터나 버티카와 같은 애널리틱 데이터베이스도 포함된다).

스파크(Spark)와 같은 애널리틱스 엔진이나 태블로의 데이터 엔진 등은 데이터의 조직에 관한 주요 질문에 답하기 위한 컴퓨테이션을 담당한다.

그런데 이제는 여기에 애널리틱스 컴파일러라는 새로운 플레이어가 등장한 것이다. 애널리틱 컴파일러는 각기 다른 인프라스트럭처에 컴퓨테이션을 배치할 수 있는 유연성을 갖추고 있다. 애널리틱스 컴파일러의 예시로는 GPU나 CPU에 컴퓨테이션을 배치하는 텐서플로우(TensorFlow), 드릴(Drill), 그리고 쿼사르 애널리틱스(Quasar Analytics) 등이 있다.

컴파일러는 여러 가지 인프라스트럭처(데이터베이스, 스파크, GPU 등 무엇이든)에서 구동할 수 있기 때문에 엔진보다 훨씬 유연하다. 또한 적어도 이론적으로는 컴파일러가 그 어떤 엔진보다 더 빠른 구동 속도를 자랑하는 워크플로우를 생성해 낼 수 있다.

심지어 스파크조차도 기본적인 컴파일링 기능을 갖추고 있는데 이 사실만 놓고 보아도 컴파일링이 잠깐 지나가는 유행이 아니며 어쩌면 레거시 컴퓨테이션 엔진을 대체하게 될 지도 모른다는 추측이 가능하다.

3. ETL의 변화
"ETL"이라는 세 글자는 데이터와 관련된 그 어떤 단어보다도 더 두려움을 불러일으킬 수 있는 단어다. 추출(Extract)-변환(Transform)-적재(Load)를 의미하는 ETL은 일종의 필요악이다. 불완전 데이터, 복제 데이터 및 관련성 없는 데이터들이 만들어 내는 혼란과 난장판을 어떻게든 깨끗이 정제, 정리해 사용할 수 있는 정보로 가공해내야 하기 때문이다.

ETL은 '현대적, 애자일, 데이터 지향적' 등의 단어와 정면으로 대조된다. 끝없이 반복 추출되는 데이터와 셀 수 없는 딜레이, 그리고 쌓여가는 비용 등. 이는 꼭 답해야 하는 질문에 꼭 답해야 하는 순간에 그렇게 하지 못하게 됨을 의미한다.

ETL에 애질리티를 부여하기 위해 벤처 캐피털의 집중적 투자를 선두로, 많은 기업이 여러 가지 대안을 제시했다. 하둡이나 데이터웨어하우스에서 ETL을 좀 더 쉽게 만들어 줄 높은 수준의 ETL 툴, 스트리밍 ETL 솔루션, 머신러닝을 활용한 ETL 솔루션, 그리고 크로스-레퍼런스(cross-reference)와 중복 제거(deduplicate) 등이 그것이다.

드레미오(Dremio)나 엑스칼라(Xcalar)와 같은 툴은 ETL에 대해 다른 계층의 기술적 접근을 시도한다. 바로 추출(extract)-적재(load)-변환(transform), 즉 ELT이다. 기본적으로 ELT는 가공 단계를 최대한 끝까지 미뤄 당장에 추출, 송출, 가공 단계를 피할 수 있게 해 주는 방식이다.

지금까지 ELT는 속도가 느린 축에 속했지만, 앞서 소개한 차세대 솔루션들은 공통 변환 과정을 비약적으로 재형성, 인덱싱 및 캐싱(caching)함으로써 ELT를 더욱 빠르게 만들 것이다. 이렇게 함으로써 전통적인 ETL에서 누리던 성능을 유지하면서도 변환 단계를 마지막으로 미룸으로써 얻어지는 유연성까지 확보할 수 있게 되었다.

어떤 측면에서 봐도 ETL은 현재 매우 극적인 변화를 겪고 있으며 이 변화가 완성되면 기업들은 그 어느 때보다도 더욱 빠르게, 시간과 비용, 투자를 절감하면서 데이터를 활용할 수 있게 될 것이다.

4. 데이터 사일로에 대한 접근 가능성 개선
거대 기업들이 직면하는 큰 문제들을 해결하는 데에는 의외로 복잡하고 거창한 애널리틱스가 필요하지는 않다. 대부분 기업은 현재 보유중인 데이터를 다 세거나 더하지도 못한다. 덧셈이 어려워서가 아니라, 오늘날 기업들이 보유한 데이터는 대부분이 파편화되어 수만 개의 사일로에 여기 저기 분산되어 있기 때문이다.

다행히 (API 혁명과 관리 데이터 솔루션(managed data solutions)을 포함한) 클라우드 기술, 그리고 ETL의 변화, 발전 덕분에 데이터에 좀 더 구조적 접근을 하는 것이 그 어느 때보다 더 수월해지고 있다.

차세대 데이터 관리 솔루션은 이러한 기술 발전을 활용해 적재 적소에서 기업의 모든 데이터에 애널리틱스적 접근이 가능하도록 만드는 데 커다란 역할을 하게 될 것이다.

5. 실용적이고 현실적인 머신러닝 기술의 활용
머신러닝의 유행은 이제 막 정점을 찍고 내려오는 중이다. 적어도 그러고 있기를 바랄 뿐이다. 익명의 어느 유명인은 머신러닝의 작동 기전을 이해하지 못하면서도 계속해서 머신러닝과 관련해 '터미네이터' 류의 종말론을 얘기하고 있다. 정작 소비자들은 시리의 동문서답 수준을 놓고 농담을 나누고 있는 상황인데도 말이다.

머신러닝은 기술적 결함과 책임 부재의 치명적인 조합으로 인해 문제를 겪을 수 있다. 만일 머신러닝이 잘못될 경우(실제로 이런 일이 자주, 그리고 불가피하게 발생한다) 그 누구에게도 책임을 물을 수 없고 이런 실수를 통해 뭔가를 배우는 것도 불가능하다.

이런 단점은 주요 애널리틱스 작업에 머신러닝을 절대 사용할 수 없음을 보여준다.

따라서 인공 지능이 우리 사회의 가장 똑똑한 지성인들의 지식을 완전하게 흡수, 소화하는 방법을 배울 때까지는 비즈니스 데이터에 기반해 우리가 묻는 그 어떤 질문에도 진리를 찾아 줄 마법의 수정 구슬 개발은 요원해 보인다. 앞으로 5년 내로는 절대 불가능하다.

이런 기술이 현실이 될 때까지 우리는 좀 더 특정 기능에 집중된 머신러닝 애플리케이션들을 만나게 될 것이다. 소트스팟(ThoughtSpot)의 BI 자연어 인터페이스, 블랙박스 구조적 데이터 셋에 대한 예측 분석, 그리고 각기 다른 데이터 소스 간의 커넥션을 인지하고 오류를 수정하며 비정형성을 찾아내는 보조적 역할의 기술 등이 그것이다.

이런 애플리케이션들은 공상 과학 소설에서 그려지는 그런 수준의 기술은 아닐지 몰라도 인공 지능에게 어떤 질문을 어떻게 던져야 하고, 이 기술을 활용해 올바른 답을 이끌어 내는 방법을 배울 수 있게 해 줄 것이다.

애널리틱스 시장은 거대하고, 혼란스러우며, 각종 마케팅 언어로 점철되어 있다. 하지만 그럼에도 불구하고 놓치기 힘든 거대한 트렌드가 전체 산업의 모양새를 결정하고 있으며, 이런 트렌드를 보면 기업이 어디에 투자해야 할 지를 알 수 있다.

이런 트렌드에는 비즈니스 애플리케이션으로의 데이터 인텔리전스 이전, 워크플로우를 애드 혹(ad hoc) 인프라스트럭처로 배포할 수 있는 애널리틱 컴파일러의 등장, 빠르게 진화하는 ETL, 데이터 사일로의 접근성 개선, 그리고 머신러닝 기술을 보다 현실적으로 활용한 애널리틱스 툴의 개선 등이 있다.

향후 5년간 이런 트렌드들은 기업이 도입하는 툴에, 애널리틱스 스타트업 기업들에, 기존 기업들의 인수 및 합병에, 그리고 데이터웨어하우스에서 비주얼 애널리틱스에 이르기까지 애널리틱스 전반에 걸쳐 일어나는 혁신 속에 가랑비 젖듯 스며들어 갈 것이다.

데이터 아키텍처와 기술 스택의 형태를 고민 중이라면 잘 생각해야 한다. 현재 애널리틱스 업계는 일련의 대대적인 변화의 한 가운데에 서 있다는 사실을 잊지 말자. editor@itworld.co.kr  


2017.10.27

철 지난 애널리틱스 전략은 잊어라", 애널리틱스 향후 전망 5가지

John De Goes | InfoWorld
정보화 시대에서는 일찍 일어난 새가 아니라 데이터를 가진 새가 벌레를 잡는다. 구글, 페이스북, 애플 등 거대 기업들이 데이터를 병적으로 수집하는 이유도 이 시대에서 '정보가 곧 금'이라는 것을 알고 있기 때문이다.

그러나 데이터는 단순히 수집해 보유하는 것만으로는 가치가 없다. 더 중요한 것은 이런 데이터를 정제해 통합하고, 거기에서 유의미한 정보를 도출해 내는 과정이 필요하다. 그리고 그 과정이 끝난 후에야 의사 결정과 상품 제작에 데이터를 '활용'할 수 있게 된다.

그렇지만 오늘날 과포화 상태인 애널리틱스 시장 상황에서도 제대로 된 애널리틱스 전략을 세우는 것이 불가능하지만은 않다. 광활하고 복잡한 애널리틱스 분야에 대한 이해를 돕기 위해, 이 분야에 대해 개인적으로 생각하는 향후 5년 이내의 전망을 소개하려 한다. 어쩌면 이 예측 내용으로 좀 더 데이터 주도적인 기업으로 거듭나는 것이 가능해 질 지도 모른다.

1. 앱으로 이전하는 BI
지난 20여 년 동안 우리는 혁명을 목격해 왔다. 하루아침에 일어나는 혁명이 아니라, 오랜 시간을 두고 일어나는 혁명 말이다. 사실 너무 오랜 시간이 걸려서 혁명이 혁명인줄 모르는 사람들도 있다.

BI는 죽어가고 있다. 아니, 좀 더 정확히 말하자면 다시 태어나고 있다. 창립 20주년이 넘은 기업 '태블로(Tableau)'는 마지막 'BI' 업체였다. 그리고 솔직히 말해 태블로는 주력 BI 솔루션도 아니다. 원래는 데이터 시각화 툴이었던 것이 충분한 BI 요소를 갖추게 됨에 따라 당시 업계를 호령하던 골리앗과 맞설 수 있게 된 것 뿐이다.

매년 사용자들은 허브스팟(HubSpot), 세일즈포스(SalesForce), 메일침프(MailChimp)와 같은 앱들을 통해 점점 더 많은 애널리틱스를 우겨넣고 있다. 애널리틱스는 비즈니스 애플리케이션의 구조 그 자체로의 이전이라고 할 수 있을 것이다.

핵심은 비즈니스 애플리케이션들이 자사의 데이터와 사용사례에 맞춘 자체적인 애널리틱스 인터페이스를 갖춰가고 있다는 것이다. 이런 통합 및 커스터마이징 덕분에, 애널리틱 인터페이스는 복잡하고 난해한 일반 용도의 BI보다 훨씬 더 접근성이 높다는 장점을 가지고 있다. 물론 데이터 사일로 요금 증가와, 큰 그림을 보기 어려워진다는 불편함은 감수해야 하겠지만 말이다.

이런 트렌드는 B2B 앱들이 데이터 인텔리전스 서비스 경쟁을 시작하면서 앞으로도 쭉 지속될 전망이다(이제 볼품없는 한 페이지짜리 애널리틱스 대시보드는 과거의 유물이 될 것이다).

2. 엔진보다는 컴파일러
역사적으로 새로운 애널리틱스는 다음의 두 가지 가운데 하나의 방식으로 서비스되어왔다. 첫 번째는 사전 컴퓨팅(precomputation, OLAP 엔진처럼 공통 집합이 사전에 계산되어 인메모리로 저장되는 경우), 두 번째는 애널리틱스 엔진이다(여기에는 테라데이터나 버티카와 같은 애널리틱 데이터베이스도 포함된다).

스파크(Spark)와 같은 애널리틱스 엔진이나 태블로의 데이터 엔진 등은 데이터의 조직에 관한 주요 질문에 답하기 위한 컴퓨테이션을 담당한다.

그런데 이제는 여기에 애널리틱스 컴파일러라는 새로운 플레이어가 등장한 것이다. 애널리틱 컴파일러는 각기 다른 인프라스트럭처에 컴퓨테이션을 배치할 수 있는 유연성을 갖추고 있다. 애널리틱스 컴파일러의 예시로는 GPU나 CPU에 컴퓨테이션을 배치하는 텐서플로우(TensorFlow), 드릴(Drill), 그리고 쿼사르 애널리틱스(Quasar Analytics) 등이 있다.

컴파일러는 여러 가지 인프라스트럭처(데이터베이스, 스파크, GPU 등 무엇이든)에서 구동할 수 있기 때문에 엔진보다 훨씬 유연하다. 또한 적어도 이론적으로는 컴파일러가 그 어떤 엔진보다 더 빠른 구동 속도를 자랑하는 워크플로우를 생성해 낼 수 있다.

심지어 스파크조차도 기본적인 컴파일링 기능을 갖추고 있는데 이 사실만 놓고 보아도 컴파일링이 잠깐 지나가는 유행이 아니며 어쩌면 레거시 컴퓨테이션 엔진을 대체하게 될 지도 모른다는 추측이 가능하다.

3. ETL의 변화
"ETL"이라는 세 글자는 데이터와 관련된 그 어떤 단어보다도 더 두려움을 불러일으킬 수 있는 단어다. 추출(Extract)-변환(Transform)-적재(Load)를 의미하는 ETL은 일종의 필요악이다. 불완전 데이터, 복제 데이터 및 관련성 없는 데이터들이 만들어 내는 혼란과 난장판을 어떻게든 깨끗이 정제, 정리해 사용할 수 있는 정보로 가공해내야 하기 때문이다.

ETL은 '현대적, 애자일, 데이터 지향적' 등의 단어와 정면으로 대조된다. 끝없이 반복 추출되는 데이터와 셀 수 없는 딜레이, 그리고 쌓여가는 비용 등. 이는 꼭 답해야 하는 질문에 꼭 답해야 하는 순간에 그렇게 하지 못하게 됨을 의미한다.

ETL에 애질리티를 부여하기 위해 벤처 캐피털의 집중적 투자를 선두로, 많은 기업이 여러 가지 대안을 제시했다. 하둡이나 데이터웨어하우스에서 ETL을 좀 더 쉽게 만들어 줄 높은 수준의 ETL 툴, 스트리밍 ETL 솔루션, 머신러닝을 활용한 ETL 솔루션, 그리고 크로스-레퍼런스(cross-reference)와 중복 제거(deduplicate) 등이 그것이다.

드레미오(Dremio)나 엑스칼라(Xcalar)와 같은 툴은 ETL에 대해 다른 계층의 기술적 접근을 시도한다. 바로 추출(extract)-적재(load)-변환(transform), 즉 ELT이다. 기본적으로 ELT는 가공 단계를 최대한 끝까지 미뤄 당장에 추출, 송출, 가공 단계를 피할 수 있게 해 주는 방식이다.

지금까지 ELT는 속도가 느린 축에 속했지만, 앞서 소개한 차세대 솔루션들은 공통 변환 과정을 비약적으로 재형성, 인덱싱 및 캐싱(caching)함으로써 ELT를 더욱 빠르게 만들 것이다. 이렇게 함으로써 전통적인 ETL에서 누리던 성능을 유지하면서도 변환 단계를 마지막으로 미룸으로써 얻어지는 유연성까지 확보할 수 있게 되었다.

어떤 측면에서 봐도 ETL은 현재 매우 극적인 변화를 겪고 있으며 이 변화가 완성되면 기업들은 그 어느 때보다도 더욱 빠르게, 시간과 비용, 투자를 절감하면서 데이터를 활용할 수 있게 될 것이다.

4. 데이터 사일로에 대한 접근 가능성 개선
거대 기업들이 직면하는 큰 문제들을 해결하는 데에는 의외로 복잡하고 거창한 애널리틱스가 필요하지는 않다. 대부분 기업은 현재 보유중인 데이터를 다 세거나 더하지도 못한다. 덧셈이 어려워서가 아니라, 오늘날 기업들이 보유한 데이터는 대부분이 파편화되어 수만 개의 사일로에 여기 저기 분산되어 있기 때문이다.

다행히 (API 혁명과 관리 데이터 솔루션(managed data solutions)을 포함한) 클라우드 기술, 그리고 ETL의 변화, 발전 덕분에 데이터에 좀 더 구조적 접근을 하는 것이 그 어느 때보다 더 수월해지고 있다.

차세대 데이터 관리 솔루션은 이러한 기술 발전을 활용해 적재 적소에서 기업의 모든 데이터에 애널리틱스적 접근이 가능하도록 만드는 데 커다란 역할을 하게 될 것이다.

5. 실용적이고 현실적인 머신러닝 기술의 활용
머신러닝의 유행은 이제 막 정점을 찍고 내려오는 중이다. 적어도 그러고 있기를 바랄 뿐이다. 익명의 어느 유명인은 머신러닝의 작동 기전을 이해하지 못하면서도 계속해서 머신러닝과 관련해 '터미네이터' 류의 종말론을 얘기하고 있다. 정작 소비자들은 시리의 동문서답 수준을 놓고 농담을 나누고 있는 상황인데도 말이다.

머신러닝은 기술적 결함과 책임 부재의 치명적인 조합으로 인해 문제를 겪을 수 있다. 만일 머신러닝이 잘못될 경우(실제로 이런 일이 자주, 그리고 불가피하게 발생한다) 그 누구에게도 책임을 물을 수 없고 이런 실수를 통해 뭔가를 배우는 것도 불가능하다.

이런 단점은 주요 애널리틱스 작업에 머신러닝을 절대 사용할 수 없음을 보여준다.

따라서 인공 지능이 우리 사회의 가장 똑똑한 지성인들의 지식을 완전하게 흡수, 소화하는 방법을 배울 때까지는 비즈니스 데이터에 기반해 우리가 묻는 그 어떤 질문에도 진리를 찾아 줄 마법의 수정 구슬 개발은 요원해 보인다. 앞으로 5년 내로는 절대 불가능하다.

이런 기술이 현실이 될 때까지 우리는 좀 더 특정 기능에 집중된 머신러닝 애플리케이션들을 만나게 될 것이다. 소트스팟(ThoughtSpot)의 BI 자연어 인터페이스, 블랙박스 구조적 데이터 셋에 대한 예측 분석, 그리고 각기 다른 데이터 소스 간의 커넥션을 인지하고 오류를 수정하며 비정형성을 찾아내는 보조적 역할의 기술 등이 그것이다.

이런 애플리케이션들은 공상 과학 소설에서 그려지는 그런 수준의 기술은 아닐지 몰라도 인공 지능에게 어떤 질문을 어떻게 던져야 하고, 이 기술을 활용해 올바른 답을 이끌어 내는 방법을 배울 수 있게 해 줄 것이다.

애널리틱스 시장은 거대하고, 혼란스러우며, 각종 마케팅 언어로 점철되어 있다. 하지만 그럼에도 불구하고 놓치기 힘든 거대한 트렌드가 전체 산업의 모양새를 결정하고 있으며, 이런 트렌드를 보면 기업이 어디에 투자해야 할 지를 알 수 있다.

이런 트렌드에는 비즈니스 애플리케이션으로의 데이터 인텔리전스 이전, 워크플로우를 애드 혹(ad hoc) 인프라스트럭처로 배포할 수 있는 애널리틱 컴파일러의 등장, 빠르게 진화하는 ETL, 데이터 사일로의 접근성 개선, 그리고 머신러닝 기술을 보다 현실적으로 활용한 애널리틱스 툴의 개선 등이 있다.

향후 5년간 이런 트렌드들은 기업이 도입하는 툴에, 애널리틱스 스타트업 기업들에, 기존 기업들의 인수 및 합병에, 그리고 데이터웨어하우스에서 비주얼 애널리틱스에 이르기까지 애널리틱스 전반에 걸쳐 일어나는 혁신 속에 가랑비 젖듯 스며들어 갈 것이다.

데이터 아키텍처와 기술 스택의 형태를 고민 중이라면 잘 생각해야 한다. 현재 애널리틱스 업계는 일련의 대대적인 변화의 한 가운데에 서 있다는 사실을 잊지 말자. editor@itworld.co.kr  


X