AIㆍML / BI|분석 / CIO / 데이터ㆍ분석 / 미래기술 / 애플리케이션

철 지난 애널리틱스 전략은 잊어라", 애널리틱스 향후 전망 5가지

John De Goes | InfoWorld

2017.10.27

정보화 시대에서는 일찍 일어난 새가 아니라 데이터를 가진 새가 벌레를 잡는다. 구글, 페이스북, 애플 등 거대 기업들이 데이터를 병적으로 수집하는 이유도 이 시대에서 '정보가 곧 금'이라는 것을 알고 있기 때문이다.

그러나 데이터는 단순히 수집해 보유하는 것만으로는 가치가 없다. 더 중요한 것은 이런 데이터를 정제해 통합하고, 거기에서 유의미한 정보를 도출해 내는 과정이 필요하다. 그리고 그 과정이 끝난 후에야 의사 결정과 상품 제작에 데이터를 '활용'할 수 있게 된다.

그렇지만 오늘날 과포화 상태인 애널리틱스 시장 상황에서도 제대로 된 애널리틱스 전략을 세우는 것이 불가능하지만은 않다. 광활하고 복잡한 애널리틱스 분야에 대한 이해를 돕기 위해, 이 분야에 대해 개인적으로 생각하는 향후 5년 이내의 전망을 소개하려 한다. 어쩌면 이 예측 내용으로 좀 더 데이터 주도적인 기업으로 거듭나는 것이 가능해 질 지도 모른다.

1. 앱으로 이전하는 BI
지난 20여 년 동안 우리는 혁명을 목격해 왔다. 하루아침에 일어나는 혁명이 아니라, 오랜 시간을 두고 일어나는 혁명 말이다. 사실 너무 오랜 시간이 걸려서 혁명이 혁명인줄 모르는 사람들도 있다.

BI는 죽어가고 있다. 아니, 좀 더 정확히 말하자면 다시 태어나고 있다. 창립 20주년이 넘은 기업 '태블로(Tableau)'는 마지막 'BI' 업체였다. 그리고 솔직히 말해 태블로는 주력 BI 솔루션도 아니다. 원래는 데이터 시각화 툴이었던 것이 충분한 BI 요소를 갖추게 됨에 따라 당시 업계를 호령하던 골리앗과 맞설 수 있게 된 것 뿐이다.

매년 사용자들은 허브스팟(HubSpot), 세일즈포스(SalesForce), 메일침프(MailChimp)와 같은 앱들을 통해 점점 더 많은 애널리틱스를 우겨넣고 있다. 애널리틱스는 비즈니스 애플리케이션의 구조 그 자체로의 이전이라고 할 수 있을 것이다.

핵심은 비즈니스 애플리케이션들이 자사의 데이터와 사용사례에 맞춘 자체적인 애널리틱스 인터페이스를 갖춰가고 있다는 것이다. 이런 통합 및 커스터마이징 덕분에, 애널리틱 인터페이스는 복잡하고 난해한 일반 용도의 BI보다 훨씬 더 접근성이 높다는 장점을 가지고 있다. 물론 데이터 사일로 요금 증가와, 큰 그림을 보기 어려워진다는 불편함은 감수해야 하겠지만 말이다.

이런 트렌드는 B2B 앱들이 데이터 인텔리전스 서비스 경쟁을 시작하면서 앞으로도 쭉 지속될 전망이다(이제 볼품없는 한 페이지짜리 애널리틱스 대시보드는 과거의 유물이 될 것이다).

2. 엔진보다는 컴파일러
역사적으로 새로운 애널리틱스는 다음의 두 가지 가운데 하나의 방식으로 서비스되어왔다. 첫 번째는 사전 컴퓨팅(precomputation, OLAP 엔진처럼 공통 집합이 사전에 계산되어 인메모리로 저장되는 경우), 두 번째는 애널리틱스 엔진이다(여기에는 테라데이터나 버티카와 같은 애널리틱 데이터베이스도 포함된다).

스파크(Spark)와 같은 애널리틱스 엔진이나 태블로의 데이터 엔진 등은 데이터의 조직에 관한 주요 질문에 답하기 위한 컴퓨테이션을 담당한다.

그런데 이제는 여기에 애널리틱스 컴파일러라는 새로운 플레이어가 등장한 것이다. 애널리틱 컴파일러는 각기 다른 인프라스트럭처에 컴퓨테이션을 배치할 수 있는 유연성을 갖추고 있다. 애널리틱스 컴파일러의 예시로는 GPU나 CPU에 컴퓨테이션을 배치하는 텐서플로우(TensorFlow), 드릴(Drill), 그리고 쿼사르 애널리틱스(Quasar Analytics) 등이 있다.

컴파일러는 여러 가지 인프라스트럭처(데이터베이스, 스파크, GPU 등 무엇이든)에서 구동할 수 있기 때문에 엔진보다 훨씬 유연하다. 또한 적어도 이론적으로는 컴파일러가 그 어떤 엔진보다 더 빠른 구동 속도를 자랑하는 워크플로우를 생성해 낼 수 있다.

심지어 스파크조차도 기본적인 컴파일링 기능을 갖추고 있는데 이 사실만 놓고 보아도 컴파일링이 잠깐 지나가는 유행이 아니며 어쩌면 레거시 컴퓨테이션 엔진을 대체하게 될 지도 모른다는 추측이 가능하다.

3. ETL의 변화
"ETL"이라는 세 글자는 데이터와 관련된 그 어떤 단어보다도 더 두려움을 불러일으킬 수 있는 단어다. 추출(Extract)-변환(Transform)-적재(Load)를 의미하는 ETL은 일종의 필요악이다. 불완전 데이터, 복제 데이터 및 관련성 없는 데이터들이 만들어 내는 혼란과 난장판을 어떻게든 깨끗이 정제, 정리해 사용할 수 있는 정보로 가공해내야 하기 때문이다.

ETL은 '현대적, 애자일, 데이터 지향적' 등의 단어와 정면으로 대조된다. 끝없이 반복 추출되는 데이터와 셀 수 없는 딜레이, 그리고 쌓여가는 비용 등. 이는 꼭 답해야 하는 질문에 꼭 답해야 하는 순간에 그렇게 하지 못하게 됨을 의미한다.

ETL에 애질리티를 부여하기 위해 벤처 캐피털의 집중적 투자를 선두로, 많은 기업이 여러 가지 대안을 제시했다. 하둡이나 데이터웨어하우스에서 ETL을 좀 더 쉽게 만들어 줄 높은 수준의 ETL 툴, 스트리밍 ETL 솔루션, 머신러닝을 활용한 ETL 솔루션, 그리고 크로스-레퍼런스(cross-reference)와 중복 제거(deduplicate) 등이 그것이다.

드레미오(Dremio)나 엑스칼라(Xcalar)와 같은 툴은 ETL에 대해 다른 계층의 기술적 접근을 시도한다. 바로 추출(extract)-적재(load)-변환(transform), 즉 ELT이다. 기본적으로 ELT는 가공 단계를 최대한 끝까지 미뤄 당장에 추출, 송출, 가공 단계를 피할 수 있게 해 주는 방식이다.

지금까지 ELT는 속도가 느린 축에 속했지만, 앞서 소개한 차세대 솔루션들은 공통 변환 과정을 비약적으로 재형성, 인덱싱 및 캐싱(caching)함으로써 ELT를 더욱 빠르게 만들 것이다. 이렇게 함으로써 전통적인 ETL에서 누리던 성능을 유지하면서도 변환 단계를 마지막으로 미룸으로써 얻어지는 유연성까지 확보할 수 있게 되었다.

어떤 측면에서 봐도 ETL은 현재 매우 극적인 변화를 겪고 있으며 이 변화가 완성되면 기업들은 그 어느 때보다도 더욱 빠르게, 시간과 비용, 투자를 절감하면서 데이터를 활용할 수 있게 될 것이다.

4. 데이터 사일로에 대한 접근 가능성 개선
거대 기업들이 직면하는 큰 문제들을 해결하는 데에는 의외로 복잡하고 거창한 애널리틱스가 필요하지는 않다. 대부분 기업은 현재 보유중인 데이터를 다 세거나 더하지도 못한다. 덧셈이 어려워서가 아니라, 오늘날 기업들이 보유한 데이터는 대부분이 파편화되어 수만 개의 사일로에 여기 저기 분산되어 있기 때문이다.

다행히 (API 혁명과 관리 데이터 솔루션(managed data solutions)을 포함한) 클라우드 기술, 그리고 ETL의 변화, 발전 덕분에 데이터에 좀 더 구조적 접근을 하는 것이 그 어느 때보다 더 수월해지고 있다.

차세대 데이터 관리 솔루션은 이러한 기술 발전을 활용해 적재 적소에서 기업의 모든 데이터에 애널리틱스적 접근이 가능하도록 만드는 데 커다란 역할을 하게 될 것이다.

5. 실용적이고 현실적인 머신러닝 기술의 활용
머신러닝의 유행은 이제 막 정점을 찍고 내려오는 중이다. 적어도 그러고 있기를 바랄 뿐이다. 익명의 어느 유명인은 머신러닝의 작동 기전을 이해하지 못하면서도 계속해서 머신러닝과 관련해 '터미네이터' 류의 종말론을 얘기하고 있다. 정작 소비자들은 시리의 동문서답 수준을 놓고 농담을 나누고 있는 상황인데도 말이다.

머신러닝은 기술적 결함과 책임 부재의 치명적인 조합으로 인해 문제를 겪을 수 있다. 만일 머신러닝이 잘못될 경우(실제로 이런 일이 자주, 그리고 불가피하게 발생한다) 그 누구에게도 책임을 물을 수 없고 이런 실수를 통해 뭔가를 배우는 것도 불가능하다.

이런 단점은 주요 애널리틱스 작업에 머신러닝을 절대 사용할 수 없음을 보여준다.

따라서 인공 지능이 우리 사회의 가장 똑똑한 지성인들의 지식을 완전하게 흡수, 소화하는 방법을 배울 때까지는 비즈니스 데이터에 기반해 우리가 묻는 그 어떤 질문에도 진리를 찾아 줄 마법의 수정 구슬 개발은 요원해 보인다. 앞으로 5년 내로는 절대 불가능하다.

이런 기술이 현실이 될 때까지 우리는 좀 더 특정 기능에 집중된 머신러닝 애플리케이션들을 만나게 될 것이다. 소트스팟(ThoughtSpot)의 BI 자연어 인터페이스, 블랙박스 구조적 데이터 셋에 대한 예측 분석, 그리고 각기 다른 데이터 소스 간의 커넥션을 인지하고 오류를 수정하며 비정형성을 찾아내는 보조적 역할의 기술 등이 그것이다.

이런 애플리케이션들은 공상 과학 소설에서 그려지는 그런 수준의 기술은 아닐지 몰라도 인공 지능에게 어떤 질문을 어떻게 던져야 하고, 이 기술을 활용해 올바른 답을 이끌어 내는 방법을 배울 수 있게 해 줄 것이다.

애널리틱스 시장은 거대하고, 혼란스러우며, 각종 마케팅 언어로 점철되어 있다. 하지만 그럼에도 불구하고 놓치기 힘든 거대한 트렌드가 전체 산업의 모양새를 결정하고 있으며, 이런 트렌드를 보면 기업이 어디에 투자해야 할 지를 알 수 있다.

이런 트렌드에는 비즈니스 애플리케이션으로의 데이터 인텔리전스 이전, 워크플로우를 애드 혹(ad hoc) 인프라스트럭처로 배포할 수 있는 애널리틱 컴파일러의 등장, 빠르게 진화하는 ETL, 데이터 사일로의 접근성 개선, 그리고 머신러닝 기술을 보다 현실적으로 활용한 애널리틱스 툴의 개선 등이 있다.

향후 5년간 이런 트렌드들은 기업이 도입하는 툴에, 애널리틱스 스타트업 기업들에, 기존 기업들의 인수 및 합병에, 그리고 데이터웨어하우스에서 비주얼 애널리틱스에 이르기까지 애널리틱스 전반에 걸쳐 일어나는 혁신 속에 가랑비 젖듯 스며들어 갈 것이다.

데이터 아키텍처와 기술 스택의 형태를 고민 중이라면 잘 생각해야 한다. 현재 애널리틱스 업계는 일련의 대대적인 변화의 한 가운데에 서 있다는 사실을 잊지 말자. editor@itworld.co.kr

Tags BI 데이터 컴파일러 ETL 애널리틱스 머신러닝

함께 보면 좋은 콘텐츠

평가 가이드: 적합한 최신 BI 및 분석 플랫폼 선택 방법

2017년 최고의 오픈소스 소프트웨어 : 데이터베이스와 분석 툴

축적된 경험에서 얻은 교훈으로 데이터 분석의 정석을 제시한다 - IDG Summary

“잘하면 대박, 못하면 쪽박” 빅데이터 분석 실패 방지를 위한 6가지 조언

“2015년 국내 비즈니스 애널리틱스 소프트웨어 시장 9.5% 성장”…한국IDC

'IoT·애널리틱스로 디지털 변혁'...전력기업 NYPA 사례

사용은 쉽게, 속도는 빠르게, TCO는 낮게 ‘애널리틱스 발전 방향’- IDG Tech Dossier

Surfshark

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

ⓒ Surfshark VPN(가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 위험 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 서프샤크 VPN은 구독 요금제 가입 후 7일간의 무료 체험을 제공하고 있다. ⓒ Surfshark 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN ⓒ Surfshark 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점