2016년을 지배할 21가지 데이터 기술 및 분석 동향

CIO

소셜, 모바일, 클라우드와 함께 분석 및 관련된 데이터 기술이 디지털 시대의 주요 혁신자로 자리 매김했다. 2015년에는 빅데이터 계획이 시험 단계에서 생산 단계로 옮겨갔으며 비즈니스 인텔리전스(Business Intelligence)를 강화하기 위해 새로운 데이터 기술을 활용해야 하게 되었다. 2016년이 시작되면서 5명의 전문가들은 2016년의 데이터 및 분석 부문 전망을 공유했다.

스콧 그나우
스콧 그나우는 하둡(Hadoop) 배포판 개발업체 호튼웍스(Hortonworks)의 CTO로서 다음의 트렌드가 2016년의 데이터와 분석을 지배할 것이라고 전망했다.

- IoAT(Internet of Anything): 2016년, 기업들은 모든 데이터에서 가치를 이끌어내려 할 것이다. 단순히 IoT(Internet of Things)가 아니라 통찰력을 제공할 수 있는 IoAT이다.

"데이터로부터 가치를 얻는 것은 기기, 센서, 기계를 넘어 서버 로그, 지리적 위치, 인터넷의 데이터 등으로부터 생성된 것 등의 모든 데이터가 포함된다."

- 가장자리(jagged edge) 데이터: 기업들은 데이터센터의 경계를 넘어 데이터의 가장자리까지 살펴야 한다. 이제 데이터 흐름이 바다의 석유 굴착기나 우주의 인공위성 등에 있는 여러 장치, 센서, 서버로부터 얻는 데이터에서 시작되고 있다. 보안 상황을 관리할 뿐 아니라 생태계 내에서 완전한 데이터 출처를 제공할 수 있는 엄청난 기회가 있다.

"IoAT는 새로운 사고방식과 새로운 데이터 관리 시스템을 필요로 하는 새로운 패러다임을 만들고 있으며, 2016년에는 이런 솔루션이 성숙하고 기업에 스며들 것이다."

- 실시간 데이터 처리(Data in Motion) 플랫폼: 2016년에는 업계에 실시간 데이터 처리 플랫폼이 발전할 것이다. 여러 장치 프로토콜을 처리하고 모든 데이터 흐름을 하둡으로 가져올 더 높은 수준의 플랫폼이 필요하다.

"이 플랫폼은 여러 프로토콜 언어로 통신을 용이하게 해야 한다. 올해 실시간 처리 데이터와 저장 데이터(Data at Rest)의 조합이 큰 기호가 될 것이다."

- 손쉬운 빅데이터: 빅데이터 기술 간소화에 대한 시장 수요가 존재하며, 이는 기술, 소비 등 모든 수준에서 가능하다. 2016년에는 간소화가 크게 진전될 것이다.

"클러스터(Cluster) 운영자, 보안 관리자, 데이터 분석가 등 주체가 누구인지는 상관없다. 모두가 쉬운 하둡 및 관련 빅데이터 기술을 원한다. 전반적으로 단일 통합 개발자 경험이나 설정 또는 프로필 수 감소 등이 나타날 것이다."

- 업무에 필수적인 작업 부하에 하둡 활용: 2016년에는 '웹 스케일(Web Scale)' 기업들 외에 다른 기업들도 하둡을 이용해 업무에 필수적인 작업 부하를 더 많이 제공할 것이다.

"야후(Yahoo), 스포티파이(Spotify), 트루카(TrueCar) 등의 기업들은 하둡을 대대적으로 활용하는 기업들을 설립했지만 더욱 전통적인 기업들이 하둡을 이용해 관리 중인 대량의 데이터로부터 가치있는 통찰력을 이끌어 내고 하둡이 없이는 불가능했던 순수하게 새로운 업무에 필수적인 분석 애플리케이션을 제공할 것이다."

디팍 쿠마르
디팍 쿠마르는 IT 시스템 관리 솔루션 제공업체 어댑티바(Adaptiva) 설립자이자 CTO로서 다음과 같이 전망했다.

- 데이터가 한계에 도달하는 해가 될 것이다: 제공업체들이 데이터 수요를 따라잡지 못하고 기업들이 비용 증가를 감당하지 못하게 되면서 데이터 사용량이 더욱 규제될 것이다. 그 결과, 기업들은 이 데이터를 모니터링하는 기술을 활용하기 시작할 것이다.

- 빅데이터 분석과 관련해 시스템 관리가 더욱 스마트해질 것이다: 빅데이터 분석 솔루션 통합은 여전히 부족해 단절된 데이터 사일로에서 사멸하기 쉬운 비즈니스 통찰력을 발견하지 못할 것이며, 시스템 관리가 개입하여 지원을 제공할 것이다.

바드리 라가반
바드리 라가반은 에너지 분석 전문업체 퍼스트퓨엘 소프트웨어(FirstFuel Software)의 수석 데이터 공학자로 2016년을 다음과 같이 전망했다.

- 데이터 민주화(The democratization of data): AMT(Amazon Mechanical Turk) 등의 솔루션 덕분에 기업과 개인들이 이전에는 접근하지 못했던 데이터를 전세계적으로 더욱 손쉽게 수집할 수 있게 될 것이다.

"데이터 찾기가 더욱 쉬워질 뿐 아니라 사용자 친화적인 툴이 등장해 광범위한 데이터 지식이 없는 사람들이 정보를 분석하고 유의미한 가치를 얻을 수 있을 것이다."

- 데이터 프라이버시에 관한 우려 증가: 유럽에서는 최근 데이터를 중심으로 엄격한 규정을 수립해 조직들이 데이터 보안 문제를 추적하는 방법을 전략으로 구성하도록 했다.

"데이터 프라이버시를 하나의 사후 문제로 고려하는 대신에 사람들은 데이터를 어떻게 사용할지 정확하게 설명하고 현지 및 국제법을 준수하기 위해 선제적인 조치를 취해야 할 것이다."

- 데이터 통찰력을 위한 새로운 애플리케이션: 2016년, 조직과 개인들이 데이터 및 분석을 활용해 에너지, 스포츠, 사회적 가치, 음악 등 다양한 산업 부문에서 개인화되고 참여적인 경험을 제공할 것이다.

"예를 들어, 사람들은 데이터를 이용해 개인적인 선호도(드럼 추가 등)에 따라 노래를 바꿀 수 있을 것이다."


댄 코간
댄 코간은 BI 및 분석 업체인 태블로 소프트웨어(Tableau Software)의 제품 마케팅 이사로 2016년 빅데이터 부문의 트렌드를 다음과 같이 전망했다.

- NoSQL 장악: 2016년에 스키마(Schema)가 없는 데이터베이스 개념의 장점이 더욱 알려지면서 NoSQL 데이터베이스가 기업 IT 부문에서 중요한 부분을 차지하게 될 것이다.

과거 가트너의 매직 쿼더런트(Quadrant for Operational Database Management Systems)에서는 오라클(Oracle), IBM, 마이크로소프트(Microsoft)가 지배해왔다. 하지만 최근의 매직 쿼더런트(Magic Quadrant)에서는 선두주자(Leaders) 대열에 전통적인 데이터베이스 벤더보다 몽고DB(MongoDB), 데이터스택스(DataStax), 레디스 랩스(Redis Labs), 마크로직(MarkLogic), AWS(Amazon Web Servicer, 다이나DB(DynamoDB) 적용) 등 NoSQL 기업들의 수가 더 많다.

- 아파치 스파크(Apache Spark)가 빅데이터를 비춘다: 아파치 스파크가 하둡 생태계의 구성요소 수준에서 벗어나 여러 기업들이 선택하는 빅데이터 플랫폼이 되고 있다.

스파크의 창시자이자 데이터브릭스(Databricks)의 공동 설립자인 마테이 자하리아는 스파크가 하둡과 비교해 극단적으로 향상된 데이터 처리 속도를 제공하며 현재 가장 큰 규모의 빅데이터 오픈소스 프로젝트라고 말한다.

"스파크를 중심으로 점차 많은 기업 활용 사례가 목격되고 있으며, 골드만 삭스(Goldman Sachs)는 스파크를 빅데이터 분석의 '공통어'로 활용하고 있다."

- 빅데이터의 성장: 2016년에 기업의 하둡 역량이 성숙할 것이다. 하둡 트렌드 성장이 기업 IT 부문의 핵심으로 자리잡고 있다는 추가적인 증거로 보안 등 기업 시스템을 둘러싼 구성요소에 대한 투자가 증가할 것이다.

"아파치 센트리(Apache Sentry) 프로젝트는 하둡 클러스터에 저장되어 있는 데이터 및 메타데이터에 대한 세분화된 역할 기반 인증을 강제하기 위한 시스템을 제공한다. 고객들은 기업 수준의 RDBMS 플랫폼에서 이런 유형의 역량을 기대하고 있으며 새롭게 등장하는 빅데이터 기술의 중심에서 기업 도입에 대한 또 하나의 장벽을 없애고 있다."

- 빨라지는 빅데이터(옵션 확장으로 하둡 속도 증가): 2016년에 전통적으로 데이터웨어하우스(Data Warehouse)와 연계되어 있는 성능을 얻게 될 것이다.

기업에서 하둡의 입지가 확대되면서 전통적인 데이터웨어하우스에서 기대했던 고속 데이터 탐색 역량에 대한 최종 사용자 수요가 증가하고 있다.

"최종 사용자 수요를 충족하기 위해 기업 사용자의 오랜 친구인 OLAP 큐브 등으로 '전통적인' BI 개념과 '빅데이터' 세계 사이의 경계가 더욱 모호해지게 할 수 있는 클라우데라 임팔라(Cloudera Impala), 앳스케일(AtScale), 액티언 벡터(Actian Vector), 제스로 데이터(Jethro Data) 등의 기술 도입이 증가하고 있다."

- 최종 사용자가 모든 유형의 데이터를 발견하기 위한 옵션의 수가 증가한다: 셀프서비스 데이터 준비 툴의 인기가 폭발적으로 증가하고 있다. 이것이 데이터 분석 시간을 줄이는 태블로 등의 비즈니스 사용자 생성 데이터 발견 툴로의 이행 덕분이기도 하다.

이제 비즈니스 사용자들 또한 분석을 위한 데이터를 준비하는 시간과 복잡성을 줄이고 싶어하며, 이는 특히 다양한 데이터 유형과 형식을 처리하는 빅데이터 세계에서 중요한 부분이다.

"알테릭스(Alteryx), 트리팍타(Trivacta), 팍사타(Paxata), 라바스톰(Lavastorm) 등의 기업들이 빅데이터를 위한 최종 사용자 데이터 준비에 집중하는 등 이 부문에서 엄청난 혁신을 목격했으며, 심지어 인포매티카(Informatica) 등 오랫동안 선두 자리를 지켜 온 ETL 등도 여기에 집중적으로 투자하고 있다."

- 클라우드에서 MIPP 데이터웨어하우스(MIPP Data Warehouse)가 성장하고 있다: 한동안 데이터웨어하우스의 '종말'에 관해 과장된 주장이 제기되었지만 이 시장 부문의 성장이 둔화되고 있다는 점은 모두가 알고 있는 사실이다.

하지만 이제 이 기술을 클라우드에 적용하는 중대한 변화 과정에서 아마존은 레드시프트(Redshift)의 주문형 클라우드 데이터웨어하우스로 앞장서고 있다.

레드시프트는 AWS의 서비스 가운데 가장 빠르게 성장했지만 이제는 구글의 빅쿼리(BigQuery), 마이크로소프트(애저 SQL 데이터웨어하우스(Azure SQL Data Warehouse)와 테라데이터(Teradata) 등 전통적인 데이터웨어하우스 강자의 서비스와 경쟁할 뿐 아니라 스트라타 + 하둡 월드 2015 스타트업 쇼케이스(Strate + Hadoop World 2015 Startup Showcase)에서 우승한 스노우플레이크(Snowflake) 등의 신규 스타트업의 서비스 또한 도입되고 있다.

"분석가들은 하둡을 도입한 기업의 90%가 데이터웨어하우스를 보존할 것이며, 이런 새로운 클라우드 서비스를 통해 고객들은 저장소 용량을 동적으로 확대 또는 축소하고 하둡 데이터레이크(Data Lake)에 저장되어 있는 더 큰 용량의 정보와 관련해 데이터웨어하우스의 자원을 연산할 수 있다."

- 유행어의 변화(IoT, 클라우드, 빅데이터의 동거): 이 기술은 여전히 초기 단계이지만 IoT에서 기기들로부터 얻은 데이터가 클라우드를 위한 '킬러 앱' 가운데 하나이자 페타바이트(Petabyte) 수준의 폭발적인 데이터 증가의 요인이 될 것이다.

"이 때문에 구글, AWS, 마이크로소프트 등의 선두 클라우드 및 데이터 기업들이 데이터를 클라우드 기반 분석 엔진으로 원활하게 이동할 수 있는 IoT 서비스를 활성화하고 있다."

댄 그램
댄 그램은 데이터웨어하우징 및 빅데이터 분석 전문기업 테라데이터의 기업 시스템 총 책임자로서 2016년을 다음과 같이 전망했다.

- 기업들이 하둡을 개편할 것이다: 2016년에 기업들이 과거의 배치로부터 얻은 교훈을 통해 접근방식을 구조적으로 바꿀 것이다.

"하둡과 관련 오픈소스 기술이 지식 수집 이상이 되고 마케팅이 약화되면서 기업들은 특히 관리, 데이터 통합, 보안, 신뢰성을 중심으로 얻은 교훈을 해결하기 위해 하둡 배치를 포기하는 것이 아니라 개편할 것이다.

- 알고리즘이 등장할 것이다: 하우스 홀딩(Holding)과 프로파일링(Profiling)을 위한 데이터 수집 및 준비 과정에서 알고리즘이 성장할 것이다.

"그 결과, CEO와 투자자들은 심화 분석(deep analytics)을 핵심 비즈니스 목표로 언급하기 시작할 것이다."

- 데이터 레이크에서 드디어 몇몇 킬러 앱을 발견할 것이다: 용량 및 가격으로 인해 데이터 레이크가 미가공 IoT 데이터 시연을 위한 가장 보편적인 저장소가 될 것이다.

"IoT M2M 데이터의 크기가 규모의 순서에 따라 인메모리(In-memory) 용량으로 가득 차, 이행자들이 저비용 저장소를 위해 데이터 레이크 기술을 도입할 것이다."

- 데이터센터에서 수집한 IoT 데이터의 가치가 처리 데이터보다 더 빨리 감소할 것이다: 화폐 데이터 부문이 부재한 대부분의 센서 데이터는 동일한 센서의 더욱 새로운 데이터 수집체로 대체되면서 수시간, 수일, 수주 만에 가치가 감소할 것이다.

"아키텍처와 시스템은 보존 및 처리 비용에 대처하기 위해 이런 급격한 감소를 보상할 수 밖에 없을 것이다." editor@itworld.co.kr