한국은 빅데이터 금광, 실시간 분석으로 데이터 캐내야

ITWorld

<Sponsored by 굿모닝아이텍> 빅데이터가 이슈가 된지 벌써 수년째다. 하지만 구체적인 활용 결과는 이제야 하나 둘 수면 위로 떠오르고 있다. 빅데이터를 말하는 기업은 많지만 실제 성과를 얻은 기업을 찾기란 쉽지 않다. 산업분야에 따라 다르겠지만 데이터에도 유효기간이 있다. 이제 빅데이터 시장에서 중요한 것은 ‘데이터를 수집하는 것’이 아니라 ‘유효한 데이터’를 ‘빠르게 분석’하는 것이다. 유효기간이 안에 분석되지 않은 데이터는 더 이상 효력이 없다. 그렇다면 어떻게 유효기간 안에, 빠르게 데이터를 분석 할 수 있을까. 2015 빅데이터 트렌드를 살펴보고 2016년, 실천해야 할 해답을 알아보자.
 

75% 빅데이터 잘 활용하고 있다고 생각, 실상은? 4% 불과 최근 PwC와 아이언 마운틴의 ‘기업이 보유한 정보에서 어떻게 가치와 통찰력을 추출할 수 있을까’라는 제목의 보고서에 따르면 현업 임원 75%는 자신들이 ‘정보 자산을 최대한 활용’하는 것으로 생각하지만, 실제 활용 여부를 확인해보니 겨우 4%에 불과했다. 또한, 조사에 응한 43%는 정보에서 거의 실질적인 혜택을 얻지 못했고, 23%는 아무것도 얻지 못했다고 답했다. 이 조사는 북미와 유럽에서 250명 이상의 직원들 둔 중견기업과 2,500명 이상의 직원을 둔 대기업 등 1,800여 곳을 대상으로 조사한 결과를 토대로 작성되었지만 한국도 별반 다르지 않을 것이다.

한국은 빅데이터 금광, 캐내야 보배 최근 '빅데이터 경영의 석학’으로 주목 받고 있는 톰 데이븐포트 미국 밥슨칼리지 교수 방한 인터뷰에서 "한국은 그야말로 빅데이터의 '금광'을 깔고 앉아 있는데도 그걸 제대로 캐내지 못하는 것 같아 안타깝다"고 말해 화제가 된 바 있다. 한국은 인터넷과 스마트폰 보급률 세계 1위이며, 공공 인프라도 모두 전산화되어 있고, 신용카드를 이용한 전자결제망도 소규모 상점까지 모두 깔려 있는 등 사회 곳곳에서 실시간으로 막대한 양의 자료가 쏟아지고 있다. 활용 가능한 양질의 데이터가 무궁무진하다는 말이다. 이제 중요한 것은 ‘분석’이다.

빅데이터 시장의 핵심은 ‘분석' IDC는 세계 빅데이터 시장이 2014년 172억 달러에서 2019년 486억달러에 달할 것이라고 예상했다. 빅데이터 기술 중에서는 ‘분석’ 부문 성장세가 높을 것이며, 앞으로 빅데이터 시장의 핵심 분야가 될 것이라고 강조했다. 빅데이터 시장을 구성하는 인프라, 소프트웨어가 평준화되면서, 높은 기술력이 필요한 ‘분석’에 대한 서비스 차별화가 기업 수준을 판가름하는 기준이 될 것이라는 전망이다. 그렇다면 분석에서 가장 중요한 것은 무엇일까. 정확성을 최소 기준으로 두었을 때 주목해야 할 것은 ‘속도’이다. IDC 관계자는 "빅데이터 제품과 서비스를 제공하는 기업들은 낮은 비용으로 더 빠른 환경을 제공해야 하며, 사용자들은 더 많은 데이터 속에서 빠른 분석을 원한다"고 말했다.

현존하는 데이터베이스 중 가장 빠른 성능, 파스트림 대용량 데이터를 신속하게 처리 할 수 있는 ‘분석 속도’가 이제 빅데이터 산업에 가장 중요한 키워드다. 그렇다면 데이터 분석용 데이터베이스(이하 DB) 중 속도로 주목 받고 있는 플랫폼은 무엇이 있을까. 대용량 데이터 처리 및 속도 관점에서 기존 DB와 실시간 사물인터넷 분석 DB인 파스트림을 비교한 결과 파스트림이 현존하는 DB 중에서 가장 빠른 성능을 보였다. 이는 아래 파스트림만의 6가지 특징 때문에 가능한 것이다. - 적재와 동시에 빠른 쿼리가 가능한 롹리스 아키텍처(Lockless Architecture) - 압축된 상태에서 빠르게 검색할 수 있는 HPCI(High Performance Compressed 인덱스) 특허 기술 - JDBC/ODBC 등 표준 API 제공 - 데이터 위치 분산 및 Shared Nothing 방식의 클러스터인 MPP(Massively Parallel Processing) - 수만 컬럼의 데이터 수용이 가능한 컴럼(Columnar) 기반 - 리눅스 기반의 표준 하드웨어(H/W) 사양으로 저렴한 x86, 가상화 머신에 설치 가능한 낮은 TCO

대용량 데이터 1초 이내 분석 가능 대용량 데이터 1초 이내 분석은 핵심 기술인 고성능 압축 인덱싱(HPCI) 특허 기술이 적용되어 가능한 것이다. 기존 DB에서는 빠른 검색을 위해 인덱스를 하고 디스크에 저장, 검색을 위해 저장된 인덱스를 메모리에서 압축 해제 후 검색을 수행한다. 이 경우 대용량 데이터일수록 디스크 I/O 및 CPU에 많은 오버헤드가 발생하여 성능저하가 발생한다. 파스트림은 압축된 인덱스 해제 없이 바로 디스크에 저장된 내용을 검색 할 수 있어 대용량 데이터 처리에도 고성능 처리 속도 유지는 물론 디스크 I/O와 CPU 자원을 절감 할 수 있다.

지역 분산처리로 실시간 분석과 함께 비용 절감까지 파스트림은 중앙에 데이터를 모으지 않고 지역적으로 분산된 데이터를 엣지 인텔리전스(Edge Intelligence) 분산 처리 아키텍처를 지원한다. 기존에는 데이터 분석을 위해 데이터를 중앙으로 모아야만 했다. 하지만 파스트림은 GDA(Geo-Distributed Analytics) 기능을 통해 지역에 분산된 데이터를 중앙에 모으지 않고도 원하는 결과를 실시간 분석 할 수 있어 더욱 주목을 받는 것. 빅데이터는 물론이고 사물인터넷이 점차 활성화 되면서, ‘실시간 분석’에 대한 요구는 점점 증가 되고 있다. 이에 여러 지역 센서와 머신에서 발생하는 대량의 데이터를 중앙으로 모으기 보다 지역에 데이터를 분산저장하고 필요 시 해당지역으로 묶어 실시간 분석을 실행하면 비용절감까지 가능하다.

R 기반의 대용량 데이터 분석 파스트림은 데이터 분석을 위한 통계분석 툴인 R 연동을 지원하고 DB의 병렬처리 기능에 탑재되어 대용량 데이터 통계분석이 가능하다. R 연동은 JDBC/ODBC을 이용한 싱글노드(Single Node), 클러스터 노드에 탑재되어 분산처리, R 스크립트를 DB에 직접 생성 후 SQL에 적용할 수 있다. 싱글노드로 R을 이용한 데이터 분석 시 대량의 데이터를 클라이언트 PC의 메모리에 올려서 분석 할 수 없는 단점이 있고, 대량의 데이터를 R 분석 시 클러스터 노드에서 분산 및 병렬처리 함으로 대량의 데이터 분석 시 필수적 요소 기능이다

인비전, 파스트림 적용 후 연간 1억 6천 달러 경제적 효과 얻어 실시간 IoT 분석 DB 파스트림은 제조, 에너지, 리테일, 웹 분석, 물류교통, 의류 등 다양한 분야의 적용 사례를 통해 그 성능을 인정 받고 있다. 제조분야의 독일 지멘스(SIEMENS) 가스터빈 모니터링에 파스트림 적용 후 가스터빈 당 100Hz의 5,000개 센서를 통해 시간당 18억 건의 데이터를 적재하고 실시간 분석을 실시해 설비의 피로도 예측이 가능해졌고 정비 효율성이 향상 되었다. 에너지 분야의 중국 인비전(ENVISION) 풍력발전 모니터링 시스템의 경우 20TB 이상의 Historical data에 대한 분석을 포함하여 20,000대의 풍력터빈에서 발생하는 센서 데이터에 대한 연속적인 실시간 모니터링을 통해 연간 15%의 효율 증가로 1억 5,800달러 상당의 경제적 효과를 얻었다.

MPREIS, 파스트림 적용 후 4억 건 분석에서 500억 건 실시간 분석 가능 리테일 분야 오스트리아 엠피알리스(MPREIS)사의 POS 정보 분석 시스템의 경우 기존 RDBMS에서는 4억 건을 데이터분석 하였으나 파스트림 적용 후 500억 건의 판매정보를 실시간으로 분석할 수 있었다. 또한, 기존 시스템에서는 과거 2주치 데이터를 분석하였으나 파스트림 적용 후 과거 6개월 데이터를 분석할 수 있었다. 웹 분석 분야 독일 이트래커(etracker)의 웹 분석의 경우 50,000개 도메인에서 발생하는 100억 건의 웹 클릭을 실시간으로 분석하고 2초 이내의 응답속도, 100개의 인터렉티브(Interactive) 사용자, 캠페인 스티어링 기능을 구현했다. 빅데이터 분석 문의 gitsales@goodmit.co.kr