2021.01.08

빠르게 진화하는 실시간 기술을 통한 기업 인사이트 확보 방법

BrandPost Sponsored by Cloudera
Cloudera
실시간 데이터 처리 기술이 발전하면서 더 많은 조직이 데이터 스트림에서 새로운 통찰력을 확보하는 시대가 됐다. 실제로 제조, 소매, 금융, 보안, 공공, 통신 등 다양한 산업에서 데이터 스트리밍은 경쟁 우위 확보의 핵심 요소가 되었다. 

제조는 기계와 센서가 생성하는 데이터를 분석해 잠재적인 오류를 예측하고, 문제 발생 이전에 대응하고 있다. 소매 업계는 데이터 스트림 분석을 통해 온라인/오프라인 경계를 넘어서는 맞춤형 광고 게시 및 상품 추천을 하고 있다. 금융권은 실시간 분석을 바탕으로 사기 행위로 의심되는 트랜잭션을 짚어내고 있다. 사이버보안 업계는 실시간 데이터 속에서 위협을 탐지해 해킹 피해 확산을 막고 있다. 

그렇다면 모두의 관심사인 실시간 분석을 위해 각 기업은 어떤 스트리밍 엔진을 선택해야 할까? 관련해 클라우데라 세션 코리아에서 ‘빠르게 진화하는 실시간 기술을 통해 기업의 인사이트를 확보하기’란 주제로 진행된 클라우데라 솔루션 엔지니어 남영지 이사의 발표 내용을 정리해 소개한다. 


폭발적으로 증가하는 데이터 스트리밍 

데이터 스트리밍은 폭발적인 성장을 거듭하고 있다. IDC의 자료에 따르면, 2025년까지 415억 개 이상의 IoT 장치가 사용될 것이고, 이 가운데 상당 부분은 산업 및 자동차 부분에서 쓰일 전망이다. 이렇게 연결된 장치가 생성하는 데이터의 양은 79제타바이트(ZB)에 이를 것으로 추정된다. 장치 수 증가에 비례해 데이터 스트림 규모도 커지는 것이다. 

클라우데라는 CDP(Cloudera Data Platform)의 한 요소로 데이터 스트리밍 분석을 제공한다. 이동 중인 데이터(data in motion) 처리를 위한 아키텍처는 다음 그림과 같다. 나이파이(NiFi), 미니파이(MiNiFi)를 이용해 엣지에서 데이터를 수집하고, 카프카(Kafka)로 메시 큐를 버퍼링하고, 나이파이를 이용해 목표 시스템으로 데이터를 보내고, 앱이나 마이크로서비스를 통해 분석이 이뤄진다. 데이터 저장은 퍼블릭 클라우드의 오브젝트 스토리지, 데이터 레이크, opDB 등에 한다. 
 

실제 데이터 스트림의 처리 방식은 우선 움직이는 차량에서 머신 데이터를 미니파이로 수집한다. 나이파이는 이들 정보를 수집해 변환하고 구문 분석 및 필터링한 후 카프카 토픽에 저장한다. 이후 스트림 처리 엔진이 이를 처리하고 실행한다.

주요 관리 요소를 보자면 스키마 레지스트리(Schema Registry)는 카프카 스키마 거버넌스를 맡는다. 스트림 메시징 매니저(Streams Messaging Manager)는 모든 카프카 클러스터 관리와 모니터링을 담당한다. SRM(Streams Replication Manager)은 카프카 복제 서비스로 고가용성 및 비즈니스 연속성 보장의 임무를 맡는다. 

이 3 요소를 보면 카프카가 엔터프라이즈 요구하는 관리, 확장, 보안을 수용함을 알 수 있다. 카프카의 이런 특징을 활용하려면 CDP 7.1 이상이 필요하다. CDP 7.1 버전부터 포함된 카프카는 데이터 이동, 클러스터 관리, 스키마 및 레지스트리에 대한 접근 제어 및 감사 등의 기능 개선을 지원한다. 
 


스트림 처리 엔진을 선택하는 방법 

데이터 스트림 엔진은 조직의 요구사항, 환경 등 여러 측면을 고려해 최선의 선택을 해야 한다. 모든 것에 맞는 최고를 찾기보다 최선을 골라야 한다. 현재 플링크(Flink), 카프카 스트림(Kafka  Streams), 스파크 스트럭처드 스트리밍(Spark Structured Streaming), 스톰(Storm) 등이 주요 고려 대상으로 꼽힌다.

이 가운데 최근 관심을 끌고 있는 것은 플링크다. 플링크는 낮은 지연 상태에서 이벤트 스트리밍을 실시간으로 분석하는 데 필요한 늦게 도착하는 데이터 처리, 체크 포인트, 이벤트 시간 처리, 정확히 한번 처리(exactly-once)와 같은 고급 기능을 고루 갖추어 활용도가 높다고 평가받는다. 참고로 클라우데라는 카프카 스트림, 스파크 스트럭처 스트리밍과 함께 플링크도 지원한다. 따라서 클라우데라 매니저에서 설치와 구성이 가능하다. 


데이터 스트림의 활용 사례 

데이터 스트림의 대표적인 활용 사례로는 두바이 스마트시티 프로젝트와 국내 모 제조업체를 들 수 있다. 두바이 스마트시티 사례는 도시 전체의 물 사용 방식을 이해하고 더 좋은 계획을 세우기 위해 클라우데라 나이파이 기술을 이용해 실시간 데이터 스트림 분석을 한 것이다. 국내 제조사 사례는 마이크로서비스 아키텍처 전환을 위해 기존 MQ(Message Queue) 기반 EAI(Enterprise Applications Integration)를 대체할 고성능 스트리밍 메시징 플랫폼 구축 프로젝트다. 이 기업은 스트리밍 메시지 처리를 위해 카프카를 적용했다. 


향후 발전 방향

데이터 스트림 처리 기술은 나이파이 등장과 함께 새로운 시대로 접어들었다. 코딩 없이 워크플로우 기반 실시간 데이터 수집을 하는 나이파이는 등장과 함께 뜨거운 호응을 얻었다. 이후 엔터프라이즈가 요구하는 확장성을 갖추기 위해 클러스터 아키텍처가 고안됐고, 월마트 등 대규모로 실시간 데이터를 처리하는 조직과 생태계가 함께 기술을 발전시키면서 위상을 더욱 굳건히 하고 있다. 더불어 카프카, 플링크 등 든든한 협력 생태계의 가세로 데이터 스트림 분석의 큰 흐름을 주도하고 있다. 

그렇다면 향후 기업 데이터의 발전 방향은 어떠한가? 클라우데라는 조직이 PaaS, SaaS 형태로 이용하는 것이 새로운 발전 방향이 될 것으로 기대하고 있다. 이와 관련해 클라우데라는 CDP 데이터허브(DataHub), CDP-DC를 통해 온프레미스 환경에 프라이빗 클라우드 방식으로 PaaS를 구축할 수 있도록 지원할 계획이다. 동시에 CDP 데이터플로우 서비스(DataFlow Service)를 SaaS 방식으로 제공해 하이브리드와 프라이빗 클라우드 모두에서 이용할 수 있도록 한다는 방침이다.  
 


2021.01.08

빠르게 진화하는 실시간 기술을 통한 기업 인사이트 확보 방법

BrandPost Sponsored by Cloudera
Cloudera
실시간 데이터 처리 기술이 발전하면서 더 많은 조직이 데이터 스트림에서 새로운 통찰력을 확보하는 시대가 됐다. 실제로 제조, 소매, 금융, 보안, 공공, 통신 등 다양한 산업에서 데이터 스트리밍은 경쟁 우위 확보의 핵심 요소가 되었다. 

제조는 기계와 센서가 생성하는 데이터를 분석해 잠재적인 오류를 예측하고, 문제 발생 이전에 대응하고 있다. 소매 업계는 데이터 스트림 분석을 통해 온라인/오프라인 경계를 넘어서는 맞춤형 광고 게시 및 상품 추천을 하고 있다. 금융권은 실시간 분석을 바탕으로 사기 행위로 의심되는 트랜잭션을 짚어내고 있다. 사이버보안 업계는 실시간 데이터 속에서 위협을 탐지해 해킹 피해 확산을 막고 있다. 

그렇다면 모두의 관심사인 실시간 분석을 위해 각 기업은 어떤 스트리밍 엔진을 선택해야 할까? 관련해 클라우데라 세션 코리아에서 ‘빠르게 진화하는 실시간 기술을 통해 기업의 인사이트를 확보하기’란 주제로 진행된 클라우데라 솔루션 엔지니어 남영지 이사의 발표 내용을 정리해 소개한다. 


폭발적으로 증가하는 데이터 스트리밍 

데이터 스트리밍은 폭발적인 성장을 거듭하고 있다. IDC의 자료에 따르면, 2025년까지 415억 개 이상의 IoT 장치가 사용될 것이고, 이 가운데 상당 부분은 산업 및 자동차 부분에서 쓰일 전망이다. 이렇게 연결된 장치가 생성하는 데이터의 양은 79제타바이트(ZB)에 이를 것으로 추정된다. 장치 수 증가에 비례해 데이터 스트림 규모도 커지는 것이다. 

클라우데라는 CDP(Cloudera Data Platform)의 한 요소로 데이터 스트리밍 분석을 제공한다. 이동 중인 데이터(data in motion) 처리를 위한 아키텍처는 다음 그림과 같다. 나이파이(NiFi), 미니파이(MiNiFi)를 이용해 엣지에서 데이터를 수집하고, 카프카(Kafka)로 메시 큐를 버퍼링하고, 나이파이를 이용해 목표 시스템으로 데이터를 보내고, 앱이나 마이크로서비스를 통해 분석이 이뤄진다. 데이터 저장은 퍼블릭 클라우드의 오브젝트 스토리지, 데이터 레이크, opDB 등에 한다. 
 

실제 데이터 스트림의 처리 방식은 우선 움직이는 차량에서 머신 데이터를 미니파이로 수집한다. 나이파이는 이들 정보를 수집해 변환하고 구문 분석 및 필터링한 후 카프카 토픽에 저장한다. 이후 스트림 처리 엔진이 이를 처리하고 실행한다.

주요 관리 요소를 보자면 스키마 레지스트리(Schema Registry)는 카프카 스키마 거버넌스를 맡는다. 스트림 메시징 매니저(Streams Messaging Manager)는 모든 카프카 클러스터 관리와 모니터링을 담당한다. SRM(Streams Replication Manager)은 카프카 복제 서비스로 고가용성 및 비즈니스 연속성 보장의 임무를 맡는다. 

이 3 요소를 보면 카프카가 엔터프라이즈 요구하는 관리, 확장, 보안을 수용함을 알 수 있다. 카프카의 이런 특징을 활용하려면 CDP 7.1 이상이 필요하다. CDP 7.1 버전부터 포함된 카프카는 데이터 이동, 클러스터 관리, 스키마 및 레지스트리에 대한 접근 제어 및 감사 등의 기능 개선을 지원한다. 
 


스트림 처리 엔진을 선택하는 방법 

데이터 스트림 엔진은 조직의 요구사항, 환경 등 여러 측면을 고려해 최선의 선택을 해야 한다. 모든 것에 맞는 최고를 찾기보다 최선을 골라야 한다. 현재 플링크(Flink), 카프카 스트림(Kafka  Streams), 스파크 스트럭처드 스트리밍(Spark Structured Streaming), 스톰(Storm) 등이 주요 고려 대상으로 꼽힌다.

이 가운데 최근 관심을 끌고 있는 것은 플링크다. 플링크는 낮은 지연 상태에서 이벤트 스트리밍을 실시간으로 분석하는 데 필요한 늦게 도착하는 데이터 처리, 체크 포인트, 이벤트 시간 처리, 정확히 한번 처리(exactly-once)와 같은 고급 기능을 고루 갖추어 활용도가 높다고 평가받는다. 참고로 클라우데라는 카프카 스트림, 스파크 스트럭처 스트리밍과 함께 플링크도 지원한다. 따라서 클라우데라 매니저에서 설치와 구성이 가능하다. 


데이터 스트림의 활용 사례 

데이터 스트림의 대표적인 활용 사례로는 두바이 스마트시티 프로젝트와 국내 모 제조업체를 들 수 있다. 두바이 스마트시티 사례는 도시 전체의 물 사용 방식을 이해하고 더 좋은 계획을 세우기 위해 클라우데라 나이파이 기술을 이용해 실시간 데이터 스트림 분석을 한 것이다. 국내 제조사 사례는 마이크로서비스 아키텍처 전환을 위해 기존 MQ(Message Queue) 기반 EAI(Enterprise Applications Integration)를 대체할 고성능 스트리밍 메시징 플랫폼 구축 프로젝트다. 이 기업은 스트리밍 메시지 처리를 위해 카프카를 적용했다. 


향후 발전 방향

데이터 스트림 처리 기술은 나이파이 등장과 함께 새로운 시대로 접어들었다. 코딩 없이 워크플로우 기반 실시간 데이터 수집을 하는 나이파이는 등장과 함께 뜨거운 호응을 얻었다. 이후 엔터프라이즈가 요구하는 확장성을 갖추기 위해 클러스터 아키텍처가 고안됐고, 월마트 등 대규모로 실시간 데이터를 처리하는 조직과 생태계가 함께 기술을 발전시키면서 위상을 더욱 굳건히 하고 있다. 더불어 카프카, 플링크 등 든든한 협력 생태계의 가세로 데이터 스트림 분석의 큰 흐름을 주도하고 있다. 

그렇다면 향후 기업 데이터의 발전 방향은 어떠한가? 클라우데라는 조직이 PaaS, SaaS 형태로 이용하는 것이 새로운 발전 방향이 될 것으로 기대하고 있다. 이와 관련해 클라우데라는 CDP 데이터허브(DataHub), CDP-DC를 통해 온프레미스 환경에 프라이빗 클라우드 방식으로 PaaS를 구축할 수 있도록 지원할 계획이다. 동시에 CDP 데이터플로우 서비스(DataFlow Service)를 SaaS 방식으로 제공해 하이브리드와 프라이빗 클라우드 모두에서 이용할 수 있도록 한다는 방침이다.  
 


X