데이터ㆍ분석

스트리밍 데이터의 이해와 주요 이벤트 스트리밍 플랫폼 비교

Martin Heller | InfoWorld 2022.01.12
스트리밍 데이터, 또는 이벤트 스트림 처리는 일반적으로 빅데이터와 관련해서 쓰이는 용어다. 보통 센서나 서버 로그와 같은 수천 개의 데이터 소스에서 지속적으로 생성되는 데이터를 의미한다. 대체로 스트리밍 데이터 레코드는 각각 몇 킬로바이트 정도로 작지만 수가 많고, 스트림은 중단되는 일 없이 계속 이어진다. 
 
ⓒ Getty Images Bank


반면 과거 기록 데이터는 일반적으로 배치 ETL(추출, 변환, 로드) 프로세스를 거친 후 데이터 웨어하우스, 데이터 레이크 또는 데이터 레이크하우스와 같은 분석 데이터베이스로 전달된다. 급하지 않을 때는 이런 절차를 거쳐도 문제될 것이 없다. 그러나 분석 결과에 대해 최대한 실시간에 가깝게 대응하기 위해서는 스트리밍 데이터를 신속하게 처리해야 하는 경우가 있다.

스트리밍 데이터 처리 소프트웨어는 보통 증분적으로 데이터를 분석하고 실시간 집계 및 상호연계, 필터링 또는 샘플링을 수행한다. 또한 스트림은 과거 기록 레코드에 반영되도록 저장되는 경우도 많다. 증분 처리는 레코드 단위로 할 수도 있고 일정한 시간에 걸쳐 수행할 수도 있다. 

스트림 데이터를 실시간으로 분석하면 비정상적인 이벤트, 정상 값에서의 현저한 이탈, 형성 중인 추세를 감지할 수 있다. 이렇게 하면 농지가 건조해질 때 급수 장치를 켜거나, 주식 값이 목표가 아래로 떨어질 때 주식을 구매하는 등의 실시간 대응이 가능하다. 스트리밍 데이터의 소스에는 다음이 포함된다. 
 

회원 전용 콘텐츠입니다. 이 기사를 더 읽으시려면 로그인 이 필요합니다. 아직 회원이 아니신 분은 '회원가입' 을 해주십시오.

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.