엣지부터 클라우드까지 전사 데이터 파이프라인 구축하기

 | Cloudera 2021.07.06
ⓒ Getty Images Bank

최근 기업의 데이터 관련 고민 중 하나는 ‘파이프라인’이다. 엣지 컴퓨팅 환경부터 클라우드까지 어떻게 데이터 파이프라인을 구축할 것인가? 이 고민에 대한 답을 찾아 나선 조직이 많다. 시대와 상황이 바뀐 만큼 데이터 수집 방식도 예전과 다르다. 기존에는 스쿱(SQOOP) 같은 도구를 사용해 저장된 데이터를 수집한 후, 중앙의 데이터 플랫폼에서 가공하고 분석하는 접근이 일반적이었다. 그러던 것이 최근에는 무게 중심이 실시간 방식으로 옮겨가고 있다. 실시간 분석 요구가 늘면서 배치 방식뿐만 아니라 스트리밍까지 고려한 데이터 수집 방안이 필요해졌다. 이런 이유로 최근 많은 조직이 다양한 데이터 수집 방안을 표준화하고, 이를 일관된 방식으로 관리할 수 있는 데이터 허브와 파이프라인 구축에 나서고 있다. 
 
ⓒ Cloudera
 

실시간 데이터 처리에 대한 클라우데라의 접근법 

클라우데라는 시대적 변화와 요구를 기민하게 수용하기 위해 오픈소스 중심의 기술 생태계 발전을 진두지휘하고 있다. 배치와 스트리밍을 모두 포괄하는 데이터 수집에 대한 요구 수용을 위해 클라우데라는 엣지와 플로우 관리, 스트리밍 메시지, SDX 세 축을 중심으로 한 플랫폼을 제안하고 있다. 이 플랫폼의 특징은 엣지부터 클라우드까지 실시간 데이터 스트리밍 파이프라인을 유연하게 구축할 수 있다는 것이다. 대용량, 대규모 데이터의 실시간 처리는 물론이고,  엔터프라이즈가 필요로 하는 데이터 프로비넌스와 리니지(계보) 추적, 그리고 스트리밍 소스 관리와 모니터링 기능을 충실히 제공한다. 
 
ⓒ Cloudera

클라우데라의 접근은 앞으로 하이브리드 멀티 클라우드 환경까지 포괄하는 쪽으로 발전 중이다. 클라우데라는 나이파이, 미니파이, 카프카, 플링크, 데이터 허브와 데이터 플로우를 넘어 이제 데이터 플로우 서비스를 통한 퍼블릭 클라우드까지 전사 데이터 파이프라인 구축과 확장을 지원하고 있다. 
 
ⓒ Cloudera
 

미니파이와 나이파이의 역할 

이제 엣지부터 클라우드까지 이어지는 실시간 데이터 수집 파이프라인을 가능하게 하는 중요 구성 요소에 대해 자세히 알아보자. 클라우데라는 엣지 데이터 수집을 위한 요소로 미니파이를 제공한다. 이를 배치하여 실시간으로 데이터를 수집해 필터링, 마스킹, 라우팅 등의 처리 과정을 거쳐 HDFS, 쿠두, 카프카, AWS S3 등 다양한 저장소로 보낸다. 물론 배치 형태로 파일을 가져오기 위해 FTP 등의 수단도 지원한다. 

엣지 데이터 수집에 있어 가장 큰 도전 과제는 안정성과 성능을 보장하는 것이다. 미니파이는 신규 파일 자동 인식, 데이터 전달 보장, 더욱 적은 리소스 사용 등 지속해서 진화하고 있다. 여기에 클라우데라는 수천 개의 엣지를 중앙에서 효율적으로 관리할 수 있도록 엣지 관리 도구를 제공한다. 
 
ⓒ Cloudera

엣지에서 수집한 데이터를 다루는 것은 나이파이의 몫이다. 나이파이는 실시간, 배치 등 원하는 방식으로 정형, 비정형 데이터를 가져올 수 있다. 이렇게 모은 데이터를 다양한 변환 작업 수행 후 카프카, 쿠드 등의 시스템으로 전달된다. 
 
ⓒ Cloudera

데이터 파이프라인에서 성능과 안정성 못지않게 중요한 요소로 얼마나 쉽고 빠르게 파이프라인을 생성할 수 있는지를 본다. 최근 추세는 코드를 사용하지 않고 누구나 쉽게 드래그앤드롭 방식으로 플로우를 짜는 것이다. 나이파이 환경에서는 GUI 기반 워크플로우 정의가 가능해 데이터를 자산화하는 데 큰 도움이 된다. 담당자가 바뀌거나, 파이프라인을 수정해야 하는 경우에도 일관성 있게 데이터 파이프라인을 유지할 수 있어 데이터는 자산으로 제 역할을 다할 수 있다. 
 
ⓒ Cloudera

한편, 나이파이 역시 진화를 거듭하고 있다. 막강한 기능과 높은 유연성에도 불구하고 나이파이는 느리다는 꼬리표가 따라다녔다. 나이파이는 이런 문제를 스테이트리스 기능 지원으로 해결하고 있다. 기존 플로우 변경 없이 디스크 기반 데이터 처리를 인메모리로 옮겨 할 수 있도록 하여 성능 병목 문제를 해결하였다. 그뿐만 아니라 아키텍처의 유연성도 높아져 다양한 플랫폼과 여러 위치에서 데이터 처리가 가능하다. 
 
ⓒ Cloudera
 

카프카 지원 및 나이파이와 통합 방향

다음으로 살펴볼 요소는 카프카다. 카프카 엔진은 이미 시장에서 충분히 검증을 마친 메시징 플랫폼이다. 클라우데라가 기술 지원을 하는 노드 수만 해도 1만 7,770개에 달할 정도로 널리 쓰이고 있다. 엔터프라이즈에서 카프카를 사용할 때 가장 중요하게 보는 것은 바로 운영 환경의 모니터링이다. 클라우데라는 엔터프라이즈가 요구하는 데이터 스키마 중앙 관리, 브로커/프로듀서/컨슈머 중앙 관리 및 모니터링, 카프카 클러스터 간 데이터 복제 및 동기화 등의 기능을 갖춘 운영 환경을 제공한다. 

이 환경은 데이터 파이프라인에 대한 매우 높은 가시성을 제공한다. 브로커/프로듀서/컨슈머 개별 요소를 세밀하게 모니터링할 수 있으며, 개별 토픽을 선택하면 구성과 데이터 유입량 같은 일반적인 정보 외에 메시지 내용까지 확인할 수 있다. 
 
ⓒ Cloudera

인상적인 것은 데이터 플로우 관계 확인이다. 제대로 된 모니터링 체계가 없으면 알 수 없는 것이 바로 데이터 플로우 관계다. 클라우데라는 이 관계를 시각화하여 볼 수 있는 환경을 제공해 장애 발생 시 특정 메시지에 대한 내용을 상세히 파악해 문제 해결을 할 수 있도록 돕는다. 선제적 이슈 대응도 지원한다. 이를 위해 각종 장애 상황에 대한 얼럿(alert) 생성 기능도 지원한다. 이 기능은 조건 기반으로 얼럿을 생성해 운영자가 진짜 중요한 문제에 선제적으로 대응할 수 있도록 한다. 
 
ⓒ Cloudera

이외에도 클라우데라는 카프카의 연결성 강화를 통해 전사 데이터 파이프라인 구축의 범위를 유연하게 확장할 방안도 제시한다. 현재 총 6개 데이터베이스에 대한 카프카 CDC 커넥터를 지원할 계획이며  클라우데라 SMM과 CDC에 대한 통합 및 기술 지원도 제공한다. 더불어 나이파이가 제공하는 100여 개의 소스/싱크 커넥터 기술을 추가 비용 없이 카프카 커넥터로 변환할 수 있는 기능도 지원하며, 커넥터 변경뿐 아니라 나이파이 플로우도 카프카 커넥터에 적용이 가능하다. 이런 개선 덕에 카프카 이용 조직은 수많은 내외부 시스템과 연계 편의성을 크게 높일 수 있다. 

살펴본 바와 같이 클라우데라는 다양한 방법으로 저장된 데이터와 실시간 데이터를 수집하고 처리할 방법을 제시한다. 그리고 미니파이, 나이파이, 카프카로 이어지는 흐름을 통해 복잡한 기업의 요구 사항을 처리할 수 있는 강력한 엔터프라이즈 데이터 파이프라인 구축과 운영을 돕는다. 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.