클라우데라 CDE를 활용한 데이터 강화 및 파이프라인 자동화 방법

 | Cloudera 2021.07.06
ⓒ Getty Images Bank

데이터의 양이 많아 질수록, 분석 수요가 커질수록 데이터 파이프라인은 복잡해진다. 그리고 어느 수준을 넘어서는 순간 자동화 없이는 효율적인 관리가 어려운 시기를 맞이하게 된다. 최근 많은 조직이 복잡한 데이터 파이프라인을 조정하고 자동화하는 이유다. 데이터 파이프라인을 자동화하고, 파이프라인 처음부터 끝까지 데이터 무결성을 유지하고, ETL 가시성을 확보하려면 어떤 기준이 필요할까? CDE(Cloudera Data Engineering)를 이용해 데이터 엔지니어링 작업을 간소화하여 효율성을 높이는 방법을 방안을 알아보자. 

데이터 엔지니어링은 전체 데이터 라이프사이클에서 초반에 자리한다. 데이터 수집 그다음 단계에서 데이터 엔지니어링이 이루어진다. 이 과정에서 효율이 떨어지면 전체 데이터 라이프사이클에 영향을 미친다. 데이터 준비가 제때, 제대로 이루어지지 않으면 리포팅, 서비스, 예측 같은 작업에 문제가 생길 수밖에 없다. 데이터 라이프사이클에서 가장 큰 병목 구간으로 엔지니어링 단계를 꼽는 이유다. 병목 현상을 사전에 방지하는 유일하고 확실한 방법이 바로 자동화다. 
 
ⓒ Cloudera
 

CDE를 쓰는 이유 

CDE는 엔터프라이즈 데이터 엔지니어링 조직을 위해 클라우데라가 제공하는 자동화 서비스다. 클라우드 네이티브 방식으로 서비스되어 데이터 파이프라인 자동화를 신속하고 효율적으로 지원한다. CDE는 아파치 스파크(Apache Spark)를 기반으로 다양한 데이터 엔지니어링 도구를 제공한다. 이런 특징으로 조직의 데이터 엔지니어 및 팀은 아파치 에어플로우(Apache Airflow), 파이프라인 모니터링, 문제 해결 등의 도구를 활용해 데이터 파이프라인 조정 및 자동화를 할 수 있다. 더불어 CDE는 CDP(Cloudera Data Platform)과 완전히 통합되어 있어 엔드투엔드 가시성과 보안성 확보도 쉽다. 

CDE를 많은 데이터 엔지니어링 팀이 사용하는 이유는 간단하다. 대규모 운영 환경에서 스파크 기반으로 데이터 파이프라인 관련 잡(Job)을 생성하고 관리하는 것, 그리고 이들 잡이 잘 돌아가고 있는지 확인하고 리소스를 적절히 관리하는 작업은 매우 큰 도전 과제다. 우선 스파크 플랫폼과 잡을 생명주기 측면에서 관리하는 작업은 매우 손이 많이 가는 중요한 관리 포인트다.
 
ⓒ Cloudera

CDE는 데이터 엔지니어의 업무를 간소화한다. CDE를 이용하면 스파크 플랫폼과 잡 관리를 하나의 통합 환경에서 바라볼 수 있다. 그리고 웹 UI, CLI, API 등 원하는 방식으로 각종 관리 도구를 활용할 수 있다. 이런 특징으로 데이터 엔지니어는 파이프라인 스케줄링, 모니터링, 디버깅 작업을 간소화할 수 있다. 그리고 데이터 파이프라인을 필요에 따라 CDW, CML, COD와 연계할 수 있다. 보안과 규정 준수 등을 위한 거버넌스 체계를 세우는 것도 가능하다. 데이터 과학자나 현업 사용자가 느끼는 데이터 파이프라인의 품질도 높일 수 있다. 엔드투엔드 가시성을 바탕으로 이슈를 조기에 발견할 수 있고 직관적으로 문제를 바라보며 해결할 수 있다. 
 
ⓒ Cloudera

이쯤에서 'CDE는 데이터 허브와 무엇이 다른가?'라는 궁금증이 생겨난다. 사용 목적 자체는 다르지 않지만, 진정한 차이는 바로 엔진과 배포 방식 그리고 리소스 관리 방식이다. 다음 표와 같이 CDE는 스파크를 컴퓨트 엔진으로 활용하고 쿠버네티스를 배포 수단으로 활용한다. 그리고 유니콘과 쿠버네티스를 이용해 리소스를 관리한다. 즉, CDE와 데이터 허브는 조직의 요구 사항과 목적에 맞게 사용하면 된다. 
 

CDE가 데이터 엔지니어에게 제공하는 편의성 

CDE는 앞서 언급한 바와 같이 클라우드 네이티브 서비스다. 따라서 현재 운영 중인 CDP 환경과 바로 통합해 데이터 엔지니어링 자동화를 할 수 있다. 다음 아키텍처는 AWS에 CDP 환경을 구축한 기업의 사례다. 기업의 데이터 플랫폼 환경은 AWS에 있고 CDE는 클라우데라 클라우드에 위치한다. 데이터 엔지니어는 CDE 환경을 직접 구축할 일 없이 서비스 이용하듯 쉽고 편하게 사용할 수 있다.
 
ⓒ Cloudera

데이터 엔지니어는 웹 콘솔에 접속해 ‘Data Engineering’ 서비스를 선택해 관리 환경에 들어간다. 가상 클러스터를 생성하고 필요한 CPU와 메모리를 할당하여 컨테이너 환경을 배포할 수 있다. 필요에 따라 오토스케일링 옵션을 선택해 자원 부족 없이 잡이 원활히 실행되게 할 수도 있다. 가상 클러스터에 배포할 잡은 당장 실행하거나, 스케줄링을 통해 올릴 수 있다. 일단 잡이 실행되면 데이터 엔지니어는 그라파나(Grafana)를 이용해 자원 사용 현황을 모니터링할 수 있다. CDE는 아파치 에어플로우를 통해 유연한 오케스트레이션이 가능하다. 스케줄링에 따라 자동으로 파이프라인이 생성되게 할 수 있어 여러모로 편리하다. 
 
ⓒ Cloudera

한편, CDE는 세밀한 모니터링과 함께 셀프서비스 문제 해결 기능을 제공한다. 따라서 데이터 엔지니어가 일일이 개입하지 않아도 데이터 과학자나 현업 사용자가 직관적인 정보를 바탕으로 문제를 해결할 수도 있다. 
 
ⓒ Cloudera
 

CDE 로드맵 

CDE는 다른 서비스와 마찬가지로 지속해서 진화 중이며 이를 통해 데이터 파이프라인 자동화 환경의 완성도를 높여 가고 있다. 현재 CLI 보강, 파이썬 환경 및 사용자 지정 도커 이미지에 대한 종속성 문제 해결, 커스텀 에어플로우 DAG 지원, 스파크 3와 함께 멀티 버전 지원, 잡 수준의 튜닝 권고 제공, WXM 통합 등이 계획되어 있다.

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.