2021.01.08

풀 데이터 라이프사이클 CDP, 엔터프라이즈 데이터 클라우드를 품다

BrandPost Sponsored by Cloudera
Cloudera
클라우데라는 지난 2019년 9월 차세대 플랫폼 CDP(Cloudera Data Platform)를 출시했다. 이후 CDP는 진화를 거듭해, 2021년 현재 엔터프라이즈 데이터 클라우드 전략을 품은 솔루션으로 주목받고 있다. 이와 관련해 클라우데라 세션 코리아에서 클라우데라 솔루션 엔지니어링 매니저인 조성현 상무가 ‘CDP: 풀 데이터 라이프사이클’이란 주제로 발표한 내용을 소개한다.



CDP의 주요 구성 요소 
CDP는 클라우데라 CDH(Cloudera Distrubituin Including Apache Hadoop)와 호튼웍스 HDP(Hortonworks Data Platform)의 장점을 극대화한 플랫폼이다. 각각의 장점을 취하면서 클라우드 전환 시대에 기업이 요구하는 사항을 반영하는 방향으로 진화했다.

다음 그림과 같이 CDP는 CDH, HDP의 주요 요소를 통합하고 각 플랫폼 관련 생태계에서 개발하는 나이파이(NiFi), 레인저(Ranger), 아틀라스(Atlas), 임팔라(Impala), 쿠두(Kudu), CDSW(Cloudera Data Science Workbench) 등의 프로젝트가 지속해서 업그레이드되고 있다. 또한, CDP는 스쿱(Sqoop), 카프카(Kafka), 하이브(Hive), 스파크(Spark) 등을 최신 버전으로 반영하고 있다.
 



CDP 주요 개선 사항 

최근 CDP의 주요 개선 사항으로는 접근 제어, 거버넌스, 데이터 계보(리니지) 관리, 배포 모델, 클라우드 지원, 클러스터 구축 시간 등이 있다. 

먼저 접근 제어의 경우, CDP는 아파치 레인저를 사용한다. 레인저는 CDH가 사용하던 아파치 센트리(Apache Sentry)와 전체적으로 비슷하지만, 기능이 더 많고 적용 범위 폭도 넓다. 레인저는 역할 기반 접근 제어와 함께 태그 기반 제어 기능도 제공한다. 이외에 마스킹, 필터링, 감사와 같은 센트리가 제공하지 않는 기능까지 사용할 수 있어 더 유연한 보안 정책 적용이 가능하다. 관리 편의성도 레인저가 좋다. 센트리는 프로비저닝 자동화가 되지 않아 관리자가 일일이 정책을 적용해야 한다. 따라서 엔티티가 늘어날수록 정책 수가 함께 많아지는 문제가 있다. 반면에 레인저는 하나의 정책이 연관 테이블에 자동으로 프로비저닝되어 관리 부담을 줄인다. 
 

CDP는 데이터 거버넌스도 개선했다. CDP는 메타데이터 저장 공간의 확장성이 뛰어나다. 따라서 관리자가 주기적으로 메타데이터를 일일이 지울 필요가 없다. 메타데이터의 양이 늘면 아틀라스 유틸리티 노드를 추가해 확장하면 된다. 

다음으로 데이터 계보 관리도 개선됐다. 기존에는 내비게이터가 수집, 데이터 레이크, 분석 클러스터 단위로 동작했다. 따라서 나이파이, 카프카 등을 이용한 원천 데이터의 수집 경로나 분석 클러스터가 데이터 레이크 클러스터의 데이터를 사용하는 방식에 대해 투명하게 파악하기 어려웠다. CDP는 데이터 계보 관리를 통합 관점에서 접근한다. 물리적으로 분리된 클러스터 환경에서도 일관성 있는 거버넌스와 데이터 계보 관리가 가능하다. 가령 물리적으로 분리된 데이터 수집 클러스터, 분석 클러스터에서 머신러닝 모델 라이프사이클에 대한 모든 데이터 계보 정보를 확인할 수 있다. 
     



클라우드 친화적인 플랫폼

CDP에 추가된 배포 모델과 퍼블릭 클라우드 지원 내용을 보면 이 플랫폼이 클라우드와 공존하는 것을 지향하고 있음을 알 수 있다. CDP는 데이터를 온프레미스 베어메탈 환경에 두는 것, 가상화 환경에서 컴퓨트 엔진을 분리해 프라이빗 클러스터를 구축하는 것, 컴퓨트와 스토리지를 함께 두는 하이브리드 방식까지 총 3개의 배포 모델을 지원했다. 여기에 최근 물리적으로 분리된 원격 환경에 클러스터(compute only)를 배포하는 것까지 추가되어 배포의 유연성이 높아졌다. 
 

퍼블릭 클라우드에서도 CDP를 사용하기가 매우 쉽고 편하다. 클라우드 업체가 제공하는 프로비저닝 기능을 이용해 CDP 이미지를 빠르게 배포해 클러스터를 구축할 수 있고, 워크로드 유형에 맞게 탄력적으로 지원을 조정할 수 있다. 
 

퍼블릭 클라우드가 제공하는 CDP 구축과 관리의 편의성은 프라이빗 클라우드 환경에서도 누릴 수 있다. 탄력적으로 자원을 확장하는 오토스케일링 기반 운영도 가능하다. 차이가 있다면 데이터가 온프레미스 베어메탈 환경의 스토리지에 있다는 것이다. 물론 전제 조건이 있지만 까다롭지 않다. 베이스 클러스터 버전이 7.1.3 이상이면 되고, 레드햇 오픈시프트(OpenShift) 기반 프라이빗 클라우드가 구축되어 있으면 가능하다. 
 

프라이빗 클라우드 환경에서 CDP를 운영하면 신규 클러스터 구축 시간을 크게 단축할 수 있다. 전통적인 방식으로 하드웨어를 발주, 설치, 설정하고, 빅데이터 플랫폼을 구성하고, 데이터 마이그레이션을 하는 시간을 큰 폭으로 줄일 수 있다. 베어메탈 방식이 평소 6주 이상의 시간이 소요되는 반면 프라이빗 클라우드 기반 CDP 환경에서는 몇 분이면 충분하다. 클러스터 구축의 개념이 설치에서 클릭 기반 구성으로 바뀌는 것이다. 




CDP의 3가지 사용 사례 

CDP가 실제 엔터프라이즈 환경에서 제공하는 이점은 다음과 같이 3가지 사용 사례로 파악할 수 있다. 

첫 번째 사례는 셀프서비스 샌드박스 시나리오다. 일반적으로 기업은 분석 과제별로 태스크포스팀을 구성한다. 그리고 이들이 임시 사용할 샌드박스 환경을 제공한다. 기존 빅데이터 플랫폼에서 샌드박스 환경을 제공하기 위해서는 소프트웨어적으로 얀(Yarn) 자원 관리 기능을 이용해 물리적인 실행 환경을 분리해 제공했다. 반면, 프라이빗 클라우드 기반 CDP 환경에서는 온디맨드 방식으로 바로 제공할 수 있다. 필요에 따라 셀프서비스 방식으로 이용하게 해 관리자의 업무 부담을 덜어 줄 수도 있다. 

두 번째, 중소 규모 하둡 클러스터 통합이다. 현실적으로 중소 규모 클러스터가 사일로 형태로 존재하는 경우가 많다. 이 경우 관리도 문제가 될 수 있지만 데이터 품질 이슈가 많다. 프라이빗 클라우드 기반 CDP 환경에서는 실행 환경을 통합할 수 있어 관리와 데이터 품질 문제를 동시에 해결할 수 있다. 

세 번째, 대규모 클러스터 환경에서 SLA(Service Level Agreement)를 보장하는 것이다. 대규모 클러스터 관리자에게 주어진 가장 큰 과제는 여러 워크로드를 대상으로 일관된 SLA를 보장하는 것이다. 이를 가능케 하려면 유연성과 탄력성이 높은 인프라와 플랫폼 환경이 필요한데, 프라이빗 클라우드 기반 CDP에서는 이 2가지를 확보하는 것이 간단하다. 
 

정리하자면 CDP는 하이브리드, 멀티클라우드 시대에 맞는 빅데이터 플랫폼 구축과 운영 방식을 제시하고, 어떤 환경이건 하나의 플랫폼을 같은 방식으로 이용할 수 있는 경험을 제공한다.


2021.01.08

풀 데이터 라이프사이클 CDP, 엔터프라이즈 데이터 클라우드를 품다

BrandPost Sponsored by Cloudera
Cloudera
클라우데라는 지난 2019년 9월 차세대 플랫폼 CDP(Cloudera Data Platform)를 출시했다. 이후 CDP는 진화를 거듭해, 2021년 현재 엔터프라이즈 데이터 클라우드 전략을 품은 솔루션으로 주목받고 있다. 이와 관련해 클라우데라 세션 코리아에서 클라우데라 솔루션 엔지니어링 매니저인 조성현 상무가 ‘CDP: 풀 데이터 라이프사이클’이란 주제로 발표한 내용을 소개한다.



CDP의 주요 구성 요소 
CDP는 클라우데라 CDH(Cloudera Distrubituin Including Apache Hadoop)와 호튼웍스 HDP(Hortonworks Data Platform)의 장점을 극대화한 플랫폼이다. 각각의 장점을 취하면서 클라우드 전환 시대에 기업이 요구하는 사항을 반영하는 방향으로 진화했다.

다음 그림과 같이 CDP는 CDH, HDP의 주요 요소를 통합하고 각 플랫폼 관련 생태계에서 개발하는 나이파이(NiFi), 레인저(Ranger), 아틀라스(Atlas), 임팔라(Impala), 쿠두(Kudu), CDSW(Cloudera Data Science Workbench) 등의 프로젝트가 지속해서 업그레이드되고 있다. 또한, CDP는 스쿱(Sqoop), 카프카(Kafka), 하이브(Hive), 스파크(Spark) 등을 최신 버전으로 반영하고 있다.
 



CDP 주요 개선 사항 

최근 CDP의 주요 개선 사항으로는 접근 제어, 거버넌스, 데이터 계보(리니지) 관리, 배포 모델, 클라우드 지원, 클러스터 구축 시간 등이 있다. 

먼저 접근 제어의 경우, CDP는 아파치 레인저를 사용한다. 레인저는 CDH가 사용하던 아파치 센트리(Apache Sentry)와 전체적으로 비슷하지만, 기능이 더 많고 적용 범위 폭도 넓다. 레인저는 역할 기반 접근 제어와 함께 태그 기반 제어 기능도 제공한다. 이외에 마스킹, 필터링, 감사와 같은 센트리가 제공하지 않는 기능까지 사용할 수 있어 더 유연한 보안 정책 적용이 가능하다. 관리 편의성도 레인저가 좋다. 센트리는 프로비저닝 자동화가 되지 않아 관리자가 일일이 정책을 적용해야 한다. 따라서 엔티티가 늘어날수록 정책 수가 함께 많아지는 문제가 있다. 반면에 레인저는 하나의 정책이 연관 테이블에 자동으로 프로비저닝되어 관리 부담을 줄인다. 
 

CDP는 데이터 거버넌스도 개선했다. CDP는 메타데이터 저장 공간의 확장성이 뛰어나다. 따라서 관리자가 주기적으로 메타데이터를 일일이 지울 필요가 없다. 메타데이터의 양이 늘면 아틀라스 유틸리티 노드를 추가해 확장하면 된다. 

다음으로 데이터 계보 관리도 개선됐다. 기존에는 내비게이터가 수집, 데이터 레이크, 분석 클러스터 단위로 동작했다. 따라서 나이파이, 카프카 등을 이용한 원천 데이터의 수집 경로나 분석 클러스터가 데이터 레이크 클러스터의 데이터를 사용하는 방식에 대해 투명하게 파악하기 어려웠다. CDP는 데이터 계보 관리를 통합 관점에서 접근한다. 물리적으로 분리된 클러스터 환경에서도 일관성 있는 거버넌스와 데이터 계보 관리가 가능하다. 가령 물리적으로 분리된 데이터 수집 클러스터, 분석 클러스터에서 머신러닝 모델 라이프사이클에 대한 모든 데이터 계보 정보를 확인할 수 있다. 
     



클라우드 친화적인 플랫폼

CDP에 추가된 배포 모델과 퍼블릭 클라우드 지원 내용을 보면 이 플랫폼이 클라우드와 공존하는 것을 지향하고 있음을 알 수 있다. CDP는 데이터를 온프레미스 베어메탈 환경에 두는 것, 가상화 환경에서 컴퓨트 엔진을 분리해 프라이빗 클러스터를 구축하는 것, 컴퓨트와 스토리지를 함께 두는 하이브리드 방식까지 총 3개의 배포 모델을 지원했다. 여기에 최근 물리적으로 분리된 원격 환경에 클러스터(compute only)를 배포하는 것까지 추가되어 배포의 유연성이 높아졌다. 
 

퍼블릭 클라우드에서도 CDP를 사용하기가 매우 쉽고 편하다. 클라우드 업체가 제공하는 프로비저닝 기능을 이용해 CDP 이미지를 빠르게 배포해 클러스터를 구축할 수 있고, 워크로드 유형에 맞게 탄력적으로 지원을 조정할 수 있다. 
 

퍼블릭 클라우드가 제공하는 CDP 구축과 관리의 편의성은 프라이빗 클라우드 환경에서도 누릴 수 있다. 탄력적으로 자원을 확장하는 오토스케일링 기반 운영도 가능하다. 차이가 있다면 데이터가 온프레미스 베어메탈 환경의 스토리지에 있다는 것이다. 물론 전제 조건이 있지만 까다롭지 않다. 베이스 클러스터 버전이 7.1.3 이상이면 되고, 레드햇 오픈시프트(OpenShift) 기반 프라이빗 클라우드가 구축되어 있으면 가능하다. 
 

프라이빗 클라우드 환경에서 CDP를 운영하면 신규 클러스터 구축 시간을 크게 단축할 수 있다. 전통적인 방식으로 하드웨어를 발주, 설치, 설정하고, 빅데이터 플랫폼을 구성하고, 데이터 마이그레이션을 하는 시간을 큰 폭으로 줄일 수 있다. 베어메탈 방식이 평소 6주 이상의 시간이 소요되는 반면 프라이빗 클라우드 기반 CDP 환경에서는 몇 분이면 충분하다. 클러스터 구축의 개념이 설치에서 클릭 기반 구성으로 바뀌는 것이다. 




CDP의 3가지 사용 사례 

CDP가 실제 엔터프라이즈 환경에서 제공하는 이점은 다음과 같이 3가지 사용 사례로 파악할 수 있다. 

첫 번째 사례는 셀프서비스 샌드박스 시나리오다. 일반적으로 기업은 분석 과제별로 태스크포스팀을 구성한다. 그리고 이들이 임시 사용할 샌드박스 환경을 제공한다. 기존 빅데이터 플랫폼에서 샌드박스 환경을 제공하기 위해서는 소프트웨어적으로 얀(Yarn) 자원 관리 기능을 이용해 물리적인 실행 환경을 분리해 제공했다. 반면, 프라이빗 클라우드 기반 CDP 환경에서는 온디맨드 방식으로 바로 제공할 수 있다. 필요에 따라 셀프서비스 방식으로 이용하게 해 관리자의 업무 부담을 덜어 줄 수도 있다. 

두 번째, 중소 규모 하둡 클러스터 통합이다. 현실적으로 중소 규모 클러스터가 사일로 형태로 존재하는 경우가 많다. 이 경우 관리도 문제가 될 수 있지만 데이터 품질 이슈가 많다. 프라이빗 클라우드 기반 CDP 환경에서는 실행 환경을 통합할 수 있어 관리와 데이터 품질 문제를 동시에 해결할 수 있다. 

세 번째, 대규모 클러스터 환경에서 SLA(Service Level Agreement)를 보장하는 것이다. 대규모 클러스터 관리자에게 주어진 가장 큰 과제는 여러 워크로드를 대상으로 일관된 SLA를 보장하는 것이다. 이를 가능케 하려면 유연성과 탄력성이 높은 인프라와 플랫폼 환경이 필요한데, 프라이빗 클라우드 기반 CDP에서는 이 2가지를 확보하는 것이 간단하다. 
 

정리하자면 CDP는 하이브리드, 멀티클라우드 시대에 맞는 빅데이터 플랫폼 구축과 운영 방식을 제시하고, 어떤 환경이건 하나의 플랫폼을 같은 방식으로 이용할 수 있는 경험을 제공한다.


X