AIㆍML / 데이터ㆍ분석

클라우데라 CDH 6의 새로운 기능

Cloudera | Cloudera 2019.02.13


클라우데라 엔터프라이즈 6(이하 CDH 6)이 발표되면서 많은 기업이 업그레이드 계획 수립에 분주하다. 관련해 Cloudera Sessions Seoul에서 CDH 6의 새로운 기능을 소개한 클라우데라코리아의 남영지 이사의 세션을 소개한다. 
 

클라우드로 가는 교두보 CDH 6

CDH 6는 현재 6.1 버전이 릴리즈 되었다. CDH 6의 개선 사항은 꽤 많다. 이를 주요 키워드로 정리하면 생산성, 혁신, 품질로 요약할 수 있다.

이런 특징을 수용하기 위해 CDH 6에서는 워크로드 처리 성능 개선부터 시작해 엔터프라이즈 수준으로 진화를 거듭하고 있는 각종 도구 그리고 SDX의 기능 강화까지 대대적인 변화가 있다. 클라우데라가 CDH 6을 통해 추구하는 방향 중 가장 두드러진 것은 첨단 분석과 머신 러닝을 위한 클라우드 친화적인 토대가 되었다는 것이다. 

관련해 남영지 이사는 데이터 과학자가 필요한 자원을 컨테이너 기반 플랫폼에서 간편하게 확보해 원하는 분석과 트레이닝 환경을 셀프서비스 방식으로 간편하게 구축할 수 있는 쪽으로 진화했다고 설명했다. 관리 역시 클라우드를 고려한 흔적이 보인다. 가장 눈에 띄는 것이 클라우데라 매니저(Cloudera Manager), 네비게이터(Navigator) 등의 도구를 클라우드 친화적으로 발전시킨 것과 보안 관리를 더 중앙집중적으로 할 수 있게 만든 것이다. 이런 특징을 한데 모아 보면 CDH 6는 클라우데라 고객이 더 편하고 유연하게 클라우드로 넘어갈 수 있는 교두보 역할을 한다고 볼 수 있다. 
 

업그레이드 경로에 대한 친절한 설명 

최근 클라우데라와 호튼웍스의 합병 소식이 발표되었다. 당연히 이번 행사에 참여한 많은 이들의 관심사는 향후 어떻게 업그레이드 계획을 잡아야 하는지에 대한 것이었다. 남영지 이사는 2019년 도입을 검토 중이라면 CDH 6.1을 그리고 현재 5.15를 잘 사용하고 있다면 곧 발표될 5.16 버전으로 업그레이드를 한 다음 클라우데라와 호튼웍스의 플랫폼이 통합된 유니파이드 버전으로 가는 것을 추천했다. 
 

CHD 6의 주요 개선 사항 

남영지 이사는 CDH 6의 주요 개선 사항을 하나하나 자세히 설명했다. 가장 먼저 소개한 내용은 클라우데라 매니저 6였다. 남영지 이사가 강조한 대목은 멀티 클러스터 관리다. 단일 인스턴스로 관리 대상 노드 수를 최대 2,500개까지 유연하게 늘려 갈 수 있어 한정된 클러스터 관리 인력으로 더 큰 규모의 인프라를 운영할 수 있다. 관리 효율과 운영 위험을 낮추기 위해 클러스터 단위로 분리된 형태로 권한을 할당하는 것과 자동으로 TSL 암호화를 적용하기도 했다. 또한, CLI를 선호하는 관리자를 위해 서브 커맨드도 활성화되었다. 

다음으로 CDH 6에 포함된 아파치(Apache) Solr 7.0의 경우 JSON Facet API 지원을 통해 구조화되지 않은 데이터에서 새로운 통찰력을 뽑기 더 수월해졌다. 그리고 SQL로 검색과 인덱스를 할 수 있는 시대가 되었다는 것도 괄목할만한 발전이다. 

YARN에서 주목할 것은 서버와 클라이언트 jar를 분리해 메모리 누수 관련 안정성이 높아진 것이다. 남영지 이사는 YARN의 리소스 연계 관리 기능도 주목할 대상으로 꼽았다. 가령 10대의 시스템을 도입했는데 이 중 2대는 GPU 장비이다. 8대는 배치 작업을 주로 돌리고, GPU 시스템은 머신러닝 작업에 쓰고자 한다. 이럴 때 YARN을 쓰면 하나의 자원 풀로 10대를 엮은 다음 각각 역할을 다르게 줄 수 있어 편하다. 

YARN 페더레이션 기능은 앞으로 더욱 발전해 6.x 릴리즈 이후부터는 대규모 YARN 클러스터 구성과 운영이 더욱 편리해질 전망이다. 단위 단위로 클러스터를 구성해 운영하는 것이 아니라 10만대 이상의 거대 인프라를 하나의 YARN 클러스터로 묶어 남는 곳의 자원을 모자란 곳으로 유연하게 배포할 수 있게 된다. 



클라우데라는 아파치 쿠두(Apache Kudu)를 밀고 있다. 그렇다고 아파치 HBase 지원을 게을리하지는 않는다. CDH 6에는 아파치 HBase 2.0이 포함되어 있는데, 2.0의 경우 2천 개 이상의 버그가 해결되어 안정성이 더 높아졌고, 메모리 관련하여 수평 증설 및 수직 증설이 가능해 자원효율성도 좋아졌다. 

다음으로 남영지 이사는 아파치 하둡(Apache Hadoop) 3.0에 대한 설명을 이어갔는데, 이 내용의 하이라이트는 HDFS 이레이저 코딩(ERASURE CODING)이다. 이 기능은 스토리지 업계에서 개발해 발전시킨 기술에 기초하며, 스토리지 용량을 최대 50% 이상 절감할 수 있다. 



참고로 HDFS 이레이저 코딩은 CDH 6.1에 반영되었다. 남영지 이사는 이레이저 코딩의 경우 콜드 데이터를 대상으로 선별적으로 적용하는 것을 기본 가이드라인으로 제시한다고 설명했다. 

이 밖에도 아파치 카프카(Apache Kafka)와 스파크(Spark)의 경우 기존에는 일일이 개별 설치해야 했던 것이 CDH 6의 경우 통합된 형태로 제공되는 주요 특징이다. 



남영지 이사는 CDH 6 업그레이드 관련해 사전 고려 사항과 업그레이드 과정을 소개하며 세션을 마쳤다. 
 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.