Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
엣지부터 클라우드까지 전사 데이터 파이프라인 구축하기

최근 기업의 데이터 관련 고민 중 하나는 ‘파이프라인’이다. 엣지 컴퓨팅 환경부터 클라우드까지 어떻게 데이터 파이프라인을 구축할 것인가? 이 고민에 대한 답을 찾아 나선 조직이 많다. 시대와 상황이 바뀐 만큼 데이터 수집 방식도 예전과 다르다. 기존에는 스쿱(SQOOP) 같은 도구를 사용해 저장된 데이터를 수집한 후, 중앙의 데이터 플랫폼에서 가공하고 분석하는 접근이 일반적이었다. 그러던 것이 최근에는 무게 중심이 실시간 방식으로 옮겨가고 있다. 실시간 분석 요구가 늘면서 배치 방식뿐만 아니라 스트리밍까지 고려한 데이터 수집 방안이 필요해졌다. 이런 이유로 최근 많은 조직이 다양한 데이터 수집 방안을 표준화하고, 이를 일관된 방식으로 관리할 수 있는 데이터 허브와 파이프라인 구축에 나서고 있다.      실시간 데이터 처리에 대한 클라우데라의 접근법  클라우데라는 시대적 변화와 요구를 기민하게 수용하기 위해 오픈소스 중심의 기술 생태계 발전을 진두지휘하고 있다. 배치와 스트리밍을 모두 포괄하는 데이터 수집에 대한 요구 수용을 위해 클라우데라는 엣지와 플로우 관리, 스트리밍 메시지, SDX 세 축을 중심으로 한 플랫폼을 제안하고 있다. 이 플랫폼의 특징은 엣지부터 클라우드까지 실시간 데이터 스트리밍 파이프라인을 유연하게 구축할 수 있다는 것이다. 대용량, 대규모 데이터의 실시간 처리는 물론이고,  엔터프라이즈가 필요로 하는 데이터 프로비넌스와 리니지(계보) 추적, 그리고 스트리밍 소스 관리와 모니터링 기능을 충실히 제공한다.    클라우데라의 접근은 앞으로 하이브리드 멀티 클라우드 환경까지 포괄하는 쪽으로 발전 중이다. 클라우데라는 나이파이, 미니파이, 카프카, 플링크, 데이터 허브와 데이터 플로우를 넘어 이제 데이터 플로우 서비스를 통한 퍼블릭 클라우드까지 전사 데이터 파이프라인 구축과 확장을 지원하고 있다.      미니파이와 나이파이의 역할  이제 ...

클라우데라 엣지컴퓨팅 데이터파이프라인 2021.07.06

클라우데라 CDE를 활용한 데이터 강화 및 파이프라인 자동화 방법

데이터의 양이 많아 질수록, 분석 수요가 커질수록 데이터 파이프라인은 복잡해진다. 그리고 어느 수준을 넘어서는 순간 자동화 없이는 효율적인 관리가 어려운 시기를 맞이하게 된다. 최근 많은 조직이 복잡한 데이터 파이프라인을 조정하고 자동화하는 이유다. 데이터 파이프라인을 자동화하고, 파이프라인 처음부터 끝까지 데이터 무결성을 유지하고, ETL 가시성을 확보하려면 어떤 기준이 필요할까? CDE(Cloudera Data Engineering)를 이용해 데이터 엔지니어링 작업을 간소화하여 효율성을 높이는 방법을 방안을 알아보자.  데이터 엔지니어링은 전체 데이터 라이프사이클에서 초반에 자리한다. 데이터 수집 그다음 단계에서 데이터 엔지니어링이 이루어진다. 이 과정에서 효율이 떨어지면 전체 데이터 라이프사이클에 영향을 미친다. 데이터 준비가 제때, 제대로 이루어지지 않으면 리포팅, 서비스, 예측 같은 작업에 문제가 생길 수밖에 없다. 데이터 라이프사이클에서 가장 큰 병목 구간으로 엔지니어링 단계를 꼽는 이유다. 병목 현상을 사전에 방지하는 유일하고 확실한 방법이 바로 자동화다.      CDE를 쓰는 이유  CDE는 엔터프라이즈 데이터 엔지니어링 조직을 위해 클라우데라가 제공하는 자동화 서비스다. 클라우드 네이티브 방식으로 서비스되어 데이터 파이프라인 자동화를 신속하고 효율적으로 지원한다. CDE는 아파치 스파크(Apache Spark)를 기반으로 다양한 데이터 엔지니어링 도구를 제공한다. 이런 특징으로 조직의 데이터 엔지니어 및 팀은 아파치 에어플로우(Apache Airflow), 파이프라인 모니터링, 문제 해결 등의 도구를 활용해 데이터 파이프라인 조정 및 자동화를 할 수 있다. 더불어 CDE는 CDP(Cloudera Data Platform)과 완전히 통합되어 있어 엔드투엔드 가시성과 보안성 확보도 쉽다.  CDE를 많은 데이터 엔지니어링 팀이 사용하는 이유는 간단하다. 대규모 운영 환경에서 스파크 기반...

클라우데라 CDE 데이터엔지니어 2021.07.06

'데이터 실시간 분석 및 처리' 플링크를 활용한 클라우데라의 해결책 CSA

  실시간 분석에 대한 기업의 열망은 나날이 커지고 있다. 비정형 데이터를 주로 다루던 시절부터 잠재되어 온 실시간 분석 수요는 클라우드와 엣지 컴퓨팅 시대를 맞아 폭발적으로 늘 것으로 보인다. 하지만 실제 데이터 플랫폼을 관리하는 운영자들에게 실시간 분석은 예나 지금이나 골치 아픈 주제다. 대량 데이터를 수집해 처리하고 이에 대한 실시간 접근을 보장하는 것은 쉬운 일이 아니다. 이때의 '실시간'은 수초 이내에 데이터를 수집하고 처리하여 사용자나 분석 도구가 접근해 필요한 액션을 취할 수 있음을 의미한다.   운영자들이 꼽는 실시간 분석의 어려움은 다섯 가지로 요약할 수 있다. 데이터 준비 및 전파 소요 시간 단축, 대량의 데이터 처리, 비즈니스 사용자 접근성 보장, 구현에 필요한 전문 지식 부족, 실시간 처리를 위한 도구 부족이다. 이런 고민을 푸는 방법도 다양하다. 이중 최근 많은 조직이 주목하는 것이 아파치 플링크(Flink)를 통한 방법이다. 플링크는 오픈소스 기반 실시간 데이터 처리를 위한 분산 스트림 처리 소프트웨어다. 넷플릭스, 우버, 알리바바, ING 등 유명 기업들이 앞다투어 도입할 정도로 인기를 얻고 있다.      플링크에 열광하는 이유  SQL을 알면 플링크를 통한 실시간 스트림 처리에 도전할 기회가 생긴다. 새로 배우고 익히는 것이 아니라 알고 있는 것을 활용해 실시간이란 새로운 응용 분야를 개척할 수 있게 돕는다는 점에서 매력적이다. 쉽기만 한 것이 아니다. 매우 강력한 운영도 지원한다.    플링크는 분산 처리를 통해 실시간 스트림을 효율적으로 다룬다. 플링크는 히스토링성 데이터를 가져와 이벤트나 작은 배치 단위로 처리 후 저장한다. 분산 처리를 기반으로 하다 보니 이벤트 지향적인 애플리케이션, 스트리밍 파이프라인, 스트리밍 및 배치 기반 분석 같은 여러 작업을 동시에 수행하기에 적합하다. 대량의 트래픽이 발생해도 여러 노드에 분산하면 된다.&nbs...

클라우데라 CSA 실시간데이터분석 2021.07.06

성공적인 하이브리드∙멀티클라우드 전환을 위한 로드맵 업데이트, 지금부터 시작해야 하는 이유

업계 최초의 엔터프라이즈 데이터 클라우드인 CDP(Cloudera Data Platform)는 빠르게 진화 중이다. 하이브리드 멀티 클라우드가 모든 기업의 최우선 IT 전략인 시대에 맞게 모든 클라우드에서 비즈니스 분석을 지원하며, 데이터 보안과 데이터 리니지 역시 모든 환경을 포괄하는 기능성을 제공한다. CDP는 온프레미스, 하이브리드, 멀티 클라우드 환경에서 하나의 플랫폼으로 동일한 사용자 경험을 보장한다. 현재 HDP 클러스터나 CDH 클러스터를 운영 중이라면 업그레이드를 통해 클라우드 친화적인 CDP 클러스터로 전환할 수 있다.    현재 조직의 클라우드 여정에 맞는 폼팩터를 선택해 CDP로 전환할 수 있다. 클라우데라는 CDP Private Cloud Base(이하 CDP Base), CDP Public Cloud(이하 CDP PC)라는 두 가지 선택지를 제시한다. 이를 통해 기업이 프라이빗 클라우드에서 퍼블릭 클라우드까지 자사의 하이브리드 멀티 클라우드 전략 추진 현황에 맞는 방식으로 데이터 플랫폼을 현대화할 수 있게 돕는다. 각각에 대해 알아보자.    CDP Base를 통한 프라이빗 클라우드 여정 시작  CDP Base는 CDP의 온프레미스 버전이라 보면 된다. 쉽게 이해할 수 있는 내용은 CDP Base는 기존 베어메탈 환경에서 운영되는 HDP 또는 CDH와 동일한 실행 아키텍처를 제공한다고 보면 된다. 여기에  CDP Base에서 통합 저장 제공되는 데이터나 메타 정보들을 물리적으로 분리된 Compute-Only 클러스터에서 활용할 수 있는 기능이 추가되었다.  여기서 중요한 질문이 떠오를 것이다. 바로 기존 환경을 옮겨야 하는 이유다. 답은 매우 명확하다. 프라이빗 클라우드 환경에서 CDP를 운영하면 워크로드 실행 환경을 매우 빠르게 생성할 수 있다. 따라서 새로운 유즈 케이스를 프로덕션 환경에 적용하는 속도가 높아진다. 다음으로 워크로드 단위로 격리된 환경을 제공할 수 있다...

클라우데라 CDP CDB 2021.07.06

IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.