Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

데이터엔지니어

커리어 로드맵 : 데이터 엔지니어

데이터 엔지니어링은 소프트웨어 엔지니어링과 데이터 과학의 요소를 결합한, IT 영역에서 빠르게 성장 중인 IT 분야 중 하나다. Indeed.com에 따르면, 데이터 엔지니어는 데이터 과학 프로젝트에 사용되는 아키텍처를 개발하고 유지하며 데이터가 서버와 애플리케이션 사이를 중단 없이 흐르도록 한다.  데이터 엔지니어는 다양한 운영체제 및 데이터베이스에 익숙해야 하고 소프트웨어를 쓰고 프로그래밍할 수도 있어야 한다. 데이터 웨어하우스 및 데이터 분석 경험, 그리고 뛰어난 비판적 사고와 커뮤니케이션 역량도 필요하다. 데이터 엔지니어는 교육, 직장 내 훈련, 지속적인 자격증 습득의 조합을 통해 기술력을 쌓을 수 있다. 인디드(Indeed)는 자격증 습득이 자신의 역량을 보여주고 앞서 나가기 위한 좋은 방법이라고 강조한다.  데이터 엔지니어가 되기 위해 무엇이 필요한지를 알아보기 위해 AI 기반의 품질 모니터링 플랫폼 전문업체인 유닛큐(unitQ)의 데이터 엔지니어인 랜스 마일스를 인터뷰했다.    교육과 취업  마일스는 2013년 캘리포니아 산타크루즈 대학에서 신경과학 학사 과정을 졸업한 뒤 2017년 워싱턴 대학에서 데이터 과학 자격증을 취득하고, 2020년에 캘리포니아 버클리 대학에서 정보 및 데이터 과학 석사 학위를 취득했다.  마일스는 “내가 거쳐온 단계를 뒤돌아볼 때 한 가지 큰 영향을 미친 경험이 있다. 대학 마지막 학기의 파이썬 과정이었던 생물학자를 위한 프로그래밍이다. 이 경험이 새로운 열정의 바탕이 됐다”고 말했다.  잘 아는 영역에서 나와 처음부터 시작해야 하는 새로운 영역으로 들어간다는 것은 겁나는 일이었다. 마일스는 매일 코드를 쓰며 방대한 서열 데이터 집합에서 정보를 추출해 단백질 서열의 물리화학적 속성을 계산하기 위한 방법을 개발하고, 유전자의 길이와 위치를 알아내고 바이러스 DNA의 특성을 파악했다.  마일스는 “정리되지 않은 데이터 집합을 간결한 결과로 ...

데이터엔지니어 데이터과학 머신러닝 2022.05.23

클라우데라 CDE를 활용한 데이터 강화 및 파이프라인 자동화 방법

데이터의 양이 많아 질수록, 분석 수요가 커질수록 데이터 파이프라인은 복잡해진다. 그리고 어느 수준을 넘어서는 순간 자동화 없이는 효율적인 관리가 어려운 시기를 맞이하게 된다. 최근 많은 조직이 복잡한 데이터 파이프라인을 조정하고 자동화하는 이유다. 데이터 파이프라인을 자동화하고, 파이프라인 처음부터 끝까지 데이터 무결성을 유지하고, ETL 가시성을 확보하려면 어떤 기준이 필요할까? CDE(Cloudera Data Engineering)를 이용해 데이터 엔지니어링 작업을 간소화하여 효율성을 높이는 방법을 방안을 알아보자.  데이터 엔지니어링은 전체 데이터 라이프사이클에서 초반에 자리한다. 데이터 수집 그다음 단계에서 데이터 엔지니어링이 이루어진다. 이 과정에서 효율이 떨어지면 전체 데이터 라이프사이클에 영향을 미친다. 데이터 준비가 제때, 제대로 이루어지지 않으면 리포팅, 서비스, 예측 같은 작업에 문제가 생길 수밖에 없다. 데이터 라이프사이클에서 가장 큰 병목 구간으로 엔지니어링 단계를 꼽는 이유다. 병목 현상을 사전에 방지하는 유일하고 확실한 방법이 바로 자동화다.      CDE를 쓰는 이유  CDE는 엔터프라이즈 데이터 엔지니어링 조직을 위해 클라우데라가 제공하는 자동화 서비스다. 클라우드 네이티브 방식으로 서비스되어 데이터 파이프라인 자동화를 신속하고 효율적으로 지원한다. CDE는 아파치 스파크(Apache Spark)를 기반으로 다양한 데이터 엔지니어링 도구를 제공한다. 이런 특징으로 조직의 데이터 엔지니어 및 팀은 아파치 에어플로우(Apache Airflow), 파이프라인 모니터링, 문제 해결 등의 도구를 활용해 데이터 파이프라인 조정 및 자동화를 할 수 있다. 더불어 CDE는 CDP(Cloudera Data Platform)과 완전히 통합되어 있어 엔드투엔드 가시성과 보안성 확보도 쉽다.  CDE를 많은 데이터 엔지니어링 팀이 사용하는 이유는 간단하다. 대규모 운영 환경에서 스파크 기반...

클라우데라 CDE 데이터엔지니어 2021.07.06

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.