Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
아파치 쿠두를 통한 실시간 워크로드 최적화

실시간 분석 수행을 위한 최선의 선택으로 아파치 쿠두(Apache Kudu)에 많은 이가 주목하고 있다. 컬럼형(Columnar) 스토리지 엔진인 쿠두가 빠른 분석에 유리한 이유는 무엇일까?    빠른 분석과 빠른 데이터 처리를 위한 최선의 선택  아파치 쿠두 PMC 멤버이자 클라우데라 소프트웨어 엔지니어인 앤드류 웡은 쿠두가 왜 필요한지부터 묻는다. 스키마 변화가 많은 데이터 세트를 다루거나, 분석을 위한 스캔과 열 검색 작업을 동시에 자주 하거나, 최대한 빨리 최신 데이터를 대상으로 쿼리를 수행하고 싶을 경우라면, 스키마 업데이트가 쉽고 데이터가 들어오자마자 활용할 수 있고, 끊임 없이 업데이트와 삭제가 가능한 쿠두가 최선의 솔루션이라는 설명이다.   쿠두의 특징  쿠두는 데이터가 저장되는 공간인 테이블(Table)과 이들로 구성된 태블릿(Tablet), 이들을 저장하는 태블릿 서버(Tablet Server), 쿠두 구성 요소의 메타 데이터를 담고 있는 마스터(Master)로 구성된다. 각 테이블 스키마에는 프라이머리 키(Primary Key)가, 파티션 스키마에는 파티션 키가(Partition Key)가 정의되어 있다. 태블릿 간 복제는 Raft 합의 알고리즘을 이용해 리더(Leader)와 팔로워(Follower) 관계로 구성된다. 마스터에는 태블릿과 파티션에 대한 메타 데이터가 담기고, 태블릿 서버에는 복제된 태블릿 데이터가 저장된다.   쿠두에서 쓰기 작업은 다음 그림처럼 이루어진다. Raft 합의 알고리즘에 따라 리더에서 팔로워로 복제가 이루어지고 인메모리로 처리된다.   태블릿에 쓰기가 이루어질 때 쿠두는 블룸 필터와 프라이머리 키 인덱스를 이용해 불필요한 탐색을 최소화한다.   스캔을 통해 열을 읽을 때도 프라이머리 키를 참조해 관계없는 태블릿은 건너뛴다.    파티셔닝과 관련해 앤드류 웡은 몇 가지 팁을 알려 주었습다. 일반적인 쿼리의 경우 ...

아파치 빅데이터 쿠두 2020.02.03

'환상의 조합' 임팔라·쿠두로 Operational DBMS 구축하기

빅 데이터 환경에도 유행이 있다. 최근 유행은 아파치 임팔라(Apache Impala)와 아파치 쿠두(Apache Kudu) 조합을 쓰는 것이다. 일단 한번 데이터를 투입한 후에는 업데이트와 삭제가 되지 않고, 대량의 스몰 파일(small file)을 처리해야 하는 HDFS 환경의 부족함을 메우는 수단으로 임팔라와 쿠두 조합이 유행하기 시작했다.   임팔라, 안 쓸 이유가 없다 클라우데라 솔루션 아키텍트 신정훈 이사에 따르면, 최근의 대세는 임팔라와 쿠두다. 장기 저장용 콜드 데이터는 HDFS에 넣고, 자주 사용하는 핫 데이터는 임팔라와 쿠두 환경을 이용하는 방식이 많이 채택되고 있다. 임팔라는 대규모 병렬 처리(MPP)를 위한 SQL 쿼리 엔진인데, 무엇보다도 성능이 임팔라의 가장 큰 장점이다. 임팔라는 설계 단계에서부터 성능을 고려한 솔루션이기 때문이다.   클라우데라 세션에서 신정훈 이사는 직접 써보면 기존 SQL과 비교해 임팔라의 성능 차이가 상당하다고 말했다. 덧붙여 임팔라의 성능은 새로운 버전이 나올 때마다 더 높아지는 경향을 보인다고 설명했다.   임팔라는 데몬(Daemon), 카탈로그 서비스(Catalog Service), 스테이트스토어(Statestore)로 구성되어 있다. 데몬은 데이터 노드에서 실행되는 임팔라 프로세스로 사용자의 요청을 수용하고, Coordinator와 Executor 역할을 한다. 카탈로그 서비스는 메타 데이터 동기화를 위한 프록시 역할을 한다. 데몬에서 직접 메타 데이터를 변경하면 자동으로 동기화된다. 하이브(Hive)나 HDFS에서 직접 변경하면 Refresh문이나 Invalidate metadata문을 이용해 동기화 작업을 해야 한다. 다음으로 스테이트스토어는 데몬의 상태를 확인하고 메타 데이터 동기화하는 기능을 한다.     확장성과 안정성도 뛰어나 신정훈 이사는 많은 이가 궁금해하는 확장성과 안정성에 명쾌한 답을 제시했다. 부하가 가중되면 임팔라 데몬간 리소스...

빅데이터 임팔라 쿠두 2020.02.03

통신 빅데이터 활용 폭, 데이터 분석이 좌우한다

흔히 데이터는 새로운 가치(Value)와 부(wealth) 창출의 기반이라고 한다. 그렇다면 다른 업종에 비해 더 많은 데이터를 처리하는 통신사의 경우, 어떤 방식으로 새로운 가치와 부를 만들어 내고 있을까?    LG유플러스의 빅데이터 분석 절차  데이터를 잘 다루는 회사가 안팎으로 인정받는 시대다, LG유플러스는 기업 가치를 높이기 위해 어떤 빅데이터 분석 프로세스를 따르고 있을까? LG유플러스가 상시로 수행하는 빅데이터 분석 절차를 살펴보자.   클라우데라 세션 행사에서 이대식 전문위원은 문제를 어떻게 바라보느냐에 따라 분석 방법이 달라진다며 영화 ‘머니볼’의 예를 들었다. LG유플러스가 문제를 정의한 핵심 영역은 매출 증진, 고객 경험 개선, 비용 효율화, 신규 사업 창출, 총 4가지다. 이 4가지를 큰 방향으로 생각하고 신규 고객 유치, 해지 방어, 고객 만족, 서비스 차별화 등 세부 분석 주제를 정의해 통찰력을 끌어내는 작업에 매진한다.    문제가 정리된 후에는 데이터 저장 위치를 결정한다. 개인정보보호법 등 데이터 관련 규제를 고려해 저장 위치와 사용 방식을 정하는 것이다.   데이터 탐색 과정은 과정인 동시에 결론이 될 수 있다. 이대식 전문위원은 탐색을 통해 분석 목표를 달성하는 경우도 많다는 말과 함께 ‘어떻게 탐색하느냐’가 분석의 성과를 좌우한다고 말했다. 또 탐색의 품질 제고에는 협업 비즈니스 전문가와 분석가 간의 소통이 매우 중요하며, 서로 알고 있는 것을 공유하는 과정에서 새로운 아이디어와 가설을 얻을 수 있다고 덧붙였다. 모형 선택 단계에서 LG유플러스는 분석 목적에 따라 예측 모형, 설명 모형, 추천 모형 등으로 설계 방향을 정한다. 그리고 프로덕션 환경에 적용하면서 최적화를 수행한다. LG유플러스에 있어 데이터 분석 과정은 일회성 프로세스가 아니라 반복 속에서 최적화를 끌어내는 여정이다. 이 여정을 이어가면서 서비스를 개선하여 신규 고객을 늘리고, 고객 ...

LG유플러스 빅데이터 5G 2020.02.03

‘자동차·제조업의 동력’ 데이터 분석 사용례

자동차와 제조 부문에서 대한민국의 글로벌 경쟁력은 매우 높다. 2020년 현재 국내 주요 자동차, 제조 기업은 자동화 시대의 리더십 획득을 넘어, 4차 산업 혁명으로 일컬어지는 디지털 기반의 전환을 목표로 하고 있다. 자동차, 제조 산업의 변화를 이끄는 동력원은 바로 ‘데이터’다. 그렇다면 분야별 선도 기업의 데이터 전략은 어느 방향을 향하고 있을까?    자동차와 제조 산업계에 이는 디지털 트랜스포메이션의 물결 클라우데라 APAC 자동차와 제조 부문 디렉터인 크리스티안 카우프만은 ‘클라우데라 자동차•제조 산업 사용례 및 아키텍처’라는 주제로 진행한 발표에 앞서 전 세계 10대 자동차 회사와 글로벌 100대 제조사 중 70%가 클라우데라의 솔루션을 이용하고 있다고 소개했다. 그리고 클라우데라가 고객의 곁에서 직접 목격하고 있는 제조 업계에서 일고 있는 디지털 트랜스포메이션 동향을 4가지로 정리해 소개했다.   첫 번째는 사물인터넷(IoT) 기반 서비스다. 제조 업계에서 산업용 사물인터넷(Industrial Internet of Things)이라고 하는 엣지 컴퓨팅은 예지 기반 유지보수, 공정 최적화, 품질과 수율 관리 등에 적용이 확대될 전망이다. 두 번째는 커넥티드 제조다. 자동화 시대 공정 내 각종 설비와 장비의 통신에는 제한이 있었다. 프로토콜과 데이터 형식이 서로 달라 공장 단위 연결에 많은 제약을 받는 것이 특징이다. 최근 분위기는 산업 표준 이더넷 기반으로 가능한 모든 것을 연결하는 쪽으로 미래 전략을 세우는 것이다. 연결은 공정, 공장 단위와 SCADA 중심의 폐쇄적인 방식을 넘어 이제 클라우드까지 포괄하는 쪽으로 확대되고 있이다.  세 번째는 실시간 공급망이다. 실시간 데이터 처리 기술이 발전하면서 공급망 관리는 계획에 따른 활동에서 즉각적으로 반응하고 대응하는 식으로 바뀌어 가고 있다. 네 번째는 고객 경험이다. 제조 기업은 더 이상 더 저렴하고 품질 좋은 제품을 만드는 것에만 집중하지 않는다. 연결을...

제조업 클라우드데이터센터 Cloudera 2020.02.03

엔터프라이즈 데이터 클라우드로 여는 새로운 세상

데이터는 사용자 개개인의 삶의 방식은 물론, 기업의 경쟁 법칙까지 바꾸고 있다. 또, 데이터는 기업의 생존 전략 중심에 있으며, 데이터를 다루는 역량은 1등 기업과 그 외 다른 브랜드의 격차를 만드는 요인으로 꼽힌다. 그렇다면 데이터를 경쟁력으로 삼기 위해 어떤 도전 과제를 넘어야 할까? 클라우데라 세션에서 ‘엔터프라이즈 데이터 클라우드로 여는 세상’이라는 주제로 기조연설을 맡은 클라우데라 CMO 믹 홀리슨의 세션 내용에서 그 힌트를 찾았다.    세계 최초 5G 상용화 이후의 데이터 급증 믹 홀리슨은 매우 빠른 속도의 변화가 한국에서 일어나고 있다며 엄청난 속도로 쏟아지는 데이터를 서비스와 고객 경험 개선, 비용 절감 등에 활용하는 LG U+와 한국전력의 사례를 소개했다. LG U+가 처리하는 트랜잭션 데이터 양은 무려 40초에 10억 건에 달한다. 빛의 속도로 이동하는 데이터 안에서 인사이트를 끌어내기 위해 LG U+는 임팔라(Impala)와 쿠두(Kudu)로 데이터를 처리하여 고객 만족을 끌어낼 통찰력을 확보했다. 한국전력도 CDF(Cloudera DataFlow)와 머신러닝 기술을 이용한 실시간 데이터 분석을 바탕으로 전력 공급 효율을 높여 1,340만 가구에 더 저렴한 비용으로 전기를 제공하는 데 성공했다.      직선이 아닌 급커브 구간, 어떻게 선회할 것인가? 믹 홀리슨은 가트너 2020에서 CIO 의제로 제시된 의미 깊은 키워드를 청중에게 설명했다. 바로 ‘선회(旋回)’다. 기업에 요구되는 민첩성과 속도는 곧게 뻗은 길이 아니라 구불구불하고 어떤 장애물이 있는지 알 수 없는 코스를 달릴 때 발휘되는 역량이다. 한 치 앞을 알 수 없는 상황 속에서 빠르게 달리는 속도를 유지하면서 유연하게 선회를 할 수 있어야 한다는 것이다. 관련해 클라우데라는 기업이 속도를 잃지 않고 빠르게 급커브 구간을 선회해 나아갈 수 있도록 돕는 역할을 하고 있다고 믹 홀리슨은 강조했다.  &nbs...

데이터웨어하우스 멀티클라우드 섀도우IT 2020.02.03

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.