Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

하둡

특화된 모듈과 편리한 GUI로 복잡한 SAP 데이터에 쉽게 접근하기    

글로벌 ERP 시장 점유율 1위이자 시장의 31.6%(2019년 기준)를 차지하고 있는 SAP는 영업, 제조 및 재무 프로세스의 중요한 정보를 저장하는 핵심 비즈니스 애플리케이션이다. 기업 SAP  ERP 데이터를 다양한 비즈니스 라인에서 수집한 기타 데이터와 함께 분석하고 그 결과를 실시간으로 가시화해 비즈니스 의사결정에 활용한다.  빠르게 변화하는 데이터를 더욱 심도있게 활용하라는 요구는 하둡(Hadoop), 카프카(Kafka) 및 클라우드 같은 새로운 플랫폼에서 실시간 분석용 데이터를 복제하라는 과제로 이어진다. 그러나 SAP 데이터는 여러 SAP 모듈이나 애플리케이션과 복잡하게 얽혀 동작하므로 분석을 위한 접근과 통합이 어렵다는 평가를 받는다. 복잡한 SAP 데이터를 쉽게 이동시키는 2가지 핵심 그렇다면 오늘날 기업이 SAP 데이터를 활용할 때 필요한 것은 무엇일까? 바로, 복잡한 SAP 데이터에 쉽게 접근할 수 있는 특화된 모듈과 직관적인 사용자 인터페이스(GUI)를 통해 수작업을 최소화할 수 있는 복제 솔루션이다.  대표적인 복제 솔루션 ‘클릭 리플리케이트(Qlik Replicate)’는 엔터프라이즈 데이터 복제 및 SAP 통합 분야에서의 오랜 경험을 바탕으로 실제 운영 중인 SAP 데이터에 쉽게 접근해 다양한 플랫폼과 하이브리드 환경에서 중단 없이(real-time) 데이터를 사용할 수 있다. 또한, SAP HANA 시스템 또는 클라우드 환경의 모든 데이터 웨어하우스, 데이터 레이크로의 SAP 데이터 복제가 가능하다.  가장 주목해야 할 점은 아마존 웹 서비스(AWS), 마이크로소프트 애저, 구글 클라우드 플랫폼 같은 클라우드 업체와 협력해, 검증된 데이터 및 분석 플랫폼을 기반으로 재무관리, 재고관리, OTC(Order to Cash) SAP 데이터에 대한 특화된 모듈을 제공한다는 것이다.    2021년 국내 한 대기업이 자사 데이터의 구글 클라우드 전환을 발표하고, 대대적인...

ERP 하둡 카프카 2022.01.27

"하둡을 제압한 빅데이터 플랫폼" 아파치 스파크란 무엇인가

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토어를 탐색하면서 작업하기 위해 막대한 컴퓨팅 성능을 모아야 하는 빅데이터와 머신러닝 분야에서 이 2가지 특성은 문을 여는 열쇠라고 할 수 있다. 스파크는 또한 분산 컴퓨팅과 빅데이터 처리의 힘든 작업 대부분을 추상화하는, 사용하기 쉬운 API를 통해 개발자들이 짊어지는 부담을 일부 덜어주는 역할도 한다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 소소하게 시작됐으나 지금은 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나다. 스파크는 다양한 방식으로 배포가 가능하며 자바(Java), 스칼라(Scala), 파이썬(Python), R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하고 SQL, 스트리밍 데이터, 머신러닝, 그래프 프로세싱을 지원한다. 은행, 통신업체, 게임 회사, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 주요 기술 대기업도 모두 아파치 스파크를 사용한다. 아파치 스파크 아키텍처 아파치 스파크의 구성 요소는 크게 드라이버(driver)와 이그제큐터(executor) 2가지다. 드라이버는 사용자의 코드를 여러 작업자 노드로 배분할 수 있는 여러 작업으로 변환하고 이그제큐터는 이런 노드에서 실행되면서 할당된 작업을 실행한다. 그리고 이 둘을 중재하기 위한 클러스터 관리자가 필요하다. 스파크는 기본적으로 클러스터의 각 머신에 JVM과 아파치 스파크 프레임워크만 있으면 되는 독립형 클러스터 코드로 실행이 가능하다. 그러나 작업자를 자동으로 할당하기 위해 더 강력한 리소스 또는 클러스터 관리 시스템을 활용하고자 하는 경우가 많다. 엔터프라이즈에서는 이를 위해 보통 하둡 얀(Hadoop YARN)에서 실행하지만 아파치 메소스(Mesos), 쿠버네티...

아파치 스파크 하둡 2020.03.20

신간 ∣ 빅데이터 전문가의 하둡 관리

성안당은 ‘하둡’ 관리자의 필독서인 <빅데이터 전문가의 하둡 관리>을 발표했다. 빅데이터 시대에 속도와 신뢰성이 답보되면서 비용도 저렴해 효율적인 솔루션으로 각광받는 하둡은 2003년, 2005년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스(MapReduce)를 구현했다. 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 저자인 샘 R. 알라파티는 하둡 관리자로, 하둡에 대한 큰 그림을 보여준다. 하둡 생태계의 하둡 컴포넌트들인 아브로, 플룸, HBase, HCatalog, 하이브, 휴, 카프카, 머하웃, 우지, 피그, 스쿱, 스톰, 테즈 등은 하나하나가 책 한 권으로도 나와 있을 만큼 큰 주제이지만, 이 책에서는 이런 솔루션들을 빠짐없이 소개하고 언급한다. 저자는 하둡 생태계에서 크게 얀과 하둡 분산 파일 시스템(HDFS)을 배치하면서 하둡으로 배치, 인터랙티브, 실시간 데이터 접근을 위해서는 ▲스크립트로는 피그 ▲SQL로는 하이브 ▲자바 스칼라로는 캐스케이딩 ▲스트림으로는 스파크 스트리밍 ▲인메모리로는 스파크 ▲검색으로는 솔라(Solr) ▲NoSQL로는 HBase와 어큐뮬로 ▲머신러닝으로는 스파크 MR과 스파크 R 등을 사용한다며 하둡의 핵심 컴포넌트와 툴을 한눈에 보여준다. 또 하둡을 관리하기 위해 알아야 하는 것, 하둡 1과 2의 차이점을 다룸으로써 하둡 3 시대에도 대비할 수 있도록 하며, 하둡 관리의 핵심 영역까지 소개한다. 이 책은 크게 5부 21장으로 구성돼 있다. 1부에서는 하둡의 아키텍처와 하둡 클러스터를, 2부에서는 하둡 애플리케이션 프레임워크, 3부에서는 하둡 데이터 관리 및 보호, 고가용성, 4부에서는 데이터 이동, 리소스 할당, 잡 스케줄링, 보안, 5부에서는 모니터링, 최적화, 문제 해결 등을 다룬다. editor@itworld.co.kr

하둡 성안당 2018.11.05

F#을 사용해야 하는 14가지 분명한 이유

F#은 강한 형식의 함수 우선 프로그래밍 언어로, 복잡한 문제를 단순한 코드로 해결할 수 있게 해준다. ML을 기반으로 .NET 프레임워크 상에 구축된 F#은 우수한 상호운용성, 이식성, 런타임 속도, 그리고 “5C”인 간결함(conciseness), 편리함(convenience), 정확함(correctness), 동시성(concurrency), 완전성(completeness)을 제공한다. F#은 초기에는 마이크로소프트 리서치 프로젝트로서 윈도우 전용이었지만 지금은 여러 가지 플랫폼에서 주요 언어로 사용된다. 맥과 리눅스에서는 자마린 스튜디오(Xamarin Studio), 모노디벨롭(MonoDevelop), 이맥스(Emacs) 등의 툴 지원을 통해, 윈도우에서는 비주얼 스튜디오, 자마린 스튜디오, 이맥스를 통해, 안드로이드와 iOS 디바이스, 웹에서도 HTML5를 통해 F#을 사용할 수 있다. F#은 범용 프로그래밍 외에도 GPU 코드, 빅 데이터, 게임 등 다양한 분야에 적용된다. 왜 F#을 사용할까? 14가지 이유를 살펴보자. F#은 인터랙티브하다 F#의 장점 중 하나는 아래 화면 이미지에서 볼 수 있듯이 코드를 시험해볼 수 있는 인터랙티브 REPL(읽기, 평가, 인쇄, 루프)이 있다는 점이다. 왼쪽 상단부터 시계 방향으로 각각 윈도우의 비주얼 스튜디오, 크롬에서 실행 중인 TryFSharp, 맥 OS X에서 실행 중인 자마린 스튜디오의 F# 인터랙티브 창이다. ;;은 F# 인터랙티브에 입력한 내용을 평가할 것을 지시한다. TryFsharp에서 "run" 버튼도 동일한 신호를 보낸다. 코드를 전체 프로그램에 넣기 전에 REPL을 사용하여 컴파일하고 테스트하면 개발 시간을 단축하고 버그도 줄일 수 있다. F#은 스크립팅을 위한 언어이다 F#은 프로그래밍 언어로도, 스크립팅 언어로도 사용할 수 있다. 아래 화면은 비주얼 스튜디오 샘플이다. 샘플에서 F# 스크립트는 코드를 실행하기 전...

프로그래밍 하둡 개발언어 2018.04.26

하둡 해결사, "쿠두"와 "임팔라"의 이해 - IDG Summary

빅데이터 솔루션의 대표격인 하둡은 빠르게 확산되고 있으나 기대만큼의 혁신적인 결과를 얻지 못하고 있다. 그동안 하둡은 스몰 파일 문제부터 업데이트와 삭제가 되지 않고, 속도가 느린 점 등의 많은 문제점이 드러났다. 이를 해결하기 위한 새로운 솔루션들이 등장했는데, 그 가운데 대표적인 것이 바로 쿠두와 임팔라다. 하둡의 문제점을 짚어보고 이를 해결할 수 있는 쿠두와 임팔라에 대해 알아본다. <주요 내용> - 하둡을 활용하는 3가지 방법 - 블록 스토리지 HDFS의 문제점 - HDFS와 HBase의 단점 극복 위한 ‘쿠두’ - 임팔라와의 통합으로 생성, 변경 및 삭제 지원  

하둡 빅데이터 임팔라 2018.02.02

대세로 자리잡은 빅데이터 분석 플랫폼, "아파치 스파크"의 이해

아파치 스파크(Apache Spark)는 2009년 버클리대학교의 AMPLab에서 소소하게 시작된 이후, 발전을 거듭해 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나로 부상했다. Credit: Getty Images Bank 스파크는 다양한 방법으로 배포가 가능하고 자바, 스칼라, 파이썬, R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하며 SQL, 스트리밍 데이터, 머신러닝 및 그래프 처리를 지원한다. 은행, 통신업체, 게임업체, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 모든 주요 IT 기업들이 아파치 스파크를 사용한다. 스파크는 기본 상태에서 클러스터의 각 머신에 아파치 스파크 프레임워크와 JVM만 있으면 되는 독립형 클러스터 모드로 실행이 가능하다. 그러나 리소스 또는 클러스터 관리 시스템을 활용해 수요에 따라 작업자를 할당하고자 하는 경우가 더 많다. 기업에서 이는 일반적으로 하둡 얀(YARN)에서 실행하는 것을 의미하지만(클라우데라 및 호튼웍스 배포판이 스파크 작업을 이렇게 실행함) 아파치 스파크는 아파치 메소스에서도 실행 가능하다. 현재 쿠버네티스(Kubernetes)에 대한 네이티브 지원을 추가하기 위한 작업이 진행 중이다. 매니지드 솔루션을 찾는다면 아마존 EMR, 구글 클라우드 데이터프록(Google Cloud Dataproc) 및 마이크로소프트 애저 HD인사이트(HDInsight)에서 아파치 스파크를 찾을 수 있다. 아파치 스파크 창립자들을 채용한 업체 데이터브릭스(Databricks)는 아파치 스파크 클러스터, 스트리밍 지원, 통합 웹 기반 노트북 개발, 표준 아파치 스파크 배포판에 비해 최적화된 클라우드 I/O 성능을 갖춘 포괄적인 매니지드 서비스인 데이터브릭스 유니파이드 애널리틱스 플랫폼(Databricks Unified Analytics Platform)을 제공한다. 스파크와 하둡과의 비교 일단 아파치 스파크와 아파치 하둡과의 비교는 다소 부적절하다. 요즘...

아파치 스파크 하둡 2017.11.15

“빅데이터란 무엇인가?” 구성요소와 기반 기술의 이해

인간은 매일 먹고 일하고 놀고 데이터를 생산한다. IBM에 따르면 인류가 하루에 생산하는 데이터의 양은 무려 250경 바이트에 이른다. DVD를 쌓는다면 달까지 왕복할 만큼의 데이터다. 이 데이터에는 우리가 전송하는 텍스트와 업로드하는 사진부터 산업용 센서 측정 데이터와 머신 간 통신 등 온갖 것이 포함된다. 이러한 이유로 “빅데이터”라는 말이 도처에서 사용되는 것이다. 사람들이 빅데이터라고 말할 때는 이 데이터의 많은 부분을 가져다가 이를 분석하고 유용한 무언가로 만드는 것을 의미한다. 빅데이터란 정확히 무엇인가? 그러나 빅데이터의 의미는 그보다 훨씬 더 넓어서 다음과 같은 요소를 포괄한다. - 많은 경우 여러 소스에서 방대한 양의 데이터를 수집 - 단순히 양만 많은 것이 아니라 그 종류도 다양하다. 많은 경우 동시에 여러 종류의 데이터, 시간이 경과하면서 바뀌는 데이터를 수집한다(처음부터 구체적인 형식으로 변형시키거나 일관적으로 만들 필요는 없는 데이터). - 동일한 데이터 풀을 다양한 목적으로 지속적으로 분석할 수 있도록 이 데이터를 분석한다. - 이 모든 작업을 신속하게, 때에 따라서는 실시간으로 수행한다. 초창기에는 이러한 네 가지 측면 중 세 가지를 나타내는 VVV라는 약어를 사용했다. 각 V는 볼륨(Volume, 방대한 양), 다양성(Variety, 다양한 종류의 데이터와 시간 경과에 따라 데이터가 바뀐다는 사실), 그리고 속도(Velocity)를 나타낸다. 빅데이터 vs. 데이터 웨어하우스 VVV라는 약어에서 빠진 부분은 분석을 위해 데이터가 영구적으로 변경될 필요는 없다는 중요한 개념이다. 이 비파괴적 분석은 곧 조직에서 동일한 데이터 풀을 다양한 용도로 분석하고, 서로 다른 목적으로 수집된 소스의 데이터를 분석할 수 있음을 의미한다. 반면 데이터 웨어하우스는 특정 목적을 위해 특정 데이터를 분석하도록 만들어졌으며 데이터는 구조를 갖고 오로지 그 목적에 맞는 특정 형식으로 변...

하둡 NoSQL 맵리듀스 2017.09.12

“모든 스트리밍 데이터는 아파치 카프카로” 실시간 데이터 인기와 함께 급부상

느린 하둡 및 데이터 호수(Data Lake)에서 실시간 스트림으로 시장의 관심이 이동하면서 아파치 카프카가 꾸준히 부상하고 있다. 아파치 카프카(Kafka)가 순풍을 타고 있다. 레드몽크(Redmonk)의 핀탄 라이언이 전했듯이 작년 한해 동안 개발자 인기도가 무려 260% 뛰었다. 실시간 스트리밍 데이터에 대한 IoT 및 기타 엔터프라이즈의 수요가 널리 확산되고 나서부터 카프카의 인기는 수직 상승 중이다. 링크드인(LinkedIn)에서 탄생한 카프카의 엔지니어링 팀이 분사해 만든 컨플루언트(Confluent)가 아파치 카프카 프로젝트를 주도적으로 이끌고 있다. 하지만 컨플루언트뿐만이 아니다. 카프카의 중요성이 높아지면서 오브젝트로켓(ObjectRocket, 랙스페이스에 인수됨)의 공동 창업자인 케니 고먼과 에릭 비브가 시작한 이벤타도어(Eventador)를 포함한 많은 업체가 참여하고 있다. 오브젝트로켓은 몽고DB 데이터베이스를 서비스로 제공하는 반면 이벤타도어는 완전히 관리되는 형태의 카프카 서비스를 제공, 스트리밍 데이터에 대한 장벽을 더욱 낮추고 있다. 이벤타도어 공동 창업자들과의 대화를 통해 명확히 알 수 있는 사실은 "실시간으로 변이하는 데이터가 새로운 사용 사례와 새로운 가능성을 실현한다"는 면에서 스트리밍 데이터는 "새로운 시각"이 필요한, 기존과는 다른 영역이라는 점이다. 일단 기업이 스트리밍 데이터에 의존하게 되면 이전으로 되돌아가기는 어렵다. 핵심은 스트리밍 데이터에 의존하는 지점까지 가는 것이다. 카프카 대 하둡 아파치 하둡은 많이 사용되지만 현대 엔터프라이즈의 진화하는 요구 사항에 맞추기엔 속도가 너무 느리다. 고먼이 말했듯이 기업들은 "실시간에 가까울수록 데이터의 가치가 증가한다"는 것을 인식하고 있다. 기업이 제품 및 서비스에 실시간 데이터 흐름을 추가하기를 주저한다면 현실에 안주하지 않는 경쟁업체들에 비해 뒤처질 위험에 처하게 된다. 이 추세는 최대...

실시간 아파치 스파크 2017.08.02

과대포장의 속도를 따라가지 못하는 12가지 ‘최신 유행’ 기술

과대포장의 속도를 따라가지 못하는 12가지 ‘최신 유행’ 기술 기술이다. 기술이 미래를 만든다. 그러나 생각만 앞선 경우가 많다. 상상하거나 주장했던 이야기가 실현되지 못하고 지지부진한 경우가 비일비재하다. 아마 좋은 기술이겠지만 2017년 중반 현재 기대 수준에 이르지는 못한 기술들을 모아봤다. 1. 챗봇 검색 회사에서 일하는 필자가 챗봇을 과장된 기술로 언급하다니 아이러니한 일이다(정확히 밝혀 두자면 필자가 일하는 회사는 챗봇 관련 상품을 판매하는 검색 기술 업체 루시드웍스(Lucidworks)이다). NLP와 대화형 검색 등의 미래가 밝지 않다는 말을 하려는 게 아니라, 챗봇은 검색 엔진에 대한 인터페이스, 즉 후속 질문을 해서 검색을 세분화해 사용자가 정확히 원하는 것을 찾아주는 역할로만 유용할 것이라는 말을 하고 싶은 것이다. 그 외의 다른 용도, 예컨대 물건을 판매한다거나 고객 서비스 분야에서 일하는 등은 모두 그럴듯하게 포장된 IVR 시스템에 불과하다. IVR(Interactive Voice Response)이란 무엇인가? 아마 폰 트리(phone tree)를 보며 “이보다 더 나빠질 수는 없다”고 생각했겠지만, 여기에 음성 기반 기능이 더해지면서 실제로 더 나빠지고 말았다. IVR 시스템이 제공하는 메뉴를 통해 12가지 중 하나를 선택만 하는 것이 아니라 이젠 머리를 써서 추측도 해야 한다. 챗봇은 결국 검색을 위한 인터페이스가 될 것이다. 그 외의 모든 것은 또 다른 IVR 시스템이 될 뿐이다. 컴퓨터 또는 상담원과 대화하기 위해 기다리느니 그냥 웹사이트나 앱으로 가서 직접 하는 편이 낫다. 2. HDFS 솔직히 말해 필자가 보기에 HDFS(Hadoop Distributed File System)는 진화의 실수다. 분산 파일 시스템은 좋은 아이디어고, SAN은 비용 대비 혜택을 감안하면 썩 좋은 아이디어까지는 아니다. 그러나 필자가 전에도 언급했듯이 HDFS는 그냥 나쁜 설계다...

자바스크립트 맥북프로 하둡 2017.07.10

빅데이터 분석 전략을 여는 6개의 열쇠

 빅데이터에서 필요한 것이 무엇인지, 그리고 그것을 얻기 위해서는 어떻게 해야 하는지를 전문가가 알려줍니다. 대부분의 조직에 있는 비즈니스와 기술 리더들은 빅데이터 분석의 능력을 잘 알고 있습니다. 그렇지만, 자신들이 원하는 방식으로 그런 능력을 활용할 수 있는 리더는 소수에 불과합니다. 과제가 복잡한 만큼, 기술 역시 복잡할 수밖에 없습니다. 핵심 원리를 이해하고 거기에 투자하는 것이 조직에서 넘쳐나고 있는 정보의 바다를 이용할 수 있는 올바른 방법을 찾기 위해 이런 복잡성을 처리하는데 도움이 될 것입니다. 새로운 HPE(Hewlett Packard Enterprise) 백서는 빅데이터 분석 플랫폼을 제대로 확보하기 위해 필요한 6가지 주요 요소를 분류합니다. 이 백서가 주는 통찰력에 대해서 논의하고 어떻게 하면 기업들이 빅데이터를 제대로 확보할 수 있는지를 설명해 달라고 전 세계적으로 잘 알려진 HPE의 팀 리더인 폴 카트론에게 요청해보았습니다. 1. 엄청난 속도 데이터에 대한 기대치는 전에 없이 높습니다. 비즈니스 사용자들 그리고 고객들은 거의 즉각적인 결과를 요구하고 있지만, 이런 기대치를 충족시키기는 매우 어려우며, 레거시 시스템을 사용해서는 더욱 어렵습니다. 비 데이터 분석 전략을 구현함에 있어서 속도가 유일한 요인은 아니지만, 가장 높은 우선순위를 갖고 있다고 카트론은 말했습니다. 그는 10테라바이트의 데이터 세트에 대해 쿼리를 실행해야 하는 한 고객을 떠올렸습니다. “기존 솔루션을 가지고는 그 쿼리에 답을 낼 때까지 48시간이 걸렸을 것”이라고 단언했습니다. “그리고 48시간이 지난 후에는 조처할 시간이 지나버렸기 때문에 그 질문 자체를 고려할 가치가 거의 없게 되었습니다.”라고 말했습니다. 새로운 분석 플랫폼으로의 이동에 있어서 통찰력에 대한 시간에 우선순위를 부여함으로써, 이 회사는 곧바로 48 시간을 5분으로 단축했다고 카트론이 말했습니다. 새로운 솔루션이 충분...

분석 하둡 빅데이터 2017.07.04

"하둡에 대한 투자 대폭 강화"…호튼웍스와 IBM 전격 인터뷰

호튼웍스(Hortonworks)와 IBM이 최근 파트너십 확대를 발표했다. 내용은 머신러닝과 데이터 과학 툴을 하둡 생태계 전반의 개발자를 대상으로 확대하기 위해 IBM의 데이터 사이언스 익스피리언스(Data Science Experience, DSX) 분석 툴킷과 호튼웍스의 데이터 플랫폼(HDP)을 합치는 것이다. IBM의 하둡용 SQL 엔진인 빅 SQL(Big SQL)도 활용된다. 인포월드 편집자 폴 크릴은 최근 미국 실리콘 밸리에서 열린 데이터웍스 서밋 컨퍼런스에서 호튼웍스 CEO 롭 비어든, IBM 애널리틱스 총괄 책임자 롭 토마스를 만나 빅데이터 분석, 머신러닝, 그리고 대규모 데이터 처리를 위한 기술이 증가하는 상황에서 하둡의 현황에 대해 이야기를 나눴다. IBM DSX는 하둡 데이터 플랫폼에 무엇을 제공하는가? - 토마스 : 지난해 DSX를 출범했는데 그 계기는 데이터 과학 시장에서의 기회다. 전통적으로 기업은 SPSS 사용자 또는 SAS 사용자 둘 중 하나지만 전체 시장은 공개 언어를 향해 이동하고 있다. IBM은 주피터(Jupyter)를 기반으로 DSX를 구축했다. 파이썬 데이터 과학자, R, 스파크, 스칼라 프로그래머를 주 대상으로 한다. 원하는 언어가 뭐든 그 언어를 사용할 수 있다. 또한 머신러닝에 텐서플로우(TensorFlow), 카페(Caffe), 테아노(Theano) 등 원하는 프레임워크를 자유롭게 사용할 수 있다. 실질적으로 데이터 과학을 위한 공개 플랫폼이라고 할 수 있다. IBM이 집중하는 분야는 협업이다. 데이터 과학자들이 하나의 팀으로 작업할 수 있도록 하는 것이다. 하둡을 보자. 하둡은 지난 5~6년 사이 기업에서 활발하게 도입됐다. 현재 하둡에는 많은 데이터가 있다. 단순히 데이터를 가지고 있는 것만으로는 기업 고객들에게 큰 가치가 없다. 비용 절감 효과를 거두는 경우도 있지만 기업 고객에게 큰 가치는 이들이 그 데이터를 다루는 방법, 모델을 구축하는 방법, 현상을 파악하는 방법을 바꾸는 데 있다. ...

하둡 호튼웍스 IBM 2017.06.28

"빅데이터, 차별화 요소가 아닌 필수 불가결한 기술"…클라우데라와 마스터카드

"하둡이 나온 지 벌써 10년이 됐으며, 은행에서는 이 기술을 활용한 지 8년정도 됐다. 지금까지 은행들은 하둡 사례를 공개하지 않았지만, 최근 들어 이들은 빅데이터를 활용하는 방안에 대해 설파하기 시작했다. 이는 그동안 빅데이터 기술이 차별화 전략이었다면 이제는 기업 생존의 필수불가결한 기술이 됐음을 의미한다." 클라우데라 금융 서비스 부문장이자 빅데이터 에반젤리스트인 스티븐 토트먼은 15일 방한해 기자간담회를 개최하면서 빅데이터 기술이 보편화됐음을 알렸다. 아시아 태평양 지역의 여러 국가를 순회하는 이번 행사는 마스터카드와 함께 클라우데라 빅데이터 기술을 통한 금융 사례를 발표하는 자리였다. 토트먼은 "이번 방문한 서울은 12번째 도시다. 이번 행사를 통해 다양하고 여러 국가의 기업들을 비교 평가할 수 있었다. 싱가폴의 경우, 서구 국가의 사례를 주시하고 있지만, 아시아 지역에서 훨씬더 흥미롭게 활용하는 사례들이 많이 나오고 있다. 그래서 서구에서는 오히려 아태 지역의 흥미로운 사용 사례를 연구하고 있다"고 말했다. 토트먼은 레드몽크(RedMonk) 분석가 제임스 거버너의 말을 빌어 이렇게 비유했다. "데이터는 이미 기업의 자산으로서의 가치가 있다. 하지만 건물 갯수, PC 대수 등 꼼꼼하게 계산하는 물리적인 기업의 자산과는 달리, 데이터는 얼마나 많은지, 어디에 분포하는지 제대로 파악하지 못한다. 데이터는 와인처럼 나이를 먹고, 애플리케이션은 생선처럼 나이를 먹는다. 데이터는 잘 관리하면 제대로 숙성되지만 앱은 오래될수록 비린내가 난다." 클라우데라 코리아 강형준 지사장 또한 "모두들 4차 산업혁명에 대해 얘기하고 있다. 1, 2, 3차 산업혁명을 거치면서 혁신적인 발명과 그 발명과 연계된 산업과의 융합은 반드시 있어왔다"며, "4차 산업혁명을 이끄는 기술인 AI, IoT의 근간에 있는 것은 데이터라고 확신한다. 데이터는 기업의 생존에 결부된 불가...

금융 하둡 빅데이터 2017.05.15

수익창출에 기여하는 비즈니스 통찰력으로써의 빅데이터 전환

오늘날의 빅 데이터 기술을 통해 기업은 빠르게 증가하는 데이터로부터 가치 있는 통찰력을 구할 수 있습니다. 그러나 데이터 리소스를 최대한 효과적으로 활용하기 위해서는 기업이 데이터를 수집, 처리, 저장, 관리 및 분석하는 방식에 대한 새로운 사고 방식이 필요합니다. Hewlett Packard Enterprise는 빅 데이터와 관련하여 새로운 기술을 찾고 현명한 파트너십 투자를 하는 몇 안 되는 진정한 혁신 업체 중 하나입니다. HPE는 처리, 스토리지, 네트워킹을 아우르는 모든 하드웨어 부문은 물론, Vertica, IDOL, Haven과 같은 주요 소프트웨어 요소를 모두 보유하고 있어 고객의 핵심 기능 및 분석 도구를 구현할 수 있습니다. 또한 Hadoop 및 오픈 소스 커뮤니티와 같은 ISV와의 협업을 통해 기술을 혁신하고 있습니다. 주요 내용 빅 데이터 이해 비즈니스 성과 개선을 위해 빅 데이터 활용 인프라 첨단화 모범 사례 활용 HPE의 빅 데이터 지원 방

통찰력 하둡 수익창출 2017.01.16

2017년 빅데이터와 BI 트렌드, "머신러닝, 데이터 레이크, 그리고 하둡과 스파크"

2016년과 마찬가지로 2017년을 맞이하면서 여전히 자사의 데이터를 운영하는 조직에 대해 얘기하고 있다. 비즈니스 사용자들이 유용하고 실행 가능한 데이터가 필요로 할 때 언제 어디서나 제공받을 수 있을 것이다. 데이터 저장 비용은 지속적으로 하락하고 SaaS를 통해 분석 솔루션의 가용성이 확산됨에 따라 기업들은 직원들에게 그 어느 때보다 싸고 쉽게 통찰력을 제공할 수 있게 됐다. 2017년 빅데이터, 분석, 그리고 BI(Business Intelligence) 분야 트렌드는 다음과 같다. 머신러닝 받아들이기 오범은 2017년 빅데이터 분석에서 가장 큰 장애물은 머신러닝이 될 것이라고 말했다. 토니 베어의 빅데이터 동향 보고서에 따르면, 상승 곡선에 있는 머신러닝은 여전히 성장세를 유지할 것이다. 그러나 대부분의 경우 머신러닝은 맞춤형 개발보다는 애플리케이션과 서비스에 탑재될 것이다. 이는 디지털 온라인 비즈니스를 다룰 줄 아는 데이터 과학자들을 확보할 수 있는 조직들이 거의 없기 때문이다. 벤더들은 사전 패키지 형태로 판매하기 때문에 데이터 세트에 머신러닝을 적용하는 것이 그 어느 때보다 쉬워졌다. 그래서 예측 분석, 고객 통찰력, 개인화, 추천 엔진, 사기 및 위협 탐지 등에서 활용할 수 있을 것으로 기대하고 있다. 하둡, 그 너머의 움직임 오픈소스 데이터 저장 솔루션인 아파치 하둡(Apache Hadoop)은 지난 수년동안 BI 업계에서 회자되어 왔지만 실행 가능한 대안으로 인기있는 프레임워크, 특히 아파치 스파크(Apache Spark)가 더욱 더 많이 거론되기 시작했다. 베어의 보고서에서 지적한 것처럼 지난 수년 동안 이 인메모리 데이터 처리 엔진은 많은 거품이 있긴 하지만 클라우드 내 스파크를 배포하는 기능만큼은 탁월하다. 베어는 클라우드 기반, 머신러닝, 그리고 IoT 서비스에서의 스파크는 하둡을 고려하고 있는 기업들에게 대안을 제공할 것이라고 말했다. "스파크와 하둡은 서로 다른 제품이지...

BI 스파크 하둡 2016.12.30

리뷰 | 머신러닝을 밝히는 스파크

지난 3월에도 썼지만 데이터브릭스(Databricks) 서비스는 데이터 과학자를 위한 뛰어난 제품이다. 다양한 수집(ingestion), 특징 선택, 모델 구축, 평가 기능을 갖췄고 데이터 소스와의 통합 기능과 확장성도 장점이다. 스파크 관련한 기존 라이브러리는 빅데이터를 위한 불꽃, 실시간 분산형 컴퓨팅 '스파크'에 있다. http://www.itworld.co.kr/techlibrary/92953 데이터브릭스 서비스는 스파크(Spark)의 상위 집합을 클라우드 서비스로 제공한다. 데이터브릭스는 스파크의 첫 개발자인 마테이 자하리아, 그리고 U.C. 버클리의 AMPLab 출신 연구진이 창업한 회사다. 데이터브릭스는 아파치 스파크 프로젝트를 주도하는 기업이기도 하다. 이번 리뷰에서는 스파크용 오픈소스 머신러닝 라이브러리인 스파크 ML에 대해 다룬다. 더 정확히 말하자면 스파크 ML은 스파크용 머신러닝 라이브러리 2개 가운데 더 새로운 라이브러리다. 스파크 1.6부터 대부분의 기능에서 스파크 MLlib 패키지의 RDD 기반 API보다 스파크 ML 패키지의 데이터프레임(DataFrame)기반 API가 우선 권장됐지만 이는 불완전했다. 그러나 스파크 2.0부터 스파크 ML은 완전한 기본 요소가 됐고 스파크 MLlib은 유지보수 모드로 들어갔다. 스파크 ML 기능 스파크 ML 라이브러리는 분류, 회귀, 클러스터링, 협업 필터링과 같은 일반적인 머신러닝 알고리즘(단, 심층 신경망(Deep Neural Network)은 없음)과 함께 특징 추출, 변형, 차원 감소 및 선택을 위한 도구, ML 파이프라인 구축과 평가, 튜닝을 위한 도구를 제공한다. 또한 스파크 ML에는 알고리즘과 모델 및 파이프라인의 저장/로드, 데이터 처리, 선형 대수학과 통계학 수행을 위한 유틸리티도 포함된다. 스파크 ML은 문서에서 MLlib으로 참조되기도 해서 혼란스럽다. 신경 쓰인다면 이전의 스파크 MLlib 패키지를 그냥 무시하고 필자가 언급했던 ...

리뷰 스파크 하둡 2016.11.29

IDG 블로그 | 2017년에 걱정해야 할 10가지

필자는 매년 ‘새해 주의해야 할 것’ 즉 다가올 한 해 동안 문제가 생길 수도 있을 만한 분야를 예상해 왔다. 올 해도 2017년 한 해 동안 생각처럼 잘 풀리지 않을 수 있는 일 열 가지를 선정했다. 하둡 배포판 빅 데이터, 분석, 그리고 머신러닝은 지금까지 살아남았고, 결국은 약속했던 방식대로 비즈니스를 변화시킬 것이다. 하지만 하둡만큼은 위태로워 보인다. 그렇다고 관련된 모든 사람이 다 곤란에 처하게 될 것이라는 이야기는 아니다. 지금 상황은 오히려 각자도생, 혹은 ‘따로따로’의 상황에 더 가깝다. 지난 해 약속대로 못했거나 미완으로 끝난 프로젝트에 데인 기업들이 이제는 전체적인 ‘완제품’ 대신에 인프라 수준에서 진짜로 필요한 것, 하려는 것이 무엇인지를 꼼꼼히 따져 필요한 것만 선택하려는 태도를 취하게 될 것이기 때문이다. 이런 현실에 적응할 수 있는 IT 업체라면 수익을 더 올릴 것이다. 하둡 업체들 세 곳의 주요 하둡 업체와 (특히 ‘빅 블루’를 포함한) 소위 “뭐든지 다 하는” 거대 업체들도 이 게임에 참가하고 있다. 이미 피보탈이 사실상 발ㅇ르 빼는 것을 목격한 바 있다. 시장이 앞으로 계속 세 하둡 업체를 지탱하기는 어려워 보인다. 앞서 언급한 업체들을 예의주시하기 바란다. 오라클 오라클의 취미는 기업 쇼핑이다. 아마도 오라클의 데이터베이스가 뒤처지고 낙후돼 있으며, 자력으로는 그 어떤 새로운 것도 창조해내지 못하기 때문일 것이다. 혹시라도 지금 사용하는 제품의 개발업체가 오라클에 인수된다면, 곧 그 제품 가격도 같이 오를 것이다. 아, 오라클은 롱테일(long tail) 제품을, 그것도 깊게 뿌리 박혀 좀체 새로운 것에 자리를 내어주지 않는 오래된 기술을 특히 사랑하는 업체임을 말해둔다. 게다가 오라클에 매입된 후에는 오라클의 그 유명한(?) 기술 지원 서비스를 받게 되는 건 덤이다. 데이터브릭스(Dat...

전망 예측 하둡 2016.11.21

글로벌 칼럼 | 우리는 하둡에 대해 아는 게 거의 없었다

하둡이 빅데이터의 대명사로 여겨지며 모든 기업에 빅데이터 바람을 일으킨 것은 그다지 오래된 일이 아니다. 그런데 이제는 오범(Ovum) 분석가 토니 베어가 말했듯이 "하둡의 정점(peak Hadoop)"에 이르렀다는 뚜렷한 징후들이 있다. 그러나 가장 명백한 신호는 아마도 '하둡'에 아무런 하둡도 남아 있지 않다는 사실일 것이다. 또는 인포월드의 앤드류 올리버의 표현대로 "하둡에 대해 알아야 할 가장 중요한 점은 더 이상 하둡이 아니라는 것"이다. 이는 다른 무엇보다 최신 클라우드 워크로드에서 하둡 대신 스파크(Spark)와 같은 더 참신한 옵션이 많이 사용된다는 데서 가장 잘 드러난다. 기업 IT의 다른 많은 부분과 마찬가지로 클라우드가 하둡을 죽인 것이다. 또는 하둡이 너무 빠르게 움직인 탓에 하둡을 죽였다고 볼 수도 있다. 어떻게 된 일인지 살펴보자. '하둡'은 이제 과거의 유산? 물론 하둡이 완전히 추락한 것은 아니다. 베어가 말했듯이 하둡의 데이터 관리 기능은 아직 스파크를 비롯한 다른 전용 빅데이터 클라우드 서비스가 따라잡지 못한 부분이다. 게다가 스파크를 사용한 메모리 내 실시간 분석에 집중하기 때문에 하둡을 사용하지 않는다 해도 결국 여기저기서 하둡의 조각들을 사용하게 된다는 것이 올리버의 설명이다. 그러나 전반적으로 하둡은 지금과 같은 클라우드 시대에 확실히 과거의 기술로 보인다. 하둡 벤더들도 떠나는 중이다. 물론 클라우데라(Cloudera)는 여전히 클라우데라 엔터프라이즈가 "아파치 하둡" 기반이라고 말한다. 그러나 클라우드 아키텍처의 구성 요소를 살펴보면 그 면면은 하둡이 아니다. IBM은 빅인사이트(BigInsights) 제품군 내부에 여전히 하둡을 사용하지만 최신의 왓슨 데이터 플랫폼(Watson Data Platform)에서는 하둡을 찾아볼 수 없다. 이유는 물론 클라우드다 이런 면에서 "IBM이...

스파크 하둡 클라우드 2016.11.18

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.