Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

하둡

IDG 블로그 | 2017년에 걱정해야 할 10가지

필자는 매년 ‘새해 주의해야 할 것’ 즉 다가올 한 해 동안 문제가 생길 수도 있을 만한 분야를 예상해 왔다. 올 해도 2017년 한 해 동안 생각처럼 잘 풀리지 않을 수 있는 일 열 가지를 선정했다. 하둡 배포판 빅 데이터, 분석, 그리고 머신러닝은 지금까지 살아남았고, 결국은 약속했던 방식대로 비즈니스를 변화시킬 것이다. 하지만 하둡만큼은 위태로워 보인다. 그렇다고 관련된 모든 사람이 다 곤란에 처하게 될 것이라는 이야기는 아니다. 지금 상황은 오히려 각자도생, 혹은 ‘따로따로’의 상황에 더 가깝다. 지난 해 약속대로 못했거나 미완으로 끝난 프로젝트에 데인 기업들이 이제는 전체적인 ‘완제품’ 대신에 인프라 수준에서 진짜로 필요한 것, 하려는 것이 무엇인지를 꼼꼼히 따져 필요한 것만 선택하려는 태도를 취하게 될 것이기 때문이다. 이런 현실에 적응할 수 있는 IT 업체라면 수익을 더 올릴 것이다. 하둡 업체들 세 곳의 주요 하둡 업체와 (특히 ‘빅 블루’를 포함한) 소위 “뭐든지 다 하는” 거대 업체들도 이 게임에 참가하고 있다. 이미 피보탈이 사실상 발ㅇ르 빼는 것을 목격한 바 있다. 시장이 앞으로 계속 세 하둡 업체를 지탱하기는 어려워 보인다. 앞서 언급한 업체들을 예의주시하기 바란다. 오라클 오라클의 취미는 기업 쇼핑이다. 아마도 오라클의 데이터베이스가 뒤처지고 낙후돼 있으며, 자력으로는 그 어떤 새로운 것도 창조해내지 못하기 때문일 것이다. 혹시라도 지금 사용하는 제품의 개발업체가 오라클에 인수된다면, 곧 그 제품 가격도 같이 오를 것이다. 아, 오라클은 롱테일(long tail) 제품을, 그것도 깊게 뿌리 박혀 좀체 새로운 것에 자리를 내어주지 않는 오래된 기술을 특히 사랑하는 업체임을 말해둔다. 게다가 오라클에 매입된 후에는 오라클의 그 유명한(?) 기술 지원 서비스를 받게 되는 건 덤이다. 데이터브릭스(Dat...

전망 예측 하둡 2016.11.21

글로벌 칼럼 | 우리는 하둡에 대해 아는 게 거의 없었다

하둡이 빅데이터의 대명사로 여겨지며 모든 기업에 빅데이터 바람을 일으킨 것은 그다지 오래된 일이 아니다. 그런데 이제는 오범(Ovum) 분석가 토니 베어가 말했듯이 "하둡의 정점(peak Hadoop)"에 이르렀다는 뚜렷한 징후들이 있다. 그러나 가장 명백한 신호는 아마도 '하둡'에 아무런 하둡도 남아 있지 않다는 사실일 것이다. 또는 인포월드의 앤드류 올리버의 표현대로 "하둡에 대해 알아야 할 가장 중요한 점은 더 이상 하둡이 아니라는 것"이다. 이는 다른 무엇보다 최신 클라우드 워크로드에서 하둡 대신 스파크(Spark)와 같은 더 참신한 옵션이 많이 사용된다는 데서 가장 잘 드러난다. 기업 IT의 다른 많은 부분과 마찬가지로 클라우드가 하둡을 죽인 것이다. 또는 하둡이 너무 빠르게 움직인 탓에 하둡을 죽였다고 볼 수도 있다. 어떻게 된 일인지 살펴보자. '하둡'은 이제 과거의 유산? 물론 하둡이 완전히 추락한 것은 아니다. 베어가 말했듯이 하둡의 데이터 관리 기능은 아직 스파크를 비롯한 다른 전용 빅데이터 클라우드 서비스가 따라잡지 못한 부분이다. 게다가 스파크를 사용한 메모리 내 실시간 분석에 집중하기 때문에 하둡을 사용하지 않는다 해도 결국 여기저기서 하둡의 조각들을 사용하게 된다는 것이 올리버의 설명이다. 그러나 전반적으로 하둡은 지금과 같은 클라우드 시대에 확실히 과거의 기술로 보인다. 하둡 벤더들도 떠나는 중이다. 물론 클라우데라(Cloudera)는 여전히 클라우데라 엔터프라이즈가 "아파치 하둡" 기반이라고 말한다. 그러나 클라우드 아키텍처의 구성 요소를 살펴보면 그 면면은 하둡이 아니다. IBM은 빅인사이트(BigInsights) 제품군 내부에 여전히 하둡을 사용하지만 최신의 왓슨 데이터 플랫폼(Watson Data Platform)에서는 하둡을 찾아볼 수 없다. 이유는 물론 클라우드다 이런 면에서 "IBM이...

스파크 하둡 클라우드 2016.11.18

클라우드 시대의 빅데이터 구현 전략 - IDG Summary

많은 기업이 클라우드로 이동하고 있다. 빅데이터 또한 클라우드 시대를 대비한 전환 움직임이 활발하다. 빅데이터의 대표격인 하둡은 사실 설계 당시 클라우드를 고려하지 않았다. 빅데이터 선도업체인 클라우데라는 하둡의 클라우드 전략을 제시하면서 클라우드 시대에 동참했다. 하둡이 클라우드로 가는 이유는 무엇일까? 하둡의 클라우드 전환 전략과 클라우데라의 클라우드 서비스에 대해 알아보자. 주요 내용 클라우드 기반의 빅데이터 장점 클라우데라의 클라우드 전환 가이드 트랜션트 클러스터와 롱런닝 클러스터의 차이 클라우데라 디렉터의 특장점 클라우데라의 클라우드 6가지 전략

하둡 빅데이터 클라우드 2016.10.20

테라데이타, 하둡 및 AWS 기반 ‘애스터 애널리틱스’용 개발 옵션 발표

한국테라데이타(www.teradata.kr)는 AWS(Amazon Web Services) 기반 테라데이타 애스터 애널리틱스(Teradata Aster Analytics) 및 하둡 기반 테라데이타 애스터 애널리틱스를 위한 새로운 개발 옵션을 발표했다. 이 솔루션으로 기업들은 하둡에 대한 기존 투자를 기반으로 데이터 위치와 상관없이 데이터에서 가치 있는 분석을 통찰해 빠르게 확보할 수 있다고 업체는 밝혔다. 일반적인 오픈소스 고급 분석 패키지는 비즈니스 애널리스트를 위해 설계되지는 않으며, 사용, 구축, 유지를 위한 전문화된 기술을 요구한다. 즉, 하둡 기반 업무에 고급 분석 툴을 적용할 뿐, 하둡 기반에서 최적화된 운영이 되도록 설계되지는 않았다. 그 결과, 그 패키지는 전용 플랫폼으로 데이터가 추출되도록 요구하며, 사용자, 데이터, 사용 케이스 관점에서 확장성이 결여돼 있다. 테라데이타 애스터 애널리틱스(Teradata Aster Analytics)는 동일한 인터페이스와 신택스(syntax) 안에서 텍스트, 패스(path), 패턴, 그래프, 머신 러닝, 통계를 모두 제공한다. 새로운 옵션은 ▲하둡 데이터 레이크의 사용과 가치를 확장 ▲하둡에서의 원활한 운영 ▲하둡에서 신속하게 분석 실행 기능 등이다. AWS 기반 애스터 애널리틱스(Aster Analytics on AWS)는 ▲가치 실현 시간 단축 ▲분석적 민첩성 제고 ▲경제적 인센티브 제공 등을 제공한다. 테라데이타 제품 및 서비스 마케팅 총괄 크리스 투굿 부사장은 “애스터 애널리틱스는 빅데이터를 통해 애널리스트들을 연결시켜 왔지만, 하둡 기반 고급 분석은 진정한 빅데이터의 민주화를 실현하며, 이를 통해 데이터 사이언티스트는 물론 비즈니스 애널리스트들이 데이터에 대한 액세스는 물론, 패스(path), 머신 러닝, 그래프 알고리즘을 통해 원활히 분석을 실행할 수 있다”며, “새로운 하둡 및 AWS 개발 옵션은 최소의 비용과 리스크, 그리고 빠른 속도로...

하둡 AWS 테라데이타 2016.08.29

장단점·생태계·사용사례로 비교해 보는 '하둡 vs. 스파크'

기업 내 데이터 업무가 점점 증가하고 있다. 이에 따라 오픈소스 빅데이터 프레임워크인 하둡과 스파크 중 무엇을 고를 것인지가 점점 중요한 문제로 대두되고 있다. 하둡과 스파크의 장단점, 벤더 정보, 고객사 사용 사례를 범주별로 분류해 살펴본다. 하둡(Hadoop)과 스파크(Spark)는 다른 점이 많은 기술이다. 사용 사례도 크게 다르다. 두 기술을 공개한 ASF(Apache Software Foundation)는 심지어 이 둘을 다른 범주로 분류하고 있다. 하둡은 데이터베이스이고 스파크는 빅데이터 툴이다. 아파치(Apache)의 말을 빌리자면 하둡은 '분산형 컴퓨팅 플랫폼'으로, 다음과 같이 설명된다. "단순한 프로그래밍 모델을 사용하는 컴퓨터 클러스터에서 대형 데이터 세트의 분산형 처리를 가능하게 하는 프레임워크다. 단일 서버에서 각각 로컬 연산 및 저장 기능을 제공하는 수천 대의 장비로 스케일업(Scale Up)되도록 설계됐다. 하드웨어에 의존해 높은 가용성을 제공하는 대신, 라이브러리 자체가 애플리케이션 계층에서 고장을 감지하고 처리할 수 있도록 설계됐다." 하둡에 관해 이야기할 때에는 대부분 "애플리케이션 데이터에 대해 대용량 접근(high-throughput access )을 제공하는 분산형 파일 시스템"인 HDFS(Hadoop Distributed File System)를 의미한다. 하지만 이 밖에도 작업 일정관리 및 클러스터 자원 관리 툴인 하둡 얀(YARN)과 대형 데이터 세트 병렬 처리를 위한 하둡 맵리듀스가 존재한다. 한편, 스파크는 "대규모 데이터 처리를 위한 고속 일반 엔진이다. 자바(Java), 스칼라(Scala), 파이썬(Python)의 고수준 API뿐만 아니라 스트림 처리, 기계 학습, 그래프 분석 등을 포함해 일련의 풍부한 라이브러리를 제공한다"고 기술돼 있다. 이들을 어떻게 조합할 수 있을까? 둘 다 빅데이터 프레임워크다...

아파치 스파크 하둡 2016.07.19

아파치 재단의 놀라운 성장… ‘오픈소스의 중립국’으로 “우뚝”

아파치 소프트웨어 재단(Apache Software Foundation, 이하 ASF)이 최근 28쪽 분량의 연례 보고서를 발표했다. 한 마디로 요약하면, “놀랍다”이다. 1995년 몇몇 개발자가 지원하는 단순한 HTTP 서버로 시작한 ASF는 이제 3,425명의 ASF 위원(Committer)과 5,922명의 아파치 코드 컨트리뷰터가 291건 TLP(Top-Level Projects)를 구축하는 단체가 됐다. 물론 같은 기간에 오픈소스 역시 폭발적인 성장을 이루었다. 하지만 ASF는 10여 개의 인기 프로젝트와 개발 툴 등으로 빅데이터를 강력하게 추진하면서 특히 눈에 띄는 성과를 이루었다. 이는 연간 운영 예산이 100만 달러를 넘지 않는 조직으로서는 나쁘지 않은 성과일 뿐만 아니라 개발자 커뮤니티보다는 기업의 관심을 필요로 하는 다른 오픈소스 단체와 비교해도 뛰어난 성과이다. 2015년 ASF의 가장 눈에 띄는 성과를 보자. - 20개 새로운 아파치 TPL 프로젝트 - 아파치 인큐베이터에서 개발 중인 55개의 프로젝트와 아파치 랩의 39개 이니셔티브 - 743개의 리포지토리 관리 - 개인 CLA(Contributor License Agreements) 33% 증가 - ASF 위원 3,425명, 코드 기여자 5,922명(전년 대비 21% 증가)이 거의 2,000만 줄의 코드 추가. 월 평균 1만 8000건의 코드 제출. - 3억 1,553만 3,038줄의 코드 변경(전년 대비 65% 증가) - 프로젝트당 5,000달러 이하의 연간 예산으로 아파치 서비스 1년 365일 24시간 가동 이런 성과는 특히 ASF 운영에 얼마나 적은 돈이 필요한지를 고려하면 더욱 인상적이다. 가장 최근 회계연도에 ASF는 87만 4,000달러의 운영 예산을 필요로 했고, 이 예산의 대다수는 후원업체가 지불했다. ASF는 7곳의 플래티넘 후원업체(클라우데라, 페이스북, 구글, 리스웹, 마이크로소프트, 피보탈, 야후)와 8곳의 ...

프로젝트 아파치 하둡 2016.06.09

글로벌 칼럼 | 아직도 오픈소스를 이해하지 못하는 CIO를 위하여

수요일, 포레스터 애널리스트 로렌 넬슨이 “기업 의사 결정자 중 41%가 오픈소스 확대가 2016년의 우선 순위 목표라고 밝혔다”는 내용의 보고서를 발표해 커다란 파장을 몰고 왔다. 이 말을 뒤집어 보면, 59%의 기업 경영진이 2016년 오픈소스를 확대할 필요성을 실감하지 못하거나 심지어는 인식하지도 못하고 있다는 의미가 된다. 기업이 하둡, 스파크 같은 빅데이터 플랫폼을 도입하고, 리눅스를 구동하고, 안드로이드 스마트폰을 직원에게 지급하며, 기업 내 거의 모든 필수 워크로드의 기반이 오픈소스임에도 불구하고 말이다. 이것이 2016년 현재 기업 컴퓨팅이 움직이는 방식이다. 그러나 사실상 전략에서 소외되고 있는 현재의 소프트웨어 활용 현황으로는 오픈소스의 가치를 완전히 끌어낼 수 없다. 안 들어가는 곳이 없는 오픈소스 포레스터 애널리스트들은 “기업의 디지털 트랜스포메이션과 오픈소스(Open Source Powers Enterprise Digital Transformation)”라는 보고서에서 이 점을 명확히 파악했다. 폴 밀러는 “기업이 이미 오픈소스에 상당 부분을 의지하고 있다는 점을 이해하지 못하는 경영자들이 너무 많아 더 이상 새롭지도 않다. 더 중요한 것은 경영진들이 오픈소스 기술, 오픈소스적 사고 방식이 고객에 더욱 몰입해서 성공하고, 우수한 서비스를 제공하며, 고객을 확보할 수 있는 변혁의 핵심 요소라는 점을 이해하지 못하고 있다는 점”이라고 강조했다. 라우더라(Cloudera) 공동 설립자이자 CSO 마이크 올슨은 기업 인프라 혁신의 필수 요소가 핵심부에서의 완전한 오픈소스화라고 언급했다. 여기에는 예외가 있을 수 없다. 그러면 왜 CIO 등 여러 고위 경영진이 오픈소스를 신뢰하지 않는 것일까? 오픈소스, 투명 망토를 쓴 소녀 일반적으로는 가격이 무료라는 점만으로는 오픈소스로의 전환에 알맞지 않다. 사실 스파크 등 훌륭한 오픈소스 코드를 다운로드 받...

CIO 리눅스 오픈소스 2016.04.28

하둡 월드 쇼에서 선보인 최신 빅데이터 툴 14선

세상에는 다양한 빅데이터 툴과 서비스가 있다. 지난 주 미국 산호세에서 열린 스트라타 월드/하둡 월드쇼에서는 최신 오픈소스 데이터베이스 기술부터 이들을 관리할 툴에 이르기까지 다양한 제품들이 선보였다. 앞으로 시장을 주름잡을 최신 빅데이터 기술을 만나 보자. ciokr@idg.co.kr

스트라타 하둡 빅데이터 2016.04.05

IT리더에게 듣는다 | "쉽게 바꿀 수 있는 IT인프라 지향" 티켓몬스터 이승배 CTO

한국IDG의 미래 IT환경 준비 현황 조사에는 231명의 국내 기업 IT담당자들이 참여했으며, 이 결과를 토대로 <CIO Korea>는 기업 IT를 총괄하는 CIO들을 만나 심층 인터뷰를 진행했다. <CIO Korea>는 ‘미래를 준비하는 IT리더’ 인터뷰 시리즈를 연재하고 있다. <편집자 주> “시장이 너무 빨리 바뀌기 때문에 완벽하게 준비하면 오히려 나중에 가서 쓸 수 없게 돼 비용을 낭비한 결과가 될 수 있습니다. 어떤 시스템을 구축하거나 구매하려 할 때, 앞으로 이것이 얼마나 바뀔지를 먼저 고려합니다. 쇼핑 비즈니스에서 절대 바꾸지 않는 것이 있다면, 그것은 저렴한 가격을 찾는 소비자들입니다. 하지만 개인화 전략은 시장 상황이나 방향에 따라 달라질 수 있습니다.” 티켓몬스터(이하 티몬)에서 IT를 총괄하는 이승배 CTO는 경쟁이 치열하고 빠르게 변화하는 유통산업의 IT인프라 방향에 관해 ‘쉽게 바꿀 수 있는 IT’를 강조했다. 한국IDG의 ‘엔터프라이즈 IT의 미래 준비 현황과 과제‘ 조사에 따르면, 미래의 변화를 인식하고 있지만, 준비는 부족한 수준이라는 답변이 61%로 가장 많았다. 티몬의 경우 완벽한 IT인프라로 준비하겠다기보다는 쉽게 바꿀 수 있는 유연한 환경을 지향한다는 것이다. 시스템 기능, 작고 단순하게… 변경으로 발생할 영향 ↓ 이 CTO는 “전문 용어로 로우 커플링(low coupling)이라고 하는데 이를 최소화하고 단위를 잘게 만드는 어떤 시스템을 새로운 기술로 만들거나 새로운 방법으로 바꿨을 때 그 여파를 적게 만들려면 이 시스템의 기능이 작고 단순해야 한다”며 “그렇게 만드는 데 초점을 맞춘다”고 이야기했다. 현재 외국에서 가장 많이 쓰이는 아키텍처 레퍼런스 모델은 마이크로서비스 아키텍처(MSA)다. 티몬은 MSA에 나온 것을 ...

CIO 딥러닝 고객경험 2016.03.21

기업과 하둡 데이터를 연결하는 SAP의 HANA 보라

SAP는 최근 기업 및 기관이 기업용 하둡(Hadoop) 시스템과 다른 분산형 데이터 소스에 저장해 둔 데이터를 상황(Contextual) 분석하는데 도움을 주기 위해 인메모리 쿼리 엔진인 SAP HAVA 보라(Vora)를 대대적으로 공급한다고 발표했다. SAP는 지난해 9월 SAP HAVA 보라 소프트웨어를 처음 발표했다. 그러나 SAP 클라우드 플랫폼 및 데이터 관리 부문 책임자이자 부사장 켄 차이는 소프트웨어 개발에 수년을 투자했다고 강조했다. 켄 차이는 "우리는 대기업 워크로드와 빅데이터 워크로드에 분산형 컴퓨팅 프레임워크를 실현시키기 원했다"고 말했다. HANA 보라를 이용하는 기업과 기관은 익숙한 OLAP(Online Analytical Processing)과 프로그래밍 언어를 이용해, 기업과 하둡 시스템에 저장한 모든 데이터를 일관된 방식으로 분석할 수 있다. 이는 기업 데이터와 계속 폭증하는 빅데이터의 간극을 연결하는 역할을 한다. 이는 기업용 애플리케이션, 데이터웨어하우스, 데이터 호수, IoT 센서에서 수집한 수많은 운영 데이터, 상황 데이터에서 인사이트를 뽑아낼 수 있도록 설계된 기술이다. 아파치 스파크(Apache Spark) 실행 프레임워크를 이용해, 하둡을 인터랙티브 분석을 한다. - 데이터를 서로 연결, 상황에 딱 맞는 의사결정을 내림. 보라는 비즈니스 운영 데이터와 기존의 비구조화 데이터 소스를 결합해 더욱 강력한 분석을 제공한다. - 쉽게 빅데이터를 관리. 보라는 하둡 클러스터에서 데이터를 로컬 처리, 데이터 소유권과 통합에 수반되는 도전과제를 없앤다. - 하둡에서의 OLAP 모델링 기능. 보라를 이용해 수천 노드에 분산된 수많은 하둡 데이터를 실시간 심층 분석할 수 있다. SAP는 스파크 개발자가 설립한 데이터브릭스(Databricks), 하둡 배포판 벤더인 클라우데라(Cloudera), 호튼웍스(Hortonworks), 맵알 테크놀로지스(MapR Technologies)와...

하둡 sap HANA 2016.03.17

맵알테크놀러지스, 무료 하둡 온디맨드 교육 프로그램에 아파치 스파크 과정 신설

맵알테크놀러지스(www.mapr.com)는 자사의 무료 하둡 온디맨드 교육 프로그램에 처음으로 아파치 스파크(Apache Spark) 과정을 개설했다고 밝혔다. 아파치 스파크 과정의 아파치 스파크 에센셜(Apache Spark Essentials) 프로그램은 개발자들이 하둡 환경에서 스파크 기반의 애플리케이션을 개발하기 위한 기초 과정을 제공한다. 데이브 예스페르센 맵알테크놀러지스 월드와이드 서비스 부문 부사장은 “맵알이 제공하는 무료 하둡 온디맨드 교육은 전세계적으로 폭발적인 반응을 얻고 있다”며, “전체 스파크 스택을 지원하는 맵알은 많은 고객들의 요청에 따라 스파크 과정을 개설하게 됐으며, 이 프로그램은 개발자 및 엔터프라이즈 아키텍트들에게 하둡 및 스파크 빅데이터 애플리케이션의 폭넓은 선택권, 입증된 신뢰성 및 성능을 제공한다”고 말했다. 맵알 무료 하둡 온디맨드 교육 프로그램 중 첫 스파크 교육 과정인 아파치 스파크 에센셜(Apache Spark Essentials) 프로그램은 빅데이터 애플리케이션 개발을 위한 아파치 스파크의 주요 이점을 소개한다. 이 프로그램의 첫 과정으로 개발자들은 데이터를 로드 및 검사하기 위해 스파크 인터렉티브 쉘(Interative Shell)을 사용한다. 또한 수강생들이 혼자 스파크 애플리케이션을 개발하고 출시할 수 있도록 다양한 스파크용 배포(deployment) 모드를 지원한다. 수강자들은 기초적인 핸즈온 실습을 통해 다양한 시나리오를 경험하고 개념을 습득할 수 있다. 두 번째 무료 스파크 프로그램인 아파치 스파크 애플리케이션 개발 및 모니터(Build and Monitor Apache Spark Applications)는 RDDs(Resilient Distributed Datasets) 처리, 스파크 SQL 및 데이터프레임(DataFrames) 활용, 스파크 실행 모델의 이해 등과 관련된 내용으로 구성돼 있다. editor@itworld.co.kr

하둡 맵알테크놀러지스 2016.02.03

"대기업 100%, 하둡 도입할 것이다"...포레스터가 선정한 5대 하둡 배포판

포레스터 리서치(Forrester Research)의 빅데이터 분석가들이 내놓은 새로운 보고서에 따르면, 데이터에 대해 고급 분석을 수행하고 실용적인 시야를 얻고자 하는 조직에게 하둡 도입은 "필수"다. Credit: thinkstock 포레스터는 기업이 보유한 데이터의 60~73%가 비즈니스 인텔리전스와 분석에 사용되지 못하고 방치된다고 추산했다. 분석가 마이크 괄티에리와 노엘 유한나는 지난주 공개한 하둡 배포판에 대한 웨이브(Wave) 보고서에서 "이는 특히 고객에 대한 심층적이고 실용적인 시야가 경쟁을 위한 필수 요소인 시대에서 용납할 수 없는 수준"이라고 말했다. 또한 애플리케이션 개발자와 제공 전문가가 '일제히' 하둡을 수용 중이라면서, 대기업들은 결국 100% 하둡을 도입하게 될 것으로 예측했다. 다만 포레스터는 하둡이 복잡한 시장임을 지적했다. 그렇다면 어느 벤더를 선택해야 할까? 하둡 시장에는 절대적이고 유일한 승자는 없다. 대신 각자 강점과 서로 다른 경쟁력을 가진 벤더들이 있고 물론 특정 분야에서 자신만의 매력을 가진 벤더들도 있다. 하둡 최상위 계층에는 클라우데라(Cloudera), 호튼웍스(Hortonworks), 맵R(MapR), 그리고 IBM과 피보탈(Pivotal)이 있다. 이 5개 업체가 포레스터가 선정한 최상위 하둡 소프트웨어 배포 업체다. 포레스터는 이 업체들이 모두 보안, 스케일, 통합, 거버넌스, 성능과 같은 주요 엔터프라이즈 기능에 초점을 두고 있다고 전했다. 고객사에 배포하거나, 프라이빗 또는 퍼블릭 클라우드에 배포하고 소프트웨어 관리를 고객이 직접 하는 방법도 가능하다. 아마존 웹 서비스의 엘라스틱 맵리듀스(Elastic MapReduce) 또는 마이크로소프트 애저의 HD인사이트(HDInsight)와 같은 클라우드 기반 하둡 배포판은 고객이 자체 하드웨어에서 실행할 수 없는 퍼블릭 클라우드 전용 제품이므로 포레스터의 웨이브 보고서의...

포레스터 배포판 하둡 2016.01.25

빅 데이터 분석에 대한 이종 접근방식

만약 빅 데이터 분석이 단지 어느 기술에 대한 습득을 의미하고 그 구현을 위한 단일 아키텍처 블루프린트가 있다면 용이하겠지만, 현실은 그렇게 간단하지 않습니다. 빅 데이터 분석은 조직의 요구사항에 대하여 구축되어 있을 뿐만 아니라, 조직은 신제품을 개발하고 변화하는 시장 등에 적응하면서 끊임없이 변하고 있습니다. 또한 현명한 기업들은 점점 더 동일한 데이터의 분석에 그치지 않고, 빅 데이터가 제공하는 기회를 이용하기 위해 자사의 분석 역량을 지속적으로 향상시키고 있습니다. 본 백서를 다운로드 받으시는 분들 중, 50 명에게 스타벅스 카페라떼 기프티콘을,  방문 신청 하시는 모든 분들께는 CGV 3D영화 상품권 2매를 드립니다.  주요 내용 빅 데이터의 문제점 적절한 도구 유스 케이스의 중첩/실제 유스 케이스 전력 사용량 추이의 이해

DW 하둡 버티카 2016.01.20

하둡과 아파치 스파크에 대해 알아야 할 5가지

빅데이터 영역에서 이 둘은 때로는 경쟁자이기도 하지만 이 둘은 함께 함으로써 성장한다는 데 의견이 일치한다. 빅데이터에 대한 얘기를 들어보면 하둡이나 아파치 스파크가 빠지는 경우는 거의 없다. 이들이 하는 역할과 비교하는 방법에 대해 간단히 설명해본다. 1. 하둡과 스파크는 다른 일을 한다 하둡과 아파치 스파크는 둘다 빅데이터 프레임워크다. 그러나 이들은 추구하는 목적이 다르다. 하둡은 근본적으로 분산 데이터 인프라스트럭처로, 범용화된 서버의 클러스터와 함께 다양한 노드에서 대량의 데이터 컬렉션을 배포한다. 이는 더이상 값비싼 하드웨어를 구매하고 유지하는 것이 필요하지 않다는 것을 의미한다. 또한 하둡은 데이터에 대해 색인하고 계속 유지하면서 이전에 가능했던 처리, 분석보다 좀더 효과적으로 빅데이터 처리와 분석을 할 수 있게 한다. 반면 스파크는 분산된 데이터 컬렉션에서 실행하는 데이터 처리 툴이지 분산 스토리지가 아니다. 2. 둘은 각각 사용할 수 있다 이 둘은 하나가 없어도 다른 하나를 사용할 수 있다. 하둡은 HDFS(Hadoop Distributed File System)라고 알려진 스토리지 요소뿐만 아니라 맵리듀스(MapReduce)라고 부르는 데이터 처리 요소도 갖고 있다. 그래서 하둡은 데이터 처리 과정에서 스파크를 필요로 하지 않는다. 반대로 하둡이 없어도 스파크를 사용할 수 있다. 스파크는 자체 파일 관리 시스템을 갖고 있지 않지만 HDFS가 아니더라도 다른 클라우드 기반의 분산 데이터 플랫폼이면 사용할 수 있다. 그러나 하나로 통합하는 것이 필요하다. 다만 스파크는 하둡을 위해 설계됐기 때문에 둘이 함께 하면 더 좋다는 것에는 많은 이들이 동의한다. 3. 스파크는 빠르다 일반적으로 아파치 스파크는 맵리듀스보다 빠르다. 맵리듀스는 단계별로 실행하는 반면, 스파트는 전체 데이터셋에서 단번에 데이터를 처리하는 방법이기 때문이다. 부즈 알렌 해밀턴(Booz Allen Hamilton) 수석 데이터...

하둡 빅데이터 아파치 스파크 2015.12.14

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.