Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

하둡

HP, 호튼웍스의 하둡에 투자하다

HP가 자체 고객들이 하둡 데이터 프로세싱 플랫폼의 가치를 발견할 수 있도록 하둡 배포업체인 호튼웍스에 5,000만 달러를 투자했다. 또한 양사는 판매를 위한 전략적 제휴를 맺고 HP 데이터 프로세싱 플랫폼인 헤븐(HAVEn)에 호튼웍스의 하둡 배포판을 결합시키기 위한 아키텍처를 만든다고 밝혔다. HP의 버티카 분석 데이터베이스 소프트웨어 부장 콜린 마호니는 "우리는 실제 하둡을 팔기보다는 이를 직접 지원한다. 지금까지 우리는 하둡 개발업체들을 만나왔으며 시장에서 관계를 맺어왔다"며, "이번 전략적 제휴가 다른 점은 헤븐의 일부분으로서 호튼웍스 데이터 플랫폼을 재판매하고 이를 아주 제대로 지원할 것을 약속하는 것이다"고 설명했다. 마호니는 "대기업들은 큰 규모의 데이터 프로세싱 플랫폼을 구축할 때 보통 전체 시스템에서 각 부문을 맡는 다수의 개발업체보다는 하나의 개발업체와 거래 우선권을 준다"고 말했다. 게다가 이번 투자와 조인트 엔지니어링 작업에는 HP CTO 마틴 핑크가 호튼웍스의 이사회에 참여하기 때문에 하둡 전략을 만드는데 양사는 상당히 밀접하게 일할 수 있다. 야후에서 처음 개발된 하둡은 분석이 가능한 대용량 비정형 데이터를 저장하는 방법을 제공한다. 사용자의 데이터를 수집하는 대형 인터넷 서비스업체들은 전통적인 SQL 데이터베이스 기술과 상용 DW로는 이 데이터들을 저장하고 분석하는 것이 불가능하다는 점을 알아차리고 자체적인 방법을 모색했다. 대표적인 하둡 배포자 가운데 하나인 호튼웍스는 야후에서 하둡을 만들어온 다수의 엔지니어들에 의해 설립했다. 2011년 설립된 이후 호튼웍스는 마이크로소프트, SAP, 레드햇 등 다른 기업용 소프트웨어 개발업체들과 협력 관계를 맺고 있었다. 호튼웍스 CEO 롭 비어든은 이번 전략적 제휴를 통해 호튼웍스에게 잠재 고객층을 더 확보하게 됐다고 의미를 부여했다. 또한 이번 제휴를 통해 HP의 헤븐 플랫폼은 좀더 풍성해진다....

HP 하둡 버티카 2014.07.25

최악의 빅데이터 프랙티스 10가지

물론 누구나 빅 데이터를 도입할 수 있다. 그러나 항상 제대로 활용되는 것은 아니다. 꼭 피해야 할 10가지 빅 데이터 사용 방법을 알아보자. 1. 몽고DB를 빅 데이터 플랫폼으로 선택하기 왜 몽고DB를 선택하는가? 이유는 모르겠지만, 지금 가장 많이 오용되는 NoSQL 데이터베이스는 몽고DB다. 몽고DB에는 맵리듀스, 그리고 (문서화가 매우 열악한) 하둡 커넥터와 비슷한 집계 프레임워크가 있긴 하지만 원래의 용도는 분석 시스템이 아니라 운영 데이터베이스다. "몽고를 사용해서 분석할 것은..."이라고 생각한다면 그 생각을 당장 멈추라. 스스로 무슨 짓을 하고 있는지 돌아보길 바란다. 가끔 "추후 분석을 위한 수집"에 사용하는 경우도 있는데, 그렇다면 현재 수행하는 작업에 따라서 용인될 수도 있다. 그러나 몽고DB를 정말 일종의 데이터 웨어하우징 기술로 사용할 생각이라면 그 프로젝트는 시작부터 망친 운명이다. 2. RDBMS 스키마를 파일로 사용하기. RDBMS의 각 테이블을 파일로 덤프한다. 이것을 HDFS에 저장한다. 여기에 하이브를 사용할 생각이다. 우선 주지하다시피 하이브는 일반적인 모든 작업에서 RDBMS보다 느리다. 간단한 선택에도 맵리듀스를 사용한다. "테이블" 조인을 위한 "최적화된" 경로를 한 번 보라. 다음으로 크기 문제가 있다. 몇 KB 크기의 플랫 파일들이다. 하둡은 비교적 플랫한 데이터의 대용량 집합에 대한 작업에서 가장 효과적이다. 물론 더 비정규화된 추출(extract)을 분명히 생성할 수 있다. 3. 데이터 연못 만들기 '데이터 호수(Data Lake)'를 만드는 과정에서, 옆길로 잠깐 빠져 일련의 데이터 연못을 만든다. 게다가 콘웨이의 법칙이 작용하면서 각 비즈니스 그룹은 자체 데이터 분석뿐만 아니라, 자체 미니 저장소까지 만든다. 처음에는 이것이 그렇게 나쁘다고 생각되지 않는다. 그러나 다양한 추출, 그리고 데이터...

데이터베이스 DBMS 하둡 2014.07.21

맵알테크놀러지스, 아파치 하둡 애플리케이션 갤러리 출시

맵알테크놀러지스(www.mapr.com)는 하둡 애플리케이션 갤러리를 출시했다고 밝혔다. 맵알 앱 갤러리는 다양한 하둡 파트너들의 솔루션을 통해 고객들이 엔터프라이즈 데이터 아키텍처를 스케일 아웃(scale-out)시 빅데이터로부터 더 나은 비즈니스 가치를 끌어낼 수 있도록 지원한다. 맵알 앱 갤러리는 비즈니스 운영 및 의사결정을 향상시키기 위해 보다 정교한 빅데이터 기능 개발을 필요로 하는 엔드유저 개발자, 관리자 및 분석전문가들을 위해 설계됐으며, 레디 메이드(ready-made)된 빅데이터 유틸리티 및 애플리케이션을 통해 누릴 수 있는 혜택을 제공한다. 잭 노리스 맵알테크놀러지스 최고마케팅경영자(CMO)는 “맵알 고객들은 일반적으로 맵알 클러스터 상에서 많은 애플리케이션을 운영하고 있고, 앱 갤러리는 성공적인 운영을 위해 이를 보다 쉽고 빠르게 개선시킬 것”이라며, “이미 다양한 애플리케이션이 이용 가능하며, 고유 기능을 활용해 고객들의 수익을 최적화하고 비용을 제어하며 리스크를 완화시키는 애플리케이션의 수가 증가할 것으로 예측된다”고 말했다. 앱 갤러리는 프로비저닝, 관리 및 보안을 위한 관리자 중심의 애플리케이션, 개발자 중심의 애플리케이션, 쿼리 엔진 및 프레임워크, 그리고 비즈니스 인텔리전스 및 기계학습(Machine Learning)을 위한 분석전문가 중심의 애플리케이션을 포함한다. 앱 갤러리 담당자들은 문서화된 맵알 배포판과의 연동을 확인하며, 각 애플리케이션을 위해 제공된 정보를 지원한다. 개발자들은 웹페이지를 통해 새로운 애플리케이션을 바로 앱 갤러리에 등록할 수 있다. editor@itworld.co.kr

하둡 맵알테크놀러지스 2014.07.09

하둡의 성공으로 보안에 대한 관심 폭증

빅데이터에 대해 이야기하다 보면 곧 하둡(Hadoop)에 대한 이야기로 이어진다. 이 아파치(Apache) 오픈소스 소프트웨어는 산처럼 쌓인 데이터로부터 정보를 처리하기 위해 상용 컴퓨터 클러스터(Cluster)를 조율하기 위해 사용되고 있다. 2005년에 더그 커팅과 마이크 카파렐라가 개발하고 장난감 코끼리의 이름을 딴 하둡은 이제서야 막 관심을 받기 시작했다. TMR(Transparency Market Research)의 보고서에 따르면 하둡 시장은 향후 6년동안 54.7%의 연례 성장률을 기록해 2012년의 15억 달러에서 2018년에는 290억 달러로 성장할 것이라고 한다. 하둡의 향후 발전, 보안 문제 해결에 달려있다 하지만 이런 성장률을 실현하기 위해 하둡은 기업 시장에서 어느 정도 발전을 이뤄야 할 것이고, 이를 위해서는 보안 결함 문제를 해결해야 할 것이다. 하둡 배포판 개발업체인 클라우데라 제품 마케팅 책임자 클라크 패터슨은 "분명 많은 기관들이 하둡을 생산에 적용하는 시점에 도달해 있으며, 더 많은 사람들이 그 용도를 확대하고 싶어한다"며, "더 많은 데이터를 보관하고 이를 통해 더 많은 일을 하고 싶어한다"고 말했다. 패터슨은 "그렇다면 보안이 가장 큰 걱정거리가 될 것이다. 하둡이 기업 시장의 주류를 이루기 위해서는 반드시 필요하다"고 설명했다. 많은 초기 기술과 마찬가지로 하둡 개발자들에게 있어서 보안은 그리 중요한 것이 아니었다. 제타셋(Zettaset)의 창업자 겸 CTO 브라이언 크리스찬은 "보안을 염두에 두고 개발되지 않았다"며, "야후와 구글에 뿌리가 있기 때문에 보안보다는 구조화되지 않은 데이터 분석에 더 치중해 있었다"고 말했다. 또한 하둡은 방화벽 뒤에 숨어 보호를 받을 수 있을 것이라 생각했다. 패터슨은 "클러스터 자체에 대한 접근을 중심으로 하둡 생태계를 강조했었다. 하지만 누군가 보...

인증 암호화 하둡 2014.07.04

아파치 재단, 하둡용 분석 소프트웨어 ‘스파크’ 정식 버전 발표

아파치 소프트웨어 재단이 하둡 데이터 처리 플랫폼 상의 작업을 가속화시켜 주는 분석 소프트웨어인 스파크(Spark)의 첫 번째 정식 버전을 발표했다. “하둡용 스위치 아미 칼”로 불리우는 아파치 스파크는 표준 아파치 하둡 맵리듀스 상에서 구동하는 것보다 100배 이상 빠른 데이터 분석 작업을 생성할 수 있도록 해 준다. 맵리듀스는 배치 모드에서 작업을 실행하기 때문에 하둡 클러스터에서 성능 상의 병목현상을 일으킨다는 지적을 받아 온 것이 사실이다. 스파크는 5초 이하의 극히 짧은 배치 작업을 통해 분석을 처리하기 때문에 맵리듀스의 대안으로 평가되고 있다. 또한 트위터 스톰(Twitter Storm)과 같은 실시간 스트림 중심 하둡 프레임워크보다 나은 안정성을 제공한다. 아파치 스파크는 실시간 데이터의 지속적인 분석은 물론, 소프트웨어 라이브러리 덕분에 기계학습이나 그래프 처리 등과 관련된 좀 더 연산 집약적인 작업까지 다양한 작업에 활용할 수 있다. 스파크를 사용해 개발자는 자바나 스칼라, 파이썬에서 데이터 분석 작업을 작성할 수 있으며, 1.0 버전 발표와 함께 안정적인 API를 제공해 개발자들이 자체 애플리케이션에서 스파크와 인터랙션할 수 있다. 또한 1.0 버전에 새로 추가된 스파크SQL은 구조화된 데이터에 대한 액세스를 지원해 비구조화된 데이터와 함께 좀 더 심도 깊은 데이터 분석 작업을 진행할 수 있다. 아파치 스파크는 YARN(Yet Another Resource Negotiator)이나 HBase 분산 데이터베이스는 물론 하둡의 분산 파일 시스템(HDFS)와도 완벽하게 호환된다. 버클리의 AMP 랩이 처음 개발한 스파크는 아파치가 2013년 6월 인큐베이터 프로젝트로 채택했다. 클라우데라, 피보털, IBM, 인텔, 맵알 등 주요 업체들은 모두 스파크를 자사의 하둡 스택에 포함시켰으며, 스파크 개발자 중 일부가 설립한 데이터브릭스(Databricks)는 스파크의 상용 지원을 제공하기도 한다....

실시간 아파치 분석 2014.06.02

스플렁크, 하둡과 NoSQL 데이터 스토어용 헝크 출시

스플렁크가 하둡과 NoSQL 데이터 스토어용 헝크 스플렁크 애널리틱스 6.1을 발표했다. 헝크 6.1은 하둡과 NoSQL 데이터 스토어에 있는 비정형 원천 데이터를 비즈니스 관련 지식으로 빠르고 쉽게 전환한다. 헝크의 가속화된 보고서는 보고 시간을 현격하게 개선하며 쌍방향 대시보드는 고정된 스키마나 데이터를 이동할 필요 없이 풍부한 셀프 서비스 애널리틱스를 구현한다. 헝크 6.1은 스트리밍 리소스 라이브러리를 통해 헝크의 기능을 하둡 뿐만 아니라 NoSQL 은 물론 아파치 어큐물로(Apache Accumulo), 아파치 카산드라(Apache Cassandra), 몽고(Mongo) DB 및 Neo4j와 같은 기타 데이터 스토어에서도 적용할 수 있다. 스플렁크 제품 마케팅 담당 부사장인 산자이 메타는 “헝크는 하둡과 NoSQL에 저장된 엄청난 양의 데이터를 분석하는 복잡한 작업을 간단하게 만들어준다”며, “헝크는 사용하지 않고 쌓아둔 엄청난 양의 과거 데이터에서 쉽고 빠르게 가치를 얻고자 하는 기업들에게 이상적”이라고 말했다. 헝크 6.1은 새로운 기능 추가와 기존 기능의 업데이트를 통해 기업들이 하둡 및 NoSQL 데이터 스토어에 저장된 데이터에서 비즈니스 가치를 창출할 수 있도록 지원한다. 스플렁크 고객들과 몇몇 주요 NoSQL 개발업체는 헝크 6.1의 베타 테스트에 참여했다. 보고서 가속화, 쌍방향 대시보드와 차트 그리고 PTA(Pass-Through Authentication) 등의 주요 기능 및 특징이 버전 6.1에 포함됐다. editor@itworld.co.kr

하둡 스플렁크 2014.06.02

맵알테크놀러지스, 맵알 하둡 배포판에 아파치 스파크 스택 지원

맵알테크놀러지스(www.mapr.com)는 데이터브릭스(Databricks)와 전략적 파트너십을 체결하고, 맵알 배포판이 아파치 스파크(Apache Spark) 스택을 지원한다고 밝혔다. 스파크는 인메모리 처리 프레임워크를 기반으로 실시간 처리와 손쉬운 프로그래밍으로, 성능과 개발자의 생산성을 모두 향상시키고 있다. 성능면에서 스파크는 엔드-투-엔드 애플리케이션의 성능을 가속화시키는 인메모리 파이프라이닝(pipelining)과 함께 범용 실행 프레임워크를 제공하며, 다수의 애플리케이션 상에서 5배에서 100배에 이르는 성능 향상을 보였다. 개발자는 스파크를 통해 기존 코드보다 1/5정도의 라인으로 구현을 할 수 있으며 RDDs(Resilient Distributed Dataset)와 같은 분산 객체를 사용해 애플리케이션을 설계할 수 있도록 한다. 또한, 자바(Java), 스칼라(Scala), 파이썬(Python)과 같은 여러 가지 프로그래밍 언어를 지원하며 스트리밍 기반의 실시간 작업 등 여러 환경에서 같은 코드를 사용할 수 있다. 대부분의 기업들은 현재 맵알 환경에서 스파크를 실행하고 있으며, 이러한 기업의 스파크 기반 애플리케이션은 맵알 배포판의 엔터프라이즈급 성능과 더불어 운영 데이터를 실시간으로 처리하는 장점을 제공한다. 맵알 배포판의 스파크 스택 지원으로 맵알 고객들은 스파크 스택과 관련된 모든 프로젝트에 24x7로 지원받을 수 있다. 프로젝트에 관한 로드맵을 공유하고, 혁신의 가속화를 목표로 한 맵알과 데이터브릭스의 협력을 통해 맵알 고객들과 하둡 커뮤니티는 아파치 스파크 1.0(Apache Spark 1.0) 버전이 나오면 다양한 이점을 얻게 될 것으로 보인다. 존 슈뢰더 맵알테크놀러지스 CEO 겸 공동설립자는 “맵알은 가장 광범위한 컴퓨팅 프레임워크 및 라이브러리와 함께 배포판에 최적의 솔루션을 선택할 수 있는 유연성을 지원한다”며, “가장 개방적인 배포판과 함께 맵알 고객들을 위해 미래...

하둡 맵알테크놀러지스 2014.04.21

하둡 바이어스 가이드 : 운영 환경을 위한 최적의 Hadoop 배포 프로그램을 선택하는 방법

'Hadoop for Dummies'의 저자 Robert D. Schneider가 작성한 이 구매자 가이드는 향후 몇 년간 조직을 지탱해 줄 Hadoop 인프라를 선택할 때 참조할 수 있는 일련의 가이드라인을 제시합니다. 실제로 이 가이드는 Hadoop 플랫폼 평가 시 RFP에 포함시킬 수 있도록 작성되었습니다. 이 가이드에서는 먼저 배경 지식으로 빅 데이터, MapReduce 및 Hadoop에 대해 살펴본 다음, Hadoop 플랫폼의 선택이 중요한 이유에 대해 알아보겠습니다. 주요 내용 빅 데이터, MapReduce 및 Hadoop Hadoop 인프라 선택의 중요성 Hadoop 플랫폼 선택 시 주요 고려 사항 주요 Hadoop 배포 프로그램 비교

하둡 맵리듀스 맵알 2014.04.16

애저 클라우드, 대표적인 오픈소스 기술 수용 ...하둡, 셰프 등 사용 가능

마이크로소프트는 빌드 컨퍼런스에서 자사의 애저 클라우드가 외부 기술과 플랫폼을 수용할 준비가 되었다는 것을 보여줬다. 애저 클라우드 서비스 플랫폼는 여러 가지 비 마이크로소프트 기술을 통합했는데, 셰프와 퍼펫 같은 설정 관리 소프트웨어, 오오스(OAuth) 인증 표준, 하둡 데이터 처리 플랫폼 등의 대표적인 오픈소스 툴을 지원한다. IDC의 소프트웨어 개발 담당 리서치 디렉터인 알 힐와는 “마이크로소프트의 메시지는 멀티플랫폼을 지원한다는 것이다. 이제 마이크로소프트 소프트웨어일 필요가 없으며 어떤 소프트웨어 스택도 사용할 수 있을 것이다”라며, “이는 마이크로소프트에게도, 그리고 생태계 측면에서도 좋은 선택이다”라고 평가했다. 마이크로소프트의 클라우드와 엔터프라이즈 그룹을 관장하는 신임 최고부사장 스콧 거스리는 자사의 애저 전략은 “개발자들이 최고의 윈도우 생태계와 최고의 리눅스 생태계를 함께 사용할 수 있도록 하는 것”이라고 강조했다. 클라우드 운영 측면에서 주목할 것은 애저가 업계의 선도적인 오픈소스 관리 툴인 셰프와 퍼펫을 수용했다는 것이다. 이제 사용자는 이들 기술을 사용해 대규모 가상머신을 신속하게 기동시키고 환경을 설정할 수 있다. 한편 마이크로소프트는 애저 포털을 재설계해 한층 유연한 인터페이스를 제공하고 있다. 윈도우 타일 디자인을 기반으로 한 애저 포털은 사용자가 자신만의 타일을 추가할 수 있고, 운영 현황 지표 등의 실시간 정보를 보여줄 수도 있다. 거스리는 하나의 타일에 현재까지의 누적 사용 요금을 보여줘 비용 지불시 당황하지 않도록 할 수 있다고 설명했다. 이외에도 애저는 웹 개발자가 프로덕션 직전의 설정으로 최종 테스트를 진행할 수 있는 스테이징 지원, 가장 근접한 애플리케이션 서버로 요청을 보내주는 트래픽 관리 서버 등 다양한 업데이트가 이루어졌다.  editor@itworld.co.kr

오픈소스 애저 하둡 2014.04.04

'하둡'이라면 알아야 할 업체 9곳의 장단점

자사에서 막대한 데이터를 다루고 있다면 하둡을 반드시 고려해봐야 한다. 한때 구글과 야후와 같은 글로벌 인터넷 기업의 전유물이던 가장 인기있고 잘 알려진 빅데이터 관리 시스템이 이제 다른 기업에까지 확산되고 있다. 거기에는 두 가지 이유가 있다. 첫째, 기업이 관리해야 될 데이터가 훨씬 많아졌고, 하둡은 기존의 정형 데이터와 새로운 비정형 데이터를 혼합하는데 탁월한 플랫폼이라는 점이다. 둘째, 수많은 개발업체가 하둡 지원과 서비스를 제공하는데 뛰어들어 기업 입장에서 선택의 폭이 늘어났다는 것이다. 포레스터 2013년 4분기 소프트웨어 조사 보고서에 따르면, 대부분의 기업들은 이미 보유한 데이터 가운데 단 12%만을 분석하고 있으며, 나머지 88%는 그냥 방치해두고 있다. 포레스터 애널리스트 마이크 갈티에리와 노엘 유하나는 "하둡은 자체 오픈소스 기반이 기업 데이터 관리 아키텍처로 넓고 깊게 성장함에 따라 더 이상 멈출 수 없는 흐름이 됐다"며, 최근 포레스터 웨이브 리포트(Wave Report)에서 하둡 시장에 대해 평가했다. 이 보고서는 "포레스터는 하둡이 대기업에게는 갖춰야 할(Must-have) 데이터 플랫폼이며, 모든 유연한 미래 데이터 관리 플랫폼의 초석을 형성하고 있다고 파악했다. 만약 자신의 조직에 정형, 비정형 혹은 바이너리 데이터가 많다면 하둡이 제 역할을 제대로 해낼 수 있다"고 설명했다. 그러면 어디서부터 시작할까? 포레스터는 다양한 분야 가운데 아홉 개의 하둡 서비스 개발업체를 평가해 각각의 장단점을 밝혔다. 포레스터는 현 시점에서 빅데이터 벤처 업체들이 상당한 서비스 제공을 무기로 IT 업계를 대표하는 거대기업들과 우열을 가리기 힘든 경쟁을 하고있다고 결론내렸다. 우선 배경부터 정리해보자. 하둡은 오픈소스 아파치(Apache) 프로젝트로 누구든 무료로 하둡 커먼(Hadoop Common), HDFS(Hadoop Distributed File System), 하둡 YARN,...

인텔 맵R 마이크로소프트 2014.03.20

맵알테크놀러지스, 최신 맵알 배포판 출시

맵알테크놀러지스(www.mapr.com)는 차세대 리소스 관리기술인 얀(YARN)과 하둡 2.2를 포함하는 최신 맵알 배포판을 출시했다고 밝혔다. 맵알테크놀러지스는 기존 맵알 클러스터가 제공하는 기능에 얀을 추가해 보다 유연한 리소스 관리를 제공, 높은 성능과 함께 차세대 데이터 플랫폼을 향상시켰다고 설명했다. 또한 얀의 리소스 관리 및 스케줄링 기능을 더해 애플리케이션에서 클러스터의 컴퓨팅 리소스를 공유해, 맵알 클러스터의 전반적인 효율성 및 활용을 극대화했다고 덧붙였다. 맵알 고유의 동시 읽기/쓰기(R/W) POSIX 데이터 플랫폼과 얀의 결합으로 하둡 클러스터에서의 실행과 컴퓨팅 자원 공유가 가능해졌고, 분산 파일 시스템 상의 데이터와 데이터베이스 테이블에 대해 자유롭게 처리할 수 있다. 이를 통해 기업들은 빅데이터 하둡 애플리케이션을 한층 광범위하게 개발하고 배포할 수 있다. 맵알은 맵리듀스 1.x 사용자들이 새로운 하둡 스케줄러로 안전하게 업그레이드하도록 하둡 맵리듀스 1.x와 얀 스케줄러를 클러스터의 동일한 노드에서 동시에 실행할 수 있도록 지원한다. 토머 셔런 맵알 테크놀러지스 제품 관리 부문 부사장은 “얀을 통한 기업 하둡 활용 사례가 늘어나면서 엔터프라이즈급 신뢰성, 상호 운용성 및 성능에 대한 요구가 급증하고 있다”며, “얀과 맵알 데이터 플랫폼의 결합은 얀과 얀이 아닌 분산된 빅 데이터 애플리케이션이 대규모 클러스터의 컴퓨팅 및 스토리지 리소스를 공유할 수 있는 하둡용 배포판을 제공한다”고 말했다. 맵알은 얀 기반 애플리케이션에 맵알 배포판이 지닌 높은 가용성, 데이터 보호, 재해 복구, 보안 및 성능을 제공해 엔터프라이즈 하둡 애플리케이션을 구현한다. 또한, 고유의 파일시스템을 통한 최신 운영 데이터 스트리밍 기술을 얀 기반 애플리케이션에 제공해 보다 빠르게 얀 기반 애플리케이션 서비스를 지원한다. editor@itworld.co.kr

하둡 맵알테크놀러지스 2014.02.27

맵알의 새로운 하둡 배포판으로 안전하게 업그레이드

맵알의 최신 하둡 배포판에는 얀(Yet Another Resource Negotiator, YARN)과 함께 하둡 2.2 지원 기능이 들어 있다. 게다가 최신 하둡 아키텍처로 안전하게 업그레이드하면서 맵리듀스 1.x 스케줄러와도 호환된다. 맵알 테크놀로지(MapR Technologies)가 자사의 배포판을 경쟁사인 클라우데라(Cloudera)나 호튼웍스(Hortonworks)와는 차별화하였다. 맵알은 하위 호환성을 지원하여 기업이 클러스터의 동일한 노드에서 하둡 맵리듀스(Hadoop MapReduce) 1.x와 YARN 스케줄러(Scheduler)를 동시에 사용할 수 있다. 맵알의 CMO 잭 노리스는 “맵리듀스 1.x와 얀 스케줄러가 공존할 수 있도록 함으로써 맵리듀스 1.x 사용자들이 쉽고 안전하게 새로운 스케줄러로 업그레이드할 수 있는 길을 제공하고 있다”고 강조했다. "다른 종류의 애플리케이션에도 프로세싱을 개방하고 싶을 경우에 단순히 하둡을 활용하겠다는 이유로 애플리케이션을 재 작성하지는 않을 것이다." -- 잭 노리스, 맵알 테크놀로지 CMO "우리는 하둡의 생산에 초점을 맞추고 있다"고 노리스는 말했다. "일단 생산을 시작하면 이용성, 가동시간, 기존 앱과의 통합이 중요해 진다. 생산 환경을 변화시키는 것이 그리 쉽지 않기 때문에 우리는 이전의 배포판부터 현 배포판까지 하위 호환성을 지원하고 있다. 고객들은 '얀이 좋기는 하지만 일단 한 번 해보고 싶다. 이미 모든 것이 잘 되고 있다'고 말한다. 우리의 고객들은 플랫폼에서 하루 2만 개 이상의 작업을 처리하고 있다"라고 노리스는 설명했다. 아파치 하둡(Apache Hadoop) 얀은 지난해 10월에 공개된 하둡 2.0의 기초다. 얀은 하둡 운영체제로 동작하면서 과거 배치 처리를 위한 일회용 데이터 플랫폼이었던 것을 여러 번 사용할 수 있는 플랫폼으로 탈바꿈시킴으로써 배치, 상호형...

하둡 빅데이터 맵알 2014.02.21

빅데이터와 DW의 조합, 하이브리드 DW 성공 가이드 - IDG Tech Focus

최근 비정형 데이터뿐만 아니라 기존 관리하던 데이터 역시 폭발적으로 증가하고 있다. 이에 기존 DW의 용량 및 성능 이슈가 발생하고 기간계, 정보계 데이터마저 처리하기에 비용측면에서 곤란한 상황에 이르렀다. 하이브리드 DW라 불리는 기존 DW와 빅데이터와의 조합은 이런 문제들을 해소하기에 충분한 솔루션을 제공한다. 하이브리드 DW를 알아보고, 이를 성공적으로 구축하기 위한 방안들을 살펴보자. 주요 내용 DW의 한계를 극복하려는 노력의 산물, ‘하이브리드 DW’ 빅데이터 시작 전, 꼭 필요한 질문 네 가지 하이브리드 DW, 데이터 르네상스 시대를 대비하는 기업의 필수 전략

하둡 빅데이터 하이브리드 DW 2014.02.17

빅데이터와 NoSQL에 대한 숨겨진 진실

빅데이터 고객의 특징을 물으면 대부분 막대한 양의 데이터를 가진 고객이라고 말할 것이다. NoSQL의 고객 특징을 물으면 대부분 높은 수준의 동시성이 필요한 고객이라고 말할 것이다. 이것이 NoSQL과 빅데이터 시장의 전부라면 몽고DB, Inc.와 하둡을 지원하는 여러 업체들은 지금 문을 닫고 사업을 접어야 할 것이다. 사실 하둡 도입은 경제적인 측면에서 결정된 경향이 있다. 충분한 자금과 엄청난 양의 데이터, 두 가지 모두 가진 기업이라면 IBM, SAP 또는 테라데이터의 최고급 MPP 솔루션에 돈을 투자할 가능성이 높다. 대부분의 대기업들은 이미 그렇게 해왔다. 그러나 우리 모두가 100달러짜리 지폐로 담배 불을 붙이는 상위 1% 무리와 어울려 지내진 않는다. 설령 그런 사람이라 해도 데이터를 보관하고 이 데이터로 무엇을 할지는 나중에 결정하는 막대한 비용에 대한 결정을 "먼저" 내려야 한다. 이 외에 우리 같은 보통 사람에게 하둡은 이전에는 이용할 수 없었던 분석 기능을 제공한다. 상업적으로 지원되는 "엔터프라이즈" 하둡 배포판의 비용이라 해봤자 예를 들어 IBM 네티자(Netezza)와 같은 것에 비교하면 극히 미미한 수준이다. 또한 몽고DB 또는 Neo4j와 같은 NoSQL 기술은 사실상 경제적인 의사 결정이다. 막강한 고성능 서버를 구입하고 개발자 인건비에 충분히 투자한다면 원하는 RDBMS에서 거의 모든 문서 또는 그래프 데이터베이스 작업을 실행할 수 있다. 그러나 개발자 인건비는 결코 싸지 않고 서버 라이선스 비용도 높다. 게다가 고가용성과 재해복구를 지원하도록 RDBMS를 확장하기 위한 인프라스트럭처에도 큰 비용이 든다. 따라서 현명한 운영자라면 NoSQL 대안을 반기는 것이 당연하다. 즉, 보편적인 하드웨어를 사용해 비용을 절약하고 필요에 따라 서버를 추가로 가동하면 된다. 아주 작은 기업을 제외하면 데이터가 "작고" 동시성을 요구하지 않는 기업이란 없...

하둡 NoSQL 빅데이터 2014.02.10

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.