Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

하둡

‘진화하는 하둡 툴을 한눈에’ 빅 데이터 처리를 위한 18가지 필수 도구

원래 하둡은 일련의 컴퓨터 그룹으로 작업을 분산하기 위한 작은 코드 스택이었지만 지금은 훨씬 더 넓은 범위를 의미할 정도로 성장했다. 그 유용성이 입증되어 이제는 하둡을 중심으로 한 대규모 프로젝트들이 진행되고 있다. 데이터 정리, 진행 상황 모니터, 정교한 데이터 스토리지에 이르기까지 프로젝트에서 다루는 주제도 다양하다. 하둡 커뮤니티는 빠른 속도로 진화하면서 이제 지원을 제공하고 관리 클러스터에 대한 시간을 임대하고 오픈 소스 코어에 대한 기능 향상을 구축하거나 자체 도구를 추가하는 수준에 이르렀다. 이제부터 현재 하둡 생태계에서 가장 돋보이는 제품들을 살펴보자. “하둡”이라는 하나의 집합적인 이름 아래에 모여 함께 움직이는 도구와 코드의 기반이다. editor@itworld.co.kr

하둡 빅 데이터 2013.12.16

크레이, 수퍼컴퓨터에 하둡을 들이다

고성능 컴퓨터 제조업체인 크레이는 현재 뜨고 있는 빅데이터 기술의 이점을 수퍼컴퓨터에 가져왔다. 크레이는 자사의 수퍼컴퓨터 XC30 사용자들에게 쉽게 하둡을 사용할 수 있도록 최적화한 패키지를 발표했다. 크레이에 따르면, 하둡용 크레이 프레임워크는 XC30에서 빅 데이터 프로젝트인 하둡을 실행하기 위한 구성과 최적화를 위한 툴셋과 베스트 프렉티스를 제공한다. 하둡의 자바 기반 데이터 분석의 맵리듀스 모델은 수퍼컴퓨터에 다수의 이점을 줄 수 있다. 아직 커뮤니티에서는 널리 받아들여지진 않았지만 병렬 프로세싱과 초대규모 데이터 셋 양쪽에 사용할 수 있다. 크레이 CTO 빌 블레이크는 공식 성명에서 "크레이는 자체 사용자들이 하둡에 흥미를 보였다. 그러나 오픈소스 데이터 프로세싱 플랫폼은 대부분의 과학적 수퍼컴퓨팅 사용 사례와는 맞지 않다"고 말했다. 프로세서에서 데이터를 갖고 오는 하둡의 접근 방법과 전통적인 수퍼컴퓨팅의 그것은 다르다. 크레이에 따르면, 하둡용 크레이 프레임워크와 크레이 퍼포먼스 팩은 데이터 접근 방법의 차이에서 오는 문제들을 해소하고 사용자들이 하둡용 XC30의 컴퓨팅 파워를 사용할 수 있을 것이다. 2014년 초 계획 중인 퍼포먼스 팩의 업데이트는 또한 XC30의 사용자들이 크레이 기기에서 사용된 러스터(Lustre) 파일 시스템 라이브러리를 사용하고 에이레네 시스템과의 상호 연결 등에 최적화하기 위한 추가적인 시스템 코드를 포함하고 있다. 클레이 최고의 수퍼컴퓨터인 XC30은 서버, 스위치 통합과 러스터 병렬 파일 시스템, 에이레네 고속 상호 연결, 혁신적인 냉각 시스템, 그리고 지역적 제약을 최소화하는 드래곤플라이 네트워크 토폴로지 등의 기능을 갖고 있다. 크레이는 이번주 미국 덴버에서 개최된 SC2013 수퍼컴퓨터 컨퍼런스에서 이 패키지를 발표했다. 또한 클레이는 호넷이라는 불리는 스투르가르트 대학의 XC30을 업그레이드하고 있으며 이를 7페타프롭스 보다 더 높은 성능을 제공...

수퍼컴퓨터 크레이 하둡 2013.11.20

이베이의 선택 '하둡 유연성, 그리고 테라데이타'

이베이가 고객 데이터에 대한 통찰력을 얻기 위한 노력으로 테라데이타와 함께 하둡 같은 NoSQL 툴의 유연성을 선호한다고 밝혔다. 이베이의 데이터 아키텍트이자 수석 매니저인 마크 욱서스먼은 최근 영국 런던에서 열린 재무 정보 관리(FIMA) 행사에서 이베이가 테라데이타를 도입한 가장 큰 고객 가운데 하나라고 강조했다. 이베이가 도입한 제품에는 테라데이타의 2가지 주요 클러스터가 포함됐다. 하나는 정형 데이터와 관련해 전통적인 리포팅 시스템용인 일반 데이터웨어하우스(DW)이며 다른 하나는 다른 하나는 심도 있는 분석과 데이터 발견을 위해 개발된 싱귤래러티(Sigularity)라는 맞춤 플랫폼이다. 그는 이러한 하둡, 몽고DB, 카산드라 같은 오픈소스 데이터베이스 소프트웨어가 관계형 데이터베이스보다 데이터를 분석하는데 더 많은 혜택을 제공한다고 말했다. "이베이는 세계에서 가장 큰 테라테이타 도입 사례 중 하나로, 90PB의 데이터를 처리하고 있다"라고 욱서스먼은 전했다. "그러나 우리가 100% 최적화됐다고 말할 수 있을까? 아마도 그렇게 말할 수 없을 것이다. 어쩌면 우리는 우리의 DW 최적화에 대해 생각해야 할 지도 모른다. 그리고 테라데이타를 좀더 유연하고 데이터 발굴용으로 잘 개발된 하둡 환경으로 넘겨버려야 할 지도 모른다"라고 그는 설명했다. 욱서스먼는 하둡 같은 툴이 실시간 분석 같은 영역에서 확실히 성과를 낸다 해도 NoSQL 데이터베이스는 특정 활용사례를 위한 것으로만 여길 뿐이며 여전히 가능한 관계형 데이터베이스로 향하려는 경향이 있다고 부연했다. "비 관계형 데이터베이스를 사용하면서 100% 적합한 솔루션이라고 말하고 싶지 않다. 당신이 만약 데이터 관리를 보장하고 기록이 정확한지 같은 보안 트랜잭션에 대해 이야기하고 싶다면, 여기에 대해 우리는 여전히 오라클, 테라데이타 등 관계형 데이터베이스 관리시스템을 사용하고 있다고 답하겠다”라고 욱서스먼은 밝혔다. ...

이베이 하둡 테라데이타 2013.11.15

맵알 테크놀로지, 하둡에 보안 기능 통합

맵알 테크놀로지(www.mapr.com)는 뉴욕에서 열리는 스트라타 컨퍼런스+하둡 월드 2013(Strata Conference+Hadoop World 2013)에서 네이티브 보안 인증(Native Security Authentication) 및 권한부여(authentication)를 지원하는 아파치 하둡(Apache Hadoop)용 맵알 배포판을 발표했다. 이제 기업들은 하둡용 맵알 배포판의 보안 기능을 통해 엄격한 보안요구와 규제를 보다 쉽게 충족시킬 수 있게 됐다고 맵알은 설명했다. 사용자 위장(user impersonation), 로그 데몬(rogue daemons), 악의적인 원격 프로시듀어 호출(RCP;remote procedure calls) 등의 보안 위협에 대응하는 맵알의 보안 혁신은, 단순하고 빠르며 독립적인 보안 모델을 제공한다고 덧붙였다. 맵알의 와이어-레벨(Wire-level) 인증은 테이블(table), 컬럼(colum), 잡(jobs), 큐(queues), 볼륨(volumes)에 대한 모든 접근 제어를 보호한다고. 또한, 맵알의 네이티브 인증은 아파치 하이브(Apache Hive)와 드릴(Drill)과 같은 에코시스템 프로젝트들을 지켜준다고 밝혔다. 맵알 테크놀로지 존 슈뢰더 CEO 겸 공동설립자는 “제작 성공을 위한 하둡 선택에 있어 우리의 입지가 향상되고 있는 가운데, 혁신적이고 획기적인 기술을 시장에 도입함으로써 뛰어난 분석 및 운영 환경을 제공하는데 초점을 맞춘 전략을 보완하게 됐다”며, “이번 발표로 고객들에게 최상의 유연성과 사용 편의성을 갖춘 광범위한 접근 제어를 제공하게 됐다”고 강조했다. editor@itworld.co.kr

하둡 맵알 테크놀로지 2013.11.06

페이스북의 빅데이터 실용 조언, '하둡 만으로는 충분치 않다'

페이스북 애널리틱스 부문 수장 켄 루딘이 빅데이터에 대한 새로운 제언을 던졌다. 그는 비구조화된 대용량 데이터로부터 통찰을 이끌어내는데 있어 하둡이 유일한 도구가 아니라는 점을 기업들이 기억할 필요가 있다고 강조했다. 그는 29일 뉴욕에서 열린 스트라타 + 하둡 월드 컨퍼런스 키노트에서 "재고해야 할 빅데이터 통념들이 있다. 대표적인 것이 하둡을 채택해야만 한다는 것"이라며, "문제는 하둡이 그저 기술이라는 사실이다. 빅데이터는 기술이 전부가 아니다. 빅데이터는 기업 니즈에 대한 것이다"라고 말했다. 루딘은 이어 "기술 측면에서도 하둡과 관계형 데이터베이스, 여타 적합한 기술을 모두 다뤄야 한다"라고 덧붙였다. 페이스북의 비즈니스 모델은 10억 명의 사용자 프로필과 행동에 맞춰 적절한 광고를 전달하는 것이 핵심이다. 루딘은 "하둡이 우리에게 있어 늘 최고의 도구인 것은 아니다"라고 전했다. 예를 들어 하둡을 이용해 광범위한 탐색적 분석을 수행하는 것은 말이 되지만 발굴된 사실에 대해 운영적 분석 업무를 수행하는 데에서는 관계형 도구들이 더 우수하다고 그는 설명했다. 또 하둡은 데이터 세트에서 가장 낮은 수준의 정보를 탐색하는 업무에 적합하지만, 변환되고 수집된 데이터 저장에는 관계형 데이터베이스가 낫다고 그는 덧붙였다. 루딘은 "내가 말하고자 하는 핵심은 필요하다면 무엇이건 이용하라는 것"이라고 말했다. 빅데이터 자체에도 오해의 소지가 있다고 그는 말했다. 빅데이터를 분석하면 가치 있는 통찰이 나올 것이라는 믿음이 존재한다면서 그는 "올바르게 질문하는 것이 중요하다. 이는 여전히 예술의 영역이라고 할 수 있다"라고 말했다. 이를 위해 페이스북은 통계 뿐 아니라 비즈니스에 능통한 전문가를 찾는데 고심하고 있다고 그는 전했다. 그는 "후보자를 인터뷰할 때 측정값을 어떻게 계산할지를 묻는데 매몰되서는 안된다....

페이스북 하둡 빅데이터 2013.11.01

스플렁크, 하둡용 스플렁크 애널리틱스 '헝크' 상용 버전 출시

스플렁크는 빅데이터 분석의 또 다른 진화 플랫폼인 ‘헝크:하둡용 스플렁크 애널리틱스(Hunk: Splunk Analytics for Hadoop)’의 상용화 버전을 출시한다고 밝혔다. 헝크는 모든 조직 구성원들이 실시간으로 데이터를 상호 탐색, 분석하고 시각화할 수 있는 하둡 통합 분석 플랫폼의 기능을 갖춘 제품이라고 스플렁크는 설명했다. 헝크는 특허 출원한 가상 인덱스 기술이 내장돼 있어 강력한 자가 분석을 제공하며, 전문적인 프로그래밍 스킬이나 고정된 스키마, 비용이 많이 드는 통합 작업이 필요 없다는 것이 장점이라고. 또한 헝크는 개발 언어들에 대한 통합 웹 프레임워크와 소프트웨어 개발 킷(SDK)과 같은 다양한 개발 환경을 제공한다고 덧붙였다. 스플렁크의 상품 마케팅 부사장인 산제이 메타는 “헝크는 조직이 하둡에서 데이터를 분석하는 방법을 변화시키고 있으며, 고객들이 몇 주 몇 달이 아닌 몇 시간 안에 통찰력을 구축하고 전달할 수 있는 소프트웨어의 개발 주기가 길어지는 것을 대체한다”고 말했다. 헝크는 모든 사람들이 하둡의 초기 데이터, 비구조화 데이터, 합성구조화 데이터로부터 빠르고 쉽게 통찰력을 이끌어 낼 수 있게 해준다고 스플렁크는 설명했다. 헝크는 아파치 하둡, 그리고 클라우데라, 홀튼웍스, IBM, 맵알(MapR)과 피보탈(Pivotal)을 포함한 대부분의 주요 배포판에서 작동한다고. 스플링크는 제품의 특징을 ▲모든 기능을 갖춘 통합 분석 ▲빠른 배포 ▲쌍방향 검색 및 결과 미리보기 ▲드래그 앤 드롭 분석 ▲하둡을 위한 풍부한 개발 환경 등으로 꼽았다. editor@itworld.co.kr

하둡 스플렁크 2013.10.30

호튼웍스, 다목적 하둡 배포판 HDP 2.0 만들다

다목적 하둡의 가장 좋은 예는 바로 하둡에서 실행되는 SQL이다. 지난 수년동안 비즈니스 분석가들은 데이터웨어하우스에서 애드혹 쿼리를 실행하기 위한 쿼리 언어로써 SQL을 사용하고 있다. 야후 하둡 맵리듀스 개발팀 아키텍트였던, 호튼웍스 창업자이자 호튼웍스에서 아키텍트를 맡고 있는 아론 머시는 "하둡 위에 SQL 접속을 구축함으로써 하둡이 하나의 애플리케이션 시스템이 된다는 것을 의미한다"고 전했다. 머시는 "데이터 상에서 SQL 쿼리를 실행하기 위해 인해 클러스터상의 모든 자원을 소모했는데, 이는 다른 애플리케이션들을 위한 성능 문제가 원인이었다. 적어도 클러스터 실행 작업에 있어서는 좋은 출력이 아니었다"고 말했다. 이 문제에 대한 해답은 최근 발표된 하둡2인 얀(Yet Another Resource Negotiator, YARN)이다. 하둡 운영체제로서 아파치 하둡 얀은 배치 프로세싱을 위한 하나의 용도로만 사용되던 데이터 플랫폼에서 배치, 인터랙티브, 온라인 그리고 스트림 프로세싱 등 다양한 용도로 사용되는 멀티 사용 플랫폼으로 발전하고 있다. 얀은 HDFS(Hadoop distributed file system) 내에 저장된 데이터 접속에 대한 기본적인 자원 관리자이자 중재자로서 활동한다. 이를 통해 기업에게 기업들에게 한 곳에 데이터를 저장하는 능력과 서비스 단에서 다양한 경로에서, 동시에, 그리고 꾸준한 상호작용을 제공한다. 호튼웍스데이터플랫폼(Hortonworks Data Platform, HDP) 제공업체인 호튼웍스는 가장 유명한 하둡 배포처 가운데 하나다. 호튼웍스는 얀 발표에 맞춰 HDP 2.0을 빠르게 내놨다. HDP 2.0은 하둡 2에 의거한 첫번째 상용 배포판으로, 얀 기반의 아키텍처와 새로운 기능으로 딜리버리한다. 이 새로운 기능은 스팅어 이니셔티브(Stinger Initiative)의 2단계에서 나왔는데, 이는 아파치 하이브에 의해 지원되는 SQL 시맨틱의 속...

하둡 호튼웍스 HDP 2013.10.24

모양새를 갖추기 시작한 마이크로소프트의 기업 클라우드 전략

마이크로소프트가 원하는 것은 아마존 웹 서비스를 밀어내고 엔터프라이즈 클라우드 제공업체가 되는 것이다. 마이크로소프트는 아웃룩닷컴이나 엑스박스 라이브, 빙 등을 통해 일반 사용자용 서비스 분야에서 입지를 다지는 한편, 오피스 365를 비롯한 비즈니스용 서비스를 통해 기업 시장에서도 스스로의 강점을 충분히 증명하고 있다. 마이크로소프트의 퍼블릭 클라우드인 애저 역시 느리지만 꾸준한 성장을 보이고 있으며, 특히 마이크로소프트는 애저의 요금을 한층 더 매력적으로 만들어 왔다. 여기에 마이크로소프트는 오는 11월 1일부터 EA(Enterprise Agreement) 고객에게 윈도우 애저에 대한 할인을 단행하는 것은 물론, 약정 이상의 사용에 대한 위약금을 낮추고 기타 다양한 비용 지불 상의 유연성을 제공할 계획이다. 마이크로소프트의 클라우드 및 엔터프라이즈 담당 최고 부사장 새티아 나델라는 마이크로소프트가 기업이 가장 우려하는 세 가지에 초점을 맞추고 있다고 말한다. - 동종 최고의 SaaS 애플리케이션 보유 - 폭넓은 서드파티를 지원하는 글로벌 퍼블릭 클라우드 운영 - 다중 클라우드 간의 이동성을 제공하는 하이브리드 클라우드 역량 제공 오는 10월 18일 마이크로소프트가 윈도우 서버 2012 R2와 시스템 센터 2012 R2를 출시할 때 이 세 가지 요소가 해결되는 것을 볼 수 있을 것이다. 새로 출시되는 버전은 IT 부서가 향상된 가상화 솔루션과 자체 클라우드를 구축할 수 있도록 하는 것은 물론, 클라이우드 기반 플랫폼들과의 연결성을 향상시켜 하이브리드 클라우드로 사용할 수 있도록 하는데 중점을 두고 있기 때문이다. 이번 발표에서 애저와의 연결이 핵심이며, 윈도우 서버 상에서 구동되는 윈도우 애저 팩(Windows Azure Pack)이 서비스 업체를 비롯한 여러 주체들에게 셀프 서비스 옵션을 제공할 수 있는 역량을 부여하기 위해 필요한 접속 역할을 하게 된다. 마이크로소프트 기업 클라우드 전략에서 또 하나의 발전 단계는 조만간...

윈도우서버 애저 하둡 2013.10.10

올해가 가기 전에 반드시 배워야 할 6가지 IT 기술

기술은 빠르게 변한다. 그래서 자바 1.3 코드 편집이나 파워빌더(PowerBuilder)에만 집착하면 새로운 취업 기회를 잡기가 점점 어려워질 것이다. 그렇다면 어떤 기술을 배워야 할까? 자신의 경력을 계속 발전시키고 시장 수요에 맞춰 연봉을 높이려면 지금 제시하는 6가지 기술 정도는 알고 있어야 한다. 1. 하둡 : 신기술 시장의 지배자 아직 하둡에 대해 잘 모르고 있다면 서둘러 하둡(Hadoop)에 통달해야 한다. 맵리듀스(MapReduce) 개념과 이용 방법도 알아야 한다. 하둡은 인기와 수요 등 모든 기준에서 신기술 시장을 지배하고 있다. 다른 기술을 배울 능력도 있을 수 있지만 하둡은 더 어렵다. 'Hello world' 이상을 터득하기 위해서는 더 많은 시간과 노력을 기울여야 한다. 가장 어려운 작업 중 하나는 스스로 공부를 할 간단한 주제를 찾는 것이다. 그러나 이조차도 그리 쉽지는 않다. 충분한 데이터를 확보하는 것도 마찬가지다. 위키피디아(Wikipedia)같이 인기는 있지만, 덩치가 커서 별 쓸모없는 데이터들이 있다. 어쩌면 이를 다른 것들과 결합해, 누가 누구를 '편집하는 것'을 좋아하는지 보여주는 일종의 소셜 그래프를 만드는 것도 방법이다. 호튼워크(Hortonwork)는 깃허브(GitHub)와 관련해 유사한 개념을 입증해 보였다. 일단 '손을 더럽히고 나면' 맵리듀스가 대답할 수 있는 다른 질문 결과를 화면에서 확인할 수 있게 될 것이다. 이 분야에는 호튼워크 같이 하둡에만 전문화된 회사에서 (VM웨어/EMC에서 분사한) 피보탈(Pivotal) 같이 여러 기술을 취급하는 업체, 자신들의 제품에 하둡을 도입하기 시작한 오라클(Oracle) 등 기존 업체까지 많은 기업이 있다. 이 가운데 어떤 회사도 성장 가능성은 무궁무진하다. 2. 몽고DB : 객체지향형 백 엔드의 출발점 하둡만큼 거대하지는 않지만 몽고DB(MongoDB) 또한 중요한 기술이다. 또 훨씬 배우기 쉽다....

스칼라 어셈블리 하둡 2013.08.26

한국 IBM, ‘IBM SPSS 애널리틱 서버’ 국내 출시

한국IBM(www.ibm.com/kr)은 빅 데이터 분석을 위해 별도의 저장소로 데이터 이동없이 하둡(Hadoop) 안에서 실시간 분석이 가능한 ‘IBM SPSS 애널리틱 서버(IBM SPSS Analytic Server)’를 국내 출시한다고 밝혔다. ‘IBM SPSS 애널리틱 서버’는 기존 전통적인 데이터 웨어하우스(DW)에 저장돼 있는 데이터를 분석하거나 별도의 저장소로 데이터 이관 없이도 하둡(Hadoop) 플랫폼 안에서 직접 데이터에 접근해 실시간 고급 분석을 수행할 수 있는 것이 가장 큰 특징이라고 IBM은 설명했다. 업무 효율성과 비용 절감이 모두 가능한 획기적인 분석 솔루션으로 평가 받고 있다고 덧붙였다. 또한 빅 데이터 분석 결과를 한 눈에 이해할 수 있도록 데이터 시각화(Visualization) 기능을 강화했다고. IBM은 분석 전문가나 IT담당자가 아니더라도 영업 및 마케팅 업무 담당자가 직관적인 화면을 통해 시각화된 분석결과를 쉽게 비즈니스에 활용할 수 있다고 설명했다. 실질적인 빅 데이터 분석이 필요한 관련 담당자들이 의사 결정 도구로 직접 활용할 수 있으며, 지금까지 데이터에서 잘 드러나지 않았던 패턴, 트렌드, 비즈니스 연관성까지도 규명할 수 있을 것으로 기대된다고 밝혔다. 한국IBM 비즈니스 애널리틱스 소프트웨어 사업부 김민지 실장은 “IBM SPSS 애널리틱 서버는 특히 하둡 기반 빅 데이터의 실시간 분석이 필요한 통신업체와 포털업체의 다양한 요구 사항을 수용할 수 있어 각광 받을 것”이라며, “IBM은 향후 빅 데이터 기술을 통해 더 많은 가치를 얻어낼 수 있도록 지속적으로 발전된 솔루션들을 내놓을 예정”이라고 밝혔다. editor@itworld.co.kr

하둡 한국 IBM 2013.07.02

테라데이타, 하둡을 위한 테라데이타 포트폴리오 발표

한국 테라데이타(www.teradata.kr)는 아파치 하둡(Apache Hadoop)의 구축과 관리를 위해 가장 개방적이고 유연하며 포괄적인 옵션을 제공하는 ‘하둡을 위한 테라데이타 포트폴리오(Teradata Portfolio for Hadoop)’를 발표했다. 하둡을 위한 테라데이타 포트폴리오(Teradata Portfolio for Hadoop)는 고객들에게 유연성이 뛰어난 새로운 하둡 기반의 제품 플랫폼, 소프트웨어, 컨설팅 서비스, 교육, 고객 지원 등을 제공한다고 테라데이타는 설명했다. 테라데이타는 최신 엔터프라이즈 데이터 아키텍처에 하둡을 한층 용이하게 통합할 수 있도록 지원해 왔으며, 보다 많은 사용자들이 하둡 데이터를 보다 쉽게 파악하고 가치있게 활용할 수 있도록 지속적으로 돕고 있다고 덧붙였다. ‘하둡을 위한 테라데이타 포트폴리오(Teradata Portfolio for Hadoop)’는 데이터 아키텍처의 확장을 지원하기 위해 하둡 구축을 위한 유연한 선택사항을 제시하고 있다고 테라데이타는 밝혔다. 일괄 공급 방식(턴키)방식의 바로 운영 가능한 (ready-to-run) 솔루션을 원하는 IT 부서를 위해 테라데이타는 2가지의 프리미엄 플랫폼, 즉 ‘하둡을 위한 테라데이타 어플라이언스(Teradata Appliance for Hadoop)’와 ‘테라데이타 애스터 빅 애널리틱스 어플라이언스(Teradata Aster Big Analytics Appliance)’를 제공한다고 설명했다. 테라데이타 연구소의 스콧 나우 대표는 “테라데이타는 솔루션 구축과 관리에 드는 비용과 복잡성을 줄이고 하둡의 실행을 위해 고군분투하고 있는 조직들을 지원하기 위해 ‘하둡을 위한 테라데이타 포트폴리오(Teradata Portfolio for Hadoop)’를 개발했다”라고 말했다. editor@itworld.co....

포트폴리오 하둡 테라데이타 2013.07.01

스플렁크, 하둡용 애널리틱스 헝크 베타 버전 발표

스플렁크는 하둡용 스플렁크 애널리틱스(Splunk Analytics for Hadoop) 즉, 헝크(Hunk)의 베타 버전을 발표했다. 헝크는 하둡에 저장된 데이터의 탐색, 분석 및 시각화를 지원하는 모든 기능을 갖춘 독립 플랫폼으로, 실제 현장에서 수천 여 고객을 통해 입증된 다년간의 스플렁크 빅 데이터 분석 기술을 토대로 개발됐다고 스플렁크는 설명했다. 그리고 막대한 비용이 소요되는 시스템간 통합이나 강제적인 데이터 마이그레이션, 혹은 복잡한 프로그래밍 과정 없이도 하둡에 저장된 데이터와 상호 작용하고 이를 분석하는데 있어 그 속도와 간결함을 향상시킨다고 덧붙였다. 스플렁크의 제품 부문 수석 부사장인 기도 슈뢰더는 “헝크는 맞춤형 개발로 막대한 비용이 소요되는 데이터 모델링이 필요 없고 장기적인 배치 처리의 반복 작업 등을 수행하지 않고도 보다 다양한 사용자 그룹에게 자체 데이터 자산에 대한 통찰력을 제공할 수 있는 올인원 플랫폼으로 개발됐다”며, “또한 대화형으로 데이터를 탐색하고 발견하고, 분석할 수 있는 기능을 제공함으로써 사용자들이 하둡안에 있는 원시 데이터로부터 실행 가능한 통찰력을 도출할 수 있도록 지원한다”고 설명했다. 스플렁크는 헝크의 주요 특징으로 ▲스플렁크 버추얼 인덱스(Splunk Virtual Index) ▲한 곳에서 하둡 내 데이터 탐색 ▲하둡 내 데이터의 대화형 분석 ▲하둡 내 데이터의 보고 및 시각화 ▲맞춤형 대시보드 생성 ▲엔터프라이즈 앱 프레임워크 등을 꼽았다. editor@itworld.co.kr

하둡 스플렁크 헝크 2013.07.01

VM웨어, 하둡 가상화 지원하는 v스피어 확장판 공개 베타 발표

VM웨어가 v스피어에서 하둡 클러스터를 관리할 수 있는 확장 버전을 발표했다. 이를 통해 VM웨어는 수많은 VM웨어 기업 고객들에게 익숙한 소프트웨어 환경 내에서 하둡을 배치할 수 있는 방법을 제시했다. 기술적인 측면에서는 하둡 노드를 가상화된 인프라 상에서 구동하는 분야에서 진행해 온 개발 작업을 한층 첨단화시켜 가상화의 이점을 빅 데이터 플랫폼에 구현한 것이다. VM웨어가 발표한 것은 v스피어 빅 데이터 확장판의 공개 베타 버전으로, 널리 사용되고 있는 인프라 관리 소프트웨어를 통해 고객들이 설정한 하둡 클러스터를 관리할 수 있다. 이번 확장판은 하둡 플랫폼을 기반으로 필요로 하는데, 호튼웍스나 맵알, 클라우데라, 또는 VM웨어의 협력사인 피보탈 등이 배포하고 있다. 빅 데이터 확장판은 이들 하둡 배포판을 v스피어를 통해 관리할 수 있다. 타네자 그룹의 수석 애널리스트 마이클 맷체트는 “VM웨어가 개별 기업이 자체적으로 빅 데이터 서비스를 호스팅할 수 있도록 하고 있다”고 평가했다. VM웨어는 프로젝트 세렝게티 상의 개발 작업을 통해 이들 기능을 구현해 왔는데, 이 프로젝트는 하둡 클러스터를 가상화된 인프라 상에서 구동하기 좋게 최적화하는 것이 목표이다. 맷체트는 이번 발표가 빅 데이터 프로젝트에게는 매우 중요한 변화이며, 특히 빅 데이터를 도입한 기업에게는 더욱 중요하다고 강조했다. 하둡 노드를 베어메탈 서버 대신 가상머신에서 구동하면 많은 이점을 얻을 수 있기 때문이다. 하드웨어 자원을 더 효율적으로 사용할 수 있고, 시스템 관리의 유연성도 높아진다. VM웨어 외에도 여러 업체가 하둡 클러스터를 가상화하는 작업을 진행하고 있다. 아마존 웹 서비스는 EMR(Elastic Map Reduce) 서비스를 제공하고 있는데, 기본적으로 하둡과 유사한 퍼블릭 클라우드 기반의 서비스이다. VM웨어는 이를 프라이빗 클라우드나 기업 자체 데이터센터 내에 배치된 하둡 환경을 대상으로 구현하고자 하는 것이다. v스피어에 빅 ...

가상화 하둡 VM웨어 2013.06.27

빅 데이터 성능을 높이는 최강 조합 ··· '하둡+GPU' 아키텍처 집중해부

분산형 컴퓨팅을 가능하게 하는 오픈 소스 프레임워크인 하둡(Hadoop)은 빅 데이터 처리 방식을 완전히 새롭게 바꿔어 놓았다. 하둡을 이용한 병렬 처리를 통해 성능을 몇 배나 향상시킬 수 있다. 그렇다면 이보다 더 빠른 처리도 가능할까? 만약 CPU에서의 연산 작업을 복잡한 3D와 수학 작업을 위해 설계한 GPU(Graphic Processing Unit)로 이전하면 어떨까? 이론적으로 프로세스가 병렬 컴퓨팅에 최적화되어 있는 경우 GPU는 CPU보다 50~100배 빠르게 연산을 수행한다. 알토로스 시스템즈(Altoros Systems)의 R&D 팀은 빅 데이터용 PaaS(platform-as-a-service)를 지원하고 대규모 시스템에서 무엇이 가능하며 무엇을 시도해 볼 수 있는지를 직접 검토했다. 사실 아이디어 자체는 전혀 새로울 것이 없다. 수 년 동안 과학 프로젝트들은 하둡 또는 맵리듀스(MapReduce) 관련 작업을 GPU로 처리하기 위해 노력해 왔다. 마스(Mars)는 최초로 그래픽 프로세서를 위한 맵리듀스 프레임워크 개발에 성공했다. 해당 프로젝트에서는 웹 데이터(검색/로그)를 분석하고 (행렬 곱셈을 포함해) 웹 문서를 처리할 때 성능을 1.5~1.6x 높일 수 있었다. 마스의 성과를 토대로 다른 연구기관에서 데이터 집중형 시스템의 처리 속도를 높이기 위해 유사한 툴을 개발했다. 분자 동력학, (몬테 카를로(Monte Carlo) 방식 등의) 수학적 모형, 블록 기반의 행렬 곱셈, 재무분석, 이미지 처리 등이 대표적이다. 이 중에서 가장 주목받고 있는 것 중 하나가 그리드 컴퓨팅용 미들웨어 시스템인 BOINC(Berkeley Open Infrastructure for Network Computing)이다. 하둡을 사용하는 것은 아니지만 이미 많은 과학 프로젝트에 사용되고 있다. 예를 들어 GPUGRID는 건강 및 질병에 있어서 단백질의 기능을 이해하는데 필요한 분사 시뮬레이션을 수행하기 위해 BOINC의 GP...

GPU 하둡 빅 데이터 2013.06.26

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.