Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

하둡

하둡 이후 꿈틀대는 빅데이터의 미래, '일괄 처리와 실시간 스트리밍 기술의 향방'

스파크(Spark)와 같은 빅데이터 기술들이 요즘 화두다. 그러나 이런 기술들이 과연 빅데이터의 미래일까? 대답은 간단치 않다. 실시간 데이터 세상에서 사람들은 앞으로도 하둡에 집착할까? 451 리서치의 최근 설문 결과에 따르면, 일괄 처리(batch processing)를 중심으로 설계된 하둡은 여전히 빅데이터의 맏아들 격이지만 실제 도입 속도에 비해 유명세가 너무 앞서나가고 있다. 아직 하둡을 본격적으로 구축하지 않은 기업이라면 더 미루는 편이 나을지도 모른다. 아파치 스파크를 비롯한 스톰(Storm), 카프카(Kafka) 등여러 기술들이 등장하면서 하둡의 일괄 처리에서 실시간으로, 미래를 향한 풍향이 바뀌는 듯한 분위기이기 때문이다. 일괄 처리가 핵심이 아니었다 클라우데라(Cloudera)의 더그 커팅은 왕성하게 활동하는 오픈소스 개발자로, 머리가 상당히 좋은 인물로 정평이 나 있다. 하둡, 루씬(Lucene)을 비롯한 빅데이터 필수 도구들이 그의 손을 거쳐갔다. 커팅은 실시간 스트리밍 기술의 중요성도 인정하지만 일괄 처리 기반의 하둡에 대한 그의 신념에는 흔들림이 없다. 다음은 커팅이 보낸 이메일의 일부다. "하둡이 일괄 처리를 중심으로 구축된 이유는 사람들이 일괄 처리를 최선으로 판단했기 때문이 아니다. 일괄 처리, 특히 맵리듀스(MapReduce)는 큰 값을 구현하고 제공하기가 비교적 쉬웠기 때문에 지극히 자연스러운 첫 단계였다. 하둡 전에는 일반적인 하드웨어에서 오픈소스 소프트웨어를 사용해 페타바이트급 데이터를 저장하고 처리할 방법이 없었다. 하둡의 맵리듀스는 큰 진전을 제공했다." 빅데이터의 상품화가 전세계적으로 얼마나 중요한 역할을 했는지는 새삼 말할 필요도 없다. 하둡 이전에 대용량 데이터를 저장하고 분석하지 못했던 것은 아니다. 다만 하둡을 통해 극히 저렴한 비용으로 그 작업을 할 수 있게 된 것이다. 요약하자면 하둡은 빅데이터를 대중화시켰다. 스트리밍 데이터로의 전환? 그러나...

스트리밍 일괄처리 커팅 2015.03.31

빅데이터 분석에 스파크를 이용해야 하는 5가지 이유

아파치 스파크(Apache Spark)는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 빅데이터의 차세대 '빅씽(Big Thing)'으로 가장 빨리 자리를 굳히고 있다. 지난 몇 년간 하둡이 빅데이터 처리의 가장 지배적인 패러다임으로 부상하면서 몇 가지가 분명해졌다. 첫째, 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS)은 빅데이터에 적합한 스토리지 플랫폼이다. 둘째, YARN은 빅데이터 환경에 도입할 수 있는 자원 할당 및 관리 프레임워크다. 가장 중요할 것으로 판단되는 셋째는 모든 문제를 해결하는 하나의 프로세싱 프레임워크는 없다는 것이다. 맵 리듀스는 놀라운 기술이지만 모든 문제를 해결하지 못한다. 하둡에 의지하는 기업들은 중요한 질문에 대한 해답을 찾기 위해 다양한 분석 인프라와 프로세스를 필요로 한다. 또한 데이터 준비, 기술적 분석(Descriptive analysis), 검색, 예측 분석, 기타 머신 학습과 그래프 프로세싱 등 고급 분석도 요구된다. 여기에서 그치지 않는다. 이런 요소들과 연동되어, 이미 보유한 기능과 자원을 이용할 수 있게끔 지원하는 툴 세트가 필요하다. 현재까지는 이런 기준 모두를 만족시키는 하나의 프로세싱 프레임워크는 존재하지 않는다. 이 부분이 스파크의 기본적인 장점이다. 스파크는 상대적으로 역사가 짧은 데이터 프로젝트지만 앞선 요건을 모두 충족하고 있다. 다음은 스파크의 시대에 접어들었음을 설득시키는 5가지 이유다. 1. 고급 분석을 '현실'로 만드는 스파크 유수 대기업과 혁신 기업의 상당수가 고급 분석 기능 확대 방안을 모색하고 있다. 그러나 최근 뉴욕에서 열린 데이터 분석 관련 이벤트에서 실시된 조사결과에 따르면, 전사적으로 고급 분석 기술을 도입해 활용하고 있는 기업의 비율은 20%에 불과했다. 나머지 80%는 데이터 준비와 기본 분석 작업만도 벅차다고 말하고 있다. 이들 기업의 몇 안 되...

스파크 하둡 맵리듀스 2015.03.20

맵알테크놀러지스, 5,000만 달러 규모의 무료 하둡 온디맨드 교육 프로그램 개설

맵알테크놀러지스(www.mapr.com)는 하둡(Hadoop) 커뮤니티 활성화에 기여하고자 개발자, 애널리스트 및 관리자를 위한 5,000만 달러 규모의 무료 하둡 온디맨드 교육 프로그램을 제공한다. 하둡 교육 프로그램은 하둡 기술 도입이 전세계적으로 확대될 수 있도록 다양한 커리큘럼으로 구성됐다. 전문가들은 비디오 세션, 핸즈온 세션, 실습 및 퀴즈로 구성된 커리큘럼을 통해 개인 일정에 맞춰 유용한 하둡 기술과 지식을 습득할 수 있다. 맵알은 이번 교육 과정의 일환으로 교육인증평가 기업인 이노베이티브 이그젬(Innovative Exams)과 협력해 인증 시험을 운영한다. 과정을 수료한 개발자, 데이터 애널리스트 및 관리자들은 각각 하둡 개발자(Hadoop Developer), 하둡 데이터 분석가(Hadoop Data Analyst) 및 하둡 관리자(Hadoop Administrator) 자격증을 취득할 수 있다. 또한, HBase 개발자를 위한 자격증 트랙도 분리 개설됐다. 데이브 예스페르센 맵알테크놀러지스 월드와이드 서비스 부문 부사장은 “맵알은 이번 교육 프로그램 진행에 있어 전세계 어디서든 누구나 양질의 다양한 하둡 교육을 쉽게 경험할 수 있도록 하는데 초점을 맞췄다”며, “맵알의 하둡 교육 프로그램은 하둡 스킬 개발을 둘러싼 주요 문제를 해결하고, 과정을 수강하는 전문가들의 가치를 높이는 데 일조할 것”이라고 말했다. 이번에 개설된 온디맨드 교육 과정은 ▲하둡 에센셜(Hadoop Essentials) ▲하둡 운영: 클러스터 관리(Hadoop Operations: Cluster Administration) ▲하둡 애플리케이션 개발(Developing Hadoop Applications)로 구성된다. 이번 분기 이후에는 ▲HBase 스키마 디자인 및 데이터 모델링(HBase Schema Design and Data Modeling) ▲HBase 애플리케이션 개발(Developing HB...

하둡 맵알테크놀러지스 2015.01.28

맵알테크놀러지스, 하둡용 플랫폼 사용 기업 수 700곳 초과

맵알테크놀러지스(www.mapr.com)가 2014년 11월을 기점으로 맵알을 사용하는 기업 수가 700곳을 넘어섰다고 밝혔다. 고객 수의 증가뿐 아니라 기존 맵알 고객들의 최근 서브스크립션도 증가해 달러 기준으로 200% 이상의 순이익 증가율을 얻은 것으로 나타났다. 존 슈뢰더 맵알테크놀러지스 CEO 겸 공동 창립자는 “맵알은 전세계 대규모 기업들이 데이터의 위력과 장기간의 성공을 위해 설계된 비즈니스 모델을 활용할 수 있도록 혁신적인 기술 플랫폼을 제공해 급속도로 성장해왔다”며, “맵알은 빠르게 확대되는 시장에서 고객의 지속적인 성장 및 성공을 이끌기 위해 앞으로도 자사의 비전을 성공적으로 수행해 나갈 것이라는 믿음이 있다”고 전했다. 한편, 맵알은 최근 SAP와 협력해 SAP HANA의 심도 깊은 실시간 분석과 아파치 하둡을 포함하는 최상의 프로덕션-레디(production-ready) 맵알 배포판을 통합했다고 밝혔다. 또한 맵알은 빅데이터 분석 및 마케팅 애플리케이션 업체인 테라데이타(Teradata)와의 파트너십을 확대했다. 테라데이타는 맵알 배포판 및 서비스와 통합해 데이터 웨어하우징, 하둡, 디스커버리 플랫폼 및 NoSQL을 위한 최상의 통합 솔루션을 제공할 계획이다. editor@itworld.co.kr

하둡 맵알테크놀러지스 2014.12.30

맵알 창업자가 밝히는 '2015년 5가지 빅데이터 성장 동인'

빅데이터 기술은 2015년에 기업의 모든 부문엔 침투하는 단계로 발전할 것이다. 맵알 CEO이자 공동창업자인 존 슈뢰더가 내년 빅데이터 기술을 지배할 5가지 주요 기술에 대한 전망을 밝혔다. 단 몇 년 만에 빅데이터 기술은 유행 수준에서 새로운 디지털 시대의 핵심 요소가 됐다. 2014년에는 기업 내 빅데이터 전략들이 테스트 수준을 벗어나 실행 단계로 더 많이 진전됐다. 하둡 배포 전문 맵알의 CEO이자 공동 창업자인 존 슈뢰더는 2015년에 빅데이터가 특히 실시간 사용 등 더 많은 활용 사례들이 생겨나면서 기업 내에 영역을 넓혀갈 것이라고 이야기했다. “내년은 기업들이 빅데이터를 처음 도입하는 단계를 넘어 실시간으로 확대하는 한 해가 될 것”이라고 슈뢰더는 전망했다. “이는 기존 업계 선두 기업들과 이들의 뒤를 바짝 쫓는 도전 기업이 이미 새로운 빅데이터 플랫폼을 비즈니스 현황에 영향을 줄 있는 ‘현재 보유 중인’ 데이터를 자신들의 분석에 통합시키려는 큰 움직임이 실현되면서 시장을 주도할 것이다”라고 그는 덧붙였다. 슈뢰더는 다음의 5가지가 2015년 빅데이터 성장의 동인이 될 것이라고 밝혔다. 1. 데이터 민첩성, 가장 큰 관심사로 부각 기존 데이터베이스와 데이터웨어하우스(DW)는 현업의 많은 요구사항을 충족하기에 너무 느리고 유연성이 떨어지면서 데이터 민첩성(agility)이 빅데이터 기술 개발 이면의 큰 요인들 중 하나가 됐다. 슈뢰더에 따르면, 2015년에는 기업들이 단순히 데이터를 수집하고 관리하는 것에서 활발하게 데이터를 이용하는 쪽으로 바꾸면서 데이터 민첩성이 더욱 중요해질 것이라고 말했다. “기존 데이터베이스와 DW에서는 데이터를 완전히 정형화하고 요약하는데 DBA 자원이 필요하기 때문에 비용이 많이 든다”고 그는 지적했다. “이미 DBA에 들어간 비용은 새로운 데이터 소스에 대한 접속을 지연시키고, 경직된 구조는 시간이...

하둡 빅데이터 맵알 2014.12.26

SQL로 하둡 쿼리를 처리하는 방법 10가지

SQL은 천대받기 시작한 구식 기술이다. 반면 하둡(Hadoop)은 각광받고 있는 신기술이다. 이는 일종의 상식이다. 그러나 하둡 데이터에 편리한 SQL을 배치한 다수의 프로젝트들은 하둡에 기본 탑재된 리포팅 기능을 이용하고, 하둡 데이터를 기존 데이터베이스로 내보내는 대신 하둡에 저장된 데이터에서 SQL 쿼리를 처리할 수 있는 제품이 필요하다는 점을 보여주고 있다. 독자 개발한 하둡 배포판을 공급하는 맵알(MaR)의 최신 버전(4.0.1)에는 SQL에서 하둡 쿼리를 처리할 수 있는 4개의 엔진이 탑재되어 있다. 이 4개 엔진은 아주 우수한 하둡용 SQL 쿼리 시스템이다. 그러나 이 밖에도 하둡용 SQL 기술이 많다. 여러 다양한 요구 사항과 사례에 부합하도록 개발된 기술들이다. 먼저 맵알의 SQL 엔진 4종부터 소개한다. 아파치 하이브(Apache Hive) 첫 번째 하둡용 SQL 솔루션이다. 명령줄 클라이언트를 포함, MySQL의 행위, 신택스(syntax), 인터페이스를 에뮬레이트 한 것이 특징이다. MySQL 형식의 쿼리를 지원하는 자바 애플리케이션에 투자한 사람들을 위한 자바 API 및 JDBC 드라이버가 들어있다. 상대적으로 간단하고, 이용도 쉽다. 그러나 느리고 읽기 전용이라는 단점이 있다. 이로 인해 단점들을 개선하기 위한 여러 이니셔티브가 추진됐다. 스팅거(Stinger) 독자 개발한 하둡 배포판을 공급하는 호튼웍스(Hortonworks)는 아파치 하이브(Apache Hive)를 발전시키고, 그 성능을 강화하기 위한 방편으로 스팅거 프로젝트를 출범시켰다. 이 프로젝트의 최신 '산물'인 Stinger.next는 쿼리 응답 시간을 1초 이하로 만든다는 목표를 갖고 있다. 또한 삽입, 업데이트, 삭제 등의 트랜젝션 행동을 지원할 계획이다. 이는 향후 18개월 이내에 구현이 될 전망이며, 여기에는 SQL 분석 등의 기능도 들어있다. 아파치 드릴(Apache Drill) 구글 드레멜(...

SQL 오라클 빅데이터 SQL 클라우데라 임팔라 2014.11.24

하둡의 성장, 데이터 마이그레이션 툴 시장 열다

좀더 많은 기업들이 하둡을 받아들임으로써 이들은 하둡 플랫폼으로 자사의 데이터를 모으는데 도움이 필요해졌으며, 이로 인해 새로운 시장이 열렸다. 지난 몇 년동안 하둡의 폭발적 증가는 놀랄만한 현상이었다. 하둡은 60%에 가까운 연평균 성장률을 기록해 2020년에는 500억 달러 시장 규모를 형성할 것으로 예상된다. 이렇게 엄청난 성장세에 힘입어 하둡 데이터 마이그레이션 툴과 서비스를 판매하는 하둡 개발업체들도 가파른 상승세를 타고 있다. 이론상으로, 하둡 안팎에 있는 데이터 수집은 소프트웨어와 자체 사용자의 역량에 달려있다. 그래서 평소 MySQL, 오라클, 포스트그레SQL(PostgreSQL), HSQLDB와 같은 데이터베이스를 지원하던 이들을 위해 아파치의 스쿱(Sqoop) 프로젝트가 만들어졌다. 아파치 스쿱 프로젝트는 RDBMS와 아파치 하둡 간 대용량 데이터들을 효율적으로 변환해주는 애플리케이션이다. 스쿱은 맵리듀스를 통해 데이터의 가져오기와 내보내기를 처리해 장애 허용 능력뿐만 아니라 병렬 처리가 가능케 한다. 그러나 모든 이들이 자체적으로 이 업무를 다할 수는 없기 때문에 개발업체들은 직접 작업하는 것보다 훨씬 수고가 적은 데이터 가져오기와 내보내기 방법을 제안하고 있다. 데이터 마이그레이션 솔루션 업체들이 사전에 만들어놓은 플랫폼은 자연스러운 것이다. 예를 들어 정보관리 서비스업체인 어튜니티(Attunity)는 하둡보다는 오라클, SQL 서버, DB2, 테라데이타와 같은 다른 수많은 데이터 소스와 대상을 다루고 있다. 특히 데이터 복제 애플리케이션인 어튜니티 리플리케이트(Attunity Replicate)는 광범위한 네트워크 상에서 테라바이트 급 마이그레이션 작업의 최적화를 제공한다. 동일 선상에서 다이요타 데이터무버(Diyotta DataMover) 또한 대규모의 데이터 형식과 저장소들을 하둡으로의 마이그레이션을 지원한다. 특히 싱크소트(Syncsort)의 경우, 메인프레임이 클라우데라와 함께 결합...

아파치 하둡 스쿱 2014.10.28

하둡을 기다리는 것은 고도를 기다리는 것과 같다…가트너

빅데이터에 투자한 대부분의 기업들이 파일럿 이상을 진행하지 않고 있다. 가트너의 한 애널리스트는 "최근 기업들이 데이터 처리 시스템을 배치하기 전 오픈소스 하둡 개발에 대해 구경만 하고 있다. 이는 마치 사무엘 베케트의 <고도를 기다리며>라는 희극에서 나오는 등장인물과 유사하다"고 주장했다. 미국 내슈빌에서 개최된 테라데이터 파트너 사용자 컨퍼런스에서 가트너 애널리스트 머브 에이드리언은 "극중에서 비극적 인물의 망설임은 일반적으로 하둡과 빅데이터 솔루션으로 이동하지 않은 상황에서 힘을 다 빼버린 기업에 비유할 수 있다"고 말했다. 애이드리언은 "고도를 기다리며는 마치 IT, 빅데이터 투자가 증가할 때를 연상케 하지만, 이보다 더 유사한 점은 많은 조직들이 여전히 기다리고 있는 것"이라고. <고도를 기다리며>에서 한 인물은 '가자'라고 말하면 다른 이는 '아직 조금더 기다려보자, 그런 뒤에 가자'라고 말한다. 에이드리언은 빅데이터를 위한 계획이나 배치를 통해 기업들은 데이터가 돈이 되길 원한다. 마케팅을 위해 빅데이터를 사용하고 판매 성장을 위해 저장하고, 새로운 제품과 서비스를 지원하고, 리스크를 관리하고, 사기 감지를 향상시키고, 운영 혁신과 재무성과 향상을 위해 사용한다. 매달 가트너가 빅데이터에서 가장 많은 문의를 받는 것은 하둡이다. 하둡 배포판과 기능은 하루가 다르게 성장하고 있어 하둡을 적용하는데 가장 큰 문제는 자신의 스택을 구축하는 것이다. 에이드리언은 "얼리어댑터들은 하둡을 그들 스스로 아파치에서 다운로드 받아 활용했지만 그러나 우리는 좀더 광범위한 기업 사용을 위해 기술적인 배치로부터 벗어나야 한다"고 설명했다. 에이드리언은 "빅데이터에 투자한 기업의 70%가 대부분 파일럿에 그치고 있으며, 겨우 12%만이 완전한 기업 환경에서 빅데이터를 사용하고 있다"며, "...

스파크 하둡 빅데이터 2014.10.22

하둡을 싫어하는 12가지 이유

하둡은 분명히 멋진 도구이지만, 빠르게 발전하는 과정에서 여러 가지 문제점을 드러내고 있다. 그 가운데서도 필자가 하둡을 싫어하는 12가지에 관해 설명하고자 한다. 이와 같은 불만에 대해 보통 “패치를 해라”라던가, “지금 해당 오류를 수정하고 있다”는 답변이 달린다. 하둡은 그동안 많은 발전을 거듭했으며, 필자가 가장 선호하는 도구 가운데 하나이지만, 이렇게 다듬어지지 않은 사소한 부분들이 짜증을 유발하고 있다. editor@itworld.co.kr  

하둡 빅데이터 개발자 2014.10.21

“사라진 하둡”, 데이터 인프라로 통합된다

지난 몇 년 간 클라우드와 모바일와 더불어 큰 주목을 받은 하둡(Hadoop)과 빅데이터가 변화하고 있다는 주장이 제기됐다. 뉴욕에서 개최된 세계 최대 빅데이터 행사인 ‘오라일리 스트라타 컨퍼런스 + 하둡 월드(O'Reilly Strata Conference + Hadoop World)’에 기조 연설자로 나선 클라우데라(Cloudera) 공동창업자인 마이크 올슨은 “행사에 적절한 발언은 아니지만, 올해 하둡이 사라진다고 내다본다”고 말했다. 올슨이 ‘제 1회 하둡 월드 2009(2012년부터 오라일리 스트라타 컨퍼런스와 병합됐다)’에서 연설자로 나선 당시 관객 규모는 400명 수준에 불과했다. 그로부터 6년이 지난 이번 행사의 관객석은 5,000석을 훌쩍 넘는 등 하둡에 대한 전세계적인 관심이 높아지고 있는 상황이다. ‘하둡의 종말’에 대해 언급한 이유에 대해, 올슨은 ”하둡 월드에서 처음으로 기조 연설자로 나섰을 때만 하더라도, 아파치 하둡(Apache Hadoop)의 로고인 ‘노란 코끼리’에 대해 아는 사람은 없었다”며, “지난 몇 년 간은 하둡 개발자 프로젝트가 무엇인지에 대한 이야기를 나눴다면, 이제 이 프로젝트가 무엇을 하는지에 대한 논의가 필요하다”고 설명했다. 이 때문에 올슨은 하둡이 올해 ‘사라진다’고 표현한 것이다. 하둡은 데이터를 분석하는 애플리케이션이 탑재된 데이터 인프라의 기초가 될 전망이다. 올슨은 “대다수 기업 고객은 데이터가 테라데이터(Teradate) 엔터프라이즈 데이터 웨어하우스(Enterpirse Date Warehouse, EDW)인지, 오라클 데이터베이스인지에 대해서는 신경쓰지 않는다”며, “하둡이라면 진정한 의미의 데이터 인프라를 만들 수 있을 것”이라고 말했다. &ldqu...

하둡 빅데이터 2014.10.17

맵알테크놀러지스, 아파치 드릴 0.5 버전 출시

맵알테크놀러지스(www.mapr.com)는 하둡을 포함하는 맵알 배포판의 아파치 드릴(Apache Drill) 0.5 버전을 출시했다고 밝혔다. 하둡에 표준 SQL(ANSI SQL)을 지원하는 아파치 드릴은 일반적인 애플리케이션을 포함한 여러 데이터 소스에서 즉각적인 셀프 서비스 데이터 탐색을 제공한다. 피유시 바르가바 시스코 시스템즈 IT 부문 최고 엔지니어는 “시스코 시스템즈는 SQL에 익숙한 수 천명의 시스코 내부 사용자에게 서비스를 지원하는 IT 기업이므로 아파치 드릴이 가져올 혁신에 대한 기대가 매우 크다”며, “아파치 드릴은 최종 사용자가 데이터를 바로 탐색할 수 있도록 지원하는 동시에, 자사가 지닌 하둡 아키텍처의 주요 격차를 해소하고, 다양한 데이터 타입으로의 변경없이 인터렉티브 SQL 쿼리를 지원하는 드릴의 특수한 접근방식은 빅데이터 환경에서 SQL의 친숙함과 하둡의 유연성을 모두 제공한다”고 말했다. 아파치 드릴은 스키마리스(schema-less) 데이터, 중첩 데이터 및 빠르게 진화 중인 스키마를 지닌 데이터 등 기본 포맷의 복잡한 데이터를 즉각적으로 쿼리하며, 유연성을 제공한다. SQL 쿼리는 다양한 파일 포맷에서 직접 실행할 수 있기 때문에 라이브 데이터는 몇 주가 소요되는 스키마 준비 및 관리와 ETL 작업 설정없이 들어오는 대로 실행할 수 있다. 또한, 아파치 드릴은 사용자들이 SQL 스킬 및 비즈니스 인텔리전스(BI) 툴에 대한 기존 투자를 쉽게 활용할 수 있도록 표준 SQL을 지원한다. 존 슈뢰더 맵알테크놀러지스 CEO 겸 공동 창립자는 “아파치 드릴 커뮤니티가 시장에 가져온 비전과 혁신은 데이터 탐색의 새로운 시대를 예고하고 있다”며, “자기 기술(self-describing) 데이터를 직접 쿼리하는 민첩성과 복잡한 데이터 유형을 처리하는 유연성은 빅데이터 분석 및 통찰력이 갖고 있는 한계를 초월한다”고 말했다. ed...

아파치 하둡 맵알 2014.09.24

테라데이타, 하둡 및 빅데이터 컨설팅 ‘씽크 빅 애널리틱스’ 인수

한국 테라데이타(www.teradata.kr)는 하둡 및 빅데이터 컨설팅 및 솔루션 전문업체인 ‘씽크 빅 애널리틱스(Think Big Analytics)’를 인수했다고 밝혔다. 씽크 빅 애널리틱스는 하둡 및 빅데이터 컨설팅 분야의 전문 업체로, 기업들이 빅데이터 전략을 성공적으로 실행할 수 있도록 지원하고 있다. 씽크 빅은 HBase, 카산드라(Cassandra), 몽고DB(MongoDB), 실시간 이벤트 처리 기술인 스톰(Storm)을 포함해 하둡 및 NoSQL 데이터베이스 등의 오픈소스 빅데이터 기술을 실행하는데 전문성을 보유하고 있다. 씽크 빅의 컨설팅 팀은 호튼웍스(Hortonworks), 클라우데라(Cloudera), 맵알(MapR) 등 다양한 하둡 분산에 대한 심층적 지식을 보유하고 있다. 또한, 씽크 빅은 고객 및 클릭스트림 분석, 분산된 디바이스 데이터 관리 및 분석, 리스크 및 거래 분석을 위한 선구축(pre-built) 애플리케이션 구성요소 세트를 제공하고 있다. 테라데이타의 회장 겸 CEO인 마이크 코엘러는 “일련의 인수 합병은 고객들이 보유한 모든 데이터에서 최상의 가치를 얻도록 지원하겠다는 테라데이타의 목표를 실현하는데 중요한 과정”이라며, “씽크 빅의 컨설팅 전문성을 통해 테라데이타는 다양한 오픈소스 빅데이터 기술을 활용할 수 있는 최상의 방법을 고객들에게 제안함으로써 고객들이 비즈니스 성장을 도모할 수 있도록 적극 지원할 것”이라고 말했다. 씽크 빅의 설립자겸 CEO인 론 보드킨은 “테라데이타와 씽크 빅 양사는 고객들이 기존 기술과의 상호 보완을 위해 새로운 오픈소스 기술을 활용할 수 있도록 돕고, 풍부하고 다양한 데이터 세트를 통해 분석적 가치를 얻도록 지원하자는 공통된 비전을 가지고 있다”며, “테라데이타 팀에 합류해 우리의 전문 지식을 통해 최상의 빅데이터 솔루션을 제공하게 된 점을 의미있게 여긴다”라...

하둡 테라데이타 2014.09.15

'코끼리처럼, 카멜레온처럼'··· 진단! 하둡의 오늘

오늘날 가장 찾기 어려운 인재군 중 하나가 아파치 하둡(Apach Hadoop)에 능숙한 IT 전문가다. 노동 시장 전문 조사 기관인 원티드 애널리틱스(Wanted Analytics)에 따르면, 하둡 전문가에 대한 수요는 지난 해 이후 34%가 급증했다. 그러나 이렇게 인재 유치 경쟁이 치열함에도 불구하고, 데이터 과학 분야 인재들이 많은 연봉을 챙기던 시대는 이미 저물어가고 있을지도 모른다. 왜일까? 하둡은 우수한 데이터 처리 능력과 저장력으로 유명하다. 물론 복잡하다는 특성도 갖고 있다. 하지만 이런 역량이 필요한 기업들이 더 이상 하둡 기술을 가진 IT 전문가를 찾기 위해 애를 쓸 필요가 줄어들고 있다. 벤더들이 이용하기 쉬운 하둡 시스템을 개발하고 있기 때문이다. 대용량의 데이터 세트를 처리하는 비즈니스 친화적 하둡 애플리케이션을 개발하는 벤더들로는 피보탈 소프트웨어(Pivotal Software), 싱크소프트(Syncsoft), 맵알 테크놀로지(MapR Technologies), 제타세트(Zettaset) 등을 예로 들 수 있다. 그 결과 비싼 인재들에 대한 의존도를 낮추고, 보안 수준을 높이며, 비용을 절감하는 한편, 비즈니스 목표에 맞도록 비즈니스 데이터를 활용할 수 있다고 주장하는 제품 생태계가 출현하고 있다. 그러나 이런 시스템이 증가 및 발전함에도 불구하고, 하둡이 본질적인 보안 취약점을 극복하고, 마이크로소프트 윈도우와 관련 비즈니스 애플리케이션과는 다른 완전한 운영 시스템으로 부상할 수 있을지에 의구심을 갖는 IT 전문가들이 많다. 버지니아 레스톤 소재 컴스코어(ComScore)의 마이클 브라운은 하둡 시스템에 만족하고 있는 사용자 중 한 명이다. 컴스코어는 200여 만 명의 온라인 쇼핑 행동양태를 모니터링하고, 광고주들이 타깃화된 마케팅 캠페인을 추진할 수 있도록 지원하는 웹 인텔리전스(정보) 회사로 매일 600억 개의 데이터를 '소화'한다. 이 회사는 데이터를 즉시 이용할 수 있...

하둡 빅데이터 맵알 2014.08.20

하둡을 사용할 때와 하지 않을 때

기업들은 빅데이터와 분석의 효과에 대해 관심있을 때, 어떻게 시작했는 지에 대해 물을 때, 종종 아파치 소프트웨어의 오픈소스 데이터 스토리지와 프로세싱 프레임워크인 하둡과 함께 시작할 것을 조언한다. 하둡이 아주 매력적이라는 것에는 몇 가지 이유가 있다. 이 플랫폼은 상대적으로 저비용으로 컴퓨팅 배포나 연산 역량을 제공할 뿐만 아니라 모바일 기술, 소셜 미디어, 사물인터넷, 그리고 떠오르는 디지털 기술들에 의해 수집되는 데이터가 기하급수적으로 증가하는 것을 예측해 확장할 수 있다. 이런 강점은 입소문과 페이스북, 야후, 포천 50대 기업들이 하둡 적용을 추진하고 있는, 세간의 이목을 끄는 기업 사례와도 일치한다. 지난 3월 리서치 조사 업체인 리서치빔(Researchbeam)은 전세계 하둡 시장이 2012년 15억 달러에서 2020년에는 500억 달러로 성장할 것이라고 예측했다. 하둡 시장의 대부분은 클라우데라, 호튼웍스, 그리고 맵알 테크놀로지와 같은 상업화된 하둡 전문가들에 의해 제공되는 서비스 부문에서 발생된다. 그러나 모든 데이터 과학자가 하둡이라는 기차에 타고 있지 않다. 사실 많은 이들이 하둡에서 하차했다. 최근 개발업체 패러다임4(Paradigm4)가 데이터 과학자를 대상으로 빅데이터 분석에서의 장애물이라는 주제로 실시한 설문조사에서 데이터 과학자 3/4이상이 하둡 또는 하둡 배포 파일시스템에 구축된 연산 프레임워크인 스파크(Spark)을 사용한다고 응답했으며 용처에는 한계가 있었다. 특히 응답자의 39%는 하둡은 프로그램을 위해 너무 많은 노력이 필요하며, 37%는 쌍방향. 애드혹 쿼리에서는 너무 느리다고 말했다. 또다른 30%는 실시간 분석에 너무 느리다고 지적했다. 그리고 하둡과 스파크를 사용했던 데이터 과학자 1/3 이상이 사용을 중단했다고 말했다. 이 설문조사를 실시한 이 개발업체는 하둡보다 더 나은 것을 제공하고 있다고 말했다.그러나 이 설문조사는 개발업체의 사기라기보다는 하둡에 대한 불만을 설...

스파크 하둡 빅데이터 2014.08.14

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.