Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

아파치

수십억 개의 파일을 저장하는 차세대 빅데이터 저장소 아파치 오존의 이해와 설치 시 고려 사항 - IDG Summary

차세대 HDFS인 아파치 오존(Apache Ozone)은 빅데이터 생태계에서 사용하는 새로운 스토리지 컴포넌트다. 아파치 오존은 기존의 HDFS가 갖고 있던 확장성의 한계, 아키텍처에서의 문제를 극복하기 위해 10년이상 HDFS를 사용하면서 얻었던 경험을 기반으로 네임 스페이스와 블록 스페이스를 분리했으며, 아마존의 SSS와 유사한 객체지향성 저장소 기능을 제공한다. 빅데이터 저장소가 갖춰야 할 요건과 기존 HDFS가 갖고 있던 제약, 그리고 아파치 오존을 알아보고 사용자 입장에서 설치 시 고려 사항에 대해 설명한다.  주요 내용 - 차세대 HDFS 기술 아파치 오존, 수십억 개의 파일 핸들링  - HDFS, 3억 5,000만 개 이상의 파일 관리는 불가능 - 아파치 오존에 담긴 확장성의 비밀, 네임스페이스와 블록스페이스 분리 - 아파치 오존 설치 시 OM은 별도로 배치  - 아파치 오존을 선택해야 하는 5가지 이유 

아파치 오존 빅데이터 2021.01.11

빠른 확장이 필요한 애플리케이션을 구축하는 6가지 팁

코로나19와 팬데믹이 지역사회와 경제를 계속해서 강타하는 가운데, 전자상거래와 물류, 온라인 학습, 식품 배송, 온라인 비즈니스 협업을 비롯한 다양한 분야의 많은 기업이 제품과 서비스의 막대한 수요 증가를 경험하고 있다. 모임 금지와 격리 조치에 따른 사용 패턴의 변화로 온라인 비즈니스가 급성장하면서 애플리케이션이 한계를 넘어 사용되고, 결과적으로 중단, 지연이 발생해 고객이 불편을 겪는 경우도 증가하고 있다.   회사의 비즈니스와 애플리케이션 부하가 대폭 증가할 때 어떻게 대처해야 할까? 막대한 비용 투자 없이 애플리케이션의 성능과 확장성을 신속하게 높여 쾌적한 고객 경험을 보장하려면 어떻게 해야 할까? 빠르게 확장되어야 하는 애플리케이션에 즉시 적용할 수 있는 6가지 팁을 소개한다.   팁 1 : 전체 문제 이해 문제의 일부분만 해결해서는 원하는 결과를 달성하기 어렵다. 다음 요소를 모두 고려해야 한다.   기술 문제 – 부하 하의 애플리케이션 성능과 사용자가 경험하는 성능을 좌우하는 요소는 지연과 동시성의 상호 작용이다. 지연은 특정 작업에 필요한 시간, 예를 들어 웹사이트가 사용자 요청에 응답하는 데 소요되는 시간이다. 동시성은 시스템이 처리할 수 있는 동시 요청의 수다. 동시성이 확장되지 않으면 수요가 급증할 때 시스템이 수신하는 모든 요청에 즉시 응답할 수 없으므로 지연이 증가하게 된다. 몇 분의 1초였던 응답 시간이 몇 초 또는 그 이상으로 늘어나면서 고객 경험의 질이 저하되고, 아예 모든 요청에 응답하지 못하는 상황까지 발생할 수 있다. 따라서 단일 요청에 대해 낮은 지연을 확보하는 것도 중요하지만 그것만으로는 동시성 급증으로 인해 발생하는 문제를 제대로 해결할 수 없다. 필요한 응답 시간을 유지하면서 동시 사용자의 수를 확장할 방법을 찾아야 한다. 또한 여러 클라우드 제공업체와 온프레미스 서버에 걸쳐 분산될 수 있는 하이브리드 환경 전반으로 단절 없이 애플리케이션 확장이 가능해야 한다.   타이밍 – 완전한...

아파치 아파치이그나이트 쿠버네티스 2020.08.21

"하둡을 제압한 빅데이터 플랫폼" 아파치 스파크란 무엇인가

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 거대한 데이터 스토어를 탐색하면서 작업하기 위해 막대한 컴퓨팅 성능을 모아야 하는 빅데이터와 머신러닝 분야에서 이 2가지 특성은 문을 여는 열쇠라고 할 수 있다. 스파크는 또한 분산 컴퓨팅과 빅데이터 처리의 힘든 작업 대부분을 추상화하는, 사용하기 쉬운 API를 통해 개발자들이 짊어지는 부담을 일부 덜어주는 역할도 한다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 소소하게 시작됐으나 지금은 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나다. 스파크는 다양한 방식으로 배포가 가능하며 자바(Java), 스칼라(Scala), 파이썬(Python), R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하고 SQL, 스트리밍 데이터, 머신러닝, 그래프 프로세싱을 지원한다. 은행, 통신업체, 게임 회사, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 주요 기술 대기업도 모두 아파치 스파크를 사용한다. 아파치 스파크 아키텍처 아파치 스파크의 구성 요소는 크게 드라이버(driver)와 이그제큐터(executor) 2가지다. 드라이버는 사용자의 코드를 여러 작업자 노드로 배분할 수 있는 여러 작업으로 변환하고 이그제큐터는 이런 노드에서 실행되면서 할당된 작업을 실행한다. 그리고 이 둘을 중재하기 위한 클러스터 관리자가 필요하다. 스파크는 기본적으로 클러스터의 각 머신에 JVM과 아파치 스파크 프레임워크만 있으면 되는 독립형 클러스터 코드로 실행이 가능하다. 그러나 작업자를 자동으로 할당하기 위해 더 강력한 리소스 또는 클러스터 관리 시스템을 활용하고자 하는 경우가 많다. 엔터프라이즈에서는 이를 위해 보통 하둡 얀(Hadoop YARN)에서 실행하지만 아파치 메소스(Mesos), 쿠버네티...

아파치 스파크 하둡 2020.03.20

아파치 쿠두를 통한 실시간 워크로드 최적화

실시간 분석 수행을 위한 최선의 선택으로 아파치 쿠두(Apache Kudu)에 많은 이가 주목하고 있다. 컬럼형(Columnar) 스토리지 엔진인 쿠두가 빠른 분석에 유리한 이유는 무엇일까?    빠른 분석과 빠른 데이터 처리를 위한 최선의 선택  아파치 쿠두 PMC 멤버이자 클라우데라 소프트웨어 엔지니어인 앤드류 웡은 쿠두가 왜 필요한지부터 묻는다. 스키마 변화가 많은 데이터 세트를 다루거나, 분석을 위한 스캔과 열 검색 작업을 동시에 자주 하거나, 최대한 빨리 최신 데이터를 대상으로 쿼리를 수행하고 싶을 경우라면, 스키마 업데이트가 쉽고 데이터가 들어오자마자 활용할 수 있고, 끊임 없이 업데이트와 삭제가 가능한 쿠두가 최선의 솔루션이라는 설명이다.   쿠두의 특징  쿠두는 데이터가 저장되는 공간인 테이블(Table)과 이들로 구성된 태블릿(Tablet), 이들을 저장하는 태블릿 서버(Tablet Server), 쿠두 구성 요소의 메타 데이터를 담고 있는 마스터(Master)로 구성된다. 각 테이블 스키마에는 프라이머리 키(Primary Key)가, 파티션 스키마에는 파티션 키가(Partition Key)가 정의되어 있다. 태블릿 간 복제는 Raft 합의 알고리즘을 이용해 리더(Leader)와 팔로워(Follower) 관계로 구성된다. 마스터에는 태블릿과 파티션에 대한 메타 데이터가 담기고, 태블릿 서버에는 복제된 태블릿 데이터가 저장된다.   쿠두에서 쓰기 작업은 다음 그림처럼 이루어진다. Raft 합의 알고리즘에 따라 리더에서 팔로워로 복제가 이루어지고 인메모리로 처리된다.   태블릿에 쓰기가 이루어질 때 쿠두는 블룸 필터와 프라이머리 키 인덱스를 이용해 불필요한 탐색을 최소화한다.   스캔을 통해 열을 읽을 때도 프라이머리 키를 참조해 관계없는 태블릿은 건너뛴다.    파티셔닝과 관련해 앤드류 웡은 몇 가지 팁을 알려 주었습다. 일반적인 쿼리의 경우 ...

아파치 빅데이터 쿠두 2020.02.03

클라우데라 CDH 6의 새로운 기능

클라우데라 엔터프라이즈 6(이하 CDH 6)이 발표되면서 많은 기업이 업그레이드 계획 수립에 분주하다. 관련해 Cloudera Sessions Seoul에서 CDH 6의 새로운 기능을 소개한 클라우데라코리아의 남영지 이사의 세션을 소개한다.    클라우드로 가는 교두보 CDH 6 CDH 6는 현재 6.1 버전이 릴리즈 되었다. CDH 6의 개선 사항은 꽤 많다. 이를 주요 키워드로 정리하면 생산성, 혁신, 품질로 요약할 수 있다. 이런 특징을 수용하기 위해 CDH 6에서는 워크로드 처리 성능 개선부터 시작해 엔터프라이즈 수준으로 진화를 거듭하고 있는 각종 도구 그리고 SDX의 기능 강화까지 대대적인 변화가 있다. 클라우데라가 CDH 6을 통해 추구하는 방향 중 가장 두드러진 것은 첨단 분석과 머신 러닝을 위한 클라우드 친화적인 토대가 되었다는 것이다.  관련해 남영지 이사는 데이터 과학자가 필요한 자원을 컨테이너 기반 플랫폼에서 간편하게 확보해 원하는 분석과 트레이닝 환경을 셀프서비스 방식으로 간편하게 구축할 수 있는 쪽으로 진화했다고 설명했다. 관리 역시 클라우드를 고려한 흔적이 보인다. 가장 눈에 띄는 것이 클라우데라 매니저(Cloudera Manager), 네비게이터(Navigator) 등의 도구를 클라우드 친화적으로 발전시킨 것과 보안 관리를 더 중앙집중적으로 할 수 있게 만든 것이다. 이런 특징을 한데 모아 보면 CDH 6는 클라우데라 고객이 더 편하고 유연하게 클라우드로 넘어갈 수 있는 교두보 역할을 한다고 볼 수 있다.    업그레이드 경로에 대한 친절한 설명  최근 클라우데라와 호튼웍스의 합병 소식이 발표되었다. 당연히 이번 행사에 참여한 많은 이들의 관심사는 향후 어떻게 업그레이드 계획을 잡아야 하는지에 대한 것이었다. 남영지 이사는 2019년 도입을 검토 중이라면 CDH 6.1을 그리고 현재 5.15를 잘 사용하고 있다면 곧 발표될 5.16 버전으로 업그레이드를 한 다음 클라우데라와 호...

아파치 빅데이터 클라우데라 2019.02.13

2018 최고의 오픈소스 소프트웨어 : 데이터 스토리지 및 애널리틱스

요즘 세상에 데이터보다 더 중요한 것은 없다. 우리는 어느 때보다 더 많은 데이터를 가지고 있고, 이를 저장하고 분석할 방밥도 어느 때보다 많이 가지고 있다. 예컨대 SQL 데이터베이스, NoSQL 데이터베이스, 분산 OLTP 데이터베이스, 분산 OLAP 플랫폼, 분산 하이브리드 OLTP/OLAP 플랫폼 등이다. 2018년 최괴의 오픈소스 소프트웨어 대상 데이터베이스 및 데이터 애널리틱스 플랫폼 부문에는 스트림 프로세싱의 혁신 업체들도 포함됐다.  editor@itworld.co.kr

데이터베이스 코코로치 주피터랩 2018.10.04

‘빅데이터 분석의 불꽃’ 아파치 스파크의 이해와 활용 - IDG Deep Dive

아파치 스파크(Apache Spark)는 2009년 버클리대학교에서 시작한 이후 이제는 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크로 자리 잡았다. 스파크는 다양한 방법으로 배포할 수 있고 여러 프로그래밍 언어용 네이티브 바인딩을 제공한다. SQL과 스트리밍 데이터, 머신러닝, 그래프를 지원하는 것도 강점이다. 현재 은행과 통신, 게임, 공공 등 다양한 업종에서 활용하고 있고, 애플, 페이스북, IBM, 마이크로소프트 등 유명 IT 업체도 아파치 스파크를 사용한다. 아파치 스파크의 특징과 머신러닝 활용 가능성을 살펴보고, 입문자를 위한 간단한 단계별 가이드도 제시한다. Trend 빅데이터 분석의 정석, 아파치 스파크 Review 머신러닝을 밝히는 스파크 Howto 아파치 스파크, 예제로 시작하기

아파치 스파크 빅데이터 2017.12.13

대세로 자리잡은 빅데이터 분석 플랫폼, "아파치 스파크"의 이해

아파치 스파크(Apache Spark)는 2009년 버클리대학교의 AMPLab에서 소소하게 시작된 이후, 발전을 거듭해 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나로 부상했다. Credit: Getty Images Bank 스파크는 다양한 방법으로 배포가 가능하고 자바, 스칼라, 파이썬, R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하며 SQL, 스트리밍 데이터, 머신러닝 및 그래프 처리를 지원한다. 은행, 통신업체, 게임업체, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 모든 주요 IT 기업들이 아파치 스파크를 사용한다. 스파크는 기본 상태에서 클러스터의 각 머신에 아파치 스파크 프레임워크와 JVM만 있으면 되는 독립형 클러스터 모드로 실행이 가능하다. 그러나 리소스 또는 클러스터 관리 시스템을 활용해 수요에 따라 작업자를 할당하고자 하는 경우가 더 많다. 기업에서 이는 일반적으로 하둡 얀(YARN)에서 실행하는 것을 의미하지만(클라우데라 및 호튼웍스 배포판이 스파크 작업을 이렇게 실행함) 아파치 스파크는 아파치 메소스에서도 실행 가능하다. 현재 쿠버네티스(Kubernetes)에 대한 네이티브 지원을 추가하기 위한 작업이 진행 중이다. 매니지드 솔루션을 찾는다면 아마존 EMR, 구글 클라우드 데이터프록(Google Cloud Dataproc) 및 마이크로소프트 애저 HD인사이트(HDInsight)에서 아파치 스파크를 찾을 수 있다. 아파치 스파크 창립자들을 채용한 업체 데이터브릭스(Databricks)는 아파치 스파크 클러스터, 스트리밍 지원, 통합 웹 기반 노트북 개발, 표준 아파치 스파크 배포판에 비해 최적화된 클라우드 I/O 성능을 갖춘 포괄적인 매니지드 서비스인 데이터브릭스 유니파이드 애널리틱스 플랫폼(Databricks Unified Analytics Platform)을 제공한다. 스파크와 하둡과의 비교 일단 아파치 스파크와 아파치 하둡과의 비교는 다소 부적절하다. 요즘...

아파치 스파크 하둡 2017.11.15

스파크로 더 쉬워진 머신러닝 ‘아파치 프리딕션IO’

아파치 재단에 새로운 머신러닝 프로젝트가 추가됐다. 주인공은 아파치 프리딕션IO(Apache PredictionIO)로, 원래 세일즈포스의 자회사 중 한 곳이 개발하던 프로젝트의 오픈소스 버전이다. 아파치 프리딕션IO는 스파크와 하둡을 기반으로 하며, 공통 작업용 맞춤형 템플릿을 사용하는 데이터로부터 스파크 기반의 예측 분석을 제공한다. 애플리케이션은 데이터를 프리딕션IO의 이벤트 서버로 보내 모델을 훈련하고, 이후 해당 모델을 기반으로 한 예측용 엔진에 쿼리한다. 스파크, MLlib, HBase, 스프레이(Spray), 일래스틱서치(Elasticsearch) 모두 프리딕션IO에 번들로 제공되며, 아파치는 자바와 PHP, 파이썬, 루비용 지원 SDK를 제공한다. 데이터는 다양한 백엔드 인프라에 저장할 수 있는데, JDBC, 일래스틱서치, HBase, HDFS를 이용할 수 있고, 로컬 파일 시스템은 모두 바로 사용할 수 있다. 백엔드 시스템은 플러그 방식이기 때문에 개발자는 맞춤형 백엔드 커넥터를 만들 수도 있다. 프리딕션IO의 가장 큰 장점은 머신러닝 엔진을 만드는 템플릿 시스템이다. 템플릿은 특정 예측용 시스템을 설정하는 데 필요한 수많은 작업을 줄여준다. 또한 작업에 필요할 수 있는 서드파티 의존성도 나타내 준다. 현재 사용할 수 있는 템플릿으로는 범용 추천 엔진, 텍스트 분류, 생존 분석, 위키피디아를 지삭 기반으로 사용하는 주제 라벨링, 유사성 분석 등이 있으며, 또한 일부 템플릿은 다른 머신러닝 제품과 통합한다. 예를 들어, 현재 프리딕션IO 갤러리에 있는 예측 템플릿 중 고객 이탈률 탐지와 범용 추천 템플릿은 H2O.ai의 스파클링 워터(Sparkling Water)를 사용한다. 프리딕션IO는 또 예측 엔진을 자동으로 평가해 가장 적합한 하이퍼파라미터를 결정해 준다. 개발자가 지표를 골라 설정해야 하지만, 직접 하이퍼파라미터를 조정하는 것보다 해야 할 작업이 훨씬 적다. 서비스로 구동하면, 예측을 하나씩 또는 ...

템플릿 아파치 예측 2017.10.27

2017년 최고의 오픈소스 소프트웨어 : 데이터베이스와 분석 툴

지난 몇 년 간 수많은 NoSQL 데이터베이스가 최고의 오픈소스 목록을 지나갔다. 이제 SQL은 충분하다. 2017년도에는 스케일아웃 SQL 데이터베이스가 두 가지 포함되어 있지만, 아파치 소프트웨어 재단에서 흔히 볼 수 있는 일군의 분석 지향 프로젝트가 주류를 이루고 있다. 아파치 소프트웨어 재단은 이제 이제 빅데이터의 동의어로 자리잡았다고 해도 과언이 아니다.  editor@itworld.co.kr

데이터베이스 아파치 스파크 2017.10.11

“모든 스트리밍 데이터는 아파치 카프카로” 실시간 데이터 인기와 함께 급부상

느린 하둡 및 데이터 호수(Data Lake)에서 실시간 스트림으로 시장의 관심이 이동하면서 아파치 카프카가 꾸준히 부상하고 있다. 아파치 카프카(Kafka)가 순풍을 타고 있다. 레드몽크(Redmonk)의 핀탄 라이언이 전했듯이 작년 한해 동안 개발자 인기도가 무려 260% 뛰었다. 실시간 스트리밍 데이터에 대한 IoT 및 기타 엔터프라이즈의 수요가 널리 확산되고 나서부터 카프카의 인기는 수직 상승 중이다. 링크드인(LinkedIn)에서 탄생한 카프카의 엔지니어링 팀이 분사해 만든 컨플루언트(Confluent)가 아파치 카프카 프로젝트를 주도적으로 이끌고 있다. 하지만 컨플루언트뿐만이 아니다. 카프카의 중요성이 높아지면서 오브젝트로켓(ObjectRocket, 랙스페이스에 인수됨)의 공동 창업자인 케니 고먼과 에릭 비브가 시작한 이벤타도어(Eventador)를 포함한 많은 업체가 참여하고 있다. 오브젝트로켓은 몽고DB 데이터베이스를 서비스로 제공하는 반면 이벤타도어는 완전히 관리되는 형태의 카프카 서비스를 제공, 스트리밍 데이터에 대한 장벽을 더욱 낮추고 있다. 이벤타도어 공동 창업자들과의 대화를 통해 명확히 알 수 있는 사실은 "실시간으로 변이하는 데이터가 새로운 사용 사례와 새로운 가능성을 실현한다"는 면에서 스트리밍 데이터는 "새로운 시각"이 필요한, 기존과는 다른 영역이라는 점이다. 일단 기업이 스트리밍 데이터에 의존하게 되면 이전으로 되돌아가기는 어렵다. 핵심은 스트리밍 데이터에 의존하는 지점까지 가는 것이다. 카프카 대 하둡 아파치 하둡은 많이 사용되지만 현대 엔터프라이즈의 진화하는 요구 사항에 맞추기엔 속도가 너무 느리다. 고먼이 말했듯이 기업들은 "실시간에 가까울수록 데이터의 가치가 증가한다"는 것을 인식하고 있다. 기업이 제품 및 서비스에 실시간 데이터 흐름을 추가하기를 주저한다면 현실에 안주하지 않는 경쟁업체들에 비해 뒤처질 위험에 처하게 된다. 이 추세는 최대...

실시간 아파치 스파크 2017.08.02

"오픈오피스 개발 중단되나"...보안 이슈 대응 어려움

오픈소스 생산성 소프트웨어인 아파치 오픈오피스 프로젝트 종료에 대한 논란이 확산하고 있다. 이 소프트웨어는 한때 마이크로소프트의 데스크톱 지배에 대항하는 핵심 오픈소스였다. 그러나 현재는 코드 내 주요 보안 이슈에 대응하는 데도 어려움을 겪고 있다. 위원회 회장 데니스 E. 헤밀턴은 오픈오피스 개발자에게 보낸 이메일을 통해 아파치 소프트웨어 파운데이션(ASF) 이사회가 프로젝트 관리 위원회에 이에 대해 해명하고 대안을 제시할 것을 요구했다고 밝혔다. 오픈오피스는 한때 썬마이크로시스템의 강력한 지원을 받았지만 썬이 오라클에 인수되면서 상황이 바뀌었다. 오라클이 코드를 유지하는 데 거의 관심이 없다는 것이 명확해지자 수많은 오픈오피스 개발자가 프로젝트를 떠났고 프로젝트 코드는 리브레 오피스로 분리됐다. 이후 오라클은 오픈오피스 관리를 포기하고 ASF에 넘겼다. 당시에는 이미 리눅스 데스크톱 배포판 대부분에서 오픈오피스가 리브레 오피스로 대체된 상태였다. 지난해와 2014년에 걸쳐 ASF에는 이 프로젝트를 중단하고 브랜드를 리브레 오피스를 지원하는 도큐먼트 파운데이션(Document Foundation)으로 넘겨야 한다는 요구가 계속됐다. 오픈오피스 개발자에게 보낸 헤밀턴의 이메일은 이런 논쟁을 다시 촉발시켰다. 헤밀턴은 소프트웨어 보안을 지키기 위한 개발자 공헌이 비효율적으로 이뤄지고 있다며 필요한 조치를 마련해야 한다고 지적했다. 헤밀턴은 이것이 공식 정책이 아니며 단지 논의가 필요한 것이라고 강조했다. 그러나 개발자 메일링 리스트에는 이에 대한 논쟁이 불붙었고, 이 가운데에는 오랜 오픈오피스 공헌자인 카이 슈니크도 포함돼 있다. 그는 오픈오피스 개발과 여러 프로젝트 웹사이트, 다른 활동을 포함해 오랫동안 공헌해 왔지만 오픈오피스 개발에서 빠질 것이라고 선언한 바 있다. 오픈오피스가 혼란에 빠져 있다는 것은 공공연한 사실이다. 헤밀턴과 다른 이들은 지속적으로 더 많은 개발 지원이 필요하다고 지적해 왔다. 헤밀턴은 다음 달까...

오픈오피스 아파치 리브레오피스 2016.09.06

장단점·생태계·사용사례로 비교해 보는 '하둡 vs. 스파크'

기업 내 데이터 업무가 점점 증가하고 있다. 이에 따라 오픈소스 빅데이터 프레임워크인 하둡과 스파크 중 무엇을 고를 것인지가 점점 중요한 문제로 대두되고 있다. 하둡과 스파크의 장단점, 벤더 정보, 고객사 사용 사례를 범주별로 분류해 살펴본다. 하둡(Hadoop)과 스파크(Spark)는 다른 점이 많은 기술이다. 사용 사례도 크게 다르다. 두 기술을 공개한 ASF(Apache Software Foundation)는 심지어 이 둘을 다른 범주로 분류하고 있다. 하둡은 데이터베이스이고 스파크는 빅데이터 툴이다. 아파치(Apache)의 말을 빌리자면 하둡은 '분산형 컴퓨팅 플랫폼'으로, 다음과 같이 설명된다. "단순한 프로그래밍 모델을 사용하는 컴퓨터 클러스터에서 대형 데이터 세트의 분산형 처리를 가능하게 하는 프레임워크다. 단일 서버에서 각각 로컬 연산 및 저장 기능을 제공하는 수천 대의 장비로 스케일업(Scale Up)되도록 설계됐다. 하드웨어에 의존해 높은 가용성을 제공하는 대신, 라이브러리 자체가 애플리케이션 계층에서 고장을 감지하고 처리할 수 있도록 설계됐다." 하둡에 관해 이야기할 때에는 대부분 "애플리케이션 데이터에 대해 대용량 접근(high-throughput access )을 제공하는 분산형 파일 시스템"인 HDFS(Hadoop Distributed File System)를 의미한다. 하지만 이 밖에도 작업 일정관리 및 클러스터 자원 관리 툴인 하둡 얀(YARN)과 대형 데이터 세트 병렬 처리를 위한 하둡 맵리듀스가 존재한다. 한편, 스파크는 "대규모 데이터 처리를 위한 고속 일반 엔진이다. 자바(Java), 스칼라(Scala), 파이썬(Python)의 고수준 API뿐만 아니라 스트림 처리, 기계 학습, 그래프 분석 등을 포함해 일련의 풍부한 라이브러리를 제공한다"고 기술돼 있다. 이들을 어떻게 조합할 수 있을까? 둘 다 빅데이터 프레임워크다...

아파치 스파크 하둡 2016.07.19

아파치 재단의 놀라운 성장… ‘오픈소스의 중립국’으로 “우뚝”

아파치 소프트웨어 재단(Apache Software Foundation, 이하 ASF)이 최근 28쪽 분량의 연례 보고서를 발표했다. 한 마디로 요약하면, “놀랍다”이다. 1995년 몇몇 개발자가 지원하는 단순한 HTTP 서버로 시작한 ASF는 이제 3,425명의 ASF 위원(Committer)과 5,922명의 아파치 코드 컨트리뷰터가 291건 TLP(Top-Level Projects)를 구축하는 단체가 됐다. 물론 같은 기간에 오픈소스 역시 폭발적인 성장을 이루었다. 하지만 ASF는 10여 개의 인기 프로젝트와 개발 툴 등으로 빅데이터를 강력하게 추진하면서 특히 눈에 띄는 성과를 이루었다. 이는 연간 운영 예산이 100만 달러를 넘지 않는 조직으로서는 나쁘지 않은 성과일 뿐만 아니라 개발자 커뮤니티보다는 기업의 관심을 필요로 하는 다른 오픈소스 단체와 비교해도 뛰어난 성과이다. 2015년 ASF의 가장 눈에 띄는 성과를 보자. - 20개 새로운 아파치 TPL 프로젝트 - 아파치 인큐베이터에서 개발 중인 55개의 프로젝트와 아파치 랩의 39개 이니셔티브 - 743개의 리포지토리 관리 - 개인 CLA(Contributor License Agreements) 33% 증가 - ASF 위원 3,425명, 코드 기여자 5,922명(전년 대비 21% 증가)이 거의 2,000만 줄의 코드 추가. 월 평균 1만 8000건의 코드 제출. - 3억 1,553만 3,038줄의 코드 변경(전년 대비 65% 증가) - 프로젝트당 5,000달러 이하의 연간 예산으로 아파치 서비스 1년 365일 24시간 가동 이런 성과는 특히 ASF 운영에 얼마나 적은 돈이 필요한지를 고려하면 더욱 인상적이다. 가장 최근 회계연도에 ASF는 87만 4,000달러의 운영 예산을 필요로 했고, 이 예산의 대다수는 후원업체가 지불했다. ASF는 7곳의 플래티넘 후원업체(클라우데라, 페이스북, 구글, 리스웹, 마이크로소프트, 피보탈, 야후)와 8곳의 ...

프로젝트 아파치 하둡 2016.06.09

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.