데이터ㆍ분석

에버노트, 하둡과 파엑셀로 본격 빅 데이터 분석 환경 구현

Andrew Lampitt | InfoWorld 2013.01.30
하둡 배치 구축하기
모든 미가공 데이터는 우선 하둡으로 가서 일일 보고서와 즉석 분석 모두를 위해 보존은 물론 파액셀로 들어가도록 준비를 마친다. 에버노트는 클라우데라의 하둡 배포판을 환경설정 관리를 위한 퍼펫(Puppet)과 함께 사용한다.
 
하둡 클러스터는 6개의 데이터 노드와 8개의 500GB 드라이브를 포함한 총 24TB의 원시 스토리지를 갖추고 있다. 두 개의 8코어 프로세서와 64GB의 RAM은 132개의 맵리듀스(MapReduce) 작업을 각각의 작업마다 2GB RAM 이상을 가지고 여러 클러스터에 걸쳐 실행한다.
 
추가적으로, 에버노트는 중복을 위한 단일 하둡 잡 트래커(Hadoop Job Tracker)를 두 가지 하둡용 핵심 오픈소스 툴인 하이브(Hive)와 휴(Hue)를 위한 하나의 클라이언트 노드와 함께 실행한다. 하둡 클러스터는 쿼리를 위한 SQL같은 인터페이스를 제공하는 하이브 추상화 계층을 통해 접속한다. 휴는 파일 브라우저, 잡 트래커 인터페이스, 클러스터 상태 모니터링 등 수많은 유틸리티는 물론 커스텀 하둡 애플리케이션을 구축하기 위한 환경을 포함한 하둡용 웹 기반 인터페이스다.
 
합동 작업
하이브를 통해 수집된 사용자 행동은 온라인 데이터베이스의 레퍼런스 테이블과 함께 파액셀로 매일 밤 전달된다. 하이브를 이용해 추출 테이블이 생성되는데, 여기에는 공통 보고서에서 최적의 표현을 위해 미리 나눠진 정보가 포함된다. 예를 들어, 국가 요약 테이블이라면 하루마다 국가별로 단 한 줄에 그 날짜의 일간, 주간, 월간 활동적 이용자의 총합이 들어간다.
 
이 파액셀 데이터베이스와 그 테이블들은 데이터를 신속하게 통합할 수 있도록 설정되는데, 이때문에 하이브만 사용하는 것보다 더 빨리 수많은 종류의 질문에 응답할 수 있다. 예를 들어, 에버노트 윈도우의 어느 버전이 특정 주간에 독일에서 가장 널리 사용되었는가 등의 질문에는 단 3초면 대답할 수 있다.
 
이제 분석팀은 현대적 분석 환경과 미래 성장을 위한 공간까지 확보했다. 하둡 덕분에 팀은 운영과 로그 데이터의 전례없는 양을 보존할 수 있게 되었고, 이전에 10시간 이상이 소요되던 수억 개의 자료 전달과 변형 작업을 단 2시간 만에 처리할 수 있게 된 것은 더욱 중요한 변화다. 파액셀 덕분에 에버노트는 더욱 복잡한 이용자 동향 분석을 수행할 수 있게 되었고, 재스퍼리포트 서버가 최종적으로 매끄러운 결과물을 제공해 준다.
 
모든 히스토리 데이터를 저장하고, 신속하게 즉석 쿼리를 보존하고, 품질 보고서를 일별로 자동화하는 능력으로 인해, 에버노트는 고객들이 자사 제품을 어떻게 이용하는지, 그리고 그 제품들이 어떤 방향으로 계속 향상되어야 하는지에 대한 새로운 통찰을 얻고 있다.  editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.