2019.10.22

'데이터 속 가치 찾기' 빅데이터 분석의 정의와 활용도

Bob Violino | InfoWorld
데이터는 무엇이고 빅데이터는 과연 무엇일까? 그리고 그 두 가지의 차이를 확실히 구분할 수 있을까?
 

빅데이터의 정의

빅데이터는 사용예가 다양해 명확히 좁혀서 정확히 정의하기 어렵다. 그러나 일반적으로 전통적인 데이터 처리 소프트웨어로는 합리적인 시간에 데이터를 캡처, 관리, 처리할 수 없을 정도로 양이 아주 많고, 복잡한 데이터 세트를 가리킨다.

빅데이터 세트는 구조화, 비구조화, 반구조화 데이터로 구성된다. 

어느 정도 양을 가진 데이터가 빅데이터인지 논쟁의 여지가 있지만, 일반적으로 몇 테라바이트, 규모가 큰 프로젝트는 엑사바이트의 양을 가진 데이터이다. 빅데이터는 3가지 V로 특징지어지는 경우가 많다.

•    아주 큰 데이터 볼륨(Volume, 양)
•    데이터 종류의 버라이어티(Variety, 다양성)
•    데이터 처리 및 분석에 필요한 벨로시티(Velocity, 속도)

빅데이터 스토어를 구성하는 데이터는 웹 사이트, 소셜 미디어, 데스크톱 및 모바일 앱, 과학적 실험 및 시험 등을 통해 입수할 수 있으며, 센서 등 IoT 장치에서 수집할 수 있는 데이터도 증가하는 추세이다.

빅데이터 개념에는 관련된 구성요소가 수반된다. 기업과 기관이 실제 데이터를 사용해 여러 비즈니스 문제를 해결할 수 있도록 도움을 주는 것들이다. 빅데이터 기술을 지원하는데 필요한 IT 인프라, 데이터에 적용하는 애널리틱스(분석 기법), 프로젝트에 필요한 빅데이터 플랫폼, 관련 스킬 세트(전문성 및 전문 인력), 실제 빅데이터 사용예가 이런 구성요소다.
 

데이터 분석이란?

빅데이터를 수집하는 기업과 기관, 조직이 여기에서 가치를 창출하려면 데이터를 분석해야 한다. 패턴과 상관관계, 인사이트, 트렌드를 발견하기 위해 데이터를 조사하는 분석을 실시하지 않을 경우, 데이터는 기업에서의 용도가 극히 제한된 수 많은 ‘이진수’에 불과하다.

기업은 빅데이터를 분석, 매출을 증대하고, 고객 서비스를 개선하고, 효율성을 높이고, 경쟁력을 강화하는 등의 혜택을 누릴 수 있다.

데이터 분석은 인사이트를 얻기 위해, 또는 트렌드나 미래 행동에 대한 예측 등에 대한 결론을 도출하기 위해 데이터 세트를 조사하는 과정으로 구성된다.

조직은 빅데이터 분석 도구를 사용해 정보를 분석, 마케팅 캠페인이나 신제품, 새로운 서비스 출시 시기와 장소 같은 비즈니스 의사결정을 강화할 수 있다.

애널리틱스(분석 도구)란 기본적인 비즈니스 인텔리전스 애플리케이션, 또는 과학을 다루는 조직에서 사용하는 고급 예측 분석 도구를 가리킨다. 가장 발전된 형태의 데이터 애널리틱스는 큰 데이터 세트를 평가, 관계와 패턴, 트렌드를 파악하는 데이터 마이닝을 예로 들 수 있다.

데이터 분석은 (데이터에서 패턴과 관계를 찾는)탐색적 데이터 분석과 (통계 기법을 사용, 특정 데이터 세트에 대해 가정한 내용이 맞는지 찾는)확인적 데이터 분석으로 분류할 수 있다.

또 정량적 데이터 분석(또는 통계적으로 비교할 수 있는 정량화 값을 갖고 있는 숫자 데이터를 분석)과 (비디오나 이미지, 텍스트 같은 숫자가 아닌 데이터에 초점이 맞춰진)정성적 데이터 분석으로 구분할 수 있다.
 

IT 인프라가 빅데이터를 지원하려면

조직이 빅데이터 개념을 실현시키려면 데이터를 수집해 보관하고, 액세스를 돕고, 저장된 정보나 이동 중인 정보를 안전하게 만들어 유지해주는 인프라가 있어야 한다. 또 빅데이터 분석 도구를 도입해 사용해야 한다.

크게 봤을 때 빅데이터용으로 만들어진 스토리지 시스템과 서버, 데이터 관리 및 통합 소프트웨어, 비즈니스 인텔리전스(BI) 및 데이터 분석 소프트웨어, 빅데이터 애플리케이션이 여기에 포함된다.

기업이 데이터센터에 투자한 것을 계속 활용할 방법을 찾기 때문에 상당수 인프라가 온프레미스 인프라가 될 확률이 높다. 그러나 빅데이터 요건 가운데 상당수를 처리할 때 클라우드 컴퓨팅 서비스를 활용하는 기업이 증가하고 있다.

데이터를 수집하기 위해서는 데이터를 수집할 소스가 있어야 한다. 이 가운데 정착된 것들이 많다. 웹 애플리케이션, 소셜 미디어 채널, 모바일 앱, 이메일 아카이브를 예로 들 수 있다. 그러나 IoT가 확대되면서, 기업들은 온갖 장치와 차량, 제품에서 데이터를 수집하기 위해 센서를 배포해야 한다. 또 사용자 데이터를 생성하는 새로운 애플리케이션을 활용한다 (IoT에 초점이 맞춰진 빅데이터 분석에 특정적인 전문 기법과 도구들이 있음).

이런 경로를 통해 유입되는 데이터를 저장 및 보관하기 위해 적합한 데이터 스토리지가 필요하다. 여기에 전통적인 데이터 웨어하우스, 데이터 레이크, 클라우드 기반 스토리지 등을 사용할 수 있다.

보안 인프라 도구로는 데이터 암화, 사용자 인증, 기타 액세스 관리, 모니터링 시스템, 방화벽, EMM(Enterprise Mobility Management), 기타 시스템 및 데이터 보호 제품이 사용된다.
 

빅데이터 기술

앞에 설명한 것들은 일반적으로 데이터에 사용되는 IT 인프라들이다. 여기에 더해, IT 인프라가 반드시 지원해야 하는 빅데이터 기술 몇 가지가 존재한다.

하둡 생태계
하둡은 빅데이터와 가장 밀접한 기술 중 하나이다. 아파치 하둡 프로젝트는 축소 및 확장이 가능한 분산형 컴퓨팅을 위한 오픈소스 소프트웨어를 개발했다.

하둡 소프트웨어 라이브러리는 단순한 프로그래밍 모델을 사용해 여러 컴퓨터 클러스터의 큰 데이터 세트를 분산형으로 처리할 수 있는 프레임워크이다. 1개 서버에서 각각 로컬 연산과 스토리지를 제공하는 수천 개 서버로 확장할 수 있다.

이 프로젝트는 몇 가지 모듈을 포함하고 있다.
•    하둡 커먼: 다른 하둡 모듈을 지원하는 공통 유틸리티
•    하둡 분산형 파일 시스템: 애플리케이션에 높은 처리량의 액세스를 제공
•    하둡 YARN: 작업 예약과 클러스터 리소스 관리 프레임워크
•    하둡 맵리듀스: 큰 데이터 세트를 병렬 처리할 수 있는 YARN 기반 시스템


아파치 스파크
하둡 생태계의 일부인 아파치 스파크는 하둡 내부에서 빅데이터를 처리하는 엔진 기능을 하는 오픈소스 클러스터 컴퓨팅 프레임워크이다. 스파크는 핵심 빅데이터 분산 처리 프레임워크 중 하나로 자리를 잡았으며, 다양한 방식으로 배포가 가능하다. 자바, 스칼라, 파이썬(특히 파이썬 아나콘다 배포판), R 프로그래밍 언어들(R은 빅데이터에 아주 적합)에 대한 네이티브 바인딩을 제공하고, SQL과 스트리밍 데이터, 머신 러닝, 그래픽 처리를 지원한다.

데이터 레이크
데이터 레이크는 아주 많은 원본 데이터를 비즈니스 사용자에게 필요하기 전까지 네이티브(원래) 형식으로 보관하는 스토리지 리포지토리다. 디지털 트랜스포메이션 이니셔티브와 IoT의 확산이 데이터 레이크의 성장 및 확대를 견인하고 있다. 데이터 레이크는 사용자가 필요할 때 많은 데이터에 더 손쉽게 액세스할 수 있도록 설계되어 있다.

NoSQL 데이터베이스
기존 SQL 데이터베이스는 신뢰할 수 있는 트랜젝션과 애드혹 쿼리에 맞게 설계되어 있다. 그러나 경직된 스키마 등의 제약이 일부 애플리케이션에 대한 적합성을 떨어뜨린다. NoSQL 데이터베이스는 이런 제약을 극복한다. 그리고 아주 빠른 속도와 유연성으로 데이터를 저장 및 관리할 수 있다. 대형 웹사이트를 위해 더욱 효과적으로 콘텐츠를 저장하고, 데이터를 처리할 방법을 찾았던 기업들이 이를 개발한 경우가 많다. SQL 데이터베이스와 다르게, 수 많은 서버에 수평적으로 축소 및 확장할 수 있는 NoSQL 데이터베이스가 많다.

인-메모리 데이터베이스
인-메모리 데이터베이스(IMDB)는 데이터 스토리지에 디스크보다는 메인 메모리를 주로 사용하는 데이터베이스 관리 시스템이다. 인-메모리 데이터베이스는 디스크 최적화 데이터베이스보다 속도가 빠르다. 이는 빅데이터 분석을 활용하고, 데이터 웨어하우스 및 데이터 마트를 구현할 때 중요하게 고려할 수 있는 사항이다.
 

빅데이터 스킬

빅데이터 및 빅데이터 분석 노력, 활동에는 특정 전문 스킬(전문성, 전문 인력)이 필요하다. 조직 내부에 이런 스킬이 있을 수도 있고, 외부 전문가를 활용할 수도 있다.

이런 스킬들 중 상당수는 하둡과 스파크, NoSQL 데이터베이스, 인-메모리 데이터베이스, 분석 소프트웨어 등 빅데이터 기술의 주요 구성요소와 관련이 있다.

기타 데이터 사이언스, 데이터 마이닝, 통계 및 정량적 분석, 데이터 비주얼리제이션, 범용 프로그래밍, 데이터 구조 및 알고리즘 분야의 스킬이 필요할 수도 있다. 완료될 때까지 빅데이터 프로젝트를 관리할 관리 스킬을 보유한 인재도 필요하다.

빅데이터 분석 프로젝트가 보편화되고 있는데, 이런 스킬을 가진 인재는 부족한 실정이다. 따라서 숙련된 전문가를 찾는 것이 가장 큰 도전과제 중 하나가 될 수도 있다.
 

빅데이터 분석 사용예

빅데이터와 분석을 활용할 수 있는 분야는 무궁무진하다.
•    고객 분석: 기업은 고객 경험을 강화하고, 전환율을 높이고, 유지율을 증가시키기 위해 고객 데이터를 조사할 수 있다.
•    운영 분석: 많은 기업이 운영 성과를 높이고, 기업 자산을 더 효과적으로 사용하는 목표를 추구한다. 빅데이터 분석 도구는 기업이 더 효율적으로 운영을 하고, 성과를 개선하는 방법을 찾는데 도움을 줄 수 있다.
•    사기 및 부정행위 방지: 빅데이터 도구와 분석은 사기나 부정행위를 가리키는 의심스러운 활동이나 패턴을 파악하도록 도움을 줄 수 있으며, 이를 통해 관련 위험을 경감시킨다.
•    가격 최적화: 빅데이터 분석을 활용, 제품과 서비스에 부과하는 가격을 최적화해 매출을 증대할 수 있다. editor@itworld.co.kr 


2019.10.22

'데이터 속 가치 찾기' 빅데이터 분석의 정의와 활용도

Bob Violino | InfoWorld
데이터는 무엇이고 빅데이터는 과연 무엇일까? 그리고 그 두 가지의 차이를 확실히 구분할 수 있을까?
 

빅데이터의 정의

빅데이터는 사용예가 다양해 명확히 좁혀서 정확히 정의하기 어렵다. 그러나 일반적으로 전통적인 데이터 처리 소프트웨어로는 합리적인 시간에 데이터를 캡처, 관리, 처리할 수 없을 정도로 양이 아주 많고, 복잡한 데이터 세트를 가리킨다.

빅데이터 세트는 구조화, 비구조화, 반구조화 데이터로 구성된다. 

어느 정도 양을 가진 데이터가 빅데이터인지 논쟁의 여지가 있지만, 일반적으로 몇 테라바이트, 규모가 큰 프로젝트는 엑사바이트의 양을 가진 데이터이다. 빅데이터는 3가지 V로 특징지어지는 경우가 많다.

•    아주 큰 데이터 볼륨(Volume, 양)
•    데이터 종류의 버라이어티(Variety, 다양성)
•    데이터 처리 및 분석에 필요한 벨로시티(Velocity, 속도)

빅데이터 스토어를 구성하는 데이터는 웹 사이트, 소셜 미디어, 데스크톱 및 모바일 앱, 과학적 실험 및 시험 등을 통해 입수할 수 있으며, 센서 등 IoT 장치에서 수집할 수 있는 데이터도 증가하는 추세이다.

빅데이터 개념에는 관련된 구성요소가 수반된다. 기업과 기관이 실제 데이터를 사용해 여러 비즈니스 문제를 해결할 수 있도록 도움을 주는 것들이다. 빅데이터 기술을 지원하는데 필요한 IT 인프라, 데이터에 적용하는 애널리틱스(분석 기법), 프로젝트에 필요한 빅데이터 플랫폼, 관련 스킬 세트(전문성 및 전문 인력), 실제 빅데이터 사용예가 이런 구성요소다.
 

데이터 분석이란?

빅데이터를 수집하는 기업과 기관, 조직이 여기에서 가치를 창출하려면 데이터를 분석해야 한다. 패턴과 상관관계, 인사이트, 트렌드를 발견하기 위해 데이터를 조사하는 분석을 실시하지 않을 경우, 데이터는 기업에서의 용도가 극히 제한된 수 많은 ‘이진수’에 불과하다.

기업은 빅데이터를 분석, 매출을 증대하고, 고객 서비스를 개선하고, 효율성을 높이고, 경쟁력을 강화하는 등의 혜택을 누릴 수 있다.

데이터 분석은 인사이트를 얻기 위해, 또는 트렌드나 미래 행동에 대한 예측 등에 대한 결론을 도출하기 위해 데이터 세트를 조사하는 과정으로 구성된다.

조직은 빅데이터 분석 도구를 사용해 정보를 분석, 마케팅 캠페인이나 신제품, 새로운 서비스 출시 시기와 장소 같은 비즈니스 의사결정을 강화할 수 있다.

애널리틱스(분석 도구)란 기본적인 비즈니스 인텔리전스 애플리케이션, 또는 과학을 다루는 조직에서 사용하는 고급 예측 분석 도구를 가리킨다. 가장 발전된 형태의 데이터 애널리틱스는 큰 데이터 세트를 평가, 관계와 패턴, 트렌드를 파악하는 데이터 마이닝을 예로 들 수 있다.

데이터 분석은 (데이터에서 패턴과 관계를 찾는)탐색적 데이터 분석과 (통계 기법을 사용, 특정 데이터 세트에 대해 가정한 내용이 맞는지 찾는)확인적 데이터 분석으로 분류할 수 있다.

또 정량적 데이터 분석(또는 통계적으로 비교할 수 있는 정량화 값을 갖고 있는 숫자 데이터를 분석)과 (비디오나 이미지, 텍스트 같은 숫자가 아닌 데이터에 초점이 맞춰진)정성적 데이터 분석으로 구분할 수 있다.
 

IT 인프라가 빅데이터를 지원하려면

조직이 빅데이터 개념을 실현시키려면 데이터를 수집해 보관하고, 액세스를 돕고, 저장된 정보나 이동 중인 정보를 안전하게 만들어 유지해주는 인프라가 있어야 한다. 또 빅데이터 분석 도구를 도입해 사용해야 한다.

크게 봤을 때 빅데이터용으로 만들어진 스토리지 시스템과 서버, 데이터 관리 및 통합 소프트웨어, 비즈니스 인텔리전스(BI) 및 데이터 분석 소프트웨어, 빅데이터 애플리케이션이 여기에 포함된다.

기업이 데이터센터에 투자한 것을 계속 활용할 방법을 찾기 때문에 상당수 인프라가 온프레미스 인프라가 될 확률이 높다. 그러나 빅데이터 요건 가운데 상당수를 처리할 때 클라우드 컴퓨팅 서비스를 활용하는 기업이 증가하고 있다.

데이터를 수집하기 위해서는 데이터를 수집할 소스가 있어야 한다. 이 가운데 정착된 것들이 많다. 웹 애플리케이션, 소셜 미디어 채널, 모바일 앱, 이메일 아카이브를 예로 들 수 있다. 그러나 IoT가 확대되면서, 기업들은 온갖 장치와 차량, 제품에서 데이터를 수집하기 위해 센서를 배포해야 한다. 또 사용자 데이터를 생성하는 새로운 애플리케이션을 활용한다 (IoT에 초점이 맞춰진 빅데이터 분석에 특정적인 전문 기법과 도구들이 있음).

이런 경로를 통해 유입되는 데이터를 저장 및 보관하기 위해 적합한 데이터 스토리지가 필요하다. 여기에 전통적인 데이터 웨어하우스, 데이터 레이크, 클라우드 기반 스토리지 등을 사용할 수 있다.

보안 인프라 도구로는 데이터 암화, 사용자 인증, 기타 액세스 관리, 모니터링 시스템, 방화벽, EMM(Enterprise Mobility Management), 기타 시스템 및 데이터 보호 제품이 사용된다.
 

빅데이터 기술

앞에 설명한 것들은 일반적으로 데이터에 사용되는 IT 인프라들이다. 여기에 더해, IT 인프라가 반드시 지원해야 하는 빅데이터 기술 몇 가지가 존재한다.

하둡 생태계
하둡은 빅데이터와 가장 밀접한 기술 중 하나이다. 아파치 하둡 프로젝트는 축소 및 확장이 가능한 분산형 컴퓨팅을 위한 오픈소스 소프트웨어를 개발했다.

하둡 소프트웨어 라이브러리는 단순한 프로그래밍 모델을 사용해 여러 컴퓨터 클러스터의 큰 데이터 세트를 분산형으로 처리할 수 있는 프레임워크이다. 1개 서버에서 각각 로컬 연산과 스토리지를 제공하는 수천 개 서버로 확장할 수 있다.

이 프로젝트는 몇 가지 모듈을 포함하고 있다.
•    하둡 커먼: 다른 하둡 모듈을 지원하는 공통 유틸리티
•    하둡 분산형 파일 시스템: 애플리케이션에 높은 처리량의 액세스를 제공
•    하둡 YARN: 작업 예약과 클러스터 리소스 관리 프레임워크
•    하둡 맵리듀스: 큰 데이터 세트를 병렬 처리할 수 있는 YARN 기반 시스템


아파치 스파크
하둡 생태계의 일부인 아파치 스파크는 하둡 내부에서 빅데이터를 처리하는 엔진 기능을 하는 오픈소스 클러스터 컴퓨팅 프레임워크이다. 스파크는 핵심 빅데이터 분산 처리 프레임워크 중 하나로 자리를 잡았으며, 다양한 방식으로 배포가 가능하다. 자바, 스칼라, 파이썬(특히 파이썬 아나콘다 배포판), R 프로그래밍 언어들(R은 빅데이터에 아주 적합)에 대한 네이티브 바인딩을 제공하고, SQL과 스트리밍 데이터, 머신 러닝, 그래픽 처리를 지원한다.

데이터 레이크
데이터 레이크는 아주 많은 원본 데이터를 비즈니스 사용자에게 필요하기 전까지 네이티브(원래) 형식으로 보관하는 스토리지 리포지토리다. 디지털 트랜스포메이션 이니셔티브와 IoT의 확산이 데이터 레이크의 성장 및 확대를 견인하고 있다. 데이터 레이크는 사용자가 필요할 때 많은 데이터에 더 손쉽게 액세스할 수 있도록 설계되어 있다.

NoSQL 데이터베이스
기존 SQL 데이터베이스는 신뢰할 수 있는 트랜젝션과 애드혹 쿼리에 맞게 설계되어 있다. 그러나 경직된 스키마 등의 제약이 일부 애플리케이션에 대한 적합성을 떨어뜨린다. NoSQL 데이터베이스는 이런 제약을 극복한다. 그리고 아주 빠른 속도와 유연성으로 데이터를 저장 및 관리할 수 있다. 대형 웹사이트를 위해 더욱 효과적으로 콘텐츠를 저장하고, 데이터를 처리할 방법을 찾았던 기업들이 이를 개발한 경우가 많다. SQL 데이터베이스와 다르게, 수 많은 서버에 수평적으로 축소 및 확장할 수 있는 NoSQL 데이터베이스가 많다.

인-메모리 데이터베이스
인-메모리 데이터베이스(IMDB)는 데이터 스토리지에 디스크보다는 메인 메모리를 주로 사용하는 데이터베이스 관리 시스템이다. 인-메모리 데이터베이스는 디스크 최적화 데이터베이스보다 속도가 빠르다. 이는 빅데이터 분석을 활용하고, 데이터 웨어하우스 및 데이터 마트를 구현할 때 중요하게 고려할 수 있는 사항이다.
 

빅데이터 스킬

빅데이터 및 빅데이터 분석 노력, 활동에는 특정 전문 스킬(전문성, 전문 인력)이 필요하다. 조직 내부에 이런 스킬이 있을 수도 있고, 외부 전문가를 활용할 수도 있다.

이런 스킬들 중 상당수는 하둡과 스파크, NoSQL 데이터베이스, 인-메모리 데이터베이스, 분석 소프트웨어 등 빅데이터 기술의 주요 구성요소와 관련이 있다.

기타 데이터 사이언스, 데이터 마이닝, 통계 및 정량적 분석, 데이터 비주얼리제이션, 범용 프로그래밍, 데이터 구조 및 알고리즘 분야의 스킬이 필요할 수도 있다. 완료될 때까지 빅데이터 프로젝트를 관리할 관리 스킬을 보유한 인재도 필요하다.

빅데이터 분석 프로젝트가 보편화되고 있는데, 이런 스킬을 가진 인재는 부족한 실정이다. 따라서 숙련된 전문가를 찾는 것이 가장 큰 도전과제 중 하나가 될 수도 있다.
 

빅데이터 분석 사용예

빅데이터와 분석을 활용할 수 있는 분야는 무궁무진하다.
•    고객 분석: 기업은 고객 경험을 강화하고, 전환율을 높이고, 유지율을 증가시키기 위해 고객 데이터를 조사할 수 있다.
•    운영 분석: 많은 기업이 운영 성과를 높이고, 기업 자산을 더 효과적으로 사용하는 목표를 추구한다. 빅데이터 분석 도구는 기업이 더 효율적으로 운영을 하고, 성과를 개선하는 방법을 찾는데 도움을 줄 수 있다.
•    사기 및 부정행위 방지: 빅데이터 도구와 분석은 사기나 부정행위를 가리키는 의심스러운 활동이나 패턴을 파악하도록 도움을 줄 수 있으며, 이를 통해 관련 위험을 경감시킨다.
•    가격 최적화: 빅데이터 분석을 활용, 제품과 서비스에 부과하는 가격을 최적화해 매출을 증대할 수 있다. editor@itworld.co.kr 


X