AIㆍML / 데이터ㆍ분석

데이터 분석 플랫폼을 선택하는 방법

Isaac Sacolick | InfoWorld 2020.07.15
소프트웨어 개발, 데브옵스(devops), 시스템, 클라우드, 테스트 자동화, 사이트 안정성, 스크럼 팀 리더, 정보보안 또는 기타 정보 기술 영역에 이르기까지, 어떤 일을 맡고 있든 관계없이 데이터와 분석, 머신러닝(machine learning)에 대한 기회와 요구사항은 앞으로 함께 늘어날 것이다.

분석은 보통 IT 데이터를 통해 접하게 된다. 예를 들어 애자일(agile), 데브옵스 또는 웹사이트 메트릭스에서 메트릭스와 인사이트를 개발하는 경우가 있다. 데이터, 분석, 머신러닝에 대한 기본적인 기술과 툴을 익히기에 가장 좋은 방법은 이를 자신이 아는 데이터에 적용해 행동을 이끌 수 있는 인사이트를 발굴하는 것이다. 

IT 데이터 세계를 벗어나 데이터 과학자 팀, 시민 데이터 과학자, 기타 데이터 시각화와 분석, 머신러닝을 수행하는 비즈니스 분석가에게 서비스를 제공한다면 조금 더 복잡해진다.

먼저 데이터를 로드하고 정제해야 한다. 그 이후에는 데이터의 볼륨, 다양성, 속도에 따라 여러 백엔드 데이터베이스 및 클라우드 데이터 기술에 직면하게 된다. 마지막으로, 수년 전에는 비즈니스 인텔리전스와 데이터 시각화 툴 사이의 간단한 선택이 이제는 분석 및 머신러닝 플랫폼의 전체 라이프라이클에 대한 복잡한 매트릭스로 발전했다.

분석 및 머신러닝이 중요해지면서 여러 영역에서 IT의 책임도 늘어났다. 예를 들면 다음과 같다.
 
  • IT는 데이터 통합, 백엔드 데이터베이스, 분석 플랫폼에 대한 서비스를 제공하는 경우가 많다.
  • 데브옵스 팀은 머신러닝 모델에 대한 테스트를 가능하게 하고 이후 프로덕션 데이터 처리를 지원하기 위해 데이터 인프라를 배포, 확장하는 경우가 많다.
  • 네트워크 운영 팀은 SaaS 분석 툴, 멀티 클라우드, 데이터센터 간에 안전한 연결을 설정한다.
  • IT 서비스 관리 팀은 데이터 및 분석 서비스 요청과 사고에 대응한다.
  • 정보보안은 데이터 보안 거버넌스와 구현을 감독한다.
  • 개발자는 분석과 머신러닝 모델을 애플리케이션으로 통합한다.

분석, 클라우드 데이터 플랫폼, 머신러닝 기능의 폭발적인 성장에 직면해 데이터 통합과 정제부터 데이터옵스(dataops), 모델옵스(modelops), 데이터베이스, 데이터 플랫폼, 분석 제품 자체에 이르기까지 분석 라이프라이클을 더 정확히 파악하기 위한 기초적인 정보를 알아보자.


분석의 시작은 데이터 통합과 데이터 정제

분석가, 시민 데이터 과학자 또는 데이터 과학 팀이 분석을 수행하려면 데이터 시각화 및 분석 플랫폼에서 필요한 데이터 소스에 액세스할 수 있어야 한다.

먼저 비즈니스를 위해 여러 기업용 시스템의 데이터를 통합하고 SaaS 애플리케이션에서 데이터를 추출하거나 IoT 센서와 기타 실시간 데이터 소스에서 데이터를 스트리밍하는 것으로 시작한다. 

이는 모두 분석과 머신러닝을 위해 데이터를 수집, 로드, 통합하기 위한 단계다. 데이터의 복잡성과 데이터 품질 문제에 따라 데이터옵스, 데이터 카탈로그, 마스터 데이터 관리 및 기타 데이터 거번넌스 이니셔티브가 개입될 수 있다.

“쓰레기가 들어오면 쓰레기가 나간다(garbage in, garbage out)”는 문구는 모두가 안다. 분석가는 데이터의 품질에 신경을 써야 하고, 데이터 과학자는 머신러닝 모델의 편향성(biases)에 주의를 기울여야 한다. 또한 실시간 데이터 지향성을 더 높이고자 하는 기업이라면 신규 데이터 통합의 시기적절함도 중요하다. 이런 이유로 데이터를 로드하고 처리하는 파이프라인은 분석과 머신러닝에 매우 중요하다.


모든 유형의 데이터 관리 문제에 대처하기 위한 데이터베이스와 데이터 플랫폼

데이터 로드와 처리는 필수적인 첫 단계지만, 최적의 데이터베이스를 선택하기는 다소 복잡하다. 지금 선택할 수 있는 옵션에는 EDW(Enterprise Data Warehouses), 데이터 레이크(data lakes), 빅데이터 처리 플랫폼, 그리고 전문 NoSQL, 그래프, 키-값(key-value), 문서, 컬럼 기반(columnar) 데이터베이스를 포함한다. 

대규모 데이터 웨어하우스와 분석을 지원하기 위한 플랫폼으로는 스노우플레이크(Snowflake), 레드시프트(Redshift), 빅쿼리(BigQuery), 버티카(Vertica), 그린플럼(Greenplum)이 있다. 마지막으로, 스파크(Spark)와 하둡(Hadoop)을 포함한 빅데이터 플랫폼이 있다.

대기업은 보통 여러 개의 데이터 저장소를 두고 클라우데라 데이터 플랫폼(Cloudera Data Platform) 또는 맵R(MapR) 데이터 플랫폼과 같은 클라우드 데이터 플랫폼이나 인포웍스 데이터파운드리(InfoWorks DataFoundy)와 같은 데이터 오케스트레이션 플랫폼(data orchestration platforms)을 사용해 모든 저장소를 분석에 이용할 수 있도록 한다.

AWS, GCP(Google Cloud Platform), 애저(Azure)와 같은 주요 퍼블릭 클라우드에는 모두 다양한 데이터 관리 플랫폼과 서비스가 있다. 예를 들어 애저 시냅스 애널리틱스(Azure Synapse Analytics)는 마이크로소프트의 클라우드 SQL 데이터 웨어하우스이며 애저 코스모스(Azure Cosmos) DB는 카산드라(Cassandra, 컬럼 데이터), 몽고DB(MongoDB, 키-값 및 문서 데이터), 그렘린(Gremlin, 그래프 데이터)을 포함한 많은 NoSQL 데이터 저장소를 위한 인터페이스를 제공한다.

데이터 레이크는 빠른 분석을 위해 비정형 데이터를 중앙화하는 과정에서 많이 사용되며, 애저 데이터 레이크(Azure Data Lake), 아마존 S3, 구글 클라우드 스토리지 중에서 선택할 수 있다. 빅데이터 처리의 경우 AWS, GCP, 애저 클라우드 모두 스파크와 하둡을 제공한다.


머신러닝과 협업을 위한 분석 플랫폼

데이터가 로드, 정제, 저장되면 데이터 과학자와 분석가는 분석과 머신러닝을 시작할 수 있다. 분석의 유형, 작업을 수행하는 분석 팀의 기술, 그리고 기반 데이터의 구조에 따라 조직은 여러 가지를 선택할 수 있다.

분석은 태블로(Tableau), 마이크로소프트 파워 BI와 같은 셀프 서비스 데이터 시각화 툴에서 수행이 가능하다. 이 2가지 툴 모두 시민 데이터 과학자를 대상으로 하며 시각화, 계산, 기본적인 분석을 제공한다. 이런 툴은 기본적인 데이터 통합과 데이터 구조 조정을 지원하지만 분석 단계에 앞서 더 복잡한 데이터 랭글링(data wrangling)이 수반되는 경우가 많다. 태블로 데이터 프렙(Tableau Data Prep)과 애저 데이터 팩토리(Azure Data Factory)는 통합과 변환을 지원하는 툴이다.    

단순한 데이터 통합 및 준비 이상의 자동화를 원하는 분석 팀이라면 알테릭스 애널리틱스 프로세스 오토메이션(Alteryx Analytics Process Automation)과 같은 플랫폼을 사용할 수 있다. 이는 엔드 투 엔드 협업 플랫폼으로, 워크플로우 자동화 및 셀프 서비스 데이터 처리, 분석, 머신러닝 처리 기능으로 개발자와 분석가, 시민 데이터 과학자 및 데이터 과학자를 연결해준다.

알테릭스의 최고 분석 및 데이터 책임자인 앨런 제이콥슨은 “분석 프로세스 자동화(Analytic Process Automation, APA)가 하나의 분야로 부상하면서 조직의 모든 작업자가 데이터 작업자가 되어야 한다는 새로운 기대가 형성됐다. IT 개발자도 더 이상 예외가 아니며, 알테릭스 APA 플랫폼의 확장 가능성은 이와 같은 지식 근로자에게 특히 유용하다”라고 설명했다.

파이썬(Python), R과 같은 기술로 생산성을 높이면서 운영과 인프라 단계의 많은 부분을 간소화하는 데이터 과학자를 대상으로 하는 툴과 플랫폼은 여러 가지다. 예를 들어 데이터브릭스(Databricks)는 아파치 스파크와 텐서플로우(TensorFlow)에 알고리즘을 배포할 수 있게 해주면서 AWS 또는 애저 클라우드의 컴퓨팅 클러스터를 자율적으로 관리하는 데이터 과학 운영 플랫폼이다.

현재 SAS 바이아(Viya)와 같은 몇몇 플랫폼은 데이터 준비, 분석, 예측, 머신러닝, 텍스트 분석, 머신러닝 모델 관리를 하나의 모델옵스(modelops) 플랫폼으로 결합했다. SAS는 분석을 실용화하며, 엔드 투 엔드 협업 플랫폼으로 데이터 과학자와 비즈니스 분석가, 개발자, 경영진을 대상으로 한다.

SAS 의사 결정 관리 연구개발 부문 책임자인 데이비드 덜링은 "우리는 모델옵스를 인공지능과 머신러닝 모델을 포함한 운영 시스템에 모든 분석을 배포하기 위한 반복 가능, 감사 가능한 운영 파이프라인을 만드는 방법으로 본다. 모델옵스에서 코드 관리, 테스트, 모니터링에 현대적 데브옵스 방식을 사용할 수 있다. 이는 모델 배포의 빈도와 안정성을 개선하는 데 도움이 되며 결과적으로 이런 모델을 기반으로 하는 비즈니스 프로세스의 민첩성이 높아진다”라고 말했다.

다타이쿠(Dataiku) 역시 데이터 준비, 분석, 머신러닝을 데이터 과학 팀 및 협력 작업자에게 제공하는 플랫폼이다. 다타이쿠에는 협업을 위한 시각적 프로그래밍 모델과 더 고수준의 SQL 및 파이썬 개발자를 위한 코드 노트북이 있다.

이 외에 분석 기능을 데이터센터와 클라우드 데이터 소스로 가져오는 주요 엔터프라이즈 소프트웨어 공급업체의 분석 및 머신러닝 플랫폼도 있다. 예를 들어 오라클 애널리틱스 클라우드(Oracle Analytics Cloud)와 SAP 애널리틱스 클라우드(SAP Analytics Cloud)는 엔드 투 엔드 의사 결정을 지원하기 위해 인텔리전스를 중앙화하고 인사이트를 자동화한다.


데이터 분석 플랫폼 선택

빅데이터와 머신러닝, 데이터 거버넌스 시대 이전에는 데이터 통합, 웨어하우징 및 분석 툴의 선택은 간단했다. 그러나 지금은 여러 용어와 플랫폼 기능, 운영과 거버넌스 요구 사항, 사용자 페르소나가 혼합되어 있고 특히 많은 공급업체가 다양한 사용 방법을 지원하고 있어 플랫폼 선택 과정이 복잡하다.

분석 요구 사항은 기업마다 다르지만 현재의 상황을 기준으로 새로운 플랫폼을 찾아야 한다. 예를 들면 다음과 같다.
 
  • 시민 데이터 과학 프로그램으로 성공을 거두었고 이미 데이터 시각화 툴을 보유한 기업은 분석 프로세스 자동화 또는 데이터 준비 기술로 이 프로그램을 확장할 수 있다.
  • 비즈니스의 다양한 부분에서 작업하는 데이터 과학자를 지원하기 위한 툴체인을 원하는 기업은 모델옵스 기능이 있는 엔드 투 엔드 분석 플랫폼을 고려할 수 있다. 
  • 여러 개별 백엔드 데이터 플랫폼이 있는 경우, 이를 분류화하고 중앙에서 관리하기 위한 클라우드 데이터 플랫폼이 유용할 수 있다.
  • 데이터 기능 전부 또는 대부분을 단일 퍼블릭 클라우드 공급업체로 표준화하는 기업은 데이터 통합, 데이터 관리 및 데이터 분석 플랫폼을 살펴봐야 한다.

분석과 머신러닝이 중요한 핵심 역량이 되는 상황에서 IT 분야 종사자는 사용 가능한 플랫폼과 각각의 기능에 대한 이해를 높여야 한다. 분석 플랫폼의 힘과 가치는 앞으로도 계속 커지고, 이에 따라 기업 전반에 미치는 영향도 커질 것이기 때문이다. editor@itworld.co.kr 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.