데이터 과학을 통한 혁신에 오픈소스가 꼭 필요하다
88
%
자료 제목 :
2023년 데이터 과학 및 머신 러닝 현황
The State of Data Science and Machine Learning in 2023
자료 출처 :
Knime, ESG
원본자료 다운로드
발행 날짜 :
2023년 11월 08일
데이터ㆍ분석

"잘한 의사결정이 성패 좌우한다" 데이터 기반 기업을 위한 분석 프로세스 개선 7단계

Isaac Sacolick | InfoWorld 2024.07.04
데이터 기반 기업이 되기를 바라는 리더의 핵심 목표는 비즈니스 담당자가 데이터, 예측 모델, 생성형 AI 기능, 데이터 시각화를 사용해서 의사 결정을 개선할 수 있도록 하는 것이다. 
 
ⓒ Getty Images Bank

리더는 긍정적인 비즈니스 혜택을 산출하는 더 현명한 의사 결정, 기회에 대응하기 위한 더 빠른 의사 결정, 위험을 최소화하기 위한 더 안전한 의사 결정, 그리고 기업 전반에서 분석 툴을 사용하는 직원 수를 늘리기 위한 변화 관리의 원칙을 추구한다. 또한 이들은 최신 ML 모델과 AI 기능, 새로운 데이터 자산을 사용해 데이터가 규정을 준수하고 보호되며, 안전하도록 보장하는 확장 가능한 솔루션을 찾는다.

SW 공급망 관리 업체 소나타입(Sonatype) CEO 웨인 잭슨은 “경쟁 우위를 점하기 위해서는 경쟁사보다 혁신의 우위를 점해야 하며 이를 좌우하는 것은 신속하고 효과적인 의사 결정이다. 리더는 전체적인 그림을 보고 정보에 근거한 의사 결정을 내려야 하는데, 그 정도의 가시성을 얻기 위해서는 포괄적인 데이터가 필요하다. 그러나 데이터만으로는 프로세스를 개선하거나 가속화할 수 없다. 그 데이터에서 의미를 끌어낼 수 있어야 한다”라고 말했다. 

많은 기업이 데이터 아키텍처에 투자하고 분석 툴을 배포하고, ML 모델을 구축하고, 데이터 시각화 기능을 구현하고도 느린 최종 사용자 도입과 실망스러운 비즈니스 효과에 직면하곤 한다. 데이터 과학 및 머신 러닝 현황 보고서에 따르면, 보유한 ML 모델 중 프로덕션에 배포한 비율이 25% 미만인 기업이 45%에 이른다. 

여기서는 ‘분석 툴 배포’와 ‘의사 결정을 위한 최종 사용자 채택’ 사이의 간극을 해소하는 데 도움이 되는 7가지 단계를 살펴본다. 앞의 4단계는 개별 팀, 부서, 사업부가 분석 개발 프로세스를 개선하는 방법에 초점을 둔다. 뒤의 3단계는 더 큰 범위의 비즈니스와 기업 전반으로 이를 확장하는 방법에 관한 것이다. 


1. 최종 사용자의 의사 결정 흐름 이해

새로운 데이터 집합이나 분석 도메인에 대한 사전 탐색은 중요하다. 그러나 여기에 너무 치중한 채 개념 증명을 프로덕션에 배포하면 정작 중요한 단계인 최종 사용자 페르소나를 정의하고 이들의 워크플로우를 검토하고 분석이 필요한 의사 결정과 행동에 대해 논의하는 단계를 빼먹기 쉽다. 

데이터 분석 솔루션 업체 트레덴스(Tredence)의 최고 전략 책임자인 수멘드라 모한티는 “전통적으로 분석은 잘 정리된 데이터로 시작해서 세심하게 계획된 일련의 알고리즘을 적용하고 데이터가 산출하는 내용을 검토하고 시각적 형태로 권장 사항을 노출하는 방식으로 개발이 이뤄졌다. 이런 접근 방식에서는 재고 관리자, 캠페인 디렉터 또는 공장 창고 담당자를 불문하고 일상적인 활동에서 의사 결정을 내리고 이를 실행에 옮기기 위해 수시로 실시간 권장 사항과 지침을 찾는 최종 사용자의 의견이 수렴되지 않는다”라고 말했다. 

최종 사용자에게 물어야 할 질문은 다음과 같다. 
 
  • 최종 사용자와 관리자가 현재 어떤 방식으로, 언제, 얼마나 자주 주요 의사 결정을 내리는가? 
  • 더 신속하고 정확한 의사 결정의 가치에 대비하여 잘못되거나 느린 의사 결정이 미치는 영향은 무엇인가? 
  • 의사 결정을 위해 어떤 데이터와 정보를 사용하며, 그 정보에 액세스하기 위해 어떤 단계를 거치는가? 
  • 의사 결정을 행동으로 옮기기 위해 어떤 툴을 사용하는가? 

핵심은 분석이 워크플로우에 어떻게 적용되는지, 어떤 통합을 고려해야 하는지, 자동화가 가능한 부분이 어디인지를 파악하는 것이다. 


2. 데이터 품질 요구사항과 교정 정의 

물론 최종 사용자 대부분은 통계적 분석, ML, 생성형 AI 솔루션을 구분하지 못한다. 그러나 데이터가 잘못되거나 솔루션이 제시하는 권장 사항에 문제가 있는 경우는 쉽게 알아차릴 수 있다. 데이터 품질 개선은 반복적인 과정이지만 개발 프로세스에서 충분히 초기에 해결하지 않을 경우 최종 사용자는 신뢰를 잃고 이전에 작업했던 방식으로 돌아가게 된다. 

SAP HANA 데이터베이스 및 분석 부문 사장이자 최고 제품 책임자인 어판 칸은 “즉시 사용 가능한 고품질의 비즈니스 데이터는 정확한 엔터프라이즈 분석을 보장하고 생성형 AI의 이점을 활용하기 위해 필수적이다. 강력한 데이터 기반과 복잡한 환경 전반의 데이터에 대한 통합된 시야를 갖춰야만 기업 전역에서 완전히 디지털화된 비즈니스 프로세스와 단절 없는 데이터 교환을 촉진할 수 있다. 깨끗한 비즈니스 데이터가 없으면 AI에서 도출된 정보의 대부분을 신뢰하거나 효과적으로 사용할 수 없다”라고 말했다. 

애자일 데이터 과학팀을 위한 기업은 분석 기능을 실현하기 위한 데이터 통합과 품질 요구사항을 중시한다. 이런 기업은 데이터 품질 지표를 비기능적 요구사항으로 정의하고 개선을 위한 노력을 공지하고 지표가 개선되면 이해관계자들에게 이를 알린다. 


3. 데이터 확보 시간과 의사 결정의 가속화 

데이터 품질 외에, 팀은 속도와 관련된 다른 2가지 분석 지표에도 주의를 기울여야 한다. 데이터 확보 시간(time-to-data)은 데이터 수신과 처리에서 발생하는 지연을 가리키며, 의사 결정 시간(time-to-decision)은 데이터를 사용할 수 있는 시점부터 최종 사용자가 의사 결정을 내리기까지의 인적 요소, 사용성, 통합, 자동화 수준을 나타낸다. 

릴레이셔널AI(RelationalAI)의 연구 ML 부문 부사장인 니콜라오스 바실로글로우는 “몇 년 전까지 데이터 확보 시간은 고빈도 트레이딩 플랫폼의 전유물이었다. 지금은 누구나 저렴하고 무한한 스토리지, 컴퓨팅, 소프트웨어 툴에 액세스해서 실시간으로 데이터를 소비할 수 있다”라고 말했다.

점점 더 많은 기업이 확장 가능한 인프라를 확보할 수 있지만, 데이터 관리를 최적화하고 견고한 데이터 파이프라인을 개발하기 위해서는 아키텍처 계획과 설계가 필요하다. 함정을 피하는 방법 중 하나는 작은 범위의 분석 목표부터 시작해서 아키텍처의 성능을 검증하면서 사용량, 데이터, 기능을 확장해 나가는 것이다. 


4. 데이터 보호 조기 구현 

조급하게 분석 솔루션의 프로토타입을 제작하고 저지연 데이터 파이프라인을 확보하려고 하면 규제 대상 데이터가 침해될 때 상당한 위험과 비용이 발생할 수 있다. 필요한 데이터 보호를 데이터 파이프라인과 데이터 관리 플랫폼에서 처리하는 편이 분석 솔루션에서 구현하는 것보다 더 비용 효율적인 경우가 많다. 

데이터보안 플랫폼 업체 배플(Baffle) CEO 아미시 디바샤는 “모든 규제 대상 데이터는 데이터 파이프라인의 초기에, 즉 데이터가 생성되거나 캡처될 때 암호화된 방식으로 보호되어야 한다. 이렇게 하면 데이터를 사용하기 전에 부가적인 데이터 탐색이나 검토가 불필요하므로 생성형 AI를 포함해서 모든 사용 사례의 다운스트림 데이터 사용 속도가 훨씬 더 빨라진다”라고 말했다. 

또한 프로세스의 초기에 데이터 보호를 구현하면 데이터 보호 모범 사례에 최종 사용자와 이해관계자를 참여시킬 기회도 얻게 된다. 


5. 데이터 거버넌스 프로그램 확장 

지금까지 설명한 단계는 개별 사용 사례의 분석 구현과 의사 결정을 개선하는 데 도움이 될 수 있다. 분석 기반 의사 결정을 여러 비즈니스, 부서 또는 영역으로 확장하기 위해서는 분석 운영 모델을 발전시키고 데이터 거버넌스 정책과 관행을 수립해야 한다. 

데이터 인텔리전스 플랫폼 업체 콜리브라(Collibra) CEO 펠릭스 반드 말레는 상당한 규모의 대기업도 빠르게 데이터 거버넌스 관행을 구축할 수 있다면서 “데이터 거버넌스는 AI의 진정한 잠재력을 끌어내기 위한 기반이다. 세계에서 가장 유명한 브랜드 중 하나인 맥도널드는 60일 만에 신뢰할 수 있는 데이터 기반을 구축했고, 이미 21개국의 570명 이상의 사용자가 참여하고 있다. 이런 발전을 통해 맥도널드는 데이터 사용 방식을 혁신하고 전 세계 비즈니스 사용자를 위해 더 높은 투명성과 신뢰, 속도를 달성했다”라고 말했다.  

데이터 기반 기업을 확장하기 위한 핵심 데이터 거버넌스 툴은 데이터 카탈로그다. 데이터 카탈로그는 액세스 정책을 구현하고 권한 부여를 구성하고 검색을 활성화하고 데이터 사전을 유지하는 데 유용하다. 주요 데이터 카탈로그 및 품질 벤더에는 알레이션(Alation), 콜리브라, 인포매티카(Informatica), 구글, 히타치 밴타라(Hitachi Vantara), IBM, 마이크로소프트, 오라클, 프리사이슬리(Precisely), SAP, SAS, 탈렌드(Talend)가 포함된다. 

데이터 무결성 툴 제공업체 프리사이슬리(Precisely)의 제품 관리 담당 수석 부사장인 에밀리 워싱턴은 “견고한 데이터 거버넌스와 선제적 품질 모니터링을 제공하는 데이터 카탈로그는 자신 있는 비즈니스 의사 결정의 기반이 된다. AI 시대에 이르러 관리되지 않거나 부정확한 데이터로 인한 위험이 더 커진 만큼 사용자가 데이터와 그 데이터의 기반 상태를 포괄적으로 이해할 수 있게 해주는 데이터 카탈로그에 우선  순위를 두면 사용자가 효과적으로 데이터를 활용하도록 하고, AI와 고급 분석에서 도출된 신뢰할 수 있는 비즈니스 의사 결정을 통해 매출과 수익 증대를 이끌 수 있다”라고 말했다. 

가트너의 최근 보고서에 따르면, 최고 데이터 및 분석 책임자(CDAO)의 78%는 혁신 지원을 강화하기 위해 운영 모델을 발전시키고 있으며, 61%는 챗GPT를 포함한 시장 파괴가 이런 추세의 기폭제가 됐다고 답했다. 운영 모델을 발전시키는 데 있어 한 가지 중요한 측면은 데이터 카탈로그 생성, 데이터 리소스 중앙화, 데이터 품질 개선과 같은 선제적 데이터 거버넌스 관행을 가속화하는 것이다. 


6. 구현 표준 설정과 개선 

구현 표준 만들기는 데이터 거버넌스에 속하는 경우도 있지만 툴, 개발 수명 주기, 테스트, 배포 요구사항, 문서화, 사용성 표준은 더 넓은 분야를 다룬다. 데이터 기반 기업은 데이터 과학팀이 최종 사용자에게 집중하고 혜택을 제공할 수 있도록 표준을 만들고 발전시킨다. 표준 플레이북은 제공 속도를 높이고 베스트 프랙티스를 확장하고 배포 요구사항을 설정하는 데 도움이 된다. 

금융 기업 캐피털 원(Capital One)의 엔지니어링 담당 부사장인 마티 안돌리노는 데이터 표준 수립을 위한 권장 사항과 그에 따르는 혜택에 대해 “메타데이터, 품질, 형식, SLA, 관찰가능성과 같은 데이터 표준은 데이터 수명 주기 전반에서 무결성과 사용 편의성, 보안을 보장한다. 이런 표준을 통합된 셀프서비스 경험에 내장하면 사용자가 전사적으로 공유되는 데이터를 신뢰하고 사용할 수 있게 된다”라고 말했다. 

더 스마트한 데이터 시각화를 위한 또 다른 베스트 프랙티스는 레이아웃, 차트 유형, 색 구성, 명명 규칙과 기타 사용 편의성에 대한 고려 사항을 다루는 스타일 가이드를 정의하는 것이다. 대시보드의 속도가 너무 느리거나 구체적인 문제 해결을 지향하지 않거나 여러 대시보드에 사용성과 관련된 표준이 없는 경우 대시보드의 사용률이 떨어질 수 있다. 

또 다른 고려 사항은 분석 툴과, 대시보드, ML 모델을 어떻게 테스트할 것인지다. SW 엔지니어링 및 IT 컨설팅 기업 제비아 데이터(Xebia Data)의 이사인 지오바니 란자니는 데이터팀이 “비즈니스 사용자에게 부정확한 인사이트를 제공하지 않도록 소스부터 시작해서 모든 변환을 거쳐 데이터를 테스트해서 궁극적으로 비즈니스가 의존하는 인사이트를 도출하고 문제가 발생하는 즉시 포착해야 한다”라고 조언했다.  

대규모 운영과 분석, 비정형 데이터 집합을 보유한 대기업이라면 데이터 관리 및 아키텍처 표준도 정의해야 한다. EDB의 제품 관리 담당 부사장 아이슬린 라이트는 “기업은 트랜잭션, 분석, AI 데이터를 통합하고 새로운 분석 및 데이터 과학 프로젝트를 신속하게 배포하기 위한 이식 가능한 개방형 표준을 구현하는 데이터 플랫폼을 도입해야 한다”라고 말했다. 

또 다른 핵심 목표는 승인된 최종 사용자가 기업 데이터에 액세스하고 검색하는 방법을 간소화하는 것이다. SW 개발업체 프라이스fx(Pricefx)의 파트너 자문 담당 이사인 크리슈나 수다카르는 “데이터가 수십 개의 시스템에 위치하는 상태에서 신속한 데이터 접근과 활용을 위한 표준과 패턴이 없다면 이 데이터를 이용해서 필요한 조치를 취하기란 매우 힘들 것”이라고 말했다. 

SW 개발업체 마인드브리즈(Mindbreeze)의 CEO 대니얼 폴맨은 데이터 액세스와 검색을 간소화하는 접근 방법에 대해 “비즈니스 담당자는 시맨틱(그래프) 인덱스와 고도로 자동화된 지능형 메타데이터 관리를 구현함으로써 관련 데이터 소스를 찾는 프로세스를 간소화하고, 이를 통해 내외부 데이터 집합을 쉽게 검색하고 이해할 수 있다”라고 말했다. 


7. 데이터 기반 문화 조성 

기술적 역량과 데이터 거버넌스, 분석 방식의 표준도 필요한 요소지만 디지털 개척자는 데이터 기반 기업으로의 진정한 혁신을 위해서는 문화를 발전시켜야 한다. 또한 이 혁신은 지속적이어야 한다. 생성형 AI, 실시간 분석 및 기타 새롭게 등장하는 여러 기술이 더 스마트하고 빠르고 안전한 의사 결정 기능으로 인간의 지능을 증강하기 위한 강력한 역량을 제공하기 때문이다. 

문화의 출발점은 기업 전반의 커뮤니케이션과 협업을 개선하는 것이다. IT 컨설팅 기업 브리지넥스트(Bridgenext)의 CEO 존 캐슬맨은 “기업은 정보 공유와 정보에 근거한 의사 결정을 저해하는 비즈니스 부서와 직무, 기술 간의 사일로를 허무는 데 집중해야 한다. 이런 내부의 사일로 구조는 운영 효율성과 매출 성장, 혁신을 달성하는 데 방해가 되는 경우가 많다”라고 말했다. 

성과를 거둘 수 있는 한 가지 쉬운 방법은 새로운 또는 업그레이드된 분석 기능과 이를 통해 이뤄지는 의사 결정의 유형, 비즈니스 영향, 최종 사용자가 성공을 즐기는 방식에 대한 전사적인 시연을 자주 실시하는 것이다. 의사 결정에 새로운 툴과 분석을 사용하는 것이 처음에는 다소 두려울 수 있지만 성공적인 결과를 얻고 만족한 최종 사용자는 도입에 따르는 혜택을 알리는 데 도움이 된다. 

분석 기능 도입은 경쟁력 있는 비즈니스 혜택과 문화적 변화로 이어질 수 있다. 최종 사용자를 염두에 두고 시작하고, 데이터와 기능에 대한 신뢰를 구축하고, 데이터 거버넌스를 발전시키고, 구현 표준을 개선한다면 혁신에 도움이 될 것이다. 
editor@itworld.co.kr
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.