데이터ㆍ분석

대체 데이터에 숨겨진 비용 폭탄 5가지

Martin De Saulles | CIO 2022.05.24
오늘날 ‘대체 데이터(Alternative Data)’ 소스가 다양한 영역에서 기업의 비즈니스 프로세스에 포함되고 있다. 美 법률회사 로웬스타인 샌들러(Lowenstein Sandler)의 2022년 설문조사 결과에 따르면 헤지펀드부터 사모펀드, 벤처 캐피탈까지 무려 92%의 투자 회사가 의사결정에 정보를 제공하기 위해 중간 또는 상당한 수준으로 대체 데이터를 활용하고 있다고 답했다. 또한 2022년에 대체 데이터 사용이 증가할 것으로 예상됐다. 
 
ⓒGetty Images Bank

일반적으로 이는 다른 비즈니스 프로세스에서 나오는 데이터를 말한다. 예를 들면 소셜 미디어 활동, 인공위성 사진, 위치 추적 데이터, 신용카드 거래, 웹 스크랩핑 등이 있다. 

대체 데이터는 마케팅부터 영업, 재무, 전략 기획까지 기업 전반에서 사용될 수 있지만, 이런 서드파티 데이터를 소유하고 관리하는 곳은 대부분 IT 부서다. 지난 2019년 포레스터 리서치는 IT 소속의 CIO 및 CDO가 대체 데이터 수집의 56%를 관리하고 있다고 밝혔다. 

대체 데이터를 ‘소싱’하고, ‘저장’하며, ‘관리’하는 일은 IT 관리자에게 새로운 과제를 안겨준다. 아울러 불필요하고 상당한 비용을 수반할 수 있다. 여기서는 이에 따른 5가지 문제와 완화하는 방법을 살펴본다. 

1. 솔루션 업체 선택 비용(Vendor selection costs)
로웬스타인의 설문조사 결과에 따르면 ‘벤더 선택 비용(61%)’은 대체 데이터 사용자가 가장 우려하는 부분이다. 이 비용은 대체 데이터 벤더를 검토하고, 해당 벤더가 제공하는 데이터의 품질이 충분한지 확인하는 과정에서 발생한다. 이는 특히 데이터가 비즈니스 프로세스의 핵심 요소이며, 쉽게 교체할 수 없을 때 중요하다. 이러한 상황에서 구매자는 벤더가 예측 가능한 미래까지 이 데이터를 지속적으로 제공할 것이라는 확신이 있어야 한다.

이런 위험을 완화하는 방법은 산업 컨소시엄을 조사하여 신뢰할 수 있는 데이터 소스를 식별하는 것이다. 같은 분야에 있는 다른 기업들도 비슷한 요구사항을 가지고 있을 가능성이 높으며, (이를 통해) 아이디어와 모범 사례를 공유할 수 있다. 

2. 숙련된 인력 찾기(Finding appropriately skilled staff)
퀀트허브(Quanthub)의 설문조사 결과에 따르면 지난 2020년에는 약 25만 명의 데이터 과학자가 부족했다. 2022년 4월 말을 기준으로 구인/구직 사이트 인디드닷컴(Indeed.com)에는 (영국에서만) 데이터 과학자를 찾는 2,700개의 구인 공고가 게시됐다. 이러한 인재 부족 문제로 인해 급여가 높아지고 직원을 유지하기가 더욱더 어려워지고 있다. 아울러 데이터 과학자가 있다고 대체 데이터를 비즈니스에 통합할 수 있는 것도 아니다. 

포레스터 리서치는 기업들이 활용할 수 있는 대체 데이터를 추적하고, 이러한 소스의 정확성과 무결성을 검증하는 ‘데이터 헌터’ 서비스를 사용하라고 권고했다. 이를테면 유럽의 재보험 회사 뮈닉 리(Munich Re)는 이 목적으로 20명의 데이터 헌터로 구성된 팀을 고용하고 있다. 

또한 이 스킬 부족을 완화할 수 있는 해결책에는 (신입 직원보다는) 비즈니스와 비즈니스 요구사항을 알고 있는 기존 인력을 교육시키는 것이 포함된다. 데이터 과학 과정 지원, 학생 취업 알선 및 졸업생 교육 프로그램을 모색하는 대학과의 파트너십도 스킬 파이프라인을 구축하는 또 다른 방법이다.

3. 데이터 소유권 확인하기(Ascertaining data ownership)
대체 데이터의 속성 그리고 비전통적인 소스에 기반한다는 점 때문에 신뢰할 수 있는 벤더가 제공하는 데이터보다 데이터 소유권을 검증하는 것이 어려울 수 있다. 특히 구매 전에 여러 데이터 소스가 결합돼 있어 출처가 복잡할 때 더욱더 그렇다. 라이선스, 지적재산권, 데이터 보호 규정과 관련하여 문제가 발생할 수도 있다. 고객에게 데이터 소싱 방법을 어느 정도 투명하게 제공하는 (신뢰 가능한) 벤더를 선택하여 이 문제를 완화할 수 있다. 물론 가능하다면 내부 데이터를 사용하는 것도 위험을 줄이는 또 다른 방법이다.

4. 대체 데이터 처리를 위한 모델 업데이트(Updating models to process alt data)
데이터 모델을 유지관리하여 일관성을 보장하고, 오류가 발생했을 때 이를 처리하는 데 상당한 비용이 발생한다. 많은 기업이 이를 간과한다. 아이데라(Idera)는 유지관리가 개발 예산의 50~80%를 차지한다고 추산했다. 모델에 새로운 데이터 소스를 추가하면 상당한 비용이 추가될 수 있다. 처음부터 데이터를 신중하게 모델링하고, 모델 설계에 어느 정도의 유연성을 통합하면 이 프로세스가 원활해질 수 있다.

5. 대체 데이터를 저장하는 도구(Appropriate tools to store alt data)
로웬스타인에서 실시한 설문조사 응답자의 1/4은 대체 데이터를 저장하는 도구와 기술 부족을 심각한 문제로 꼽았다. 이 문제는 업데이트 빈도, API, 데이터 형식 측면에서 다양한 소스 간의 일관성 부재에 기인한다. 모델이 원활하게 실행될 뿐만 아니라 일관적이며 신뢰할 수 있는 결과를 생성하도록 데이터를 정리하는 일은 상당한 비용이 들 수 있다. 온프레미스 시스템부터 클라우드 및 하이브리드 솔루션까지 점차 증가하는 스토리지 옵션과 데이터 모델의 수집 요구사항에 따라 효율적으로 작동하도록 하는 일도 또 다른 복잡성 계층과 비용을 추가한다. 

데이터가 상업적 가능성을 활용할 수 있는 경쟁 우위의 원천을 계속 제공하면서 대체 데이터의 중요성이 커질 전망이다. 많은 대체 데이터 소스에 액세스하는 데 비용이 거의 또는 전혀 발생하지 않을 수 있지만 목적에 적합하게 만들고, 기존 워크플로우에 통합하는 것과 관련해 때로는 상당한 비용이 별도로 수반될 수 있다는 사실을 이해해야 한다.

* Martin De Saulles 박사는 데이터 기반 혁신과 사물인터넷 연구 및 집필을 전문으로 하는 작가이자 학자다. 현재 英 브라이튼 대학에서 수석 강사로 일하고 있다.
ciokr@idg.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.