데이터ㆍ분석

글로벌 칼럼 | 데이터 랭글링을 비하해선 안 되는 이유

Matt Asay | InfoWorld 2021.08.06
하버드 비즈니스 리뷰는 데이터 과학자를 지금 세기의 가장 섹시한 직업 중 하나로 꼽았다. 그러나 이 직업에는 섹시하지 않은 많은 수작업이 동반된다. 아나콘다(Anaconda)의 2021 데이터 과학 현황 설문에서 응답자는 업무 시간의 39%를 데이터 준비와 데이터 정제에 사용한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 드는 시간을 다 합친 것보다 더 많다.
  

데이터 과학자? 데이터 잡역부!

잘못됐다는 이야기는 아니다. 사실 많은 측면에서 이건 정상이다. 몇 년 동안 우리는 암을 치료하는 모델을 구축한다는 둥 데이터 과학의 보기 좋은 면만 부풀려서 말했다. 데이터 과학의 대부분은 데이터를 정제하고 준비하는 과정이며 데이터 과학의 이 측면이 데이터 과학을 잘하기 위한 기반이라는 명백한 현실은 외면했다.

컨설턴트 아론 주는 “모든 통계 분석과 머신 러닝 모델의 품질은 거기에 투입되는 데이터의 품질에 따라 전적으로 좌우된다”라고 말했다.
 

누군가는 해야 할 성가신 일

긍정적인지 부정적인지는 몰라도 데이터 랭글링(데이터 준비와 정제)에 소비되는 시간은 점점 줄어들고 있다. 현재 데이터 과학자는 업무 시간의 39%를 데이터 랭글링에 소비한다고 답했는데, 작년 아나콘다 설문에서 이 수치는 45%였다. 불과 몇 년 전에는 이 수치가 80%에 근접했다고 추정하는 사람들도 있다.

그러나 오픈 데이터 인스티튜트(Open Data Institute)의 리 도즈는 이처럼 높은 수치는 거의 확실히 부정확한 수치라고 지적했다. 그는 "더 큰 문제는 데이터 랭글링 행위를 비하해 랭글링의 가치에 대한 오해를 불러일으킨다는 점이다. 데이터를 변형하고 탐색하고 더 잘 이해하는 데 시간을 보내는 것은 데이터 과학자라면 당연히 해야 할 일이다. 이것이 데이터 과학자 업무의 재료다. 이 재료를 더 잘 이해하면 그만큼 더 정확한 통찰력을 얻게 된다”라고 말했다.

즉, 사람들은 데이터 과학의 '출력'에 관심을 집중하는 경향이 있지만 '입력'을 간과하면 제대로 된 출력을 얻을 수 없다. 쓰레기가 들어가면 쓰레기가 나오는 것이다.
 

데이터 과학에서 사람의 역할

데이터 과학과 그 선조인 '빅 데이터'에 대한 논의를 보면 사람의 필요를 없애는 기계에 대해 불안감이 느껴진다. 이는 범주로서의 데이터 과학을 보면 어느 정도 사실이지만, 이 범주에 대한 입력으로서 데이터 랭글링에 대해서도 정확히 알아야 한다.

즉, 모든 데이터 준비를 자동화할 수 있다고 생각하기 쉽다. 데이터 정제에는 그다지 많은 통찰이 필요하지 않다는 생각 때문이다. 그러나 현실을 보면 일부 데이터 작업을 자동화할 수 있다 해도 궁극적으로 그것은 사람의 일이다.

하버드 비즈니스 스쿨 온라인의 외부 필자인 팀스토비어스키가 지적한 것처럼, 데이터 랭글링은 '분석 프로세스의 핵심적인 부분'이다. '깨끗한 데이터가 어떻게 보이고 원시 데이터를 유용한 형태로 어떻게 다듬어야 하는지를 이해할 수 있는' 누군가가 필요하다. 예를 들어 데이터 랭글링의 발견(discovery) 단계에서 데이터와 패턴의 간극을 볼 수 있는 사람이 필요하다.

또는 아나콘다 2021 보고서에서도 볼 수 있듯이, 데이터 준비와 데이터 정제는 많은 시간이 걸리고 지루한 작업이라고 해도 그 해결책이 자동화는 아니다. 사람이 개입해야 데이터의 품질과 더 정확한 결과를 보장하고 데이터의 맥락을 제공할 수 있다.

실제로 항상 그랬다. 빅 데이터의 초기에는 아파치 하둡에 데이터를 던져 넣기만 하면 '실행 가능한 통찰력'이 저절로 나오는 세계를 상상했다. 그러나 인생도 데이터 과학도 그렇게 쉽지 않다.

데이터 과학은 궁극적으로 사람의 문제다. 데이터 과학을 잘하는 사람은 통계, 수학, 프로그래밍 기술을 해당 업무에 대한 지식, 즉 도메인(Domain) 지식과 잘 혼합하는 사람이다. 이런 도메인 지식이 데이터를 사용한 인간의 창의성을 발현하게 한다. 비즈니스에 대해 잘 알수록 모델링을 위한 데이터 준비를 더 잘 할 수 있을 뿐만 아니라 패턴과 이상 현상으로부터 통찰력을 끌어낼 가능성도 높다.

도메인 지식은 데이터 과학 모델의 최종적인 결과를 개선하는 데도 도움이 된다. 아나콘다 보고서에 따르면, 기업의 의사 결정자가 데이터에 대한 이해력이 매우 높고 시각화 및 모델로 표현되는 스토리를 이해할 수 있다고 답한 비율은 36%에 불과하다. 반면 52%는 조직의 의사 결정자가 대체로 데이터를 잘 이해하는 편이지만 시각화와 모델로 표현되는 스토리를 이해하는 데는 얼마간 도움이 필요하다고 답했다.

이런 결과는 모델/시각화를 받는 쪽의 문제도 일부 있겠지만 이를 준비하는 데이터 과학자의 문제이기도 하다. 도메인에 대한 친숙도가 높으면 기업이 데이터로부터 무엇을 배울 수 있는가를 머신러닝 모델이 어떻게 보여주는지, 더 명확하게 설명할 수 있을 것이다.

이 도메인 지식이 유용해지기 시작하는 시점은 데이터 과학자가 모델을 들고 중역실로 가는 마지막 구간이 아니다. 전혀 하찮지 않은, 모든 데이터 과학의 기반인 데이터 랭글링의 초기부터 시작된다. 데이터 랭글링을 비하할 것이 아니라 추켜세워야 한다. editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.