데이터ㆍ분석

"데이터 과학자, 여전히 업무 시간 절반을 데이터 정리에 쓴다"

Serdar Yegulalp | InfoWorld 2020.07.01
데이터 과학 분야에서 데이터 과학자와 소프트웨어 엔지니어가 겪고 있는 가장 큰 어려움은 무엇일까. 최신 조사에 따르면, 고된 데이터 수집과 정제 작업과 편견을 가진 모델의 문제, 데이터 프라이버시, 경험과 기술을 가진 전문가 채용의 어려움 등인 것으로 나타났다.
 
© Getty Images Bank

과학용 컴퓨팅 애플리케이션의 파이썬 배포판 제작 업체 아나콘다(Anaconda)의 '2020 데이터 사이언스 현황 조사(2020 State Of Data Science)' 내용이다. 이번 설문에는 전 세계 100개국 2,360명이 참여했고 이 중 절반 정도가 미국의 개발자였다.

조사 결과를 보면 최근 데이터 과학 환경이 많이 개선됐음에도 불구하고, 데이터 관련 소모적인 작업이 여전히 데이터 과학자 업무의 주요 부분을 차지하는 것으로 나타났다. 응답자들은 데이터 로딩과 클린징 작업에 각각 업무 시간의 19%와 26%를 사용한다고 답했다. 전체 업무 시간의 절반에 해당한다. 이 밖에 모델 선택과 학습, 배포에 각각 11% 정도로 총 34%를 쓰고 있는 것으로 나타났다.

데이터 과학 실무 관련해서 가장 큰 어려움은 기업의 IT 보안 규정을 준수하는 것이었다. 데이터 과학자와 개발자, 시스템 관리자의 대답이 모두 비슷했다. 이는 주로 새로운 앱을 대규모로 배포하는 것과 관련이 있다. 그러나 머신러닝과 데이터 과학 앱의 수명주기를 고려하면 보안 취약점을 패치하면서 다양한 오픈소스 애플리케이션 스택을 유지하는 것 등 내부적인 문제로 이어진다.

설문 결과 확인된 또 다른 문제는 기업에서 필요로 하는 기술과 교육기관에서 가르치는 기술 간의 차이다. 대학 대부분이 통계와 머신러닝 이론, 파이썬 프로그래밍 수업을 제공하고 학생 대부분도 이런 과정을 듣는다. 그러나 기업이 가장 필요로 하는 데이터 관리 기술은 대학에서 거의 가르치지 않는다. 고급 수학 지식도 필요한 데 학생들이 종종 간과하곤 한다.

한편 학생들은 스스로 경험 부족(40%)과 기술적 능력(26%)이 부족하다고 느끼고 이를 취업 시 가장 큰 어려움으로 꼽았다. 보고서는 이러한 부분을 내실 있는 인턴십 프로그램을 통해 보완할 수 있다고 분석했다. 단순히 이력서에 한 줄 더 쓰기 위한 것 또는 한번 해보는 정도를 넘어 인턴십을 운영해야 한다는 것이다.

또한, 이번 설문에서 다시 확인된 것이 바로 파이썬의 위상이다. 데이터 과학 분야에서 여전히 가장 널리 사용하는 언어인 것으로 나타났다. R이 큰 격차를 두고 2위를 차지했고 자바스크립트, 자바, C/C+, C#이 뒤를 이었다. 줄리아(Julia)가 빠르게 부상하고 있지만 아직 순위에는 이름을 올리지 못했다. editor@itworld.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.