2015.08.05

글로벌 칼럼 | 데이터 과학을 효과적으로 구현하는 법

Lukas Biewald | Computerworld
데이터 과학자를 구한다는 채용 공고를 보면 머신러닝 기술, 통계 프로그래밍 언어, NOSQL 데이터베이스와 시각화 도구에 관한 경험을 요구한다는 점을 알 수 있다. 데이터 과학자를 양성하는 부트캠프 커리큘럼에서도 앞서 언급한 내용과 유사한 것을 요구한다. 데이터 과학자가 하는 일은 말 그대로 데이터를 정리하고 모으는 일을 하는 사람이다. 데이터 과학자가 실제로 무슨 일을 하는지 모른다면, 요약해서 정리하면 데이터를 청소하고 모으는 일을 하는 사람이다. 사실 그 정반대다. 데이터 과학자는 데이터를 정리하고 모으는 작업이 성공적인 데이터 애플리케이션에서 가장 중요하다는 것을 아는 사람들이다.

구글 번역을 예시로 들어보겠다. 현재 구글은 자연어 번역을 연구하는 최고의 연구자들을 기용하고 있다. 구글 번역이 처음 출시됐을 때, 다년간 서비스를 해온 수많은 번역 프로그램보다도 우수한 성능을 뽐냈다. 단순히 최첨단 알고리즘 때문은 아니었다. 그보다도 구글 전체 웹 데이터보다도 더 많은 데이터를 갖추고 있었던 덕분이었다. 구글은 구글 번역이 성공할 수 있었던 배경에는 고품질의 데이터가 있었다고 말할 것이다.

스탠포드 인공지능 연구실에서 번역 시스템을 만드는 팀에 있었을 때 그 당시 찾을 수 있었던 가장 방대한 말뭉치인 '유럽 연합 의회 회의록'을 가지고 모델을 훈련했다. 유럽 연합에 참여하고 있는 모든 국가의 언어로 손수 번역돼서 제공된다는 이유에서였다. 당시 나는 알고리즘이 여러 개의 의미를 다룰 수 있도록 하는 작업을 맡았는데, “cabinet”이라는 단어가 '보관장'이라는 말 대신 '내각, 각료' 등으로 번역됐다. 회의록에서 “캐비닛”은 정치적인 것을 의미했다. 아무리 알고리즘이 정교하더라도 캐비닛이 가구를 의미한다는 것을 알 리가 만무했다.

반면, 구글은 이와 같은 문제를 겪지 않았다. 다양한 언어로 번역된 수많은 웹사이트를 보유하고 있었으며, 일부 사이트에서는 미묘한 뉘앙스를 정리해두기도 했다. 그리고 이 모델은 수백만 명의 사람들이 수백 년 간 연구해온 것을 아울렀다.

“단어 정렬 향상을 위한 액티브 준지도 학습(Active Semi-Supervised Learning for Improving Word Alignment)”이라는 논문에서 발췌한 전형적인 그래프를 소개하겠다. 단어를 정렬하는 훈련 기술의 에러율을 나열한 것으로, 더 나은 알고리즘(논문에서는 Posterior)일수록 좀 더 일반적인 기술(논문에서는 Random)보다 나은 성과를 보였다. 그러나 논문에서 언급되지 않았으나 정말로 중요한 것은 훈련 데이터가 많을수록 모든 알고리즘의 성능이 향상한다는 점이다. 더 나은 알고리즘을 사용하면 성능이 높아지는 효과를 얻을 수는 있겠지만, 현실에서 잘 작동하는지 확인하는 가장 확실한 방법은 방대한 훈련 데이터를 제공하는 것이다.

현실 세계에서는 정말로 중요한 문제다. 연구원들은 대규모 데이터 세트를 수집하는 권한이 있다고 느끼지 못하고 있는데, 만일 머신러닝 연구가 성공하길 바란다면 이들에게 데이터 수집 권한을 부여해야 한다.

이는 내가 오픈 데이터를 신뢰하는 이유이기도 하다. 머신러닝이 모든 비즈니스로 통합된다면 많은 데이터를 보유한 기업의 영향력이 막강해질 수밖에 없다. 오픈소스 소프트웨어처럼 널리 사용될 수 있는 오픈 데이터셋을 만든다면 스타트업에게 경쟁할 기회를 제공할 수 있다. 만일 데이터 과학자라면, 혹은 데이터 과학자와 함께 일을 하고 있다면 지금 당장 실행해볼 만한 간단한 일이 있다. 바로 지금보다 더 많은 데이터를 수집하는 것이다. editor@itworld.co.kr 


2015.08.05

글로벌 칼럼 | 데이터 과학을 효과적으로 구현하는 법

Lukas Biewald | Computerworld
데이터 과학자를 구한다는 채용 공고를 보면 머신러닝 기술, 통계 프로그래밍 언어, NOSQL 데이터베이스와 시각화 도구에 관한 경험을 요구한다는 점을 알 수 있다. 데이터 과학자를 양성하는 부트캠프 커리큘럼에서도 앞서 언급한 내용과 유사한 것을 요구한다. 데이터 과학자가 하는 일은 말 그대로 데이터를 정리하고 모으는 일을 하는 사람이다. 데이터 과학자가 실제로 무슨 일을 하는지 모른다면, 요약해서 정리하면 데이터를 청소하고 모으는 일을 하는 사람이다. 사실 그 정반대다. 데이터 과학자는 데이터를 정리하고 모으는 작업이 성공적인 데이터 애플리케이션에서 가장 중요하다는 것을 아는 사람들이다.

구글 번역을 예시로 들어보겠다. 현재 구글은 자연어 번역을 연구하는 최고의 연구자들을 기용하고 있다. 구글 번역이 처음 출시됐을 때, 다년간 서비스를 해온 수많은 번역 프로그램보다도 우수한 성능을 뽐냈다. 단순히 최첨단 알고리즘 때문은 아니었다. 그보다도 구글 전체 웹 데이터보다도 더 많은 데이터를 갖추고 있었던 덕분이었다. 구글은 구글 번역이 성공할 수 있었던 배경에는 고품질의 데이터가 있었다고 말할 것이다.

스탠포드 인공지능 연구실에서 번역 시스템을 만드는 팀에 있었을 때 그 당시 찾을 수 있었던 가장 방대한 말뭉치인 '유럽 연합 의회 회의록'을 가지고 모델을 훈련했다. 유럽 연합에 참여하고 있는 모든 국가의 언어로 손수 번역돼서 제공된다는 이유에서였다. 당시 나는 알고리즘이 여러 개의 의미를 다룰 수 있도록 하는 작업을 맡았는데, “cabinet”이라는 단어가 '보관장'이라는 말 대신 '내각, 각료' 등으로 번역됐다. 회의록에서 “캐비닛”은 정치적인 것을 의미했다. 아무리 알고리즘이 정교하더라도 캐비닛이 가구를 의미한다는 것을 알 리가 만무했다.

반면, 구글은 이와 같은 문제를 겪지 않았다. 다양한 언어로 번역된 수많은 웹사이트를 보유하고 있었으며, 일부 사이트에서는 미묘한 뉘앙스를 정리해두기도 했다. 그리고 이 모델은 수백만 명의 사람들이 수백 년 간 연구해온 것을 아울렀다.

“단어 정렬 향상을 위한 액티브 준지도 학습(Active Semi-Supervised Learning for Improving Word Alignment)”이라는 논문에서 발췌한 전형적인 그래프를 소개하겠다. 단어를 정렬하는 훈련 기술의 에러율을 나열한 것으로, 더 나은 알고리즘(논문에서는 Posterior)일수록 좀 더 일반적인 기술(논문에서는 Random)보다 나은 성과를 보였다. 그러나 논문에서 언급되지 않았으나 정말로 중요한 것은 훈련 데이터가 많을수록 모든 알고리즘의 성능이 향상한다는 점이다. 더 나은 알고리즘을 사용하면 성능이 높아지는 효과를 얻을 수는 있겠지만, 현실에서 잘 작동하는지 확인하는 가장 확실한 방법은 방대한 훈련 데이터를 제공하는 것이다.

현실 세계에서는 정말로 중요한 문제다. 연구원들은 대규모 데이터 세트를 수집하는 권한이 있다고 느끼지 못하고 있는데, 만일 머신러닝 연구가 성공하길 바란다면 이들에게 데이터 수집 권한을 부여해야 한다.

이는 내가 오픈 데이터를 신뢰하는 이유이기도 하다. 머신러닝이 모든 비즈니스로 통합된다면 많은 데이터를 보유한 기업의 영향력이 막강해질 수밖에 없다. 오픈소스 소프트웨어처럼 널리 사용될 수 있는 오픈 데이터셋을 만든다면 스타트업에게 경쟁할 기회를 제공할 수 있다. 만일 데이터 과학자라면, 혹은 데이터 과학자와 함께 일을 하고 있다면 지금 당장 실행해볼 만한 간단한 일이 있다. 바로 지금보다 더 많은 데이터를 수집하는 것이다. editor@itworld.co.kr 


X