Credit: flickr/ActuaLitté
최근 몇 년 사이 머신러닝에 대한 관심이 커지고 있다. 그러나 시장조사업체 시시로(CSIRO)의 데이터 61 그룹 수석 과학자이자 머신러닝과 분석 분야의 전문가인 밥 윌리엄슨은 이것이 빅데이터처럼 새로운 컨셉의 기술이 아니라고 말했다. 더 강력해진 컴퓨팅 프로세스와 데이터 스토리지의 가격 하락 등으로 CIO의 관심이 커진 정도라는 것이다.
특히 윌리엄슨에 따르면, 이 분야에는 여전히 발전을 가로막는 여러 '흑마술'이 존재한다. 최근 호주 시드니에서 열린 SAS 고객 행사에서 윌리엄슨은 가장 시급한 것으로 연구 성과의 효과적인 공유와 기술 표준화를 꼽았다.
그는 "현재 머신러닝 분야에는 표준이 거의 없고 연구 성과가 다시 활용되는 경우도 드물다. 많은 연구자가 처음부터 다시 시작하고 있고 시스템이 제각각이어서 연구 성과를 전혀 공유할 수 없다"고 말했다.
윌리엄슨은 이를 마치 '울타리로 둘러싸인 정원'으로 비유했다. 그는 "연구자가 저마다 자신만의 방법으로 모델을 코딩하기 때문에 이를 공유할 수 없다. 연구자 사이에서 매우 심각한 문제지만 아직 누구도 이러한 한계를 극복하지 못했다"고 말했다.
윌리엄슨은 서비스로서의 머신러닝(MLaaS, Machine-Learning-as-a-Service)에 대한 생각도 밝혔다. 현재 많은 스타트업이 이 시장에 뛰어들고 있다. BigML, Wise.io, Precog 등이 대표적이다. 큰 기업 중엔 IBM도 있다. 마이크로소프트와 아마존도 관련 서비스를 내놨지만 아직은 많이 뒤처져 있다.
윌리엄스는 MLaaS가 일부 인상적인 결과를 보여주기도 하지만 기업은 여전히 주의를 기울여야 한다고 경고했다. 그는 "이 분야는 매우 기술 주도적인 특징을 갖고 있다. 많은 업체가 '내가 개발한 놀라운 기술을 봐. 핵심적인 벡터 머신(vector machines)을 개발했어. 정말 훌륭한 기술이야'라고 이야기한다. 그러나 여전히 기술일 뿐이다. 우리가 처한 문제를 해결하는 데 얼마나 효과적일지 아무도 알지 못한다"고 말했다.
한편 윌리엄슨은 머신러닝에 관심이 있는 기업에 단순히 데이터를 수집해 패턴을 분석하지 말고 실제 실험을 하는 것이 중요하다고 조언했다.
윌리엄슨은 "과학 분야에서 '데이터 마이닝'은 다소 경멸적인 의미로 사용된 적이 있었다. 자신이 무엇을 하는지도 명확히 모른 채 데이터를 모아 그 안에서 일부 패턴을 확인했을 뿐이라는 것이다. 데이터를 모으는 것은 실제 실험의 시작일 뿐이다. 데이터 주도 세계에서 중요한 것은 그 이후다. 그런 의미에선 데이터 주도 세계는 끊임없이 실험하는 세계라고도 할 수 있다"고 말했다. ciokr@idg.co.kr