우선은 몽키런이 무엇인지부터 알아보자. 이 서비스는 스스로를 “고도로 확장 가능한 머신러닝 API로 텍스트 분류를 자동화한다”고 정의했다. 몽키런을 사용하려면 텍스트 데이터를 정렬하고 이 데이터로 머신러닝 모델을 훈련하고 테스트하고, 이후에 사용자의 모델용 맞춤형 API를 사용해 사용자의 애플리케이션 코드가 API와 인터랙션해 새로운 데이터의 분석과 분류를 수행한다. 또한 사용자의 데이터를 몽키런에 제공할 수도 있는데, 몽키런의 웹 인터페이스에 복사하거나 CSV 파일 또는 엑셀 스프레드시트를 업로드하면 된다.
몽키런 서비스의 매력은 사용자가 머신러닝의 구조에 관해 많이 알 필요가 없다는 것. 물론 이 서비스에서 최상의 결과를 얻기 위해 마스터해야 하는 몇 가지 기술은 있다. 게다가 분류자를 생성하기 위해 이용할 수 있는 훈련된 데이터가 없어도 된다. 몽키런은 100개 이상의 사전 구축된 분류자를 갖추고 있기 때문이다.
몽키런이 올린 포스트 “분할된 왕국 : 브렉시트 결과에 대한 머신러닝 분석”에서 몽키런은 사람들이 브렉시트에 대해 어떤 감정을 가지고 있고 무슨 이야기를 하는지 알기 위해 트위터를 이용해 분석했다고 설명했다.
“먼저 우리는 트위피(Tweepy)라는 파이썬 라이브러리를 사용해 트위터 스트림에 연결했으며, #Brexit라는 해시태그를 사용하는 트윗 45만 건을 모았다. 이후 우리의 언어 분류 기능을 사용해 이들 트윗을 걸러서 영어로 된 트윗 약 25만 건을 골라냈다. 그리고 이들 트윗을 사전 훈련되어 바로 사용할 수 있는 몽키런의 머신러닝 모델을 사용해 분석했다. 이들 트윗에 대해 감정 분석을 실시해 사람들이 브렉시트에 대해 긍정적으로 말하는지, 부정적으로 말하는지, 또는 중립적인지를 알고자 했다. 마지막으로 서로 다른 관점을 좀 더 깊게 이해하기 위해 서로 다른 감정의 트윗에서 키워드 추출을 실행해 사람들이 사용하는 단어나 문구를 분석해 더 나은 그림과 더 많은 맥락정보를 얻고자 했다.”
수집한 트윗은 영국 내의 사람들이 아니라 트위터 세계에서 감정을 표현하는 무작위 샘플이었지만, 결과는 투표결과와 거의 비슷했다는 점을 주목할 필요가 있다. 몽키런은 최종 샘플 13만 3,605건에서 47%의 긍정적인 감정과 53%의 부정적인 감정을 분류했는데, 이는 실제 영국의 브렉시트 투표 결과와 매우 유사한 수치이다. 만약 영국 사람들만의 느낌을 알고 싶다면, 분석 범위를 지역 데이터로 제한하면 된다.
몽키런의 분석에서는 몇 가지 흥미로운 사실도 나타났다. 예를 들어, 트윗의 8%에서 언급된 데이빗 캐머런 총리는 17%가 긍정적으로 언급됐고, 중립적인 언급은 58%, 부정적인 언급은 25%였다. 놀랍게도 브렉시트와는 관계가 없는 것으로 생각할만한 도널드 트럼프가 무려 7%의 트윗에서 언급됐고, 긍정, 중립, 부정적인 언급은 각각 32%, 32%, 36%였다.
마지막으로 몽키런은 자신들이 사용한 파이썬 코드를 공개해 누구라도 자신만의 분석을 실행할 수 있도록 했다. 필자는 이런 종류의 분석을 연습 삼아 브렉시트 투표에 하는 것은 물론, 11월 미 대선에도 비슷한 프로젝트를 실행해 볼 작정이다. 바야흐로 통계분석가의 일자리가 머신러닝 코드로 대체되고 있다. editor@itworld.co.kr