2013.08.30

분석없는 빅 데이터, '황당하고 위험할 수도'

Taylor Armerding | CSO

전문가들은 사람이 개입하지 않고 컴퓨터에 모든 것을 맡겨버리면 문제가 발생할 수 있다고 경고했다.

“많다고 꼭 좋은 것은 아니다.” 많은 전문가들이 수 없이 강조했듯, 아무런 노력도 없이 저절로 좋은 분석을 창출하는 빅 데이터는 그 어디에도 없다.

수집된 데이터가 불완전하거나 맥락에서 벗어난 것이라면, 또는 손상된 것이라면, 그 결과는 기업의 경쟁력 약화로, 그리고 개인 생활의 피해로도 이어질 수 있다.

맥락에서 벗어난 데이터가 어떻게 왜곡된 결과를 창출하는지 궁금하다면 하버드 대학의 교수이자 정량적 사회 과학 기구(Institute for Quantitative Social Science)의 디렉터인 게리 킹의 사례를 살펴보는 것이 도움이 될 것이다. 킹과 그의 팀원들은 트위터 피드를 비롯한 소셜 미디어 포스트들에 포함된 ‘직업', ‘실직', ‘구인' 등의 키워드를 분석함으로써 미국 내 실업률을 예측하는 빅 데이터 프로젝트를 진행했다.

킹의 팀은 정서 분석(sentiment analysis)이라는 분석 기술을 위의 키워드들이 포함된 트윗 등 소셜 미디어 포스트들의 증감이 월간 실업률 증감과 어떤 상관관계를 지니는지 분석하고자 했다.

모니터링 중 팀원들은 특정 기간에 ‘직업(Jobs)’라는 단어를 포함한 트윗이 갑자기 증가한 것을 확인할 수 있었다. 하지만 실업률에는 별다른 변화가 관측되지 않았다. 이후 원인을 조사해 본 결과, 해당 키워드의 발생 횟수 증가는 ‘스티브 잡스(Steve Jobs)’의 사망 때문인 것으로 확인됐다고 킹은 설명했다.

견고하게 설계된 분석 프로그램이 전혀 생각지도 못했던 ‘잡스'라는 이름으로 무용지물이 되어버린 것이다. 일면 우스운 이야기지만 오늘날 빅 데이터가 우리의 의사 결정 과정에 얼마나 큰 영향을 미치고 있는지를 고려한다면 단순히 웃어 넘길 수만은 없는 사례일 것이다.

킹은 “‘Jobs’ 사건은 시장의 여러 사고 사례 중 하나에 불과하다. 내 동료들 역시 왕왕 이런 난감한 경험들을 하곤 한다”라고 말했다.

그는 “분석은 컴퓨터가 하더라도 키워드 설정 자체는 인간의 몫이다. 단기적으로는 아무 문제 없이 결과물이 도출되더라도, 언제 재앙이 닥쳐올 지 모르는 것이 빅 데이터 분석이다. 위의 잡스 사건에 관해 누군가는 예외 사항을 설정하면 되지 않느냐고 이야기하지만, 어쨌거나 예외를 설정하는 것도 결국에는 사람이다. 언제던 실수는 있을 수 있다”라고 설명했다.

킹은 빙 소셜(Bing Social) 페이지에 하나의 키워드만 입력해봐도 이런 사실을 어렵지 않게 확인할 수 있을 것이라 덧붙였다.

그는 “검색 결과물 가운데 일부는 키워드와 충분한 연관성을 지니겠지만, 그렇지 않은 결과들도 상당할 것이다. 검색어를 변경하지 않고 지속적으로 페이지를 살펴보다 보면, 어느새 당신이 의도한 맥락에서 상당히 벗어나 있는 모습을 발견할 수도 있을 것이다. 물론 당신이 찾고자 한 콘텐츠들을 완벽하게 보여주기도 하지만, 꽤 차이가 나는, 혹은 완전히 다른 방향으로 흘러간 결과물을 접할 가능성 역시 꽤 된다”라고 설명했다.
 



2013.08.30

분석없는 빅 데이터, '황당하고 위험할 수도'

Taylor Armerding | CSO

전문가들은 사람이 개입하지 않고 컴퓨터에 모든 것을 맡겨버리면 문제가 발생할 수 있다고 경고했다.

“많다고 꼭 좋은 것은 아니다.” 많은 전문가들이 수 없이 강조했듯, 아무런 노력도 없이 저절로 좋은 분석을 창출하는 빅 데이터는 그 어디에도 없다.

수집된 데이터가 불완전하거나 맥락에서 벗어난 것이라면, 또는 손상된 것이라면, 그 결과는 기업의 경쟁력 약화로, 그리고 개인 생활의 피해로도 이어질 수 있다.

맥락에서 벗어난 데이터가 어떻게 왜곡된 결과를 창출하는지 궁금하다면 하버드 대학의 교수이자 정량적 사회 과학 기구(Institute for Quantitative Social Science)의 디렉터인 게리 킹의 사례를 살펴보는 것이 도움이 될 것이다. 킹과 그의 팀원들은 트위터 피드를 비롯한 소셜 미디어 포스트들에 포함된 ‘직업', ‘실직', ‘구인' 등의 키워드를 분석함으로써 미국 내 실업률을 예측하는 빅 데이터 프로젝트를 진행했다.

킹의 팀은 정서 분석(sentiment analysis)이라는 분석 기술을 위의 키워드들이 포함된 트윗 등 소셜 미디어 포스트들의 증감이 월간 실업률 증감과 어떤 상관관계를 지니는지 분석하고자 했다.

모니터링 중 팀원들은 특정 기간에 ‘직업(Jobs)’라는 단어를 포함한 트윗이 갑자기 증가한 것을 확인할 수 있었다. 하지만 실업률에는 별다른 변화가 관측되지 않았다. 이후 원인을 조사해 본 결과, 해당 키워드의 발생 횟수 증가는 ‘스티브 잡스(Steve Jobs)’의 사망 때문인 것으로 확인됐다고 킹은 설명했다.

견고하게 설계된 분석 프로그램이 전혀 생각지도 못했던 ‘잡스'라는 이름으로 무용지물이 되어버린 것이다. 일면 우스운 이야기지만 오늘날 빅 데이터가 우리의 의사 결정 과정에 얼마나 큰 영향을 미치고 있는지를 고려한다면 단순히 웃어 넘길 수만은 없는 사례일 것이다.

킹은 “‘Jobs’ 사건은 시장의 여러 사고 사례 중 하나에 불과하다. 내 동료들 역시 왕왕 이런 난감한 경험들을 하곤 한다”라고 말했다.

그는 “분석은 컴퓨터가 하더라도 키워드 설정 자체는 인간의 몫이다. 단기적으로는 아무 문제 없이 결과물이 도출되더라도, 언제 재앙이 닥쳐올 지 모르는 것이 빅 데이터 분석이다. 위의 잡스 사건에 관해 누군가는 예외 사항을 설정하면 되지 않느냐고 이야기하지만, 어쨌거나 예외를 설정하는 것도 결국에는 사람이다. 언제던 실수는 있을 수 있다”라고 설명했다.

킹은 빙 소셜(Bing Social) 페이지에 하나의 키워드만 입력해봐도 이런 사실을 어렵지 않게 확인할 수 있을 것이라 덧붙였다.

그는 “검색 결과물 가운데 일부는 키워드와 충분한 연관성을 지니겠지만, 그렇지 않은 결과들도 상당할 것이다. 검색어를 변경하지 않고 지속적으로 페이지를 살펴보다 보면, 어느새 당신이 의도한 맥락에서 상당히 벗어나 있는 모습을 발견할 수도 있을 것이다. 물론 당신이 찾고자 한 콘텐츠들을 완벽하게 보여주기도 하지만, 꽤 차이가 나는, 혹은 완전히 다른 방향으로 흘러간 결과물을 접할 가능성 역시 꽤 된다”라고 설명했다.
 



X