2013.02.26

특허로 알아보는 구글의 뉴스 랭킹 알고리즘

Jaikumar Vijayan | Computerworld
구글이 작년에 출원한 특허 내용을 보면 뉴스 기사의 순위를 정하고 이러한 뉴스를 구글 뉴스 페이지에 얼만큼의 비중으로 표시할 것인지 결정할 때 구글이 고려하는 척도가 세부적으로 나와 있다.
 
2012년 2월에 출원되고 7월에 게시된 이 특허 신청은 구글이 2009년에 획득한 “뉴스 기사 랭킹 개선을 위한 시스템 및 방법”이라는 특허를 더 보완하는 데 목적을 둔다. 컴퓨터월드는 미국 특허 사무국 웹 사이트에서 원래 이것과 관계가 없는 다른 특허를 검색하다가 우연히 이 문건을 발견했다.
 
구글 대변인은 이 특허 신청의 세부 사항에 대한 언급을 피했다. 대변인은 이메일을 통해 “구글은 직원들이 고안하는 다양한 아이디어에 대해 특허를 신청한다”며, “이러한 아이디어에서 실제 제품 또는 서비스로 이어지는 경우도 있고 그렇지 않은 경우도 있다. 특허 신청을 보고 실제 제품 출시를 추정해서는 안 된다”고 말했다.
 
문제의 2012년 특허 신청에는 구글이 다른 웹 사이트에서 생성하는 뉴스 기사의 순위를 매길 때 사용하는 10여 가지의 기준에 대한 세부적인 내용이 담겼다. 
 
구글이 기사를 평가하는 방법은 과거 구글이 자신들의 권리를 침해한다고 주장했던 여러 미디어 기업들 사이에서 논쟁의 초점이었다. 또한 구글이 기사를 큰 비중으로 표시하거나 무시하는 방법으로 웹 사이트의 방문자 수를 마음대로 조종할 수 있다고 불평하는 사람들도 많았다. 기사에 대한 구글의 판단은 독자들이 어떤 기사를 읽게 되는지에도 영향을 미치고, 따라서 잠재적으로 뉴스에 대한 사람들의 시각을 조작할 가능성도 있다.
 
구글 뉴스는 2002년 출범 이후 웹에서 가장 큰 규모의 뉴스 집결지로 부상했다. 전적으로 컴퓨터에 의해 생성되는 이 사이트는 전 세계 수천 개의 뉴스 소스에서 헤드라인을 수집하여 표시한다.
 
특허 신청서에 따르면 평가 척도에는 일정 기간 동안 뉴스 미디어에서 생산한 기사의 수, 뉴스 소스 기사의 평균 길이, 뉴스 소스의 중요도 등이 포함된다. 또한 긴급 뉴스 점수, 사용 패턴, 사람들의 의견, 순환 통계 및 특정 뉴스 작업에 종사하는 직원의 규모 등도 기준으로 사용된다.
 
여기에 뉴스 소스의 뉴스 제작 부서 수, 기사에 등장하는 고유한 이름을 가진 객체의 수, 기사의 범위, 국제적인 다양성, 심지어 기사 작성 스타일까지 계산에 반영된다.
 
콜럼비아 대학 저널리즘 스쿨 교수이자 이 대학의 첫 CDO(Chief Digital Office)인 스리 스리니바산 교수는 이 특허 신청을 보면 구글과 같은 업체가 온라인 콘텐츠를 선택하고 순위를 매기는 방법에 대해 많은 이들이 궁금해했던 부분을 알 수 있다고 말했다.
 
스리니바산 교수는 “기술 세계에는 불투명한 것이 많은데, 이 부분에 대해 명확한 내용이 공개된 것은 반가운 일”이라며 구글이 뉴스 소스의 품질을 판단하기 위해 사용하는 것으로 보이는 몇 가지 척도는 편집자가 출판물의 신뢰성 여부를 판단할 때 사용하는 것과 같은 종류의 척도라고 말했다.
 
스리니바산 교수는 직원 수, 독자의 다양성과 같은 척도가 그 예라며, 구글이 사용하는 기사의 길이 역시 좋은 척도라고 말했다. 얼핏 보면 구글이 질보다 양을 우선시하는 것 같지만 실제로 현재 많은 고품질 미디어 조직은 과거에 비해 더 많은 콘텐츠를 생성하고 있다. 따라서 기사의 길이와 단어 수를 사용하는 것은 유효한 방법이라는 것이다.
 
스리니바산은 “이는 오늘날의 저널리즘 현실을 반영한다”고 평가했다.
 
지난 해 9월 아틀란틱과의 인터뷰에서 구글 뉴스 책임자는 구글 뉴스 사이트가 5만 개 이상의 뉴스 소스에서 “알고리즘에 따라” 기사를 수집하며, 주별 고유 방문자 수는 10억 명에 이른다고 밝혔다.
 


2013.02.26

특허로 알아보는 구글의 뉴스 랭킹 알고리즘

Jaikumar Vijayan | Computerworld
구글이 작년에 출원한 특허 내용을 보면 뉴스 기사의 순위를 정하고 이러한 뉴스를 구글 뉴스 페이지에 얼만큼의 비중으로 표시할 것인지 결정할 때 구글이 고려하는 척도가 세부적으로 나와 있다.
 
2012년 2월에 출원되고 7월에 게시된 이 특허 신청은 구글이 2009년에 획득한 “뉴스 기사 랭킹 개선을 위한 시스템 및 방법”이라는 특허를 더 보완하는 데 목적을 둔다. 컴퓨터월드는 미국 특허 사무국 웹 사이트에서 원래 이것과 관계가 없는 다른 특허를 검색하다가 우연히 이 문건을 발견했다.
 
구글 대변인은 이 특허 신청의 세부 사항에 대한 언급을 피했다. 대변인은 이메일을 통해 “구글은 직원들이 고안하는 다양한 아이디어에 대해 특허를 신청한다”며, “이러한 아이디어에서 실제 제품 또는 서비스로 이어지는 경우도 있고 그렇지 않은 경우도 있다. 특허 신청을 보고 실제 제품 출시를 추정해서는 안 된다”고 말했다.
 
문제의 2012년 특허 신청에는 구글이 다른 웹 사이트에서 생성하는 뉴스 기사의 순위를 매길 때 사용하는 10여 가지의 기준에 대한 세부적인 내용이 담겼다. 
 
구글이 기사를 평가하는 방법은 과거 구글이 자신들의 권리를 침해한다고 주장했던 여러 미디어 기업들 사이에서 논쟁의 초점이었다. 또한 구글이 기사를 큰 비중으로 표시하거나 무시하는 방법으로 웹 사이트의 방문자 수를 마음대로 조종할 수 있다고 불평하는 사람들도 많았다. 기사에 대한 구글의 판단은 독자들이 어떤 기사를 읽게 되는지에도 영향을 미치고, 따라서 잠재적으로 뉴스에 대한 사람들의 시각을 조작할 가능성도 있다.
 
구글 뉴스는 2002년 출범 이후 웹에서 가장 큰 규모의 뉴스 집결지로 부상했다. 전적으로 컴퓨터에 의해 생성되는 이 사이트는 전 세계 수천 개의 뉴스 소스에서 헤드라인을 수집하여 표시한다.
 
특허 신청서에 따르면 평가 척도에는 일정 기간 동안 뉴스 미디어에서 생산한 기사의 수, 뉴스 소스 기사의 평균 길이, 뉴스 소스의 중요도 등이 포함된다. 또한 긴급 뉴스 점수, 사용 패턴, 사람들의 의견, 순환 통계 및 특정 뉴스 작업에 종사하는 직원의 규모 등도 기준으로 사용된다.
 
여기에 뉴스 소스의 뉴스 제작 부서 수, 기사에 등장하는 고유한 이름을 가진 객체의 수, 기사의 범위, 국제적인 다양성, 심지어 기사 작성 스타일까지 계산에 반영된다.
 
콜럼비아 대학 저널리즘 스쿨 교수이자 이 대학의 첫 CDO(Chief Digital Office)인 스리 스리니바산 교수는 이 특허 신청을 보면 구글과 같은 업체가 온라인 콘텐츠를 선택하고 순위를 매기는 방법에 대해 많은 이들이 궁금해했던 부분을 알 수 있다고 말했다.
 
스리니바산 교수는 “기술 세계에는 불투명한 것이 많은데, 이 부분에 대해 명확한 내용이 공개된 것은 반가운 일”이라며 구글이 뉴스 소스의 품질을 판단하기 위해 사용하는 것으로 보이는 몇 가지 척도는 편집자가 출판물의 신뢰성 여부를 판단할 때 사용하는 것과 같은 종류의 척도라고 말했다.
 
스리니바산 교수는 직원 수, 독자의 다양성과 같은 척도가 그 예라며, 구글이 사용하는 기사의 길이 역시 좋은 척도라고 말했다. 얼핏 보면 구글이 질보다 양을 우선시하는 것 같지만 실제로 현재 많은 고품질 미디어 조직은 과거에 비해 더 많은 콘텐츠를 생성하고 있다. 따라서 기사의 길이와 단어 수를 사용하는 것은 유효한 방법이라는 것이다.
 
스리니바산은 “이는 오늘날의 저널리즘 현실을 반영한다”고 평가했다.
 
지난 해 9월 아틀란틱과의 인터뷰에서 구글 뉴스 책임자는 구글 뉴스 사이트가 5만 개 이상의 뉴스 소스에서 “알고리즘에 따라” 기사를 수집하며, 주별 고유 방문자 수는 10억 명에 이른다고 밝혔다.
 


X