브라우저

특허로 알아보는 구글의 뉴스 랭킹 알고리즘

Jaikumar Vijayan | Computerworld 2013.02.26
특히 유럽의 경우 미디어 업계의 많은 이들이 구글이 구글 뉴스 사이트를 통해 독자와 광고 수익을 빼앗는 것에 대해 불만을 토로했다. 그러나 구글이 간단히 뉴스 게시를 차단할 수 있는 방편을 제공하고 있음에도 불구하고 지금까지 구글 뉴스 사이트에 자사 콘텐츠 게시를 차단한 미디어는 극소수에 불과하다.
 
구글은 뉴스 기사를 찾고 순위를 매기는 데 사용하는 알고리즘에 대해 스스로 밝힌 부분은 거의 없다. 구글이 공개적으로 밝힌 부분은 ‘기사가 게시되는 빈도와 장소, 콘텐츠의 신선도, 위치, 관련성, 다양성과 같은 척도에 따라 기사 선정 및 순위 매기기가 이루어진다’는 것이 전부다. 구글은 고품질의 콘텐츠가 표시되도록 뉴스 랭킹을 지속적으로 다듬고 있다고 밝혔다.
 
작년의 특허 신청서는 이러한 다듬기 과정의 최근 현황을 보여준다. 이를 통해 구글이 고려하는 중요한 요소들을 살펴보는 흔치 않은 기회를 얻을 수 있다. 요소의 예를 들면 다음과 같다.
 
- 뉴스 소스의 품질을 판단하기 위해 구글은 생산되는 고유한(중복되지 않는) 기사의 수 또는 해당 소스에서 생산하는 고유한 문장의 수를 계산할 수 있다.
 
- 중요도를 판단하기 위해 구글은 1주, 1개월 또는 더 긴 기간에 걸쳐 한 조직에서 생산한 모든 고유한 기사에 대해 “기사 규모 점수”를 고려할 수 있다. 예를 들어 D가 콜럼비아 셔틀 충돌에 대한 기사이고, 이 주제에 대해 500개의 다른 고유한 기사가 있다면 이 기사의 규모는 500이 된다.
 
- 뉴스에 대한 “긴급 뉴스 점수”를 판단하기 위해 구글은 중요한 사건이 발생한 후 빠른 시간 내에 기사를 게시할 수 있는 뉴스 소스의 능력을 측정할 수 있다.
 
- 또한 뉴스 조직의 고유한 고품질 콘텐츠 생산 능력을 평가하기 위해 기사에 언급된 사람의 수를(특히 다른 곳에서는 인용된 경우를 찾아보기 어려운 사람의 경우) 사용할 수 있다. 이는 뉴스 소스가 고유한 기사를 생산할 역량이 있음을 나타낼 수 있다.
 
구글은 검색 엔진에서 개별 기사로의 링크도 모니터링한다. 특허 신청서에는 “CNN과 같이 잘 알려진 사이트는 언노운 타운 뉴스(Unknown Town News)와 같이 사용자가 기피할 수 있는 잘 알려지지 않은 사이트에 비해 선호되는 경향이 있다”는 문구가 나와 있다.  editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.