구글 검색, 구조적 데이터 활용도 높인다

Chris Kanaracus | IDG News Service 2009.02.02

대부분의 인터넷 검색 엔진이 그동안 웹 페이지의 텍스트를 긁어모으는 데 주력하고 있었다면, 구글은 구조적 데이터를 어떻게 분석하고 정리할 것인가를 연구하고 있다.

 

구글의 연구원 알론 할레비는 지난 주 열린 한 데이터베이스 관련 컨퍼런스에서 “웹 상에는 엄청난 양의 구조적 데이터가 있지만, 이를 사용자들에게 보여주는 일을 제대로 수행하지 못하고 있다”고 지적했다.

 

할레비가 말하는 구조화 데이터는 규격화된 웹 사이트의 백엔드에 있는 데이터베이스와 같은, 이른바 “딥 웹”이라 불리는 부분이다. 구글은 여러 가지 규격화된 다양한 폼에 대한 쿼리를 수행하고 결과물을 정리해 유용한 정보를 자사의 검색 인덱스에 포함시키고 있다.

 

하지만 구글은 이렇게 데이터를 검색하는데 만족하지 않고, 이런 구조화된 테이블에서 찾아낸 데이터를 분석하고자 한다. 할레비는 예를 들어 표로 정리된 미국 대통령 목록을 검색 결과로 제시할 수 있다고 설명했다.

 

인터넷에는 무수히 많은 표가 있고, 구글이 인덱싱한 표는 140억 개에 달한다. 할레비는 “이들 중 98%는 아무런 의미가 없는 것이지만, 필터링을 하고 남은 1억 5,400만 개의 표는 인덱싱할 가치가 있는 것”이라고 밝혔다.

 

구글의 궁극적인 목표 중 하나는 검색 쿼리의 여러 단면을 정리한 결과를 제공하는 것이다. 다시 말해 “베트남의 인구” 같은 특정 사실에 대한 쿼리가 아니라 “베트남 여행” 같은 다분히 탐사적인 검색 쿼리에 대한 답을 제시하는 것이다. 이런 쿼리는 비자 요건이나 날씨, 여행 패키지 등에 대한 정보를 만들어 낸다.

 

이런 아이디어는 코스믹스(Kosmix)가 제공하는 검색 서비스에서 반영되고 있는데, 구글은 여기서 한 단계 더 발전된 상태를 원한다. 할레비는 “물론 코스믹스가 특정한 경향을 제공하지만, 정보의 소스만 제공할 뿐”이라고 지적했다.

 

만약 코스믹스에서 “베트남 여행”을 검색하면, 뉴욕 타임즈의 레스토랑 리뷰나 야후와 플릭커의 이미지, Shopping.com의 쇼핑 정보를 정리해서 보여준다. 할레비는 “구글의 경우, 내용은 웹 검색 결과겠지만, 이를 완전히 다르게 정리할 것”이라고 덧붙였다.  chris_kanaracus@idg.com

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.