2008.11.03

구글, PDF 검색으로 인터넷의 ‘음지’ 밝힌다

Heather Havenstein | Computerworld
구글이 스캔 문서, PDF 등이 검색되도록 해, 소위 다크 웹(Dark Web)’이라고 불리는 인터넷 검색의 사각지대 발굴에 한걸음 더 나아갔다.

지난 31일 구글은 광학식 문자 판독(Optical Character Recognition) 기술을 이용해, 스캔된 PDF 파일을 텍스트로 변환해서 검색결과에 나타나도록 했다고 밝혔다. 따라서 앞으로 정부 보고서, 논문을 비롯해 기타 스캔된 문서도 검색할 수 있게 됐다. 일반적으로 검색엔진은 PDF 파일을 텍스트가 아닌 텍스트의 이미지로 인식해서 검색결과에 거의 노출되지 않았다.

구글 제품 관리자인 에빈 레비(Evin Levey) 지금까지 PDF 형식으로 저장된 문서는 가끔씩 검색할 수 있었지만, 스캔된 문서를 검색하는 경우는 거의 없었다라며, “사람들이 이런 문서를 읽을 수 있도록 하기 위해 단어와 단어의 이미지를 구별했다. 그러나 컴퓨터가 이미지를 읽는 것은 거의 불가능한 일이라고 말했다. 더불어 과거에는 스캔된 문서의 내용을 확신할 수 없었기 때문에 검색결과에 포함할 수 없었다라며, “가끔 해당 문서의 참고문헌에서 단서를 찾아 제목과 함께 검색결과에 나타나도록 했지만, 사용자 쿼리에 맞는 것은 아니었다라고 덧붙였다.

레비는 이번 검색엔진의 업데이트가 DB에 포함되어 있지 않거나 PDF 등의 형식으로 저장되어 검색되지 않는 많은 정보를 찾을 수 있도록 하려는 노력의 일환이라고 전했다. 구글은 지난 4월 드롭다운 박스나 선택 메뉴 등 HTML 형식이나 검색결과에 나타나지 않는 정보를 검색할 수 있는 방법을 찾기 위한 실험을 시작했다고 밝힌 바 있다.

이와 관련해 테크크런치 블로거 제이슨 킨케이드(Jason Kincaid) 구글은 그 동안 이런 이미지 파일을 검색할 수 있도록 노력해왔지만, 문서의 내용이 아닌 파일명이나 메타데이터 등으로만 검색할 수 있었다. 하지만 이제 구글 검색 결과에는 스캔된 이미지 안의 텍스트도 포함되어 나타날 것이라고 말했다. 이어 이런 기술은 오래 전에 개발됐지만, 항상 정확성이 문제였다라며, “구글이 이 기술을 도입함으로써 완성도에 큰 기여를 할 것이고 , 특히 학교 논문 등 출력된 문서 검색이 쉬워질 것이라고 덧붙였다.


2008.11.03

구글, PDF 검색으로 인터넷의 ‘음지’ 밝힌다

Heather Havenstein | Computerworld
구글이 스캔 문서, PDF 등이 검색되도록 해, 소위 다크 웹(Dark Web)’이라고 불리는 인터넷 검색의 사각지대 발굴에 한걸음 더 나아갔다.

지난 31일 구글은 광학식 문자 판독(Optical Character Recognition) 기술을 이용해, 스캔된 PDF 파일을 텍스트로 변환해서 검색결과에 나타나도록 했다고 밝혔다. 따라서 앞으로 정부 보고서, 논문을 비롯해 기타 스캔된 문서도 검색할 수 있게 됐다. 일반적으로 검색엔진은 PDF 파일을 텍스트가 아닌 텍스트의 이미지로 인식해서 검색결과에 거의 노출되지 않았다.

구글 제품 관리자인 에빈 레비(Evin Levey) 지금까지 PDF 형식으로 저장된 문서는 가끔씩 검색할 수 있었지만, 스캔된 문서를 검색하는 경우는 거의 없었다라며, “사람들이 이런 문서를 읽을 수 있도록 하기 위해 단어와 단어의 이미지를 구별했다. 그러나 컴퓨터가 이미지를 읽는 것은 거의 불가능한 일이라고 말했다. 더불어 과거에는 스캔된 문서의 내용을 확신할 수 없었기 때문에 검색결과에 포함할 수 없었다라며, “가끔 해당 문서의 참고문헌에서 단서를 찾아 제목과 함께 검색결과에 나타나도록 했지만, 사용자 쿼리에 맞는 것은 아니었다라고 덧붙였다.

레비는 이번 검색엔진의 업데이트가 DB에 포함되어 있지 않거나 PDF 등의 형식으로 저장되어 검색되지 않는 많은 정보를 찾을 수 있도록 하려는 노력의 일환이라고 전했다. 구글은 지난 4월 드롭다운 박스나 선택 메뉴 등 HTML 형식이나 검색결과에 나타나지 않는 정보를 검색할 수 있는 방법을 찾기 위한 실험을 시작했다고 밝힌 바 있다.

이와 관련해 테크크런치 블로거 제이슨 킨케이드(Jason Kincaid) 구글은 그 동안 이런 이미지 파일을 검색할 수 있도록 노력해왔지만, 문서의 내용이 아닌 파일명이나 메타데이터 등으로만 검색할 수 있었다. 하지만 이제 구글 검색 결과에는 스캔된 이미지 안의 텍스트도 포함되어 나타날 것이라고 말했다. 이어 이런 기술은 오래 전에 개발됐지만, 항상 정확성이 문제였다라며, “구글이 이 기술을 도입함으로써 완성도에 큰 기여를 할 것이고 , 특히 학교 논문 등 출력된 문서 검색이 쉬워질 것이라고 덧붙였다.


X