AIㆍML / 미래기술 / 브라우저 / 웹서비스

“검색엔진에 지능을 입힌다” 한국MS-포항공대 공동 연구 사례 발표

이수경 기자 | ITWorld 2015.04.07
전세계적으로 자체적인 검색 엔진을 개발하고 이를 고도화하려는 추세가 이어지는 가운데, 한국 마이크로소프트와 포항공대가 공동 연구를 통해 실제 검색엔진 로그를 활용한 실험에서 최고 98.9%의 예측 정확도를 달성해 눈길을 끌고 있다.

마이크로소프트 연구소 시스템 그룹, 인터넷 서비스 연구 그룹, 검색 엔진 제품 개발 그룹과 포항공대 컴퓨터공학과 황승원 교수는 지능형 소프트웨어에 관한 공동 연구를 진행했다. 황 교수는 데이터베이스, 인공지능, 자연어처리, 데이터마이닝 등 여러 분야에 걸쳐 100여 편이 넘는 논문을 발표한 바 있으며, 지난 2005년부터 포항공대에서 교수직을 맡고 있다.

연구 내용에 대해 황 교수는 “웹에 생성되는 방대한 데이터에서 인간의 지능에 해당하는 정보를 추츨하는 것”이라고 설명하며, “현재 보편적으로 사용되고 있는 수많은 소프트웨어에 적용할 수 있는 지식 체계를 구축해 지능형 소프트웨어를 만드는 것을 목표로 한다”고 말했다.

기술적 제반을 갖춘 '인공지능'
기본적인 수준에 머물러 있었던 인공지능 기술은 빅데이터의 출현과 이를 처리할 수 있는 기술, 인프라가 구축됨에 따라 그 실현 가능성이 점차 높아지고 있다. 또한, 인식 및 트래킹 기술의 발전으로 기계가 데이터를 습득하는 입력 기관이 견고해짐과 동시에, 수집한 데이터를 분석하고 유의미한 정보를 추출하기 위한 분석하는 기술력 또한 나날이 발전하고 있다.

황승원 교수는 “90년에는 인간의 감각이나 판단과 관련된 '조금', '다소', '대체로' 등의 애매한 상황을 세밀하게 구분할 수 있는 퍼지 이론이 인공지능의 총체였다면, 오늘날의 인공지능은 기계가 보고 듣고 말하고 생각할 수 있다는 개념으로 확장되었으며, 머신러닝 기법을 통해 기계의 지능이 발전해나가고 있다”고 설명했다.

이어, “과거에는 어떤 경우에도 모호하지 않은 데이터를 만들 수 있는 사람이 각광받았다”며, 린네분류학을 그 예시로 들었다. 황 교수는 “그러나 지금까지는 정형적인 데이터를 분류하는 것이 어렵지 않았으나, 음성, 사진, 위치 정보 등 앞으로 새로 출현하게 될 각종 데이터를 인간이 직접 분류하는 것은 불가능하다”며, “기존 데이터는 연역적인 방식으로, 새로운 데이터에 대해서는 귀납적 방식으로 지식 체계를 구축한다면 상보적인 관계에서 그 해답을 찾을 수 있을 것으로 생각한다”고 덧붙였다.

황 교수는 이를 '데이터 인텔리전스(Data Intelligence)'라고 지칭하며, 기존 검색 엔진의 검색 결과에 지능을 더하는 연구 사례에 대해 상세히 소개했다.

진화하는 검색 엔진
현재 마이크로소프트는 코타나(Cortana)라는 인공지능 비서 서비스를 고도화하고 있다. 음성인식 기술과 자체 검색엔진인 '빙'을 통해 사용자가 원하는 답을 찾아주는 코타나는 사용자들의 웹 검색 결과를 토대로 학습하며 계속해서 진화한다. 또한, 마이크로소프트의 차세대 브라우저인 스파르탄에도 탑재되어 날씨, 레스토랑 등 사용자에 맞춤화된 정보를 제공할 것으로 보인다.

황승원 교수는 “빙 검색결과 화면의 왼쪽 영역이 기존 검색엔진과 비슷한 결과 화면이다”라며, “오른쪽 영역에는 사용자가 필요로 할만한 정제된 지식을 표시해준다”고 말했다. 예를 들면, 레스토랑을 검색하면 오른쪽 화면에는 메뉴 가격, 오픈 시간, 주차 정보, 전화번호 등의 객관적인 정보가 표시되는 것이다.

황 교수는 “새롭게 추가되는 질의에 대해 지식을 확장해나가고, 다른 언어로 형성된 지식을 연계하는 작업이 무엇보다 중요하다”며, “시스템 측면에서는 모든 기기에 걸쳐 지능 서비스를 제공하기 위해 검색 엔진 결과를 빠르게 표기해야 한다”고 말했다.

검색엔진의 장벽, 자연어 쿼리
그러나 자연어 검색 쿼리는 검색 품질을 높이는 데 장벽으로 작용한다. 고유 명사와 같이 명확하고 유일한 단어는 쉽게 검색 결과로 도출할 수 있지만, 중의적이고 모호한 검색어는 더 복잡한 형태로 변형되어 검색 수행 시간이 길어지기 때문이다. 이에 황 교수는 빅데이터 기법의 하나인 부트스트래핑 (Bootstrapping) 기법을 통해 데이터의 정확도가 작더라도 연관 정보를 충분히 수집만 하면 잘 알려지지 않은 개체에 대해서도 검색 정확도를 높일 수 있다고 설명한다.

예를 들어, 검색 쿼리에 동료 이름인 '박기자'라는 이름을 치면, 검색 수행자의 소셜미디어, 링크드인 등에 표시된 현재 직장 또는 과거 직장, 공통 친구 등 다양한 연관 관계를 기반으로 동료 박기자에 관한 정보만 결과 화면에 표시해주는 것이다.

황 교수는 “잘 알려진 상위 20% 정보에 80%의 데이터가 몰려있으며, 하위 80%에 20%의 정보가 몰려있다”며, “후자의 경우에 정보의 정확도를 올리는 것이 무엇보다 중요한 데, 데이터 지능을 적용하면 테일 쿼리(Tail queries, 많은 시간이 소요되는 검색어)를 자동으로 예측하여 병렬화 등의 추가적인 자원을 투입하여 다른 검색어와 같은 수준으로 검색 수행시간을 낮추고 품질을 높일 수 있다”고 말했다.

실제로 해당 연구팀은 테일 쿼리를 자동으로 구분하고 검색 속도를 선택적으로 가속화하는 기술을 개발해 실제 검색엔진 로그를 활용한 실험에서 98.9%의 예측 정확도를 달성하여 서버 처리량을 70% 높이는 성과를 내기도 했다.

현재 황 교수는 IoT 기기에서 생성되는 위치와 시간 정보를 포함한 정보를 처리하고 해당 정보를 갖는 검색도 최적화하기 위해 연구소와의 협력을 계속하고 있다. 황 교수는 “텍스트뿐만 아니라 사진, 위치 등의 정보도 기계의 지능으로 들어가게 된다”며, “개체를 생성하는 기기도 증가하며, 시공간을 초월하는 정보가 실시간으로 생산됨에 따라 사물인터넷 환경에서 지능적인 서비스를 제공하기 위해 노력할 것”이라고 말했다. editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.