미래기술

글로벌 칼럼 | 인공지능 생태계 : 감지, 추론, 소통

Kiris Hammond  | Computerworld 2015.05.13
인공 지능(AI)에 대한 관심과 언론 보도는 유행처럼 밀려왔다 사라지곤 하지만, 사실 AI 시스템은 아주 오래전부터 존재했다. 상당수는 좁은 영역에 집중해 작동하는 탓에 우리가 미처 AI임을 인식하지 못할 뿐이다.

예를 들어, 넷플릭스나 아마존은 영화 또는 책을 추천한다. 과거에 내가 어떤 것을 좋아했는지 확인하고(내가 보거나 구매한 상품 확인), 나와 프로파일이 비슷한 다른 사람들을 찾은 다음 이들이 좋아한 상품 중에서 내가 아직 접하지 않은 것을 제안한다. 내가 본 것을 알고 그와 비슷한 것을 추려냄으로써 적당한 상품을 제안할 수 있게 된다. 내게 서로 공통점이 많은 두 친구가 있다면 그중 한 명의 취향을 알아내 다른 한 명을 위한 선물을 준비할 수 있는 것과 같은 원리다.


이러한 제안이 정확한지 아닌지는 중요하지 않다. 이들이 추구하는 것은 프로파일을 구축하고 유사점을 찾은 다음 비슷한 다른 사람들의 기호를 바탕으로 내 기호를 예측하는, 지극히 인간적인 소양을 기계에 복제하는 것이다. 그러나 그 용도가 좁은 영역에 집중되는 경우가 많으므로, 사람들은 그 기능에 엄연히 지능이 필요하다는 사실과 종종 AI가 인간보다 그 역할을 더 잘한다는 점을 간과하곤 한다.

AI와 현재 사용되는 AI 시스템이 어디까지 발전했는지 정확히 이해하고 싶다면 AI와 AI가 모사하고자 하는 인간적인 추론을 구성하는 다양한 요소들을 살펴봐야 한다.

그렇다면 사람은 어떤 요소를 통해 지능적인 사고를 하게 될까?

감지, 추론, 소통
일반적으로 지능 또는 인지는 감지, 추론, 소통이라는 세 가지 범주로 분류된다. 이 세 가지 큰 범주 안에서 음성과 이미지 인식, 다양한 추론 유형(예: 논리적 추론 대 증거 기반 추론), 소통을 촉진하는 언어의 생성과 관련하여 더 세부적으로 구분할 수 있다. 즉, 인지는 사물을 받아들이고, 그에 대해 사고한 다음 그 결론을 다른 누군가에게 이야기하는 단계로 구성된다.

AI에 대한 연구는 인간 추론의 이러한 여러 측면을 대체로 개별적으로 다룬다. 그러나 현재 우리가 직면하는 실제 구축된 시스템, 특히 소비자 지향적인 상품의 경우 대부분 세 가지 계층을 모두 활용한다.


감지
예를 들어 현재 사용되는 모바일 비서(시리, 코르타나, 구글 나우)는 모두 세 가지 계층을 사용한다. 먼저 음성 인식을 통해 사용자가 시스템에 말을 하고 있음을 파악한 다음 사용자의 음성과 파형을 사용해서 단어를 인지한다(시스템마다 고유한 음성 인식을 사용한다. 애플은 뉴안스(Nuance)가 개발한 제품을 사용하고, 마이크로소프트와 구글은 직접 만든 시스템을 사용한다). 중요한 점은 이 단계에서 시스템이 단어의 의미를 이해하는 것은 아니라는 점이다. 전화기의 키패드를 통해 입력한 단어와 마찬가지로 단순히 사용자가 말한 단어가 무엇인지 알 뿐이다.

예를 들어 아래 파형과 같은 입력을 받아들여 이를 “피자 먹고 싶어!”라는 단어 조합으로 변환한다.


추론
이 프로세스의 결과는 단순한 단어의 나열이다. 나열된 단어를 활용하기 위해서는 단어에 대해 사고하며 단어가 무엇을 의미하는지, 사용자가 무엇을 원하는지, 사용자에게 필요한 것을 제공하기 위해 무엇을 할 수 있는지를 추론해야 한다. 첫 번째 단계는 부분적인 자연어 처리(NLP)다.

앞서 언급했듯이 세 시스템이 문제를 다루는 방식은 각기 다르지만, NLP 측면은 대체로 비슷하다. 이 예에서는 음식으로 분류되는 “피자”라는 용어를 판별하고, 사용자가 피자 만드는 방법을 찾고 있음을 시사하는 “레시피”와 같은 단어가 없음을 확인한 다음, 최종적으로 사용자가 피자를 먹을 수 있는 음식점을 찾고 있다고 결론을 내린다.

단순한 정의와 관계를 통해 진행되는, 아주 간단한 언어 처리지만 그 결과 시스템은 이제 사용자가 피자 음식점을 찾고 있음을 알 수 있으며, 더 정확하게는 피자 음식점이 어디에 있는지 알고 싶어한다고 추론할 수 있다.

소통
소리에서 단어, 단어에서 아이디어, 아이디어에서 실제 사용자 요구로의 전환이 이루어지면 시스템은 사용자가 요구하는 바가 무엇인지를 이해하게 된다. 이 예에서는 GPS 정보를 확인하고 피자가 나오는 음식점을 조회하고 거리, 평가 등급 또는 가격에 따라 순서를 매긴다. 만일 사용자가 과거 방문한 이력이 있다면 이를 선호도에 반영해 해당 음식점을 제안할 수도 있다.

여기까지 되면 이제 남은 것은 최종 결과를 한두 문장으로 구성하는 것이다. 이 과정을 자연어 생성, 즉 NLG라고 한다. 단어가 생성되면 소리(음성 생성)로 변환된다.


넓은 AI, 좁은 AI
이러한 시스템에서 흥미로운 점은 AI에 대한 넓은 접근 방식과 좁은 접근 방식의 혼합이다. 입력과 출력(음성 인식과 생성)은 상당히 일반적인 부분으로, 사용자가 말하는 것을 알아듣는 일과 결과를 음성을 내보내는 일은 모든 시스템이 아주 잘 처리한다.

반면 시스템별로 수행 가능한 아주 좁은 범위의 작업이 있다. 시스템이 실제 수행하는 추론은 자신이 달성 가능한 작업이 무엇인지(음식점 찾기 또는 레시피 찾기) 결정하는 것이다. 작업은 대체로 검색이나 조회를 중심으로 한다. 음성에서 추출한 텍스트를 기반으로 다양한 조회를 수행하고 다양한 소스에 정보 요청을 보낸다. 즉, 이러한 시스템 내부의 실질적인 지능이라고 할 수 있는 것은 사용자의 요구 사항을 나타내는 용어를 파악함으로써 “사용자가 나에게 무엇을 요구하는가?”라는 질문에 대한 답을 찾는 일이다.


이러한 시스템은 몇 가지 작업을 수행할 수 있고 그 사이에서 결정도 가능하지만, 누구나 경험한 바와 같이 특정 영역을 벗어나는 무언가를 요구하면 뭘 해야 할지 갈피를 잡지 못한다. 그나마 이들 시스템은 혼란을 느낄 때 각각 기본 검색 엔진을 호출해서 검색 결과라도 제공하도록 만들어졌다.

모바일 비서는 새로운 AI 생태계 중 한 분야에 불과하지만, 여러 요소의 조합을 통해 강력한 서비스를 제공하는 원리를 잘 보여준다. 고차원적인 음성 인식 및 생성 기능은 상호 작용도 지원한다. 단순 언어 처리는 용어를 추출하여 용어 기반 결정 모델을 실행하고, 이 모델이 사용자가 무엇을 요청했는지 파악하고 자신이 무엇을 해야 할지 결정한다. 그리고 마지막으로 간단한 자연어 생성 모델이 사용되어 대답이 만들어진다. 이러한 요소 각각은 사용자의 요구 사항을 이해하고 적절한 서비스를 제공할 수 있는 통합 시스템을 형성하는 지능적인 기능의 조합이다.

AI의 감지, 추론, 소통 역량은 앞으로 가장 많은 토론이 이루어질 주제이며 지속적인 연구가 필요한 분야다. 다음 편에서는 여러 개의(때로는 서로 경쟁 관계인) 구성 요소로부터 지능을 얻는 시스템에 대해 이야기해보겠다. editor@itworld.co.kr
 Tags 인공지능 AI
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.