2011.11.04

“시리가 완성되기까지” 음성인식기술의 변천사

Melanie Pinola | PCWorld
음성인식기술의 변천사를 되짚어 보는 것은 단일 음절을 인식하는 수준의 아기의 옹알이부터 수천 개의 단어를 배우고 애플의 똑똑한 가상 비서인 시리(Siri)처럼 질문에 신속하면서도 재치 있게 대답하는 수준에 이르는 어린 아이의 성장과정을 보는 것과도 같다고 할 수 있다.
 
다소 비난조로 유머를 구사하는 시리를 보고 있자면 지난 세월 동안 음성인식이 얼마나 많이 발전했는지 궁금해진다. 오늘은 사람들이 음성만을 이용해서 기기를 제어하기까지 지난 수십 년간 음성인식 기술이 어떻게 발전해왔는지 알아보도록 하자.
 
1950년대와 1960년대 : 옹알이
최초의 음성인식 시스템은 숫자만을 알아들을 수 있었다. (인간 언어의 복잡함 때문에 혁신가들과 엔지니어들은 숫자에 초점을 맞추었을 것으로 생각된다.) 벨 연구소(Bell Laboratories)는 1952년 단일 음성으로 말하는 숫자를 인식하는 ‘오드레이(Audrey)’ 시스템을 개발했다. 10년이 지난 후 IBM은 월드 페어(World's Fair)에서 16개의 영어 단어를 인식할 수 있는 자사의 ‘슈박스(Shoebox)’ 장비를 공개했다.
 
미국, 일본, 영국, 소련 등의 국가에 위치한 연구소들은 인간의 발화를 인식하는 전용 하드웨어를 개발하여 4개의 모음과 9개의 자음을 지원하는 수준까지 음성인식 기술을 확장시켰다.
 
그리 대단한 것은 아니라는 생각이 들 수도 있지만 당시의 원시적인 컴퓨터를 생각한다면 꽤나 인상적인 결과물이었다고 할 수 있다.
 
1970년대 : 음성인식 기술의 비상
음성인식 기술은 미 국방부의 관심과 재정지원에 힘입어 1970년대에 크게 발전했다. 1971년에서 1976년까지 진행된 국방부의 DARPA 음성이해연구(Speech Understanding Research, 이하 SUR) 프로그램은 음성인식 역사상 가장 큰 프로젝트 중의 하나이며 다른 것들 중에서도 카네기 멜론(Carnegie Mellon)의 ‘하피(Harpy)’ 음성이해 시스템의 기반이 되었다. 하피는 1,011개의 단어를 이해할 수 있었으며 이는 3세 유아의 어휘 수준과 같다고 할 수 있다.
 
하피는 더 효율적인 검색 접근방식으로 "유한 상태의 가능한 문장의 네트워크를 입증한 빔 서치(Beam Search)를 소개한 바 상당히 중요한 역할을 담당했다고 알렉스 와이벨과 카이푸 리가 설립한 리딩스 인 스피치 레코그니션(Readings in Speech Recognition)은 밝혔다. (음성인식에 관한 이야기는 구글이 수년 전 모바일 기기의 음성인식 분야에 뛰어든 것에서도 알 수 있듯이 검색의 방법론 및 기술의 발전과 깊은 상관관계를 맺고 있다.)
 
또한 70년대에는 최초의 음성인식 상업기업인 쓰레숄드 테크놀로지(Threshold Technology)의 설립과 벨 연구소가 소개한 여러 사람의 음성을 해석할 수 있는 시스템 등 음성인식 기술의 발전에 있어 중요한 사건들이 있었다.
 


2011.11.04

“시리가 완성되기까지” 음성인식기술의 변천사

Melanie Pinola | PCWorld
음성인식기술의 변천사를 되짚어 보는 것은 단일 음절을 인식하는 수준의 아기의 옹알이부터 수천 개의 단어를 배우고 애플의 똑똑한 가상 비서인 시리(Siri)처럼 질문에 신속하면서도 재치 있게 대답하는 수준에 이르는 어린 아이의 성장과정을 보는 것과도 같다고 할 수 있다.
 
다소 비난조로 유머를 구사하는 시리를 보고 있자면 지난 세월 동안 음성인식이 얼마나 많이 발전했는지 궁금해진다. 오늘은 사람들이 음성만을 이용해서 기기를 제어하기까지 지난 수십 년간 음성인식 기술이 어떻게 발전해왔는지 알아보도록 하자.
 
1950년대와 1960년대 : 옹알이
최초의 음성인식 시스템은 숫자만을 알아들을 수 있었다. (인간 언어의 복잡함 때문에 혁신가들과 엔지니어들은 숫자에 초점을 맞추었을 것으로 생각된다.) 벨 연구소(Bell Laboratories)는 1952년 단일 음성으로 말하는 숫자를 인식하는 ‘오드레이(Audrey)’ 시스템을 개발했다. 10년이 지난 후 IBM은 월드 페어(World's Fair)에서 16개의 영어 단어를 인식할 수 있는 자사의 ‘슈박스(Shoebox)’ 장비를 공개했다.
 
미국, 일본, 영국, 소련 등의 국가에 위치한 연구소들은 인간의 발화를 인식하는 전용 하드웨어를 개발하여 4개의 모음과 9개의 자음을 지원하는 수준까지 음성인식 기술을 확장시켰다.
 
그리 대단한 것은 아니라는 생각이 들 수도 있지만 당시의 원시적인 컴퓨터를 생각한다면 꽤나 인상적인 결과물이었다고 할 수 있다.
 
1970년대 : 음성인식 기술의 비상
음성인식 기술은 미 국방부의 관심과 재정지원에 힘입어 1970년대에 크게 발전했다. 1971년에서 1976년까지 진행된 국방부의 DARPA 음성이해연구(Speech Understanding Research, 이하 SUR) 프로그램은 음성인식 역사상 가장 큰 프로젝트 중의 하나이며 다른 것들 중에서도 카네기 멜론(Carnegie Mellon)의 ‘하피(Harpy)’ 음성이해 시스템의 기반이 되었다. 하피는 1,011개의 단어를 이해할 수 있었으며 이는 3세 유아의 어휘 수준과 같다고 할 수 있다.
 
하피는 더 효율적인 검색 접근방식으로 "유한 상태의 가능한 문장의 네트워크를 입증한 빔 서치(Beam Search)를 소개한 바 상당히 중요한 역할을 담당했다고 알렉스 와이벨과 카이푸 리가 설립한 리딩스 인 스피치 레코그니션(Readings in Speech Recognition)은 밝혔다. (음성인식에 관한 이야기는 구글이 수년 전 모바일 기기의 음성인식 분야에 뛰어든 것에서도 알 수 있듯이 검색의 방법론 및 기술의 발전과 깊은 상관관계를 맺고 있다.)
 
또한 70년대에는 최초의 음성인식 상업기업인 쓰레숄드 테크놀로지(Threshold Technology)의 설립과 벨 연구소가 소개한 여러 사람의 음성을 해석할 수 있는 시스템 등 음성인식 기술의 발전에 있어 중요한 사건들이 있었다.
 


X