2011.03.23

“스마트폰을 더 똑똑하게” 진가 발휘하는 음성인식

Serdar Yegulalp | Computerworld

어릴 적 필자는 친구들과 스타트랙에 나온 기술들 중 어떤 것이 미래에 실현될 수 있을지 상상하며 놀곤 하였다. 우주함선이나 워프항법(warp drive; 공간이동)은 터무니 없었지만, 음성인식 컴퓨터나 만능 통역기는 충분히 개발될 것 같았다.

 

처음으로 데스크톱에 음성인식 기술이 도입되었을 때, 모두 이에 감탄했다. 그러나 실제로 이 기술이 키보드와 마우스를 대체하지는 못하였다. 이제 음성인식 기술은 휴대폰이라는 새로운 기기와의 결합을 시도한다. 그리고 기술의 활용방향 또한 과거 데스크톱 과의 결합에서 목표하던 것과는 다르게 나아가고 있다.  

 

역사

음성인식 기술이 최초로 개발 된 것은 1950년대이다. 이는 시험적인 목적의 개발이었다. 이후 1960년대 초에는 IBM사가 16단어의 인식이 가능하고 ‘3 더하기 4’와 같은 간단한 계산기능을 갖춘 슈박스(Shoebox)를 선보였다.

 

음성인식 기술이 PC에 적용된 최초의 사례는 아마도 1980년대 초 드래곤 시스템(Dragon Systems)이 개발한 도스(DOS)용 프로그램 드래곤 딕테이트(DragonDictate)일 것이다. 이 프로그램은 낱말단위의 인식과 표현이 가능했다. 이는 이후 뉘앙스 커뮤니케이션(Nuance Communication)의 말하는 드래곤(Dragon NaturallySpeaking)으로까지 진화했는데, 최신 11버전을 이용하면 일반 대화속도의 음성인식 및 텍스트변환이 가능하다.

 

그러나 컴퓨터의 음성인식은 두 가지 한계를 지니고 있다. 첫째로 음성인식의 정확성을 높이기 위해서 프로그램은 사용자 음성패턴을 파악하는 기간을 필요로 한다. 이는 윈도우 비스타와 윈도우7(Windows 7)에 내장된 스피치-투-텍스트(speech-to-text)기술과 말하는 드래곤 같은 외부 프로그램 모두에서 발견되는 한계점이다.

 

AP3555.JPG

IBM이 자사 창립 100주년을 기념하며 1960년대 초 공개한 연산이 가능한 음성인식 시스템 슈박스(Shoebox)

 

두 번째 한계는 이미 자리잡은 키보드사용 습관이다. 오늘날 대부분의 사람들은 타이핑에 익숙하다. 따라서 굳이 말할 필요가 없다. 음성인식기술은 드보락방식 키보드배열(Dvorak keyboard layout)과 같은 문제에 직면해 있다. 누가 이미 친숙하고, 전혀 문제없는 쿼티(QWERTY)자판을 버리고 드보락을 새로 배우려 하겠는가?

 

마이크로소프트에서 다용도 음성인식 개발을 담당하는 텔미(TellMe)팀의 수석 개발팀장 애비 레일도 이 점에 동의한다. “컴퓨터 사용자들은 누구나 마우스와 키보드를 사용해 다양한 활동을 쉽게 할 수 있다. 때문에 음성인식은 기본적으로 ‘말이 필요한’ 분야를 대상으로 한다”고 설명했다.

 

음성 컴퓨터 조작의 활용도를 높이기 위해서는 두 가지 조건이 필요하다. 새롭고, 말하는 것이 보편화된 분야를 찾아야 한다. 꾸준히 성장하고 있는 휴대폰 시장이 바로 그곳이다.

 

뉘앙스의 제품 관리 및 마케팅 부사장 매트 레비스는 컴퓨터와 휴대폰 사용환경의 차이를 “컴퓨터는 고정된 환경에서 사용하기에 그 용도 또한 고정되어 있다. 따라서 음성인식 기술을 도입하더라도 오피스 앱, 웹 브라우징, 커뮤니케이션과 같은 기존 작업에 종속될 수밖에 없다. 반면 모바일 환경에서 음성인식은 삶의 많은 부분을 편리하게 해 준다. 이동 중에도 업무나 놀이를 즐길 수 있게 해주고 전화기에서 손을 떼고도 통화를 가능케 하기 때문이다”라고 설명한다.

 

가트너의 애널리스트 투옹 응웬 또한 모바일 환경에서 음성의 역할이 확대되었다는 데에 동의하면서, “사용의 측면에서 봤을 때 음성인식의 효용은 휴대용 기기에서 극대화 된다. 이는 사용자 친화적이며 직관적 입력을 가능케 한다”라고 말했다.

 

확실히 수 많은 메뉴들을 뒤적거리거나 조그만 키보드를 두드리는 것보다는 한마디의 명령어가 간편하다. 응웬은 “최근 터치타입 기기들이 유행과 더불어 음성인식은 데이터 입/출력의 중요한 수단이 되었다. 이는 또한 핸즈프리(hands-free)기술의 도입과 사용에도 필수적 요소이다”라고 덧붙였다.

어떻게 작동하는 걸까?

음성 인식은 음성 언어의 통계 모형을 통해 만든다. 구글의 제품 관리자 아미르 메인은 “음성 언어를 인식은 통계 모델 중 녹음된 언어와 가장 비슷한 것을 찾아내는 방식으로 이루어 진다. 즉 사용자가 한 말이 무엇일지 시스템이 추측해 내는 것이다”라고 설명했다.

 

언어의 통계 모형은 방대한 양의 정보를 사용해야 한다. 메인에 따르면, (통계 모형들은) 한 언어의 기본적 소리(음소)들과 모든 단어들, 그리고 음성 언어에서 단어가 배열될 수 있는 모든 가능성을 고려하는 것이어야 한다. 거기에 덧붙여 사람에 따라 다른 발음상의 악센트와 성별, 나이에 따른 차이점, 지역적 특색, 어휘 선택(“사이다”와 “스프라이트”와 같은) 등도 고려 요소이다.

 

구글 음성 검색의 통계 모형에는 세 가지 요소가 필요하다. 어쿠스틱 모형(acoustic models)과 언어모형(language model), 그리고 렉시콘(lexicon, 어휘 목록)이 그것이다. 메인은 “어쿠스틱 모델은 음성 언어를 녹음한 것과 그 녹음을 글로 옮긴 것, 그리고 그 둘을 이용해 한 언어에 기본이 되는 음성학적 요소들을 찾아냄으로써 만들어진다”라고 말했다.

 

언어 모형의 경우 한 단어 다음에 어떤 단어가 나올 지 짐작하고 이를 이용해 인식의 정확도를 높이는 과정을 담당한다. 메인은 “제국(empire)이라는 단어는 보통 ‘다양한’이나 ‘구아바’같은 단어보다는 “국가”나 “역습”(제국의 역습 에서 자주 쓰이듯)이란 단어와 함께 쓰일 확률이 더 높다”고 설명했다. 이런 데이터들을 수집하는 것은 언어 모형과 렉시콘의 폭을 넓히는 데 도움이 된다.

 

인식 데이터를 크라우드소싱(crowdsourcing) 하고 있는 기업은 구글 만이 아니다. 음석 인식 앱인 블링고(Vlingo)는 사용자의 휴대폰에 쿠키를 설치함으로써 지속적으로 사용자의 전화 사용 및 비슷한 사용자들로부터 얻은 데이터를 가지고 스피치 모형을 만든다.

#######

모바일 기기에서의 활용

지금까지 모바일 기기들은 대부분 데스크톱 컴퓨터의 저장 용량이나 처리 능력에 한참 못 미쳐왔기 때문에, 휴대폰서의 음성 처리기술은 오래도록 기초적인 기술에서 벗어나지를 못했다.

 

“언어 처리에 대한 스프링어 핸드북”에는 2000년대 초반의 휴대폰들이 여러 가지 제약에도 불구하고 어떻게 음성 인식으로 다이얼을 돌리거나 심지어는 이름을 인식하는 것이 가능했는지를 설명하고 있다. 가장 주된 문제는 메모리이기 때문에, 당시 휴대폰들은 대부분 한 번에 10개 가량의 이름 정도만 인식할 수 있었다고 한다. 저자들이 지적한 또 다른 문제는 바로 음성 인식 기능을 사용하는 이가 별로 없었다는 것인데, 핸드셋 제작자들에게 광고가 제대로 되지 않아서였을 것이다.

 

기억 용량과 처리 능력이 발전하면서, 휴대폰의 평균적 음성 인식 능력도 나아졌다. 2005년에 99달러에 출시된 삼성 SCH-p-207은 음성 인식 다이얼 기능뿐 아니라 사용자가 말한 것을 텍스트로 받아 적는 기능까지 더했다. 현재 스마트폰의 경우 수백MB에 이르는 용량과 몇 GB에 달하는 플래쉬 메모리 저장장치 덕분에 훨씬 제약이 적어졌다.

 

네트워크의 속도도 눈부시게 발달했다. 속도 빠른 무선 네트워크의 확산으로 최근의 언어 처리 기술을 비롯해 많은 발전을 이룩했다. 이는 가까운 서버에 처리량을 덜어줄 수 있게 됨으로 해서 가능해졌다.

 

구글 음성 검색의 제품 관리자인 아미르 메인은 이러한 발전들이 어떻게 구글의 음성 앱에 도움을 주었는지 설명했다. “처리 과정에서 힘들고 어려운 부분들은 전부 네트워크에서(다시 말해 구글 서버에서) 이루어 지기 때문에 소형 기기의 처리 능력(computing power)한계에 예전보다 덜 신경 쓸 수 있게 됐다”는 것이다.

 

음성인식을 활용한 앱

현재 휴대폰 음성 인식 기술의 상태는 목소리로 다이얼을 누르는 것에서 훨씬 더 나아간 상태다.

 

음성 작동 기능

음성으로 작동되는 기능 중에는 물론 초기부터 있어왔던 음성 다이얼링 기능도 포함된다. 가장 기본적이고 저가의 휴대폰들도 이 기능을 가지고 있다. 필자가 사용하는 노키아의 빈티지 2007모델인가 하는 플립폰(flip phone)역시 그 기능을 갖고 있었다. 비록 특이한 이름들을 얘기했을 경우 음성 인식이 시원찮은 경우가 있었지만 말이다.

 

가트너의 응웬은 새로 나온 음성 기능일수록 조정이 자유롭다고 말한다. “몇몇 특정 음성 명령을 새겨 넣어두는 대신에 기기가 그 음성을 인지하고 적절하다고 판단되는 방식으로 명령을 수행하는 것이 새로운 방식이다. 가격대가 높고 튼튼한 기기들 때문에 이런 기능들의 사용이 좀 더 편리해졌다”고 말했다. 다시 말해, 전화번호를 불러오기 위해 “888-555-1212번에 전화” 라는 단순한 명령을 내리는 대신 “엄마 번호(dial Mom)” 또는 “엄마에게 전화(phone my mother)” 라는 명령을 내릴 수 있게 된 것이다.

 

AP2340.JPG

구글 음성 검색은 기존의 인식 시스템보다 제약이 적은데, 힘든 일은 전부 네트워크 서버에서 하기 때문이다.

 

이런 기능 덕에 구글 음성 검색과 같은 음성 서비스 앱이 더욱 유용해졌다. 예를 들어, “트론:새로운 시작 영화 상영 시간(Tron Legacy movie times)” 이라고 검색어를 말하면 우편번호나 위치 별로 영화관을 보여준다. 이 앱은 명령어의 내용만 이해하는 것이 아니라, 사용자의 휴대폰(현재 위치정보를 알기 위해)과 웹(영화 상영시간을 보여줌) 모두에서 정보를 찾아낸다.

 

이 앱은 또한 특별한 기능 없이 자동으로 특정 단어들의 의미를 알아낼 수 있을 만큼 상식적인 정보도 갖고 있다. “머틀리 크루(Motley Crue) 밴드”라는 단어를 말했을 때, 앱은 이를 바로 알아듣는다. 심지어 밴드 이름에 쓰인 특이한 글자까지도 검색어에 포함시킨다. 비록 독일어의 움라우트(umlauts)는 생략하지만 말이다. 이 경우, 만약 소리는 같지만 철자법이 다른 “머틀리 크루(Motley’s Crew)”로 검색을 한다면 밴드 대신 만화가 검색됐을 것이다.

 

하지만 주류 영어에서 멀어질수록 구글의 음성 인식도 부정확해진다. 외국 이름들의 경우 답이 없다. 음성 인식을 방해하는 또 다른 고질적 문제는 주변 소음이다. 특히 이동기기 사용자들은 데스크톱 사용자들보다 주변 소음에 영향을 많이 받는다. 뉘앙스 사의 레비스는 “시끄러운 실외 환경에서의 인식 정확도”는 계속해서 문제가 되고 있다고 얘기했다.

 

받아 적기

음성 정보를 텍스트로 받아 적는 딕테이션(dictation)기능은 2005년 삼성의 휴대폰 이후로 발전해 왔다. 아이폰의 드래곤 딕테이션(Dragon Dictation)  앱은 말하는 드래곤(Dragon NaturallySpeaking) 소프트웨어를 사용하며 사용자들이 간단한 메모부터 이메일이나 트위터 업데이트에 이르기까지 다양한 것들을 적을 수 있게 해준다. 드래곤 이메일 보내기(Dragon for Email)  앱은 블랙베리폰에서 비슷한 기능을 제공한다.

 

안드로이드 폰의 경우 뉘앙스 사에서 나온 플렉스T9(FlexT9)가 있다. 플렉스T9는 드래곤 딕테이션 기능과 세 종류의 터치식 입력이 결합된 형태다. 안드로이드의 음성 인식 기술과 결합해 음성으로 문자메시지를 보낼 수 있게 해주는 핸드센트SMS 앱도 있다.

 

번역

번역 기능은 문자 대 문자 형식으로 몇 년 전부터 가능했었다(널리 알려진 바벨 피쉬 (Babel Fish)  같은 사이트를 통해서 말이다). 말하자 마자 번역하는 기능은 아직 나오지 않았지만, 이에 상당히 가까워지긴 했다. 예를 들면 아이폰 지비고(Jibbigo)단어나 구절, 그리고 간단한 문장을 번역해 양쪽에서 대화를 나눌 수 있게 해준다.

#######

앞으로의 전망은?

음성 인식 기술분야의 관계자 중 아무나 붙잡고 음성 인식의 다음 발전단계가 무엇이냐고 물으면, 아마도 열에 아홉은 “자연 언어 처리(natural-language processing)”라고 할 것이다.

 

레비스는 이를 “사용자가 말한 내용뿐 아니라 말의 의도를 이해하는 시스템, 대화 같은 소통이 가능해 사용자들이 이런 저런 제약 없이 자유롭게 하고픈 말을 할 수 있는 시스템”이라고 설명했다. 그는 “100달러 이하로 니콘 카메라를 살 수 있는 곳은?” 이나 “제니에게 내가 20분 늦을 것이라고 문자메시지 보내” 또는 “오늘 저녁 몰튼스(Morton’s)에 세 명 자리를 예약해” 등의 명령어를 예로 들었다.

 

구글의 메인은 “음성 대화에서의 자연 언어 처리는 두 배로 힘들다”라면서, “먼저 단어를 인식해야 하고, 거기에서 의미까지 추측해내야 하기 때문이다”라고 말했다. 첫 번째는 점차 수월해지고 있지만, 두 번째 의미 파악 부분은 여전히 아득하기만 하다. 의미 파악은 문맥에 따라 다르고 쉽게 달라지기 때문에 사람조차도 실수를 하는 경우가 많은 부분이다.

 

마이크로소프트의 레일은 휴대폰이 제공하는 추가적 서비스들(나침반 기능이나 GPS같은)을 사용하면 자연 언어 처리의 유용성을 증대할 수 있을 것이라 말한다. 그는, “그렇게 될 경우 영화를 보러 가거나 외식을 할 때 달력이나 식당 정보, 영화 리뷰, 그리고 위치 정보 등 다양한 소스를 통해 명령을 세분화 시켜 내릴 수 있다” 라고 말했다.

 

게다가, 휴대폰에 있는 서비스들은 스피치의 맥락을 제공할 수도 있다. 레일은 “사용자의 음성 입력과 다른 양식들을 통한 지능, 그리고 사용자와 사용자의 환경에 대한 탐지 기능 등은 더 풍부하고 정확한 검색 결과를 제공한다”라고 말한다. 예를 들어 포스퀘어(Foursquare)를 통해 식당을 예약했다면, 불확실한 음성 명령 대신 외식이나 예약, 택시 잡기 등의 단어를 사용할 수도 있다.

 

“가상 도우미”를 자청하는 멀티플랫폼 앱인 블링고(Vlingo)는 이미 이러한 종류의 기능들을 제공하고 있다. 오픈테이블(OpenTable)이나 판단고(Fandango)등을 통해 식당 예약이나 영화 표 예매 등의 서비스를 제공하는 것이다.

 

응웬이 예상하는 음성 인식의 또 다른 발전 가능 분야는 게임이다. “음성 인식은 게임 플레이를 한 차원 높은 단계로 상승시킬 수 있다”라고 말했다. 예를 들면, 커크 함장 같은 말투로 스타쉽에 명령을 내릴 수도 있고, 용의 선상에 있는 대상을 직접 심문할 수도 있다.

 

음성 인식의 개별화

이미 도입되고 있는 기능 중 하나는 개인 사용자를 위해 자동적으로 개별화 된 서비스를 제공하는 것이다. 이는 데스크톱의 음성 인식이 필요로 하는 음성 트레이닝의 핸즈오프(hands-off) 버전이다.

 

예를 들어, 구글 음성 검색의 최신 버전은 옵트 인(opt-in)기능이 있어서 사용자가 자주 사용하는 말들을 기록해 둔다. 메인은 “사용자가 음성 인식 기능을 사용할 때마다, 사용자와 사용자가 했던 말들을 기록해 기초적이지만 개별화 된 음성 인식 모형을 만드는 데 사용한다”고 설명했다.

 

음성 인식의 개별화가 문제의 특효약은 아니다. 이는 그저 음성 인식을 좀 더 편리하게 만들기 위한 하나의 발전 단계일 뿐이다. 메인은 “우리는 음성 인식 개별화가 하나의 해결책이 아니라 앞으로 도래하게 될 여러 혁신적 발달 중 하나라고 생각한다”라면서, 이런 식의 기능 개선이 “사용자들의 더 적극적인 참여를 필요로 할 수도 있다” 고 자신의 생각을 밝혔다.

 

결론

휴대폰은 하드웨어 및 소프트웨어 측면에서 다양한 기술들의 요람이 된 동시에 그들의 발달을 유도해 왔다. 지금까지는 그러한 기술들에 음성 인식을 더해 이들을 개선시켜왔다. 구글 음성 앱의 뛰어난 기능들이 그 예다.

 

그러나 이러한 발전들은 이제 서서히 더 중요한 방향으로 나아가고 있으며, 모바일 기술은 그러한 새로운 기술들을 어떻게 통합시킬 방법을 제안하고 있다. 음성 인식의 다음 단계는 당신이 말하는 모든 것을 이해하는 휴대폰이 아니라, 훨씬 더 유용한 서비스를 제공할 수 있을 만큼 당신의 말을 잘 이해하는 휴대폰 이 될 것이다.

 

Serdar Yegulalp는 15년 넘게 인포메이션위크(InformationWeek)나 윈도우 매거진(Windows Magazine)등 다양한 간행물을 통해 컴퓨터와 정보 기술에 대한 글을 써 왔다. editor@idg.co.kr



2011.03.23

“스마트폰을 더 똑똑하게” 진가 발휘하는 음성인식

Serdar Yegulalp | Computerworld

어릴 적 필자는 친구들과 스타트랙에 나온 기술들 중 어떤 것이 미래에 실현될 수 있을지 상상하며 놀곤 하였다. 우주함선이나 워프항법(warp drive; 공간이동)은 터무니 없었지만, 음성인식 컴퓨터나 만능 통역기는 충분히 개발될 것 같았다.

 

처음으로 데스크톱에 음성인식 기술이 도입되었을 때, 모두 이에 감탄했다. 그러나 실제로 이 기술이 키보드와 마우스를 대체하지는 못하였다. 이제 음성인식 기술은 휴대폰이라는 새로운 기기와의 결합을 시도한다. 그리고 기술의 활용방향 또한 과거 데스크톱 과의 결합에서 목표하던 것과는 다르게 나아가고 있다.  

 

역사

음성인식 기술이 최초로 개발 된 것은 1950년대이다. 이는 시험적인 목적의 개발이었다. 이후 1960년대 초에는 IBM사가 16단어의 인식이 가능하고 ‘3 더하기 4’와 같은 간단한 계산기능을 갖춘 슈박스(Shoebox)를 선보였다.

 

음성인식 기술이 PC에 적용된 최초의 사례는 아마도 1980년대 초 드래곤 시스템(Dragon Systems)이 개발한 도스(DOS)용 프로그램 드래곤 딕테이트(DragonDictate)일 것이다. 이 프로그램은 낱말단위의 인식과 표현이 가능했다. 이는 이후 뉘앙스 커뮤니케이션(Nuance Communication)의 말하는 드래곤(Dragon NaturallySpeaking)으로까지 진화했는데, 최신 11버전을 이용하면 일반 대화속도의 음성인식 및 텍스트변환이 가능하다.

 

그러나 컴퓨터의 음성인식은 두 가지 한계를 지니고 있다. 첫째로 음성인식의 정확성을 높이기 위해서 프로그램은 사용자 음성패턴을 파악하는 기간을 필요로 한다. 이는 윈도우 비스타와 윈도우7(Windows 7)에 내장된 스피치-투-텍스트(speech-to-text)기술과 말하는 드래곤 같은 외부 프로그램 모두에서 발견되는 한계점이다.

 

AP3555.JPG

IBM이 자사 창립 100주년을 기념하며 1960년대 초 공개한 연산이 가능한 음성인식 시스템 슈박스(Shoebox)

 

두 번째 한계는 이미 자리잡은 키보드사용 습관이다. 오늘날 대부분의 사람들은 타이핑에 익숙하다. 따라서 굳이 말할 필요가 없다. 음성인식기술은 드보락방식 키보드배열(Dvorak keyboard layout)과 같은 문제에 직면해 있다. 누가 이미 친숙하고, 전혀 문제없는 쿼티(QWERTY)자판을 버리고 드보락을 새로 배우려 하겠는가?

 

마이크로소프트에서 다용도 음성인식 개발을 담당하는 텔미(TellMe)팀의 수석 개발팀장 애비 레일도 이 점에 동의한다. “컴퓨터 사용자들은 누구나 마우스와 키보드를 사용해 다양한 활동을 쉽게 할 수 있다. 때문에 음성인식은 기본적으로 ‘말이 필요한’ 분야를 대상으로 한다”고 설명했다.

 

음성 컴퓨터 조작의 활용도를 높이기 위해서는 두 가지 조건이 필요하다. 새롭고, 말하는 것이 보편화된 분야를 찾아야 한다. 꾸준히 성장하고 있는 휴대폰 시장이 바로 그곳이다.

 

뉘앙스의 제품 관리 및 마케팅 부사장 매트 레비스는 컴퓨터와 휴대폰 사용환경의 차이를 “컴퓨터는 고정된 환경에서 사용하기에 그 용도 또한 고정되어 있다. 따라서 음성인식 기술을 도입하더라도 오피스 앱, 웹 브라우징, 커뮤니케이션과 같은 기존 작업에 종속될 수밖에 없다. 반면 모바일 환경에서 음성인식은 삶의 많은 부분을 편리하게 해 준다. 이동 중에도 업무나 놀이를 즐길 수 있게 해주고 전화기에서 손을 떼고도 통화를 가능케 하기 때문이다”라고 설명한다.

 

가트너의 애널리스트 투옹 응웬 또한 모바일 환경에서 음성의 역할이 확대되었다는 데에 동의하면서, “사용의 측면에서 봤을 때 음성인식의 효용은 휴대용 기기에서 극대화 된다. 이는 사용자 친화적이며 직관적 입력을 가능케 한다”라고 말했다.

 

확실히 수 많은 메뉴들을 뒤적거리거나 조그만 키보드를 두드리는 것보다는 한마디의 명령어가 간편하다. 응웬은 “최근 터치타입 기기들이 유행과 더불어 음성인식은 데이터 입/출력의 중요한 수단이 되었다. 이는 또한 핸즈프리(hands-free)기술의 도입과 사용에도 필수적 요소이다”라고 덧붙였다.

어떻게 작동하는 걸까?

음성 인식은 음성 언어의 통계 모형을 통해 만든다. 구글의 제품 관리자 아미르 메인은 “음성 언어를 인식은 통계 모델 중 녹음된 언어와 가장 비슷한 것을 찾아내는 방식으로 이루어 진다. 즉 사용자가 한 말이 무엇일지 시스템이 추측해 내는 것이다”라고 설명했다.

 

언어의 통계 모형은 방대한 양의 정보를 사용해야 한다. 메인에 따르면, (통계 모형들은) 한 언어의 기본적 소리(음소)들과 모든 단어들, 그리고 음성 언어에서 단어가 배열될 수 있는 모든 가능성을 고려하는 것이어야 한다. 거기에 덧붙여 사람에 따라 다른 발음상의 악센트와 성별, 나이에 따른 차이점, 지역적 특색, 어휘 선택(“사이다”와 “스프라이트”와 같은) 등도 고려 요소이다.

 

구글 음성 검색의 통계 모형에는 세 가지 요소가 필요하다. 어쿠스틱 모형(acoustic models)과 언어모형(language model), 그리고 렉시콘(lexicon, 어휘 목록)이 그것이다. 메인은 “어쿠스틱 모델은 음성 언어를 녹음한 것과 그 녹음을 글로 옮긴 것, 그리고 그 둘을 이용해 한 언어에 기본이 되는 음성학적 요소들을 찾아냄으로써 만들어진다”라고 말했다.

 

언어 모형의 경우 한 단어 다음에 어떤 단어가 나올 지 짐작하고 이를 이용해 인식의 정확도를 높이는 과정을 담당한다. 메인은 “제국(empire)이라는 단어는 보통 ‘다양한’이나 ‘구아바’같은 단어보다는 “국가”나 “역습”(제국의 역습 에서 자주 쓰이듯)이란 단어와 함께 쓰일 확률이 더 높다”고 설명했다. 이런 데이터들을 수집하는 것은 언어 모형과 렉시콘의 폭을 넓히는 데 도움이 된다.

 

인식 데이터를 크라우드소싱(crowdsourcing) 하고 있는 기업은 구글 만이 아니다. 음석 인식 앱인 블링고(Vlingo)는 사용자의 휴대폰에 쿠키를 설치함으로써 지속적으로 사용자의 전화 사용 및 비슷한 사용자들로부터 얻은 데이터를 가지고 스피치 모형을 만든다.

#######

모바일 기기에서의 활용

지금까지 모바일 기기들은 대부분 데스크톱 컴퓨터의 저장 용량이나 처리 능력에 한참 못 미쳐왔기 때문에, 휴대폰서의 음성 처리기술은 오래도록 기초적인 기술에서 벗어나지를 못했다.

 

“언어 처리에 대한 스프링어 핸드북”에는 2000년대 초반의 휴대폰들이 여러 가지 제약에도 불구하고 어떻게 음성 인식으로 다이얼을 돌리거나 심지어는 이름을 인식하는 것이 가능했는지를 설명하고 있다. 가장 주된 문제는 메모리이기 때문에, 당시 휴대폰들은 대부분 한 번에 10개 가량의 이름 정도만 인식할 수 있었다고 한다. 저자들이 지적한 또 다른 문제는 바로 음성 인식 기능을 사용하는 이가 별로 없었다는 것인데, 핸드셋 제작자들에게 광고가 제대로 되지 않아서였을 것이다.

 

기억 용량과 처리 능력이 발전하면서, 휴대폰의 평균적 음성 인식 능력도 나아졌다. 2005년에 99달러에 출시된 삼성 SCH-p-207은 음성 인식 다이얼 기능뿐 아니라 사용자가 말한 것을 텍스트로 받아 적는 기능까지 더했다. 현재 스마트폰의 경우 수백MB에 이르는 용량과 몇 GB에 달하는 플래쉬 메모리 저장장치 덕분에 훨씬 제약이 적어졌다.

 

네트워크의 속도도 눈부시게 발달했다. 속도 빠른 무선 네트워크의 확산으로 최근의 언어 처리 기술을 비롯해 많은 발전을 이룩했다. 이는 가까운 서버에 처리량을 덜어줄 수 있게 됨으로 해서 가능해졌다.

 

구글 음성 검색의 제품 관리자인 아미르 메인은 이러한 발전들이 어떻게 구글의 음성 앱에 도움을 주었는지 설명했다. “처리 과정에서 힘들고 어려운 부분들은 전부 네트워크에서(다시 말해 구글 서버에서) 이루어 지기 때문에 소형 기기의 처리 능력(computing power)한계에 예전보다 덜 신경 쓸 수 있게 됐다”는 것이다.

 

음성인식을 활용한 앱

현재 휴대폰 음성 인식 기술의 상태는 목소리로 다이얼을 누르는 것에서 훨씬 더 나아간 상태다.

 

음성 작동 기능

음성으로 작동되는 기능 중에는 물론 초기부터 있어왔던 음성 다이얼링 기능도 포함된다. 가장 기본적이고 저가의 휴대폰들도 이 기능을 가지고 있다. 필자가 사용하는 노키아의 빈티지 2007모델인가 하는 플립폰(flip phone)역시 그 기능을 갖고 있었다. 비록 특이한 이름들을 얘기했을 경우 음성 인식이 시원찮은 경우가 있었지만 말이다.

 

가트너의 응웬은 새로 나온 음성 기능일수록 조정이 자유롭다고 말한다. “몇몇 특정 음성 명령을 새겨 넣어두는 대신에 기기가 그 음성을 인지하고 적절하다고 판단되는 방식으로 명령을 수행하는 것이 새로운 방식이다. 가격대가 높고 튼튼한 기기들 때문에 이런 기능들의 사용이 좀 더 편리해졌다”고 말했다. 다시 말해, 전화번호를 불러오기 위해 “888-555-1212번에 전화” 라는 단순한 명령을 내리는 대신 “엄마 번호(dial Mom)” 또는 “엄마에게 전화(phone my mother)” 라는 명령을 내릴 수 있게 된 것이다.

 

AP2340.JPG

구글 음성 검색은 기존의 인식 시스템보다 제약이 적은데, 힘든 일은 전부 네트워크 서버에서 하기 때문이다.

 

이런 기능 덕에 구글 음성 검색과 같은 음성 서비스 앱이 더욱 유용해졌다. 예를 들어, “트론:새로운 시작 영화 상영 시간(Tron Legacy movie times)” 이라고 검색어를 말하면 우편번호나 위치 별로 영화관을 보여준다. 이 앱은 명령어의 내용만 이해하는 것이 아니라, 사용자의 휴대폰(현재 위치정보를 알기 위해)과 웹(영화 상영시간을 보여줌) 모두에서 정보를 찾아낸다.

 

이 앱은 또한 특별한 기능 없이 자동으로 특정 단어들의 의미를 알아낼 수 있을 만큼 상식적인 정보도 갖고 있다. “머틀리 크루(Motley Crue) 밴드”라는 단어를 말했을 때, 앱은 이를 바로 알아듣는다. 심지어 밴드 이름에 쓰인 특이한 글자까지도 검색어에 포함시킨다. 비록 독일어의 움라우트(umlauts)는 생략하지만 말이다. 이 경우, 만약 소리는 같지만 철자법이 다른 “머틀리 크루(Motley’s Crew)”로 검색을 한다면 밴드 대신 만화가 검색됐을 것이다.

 

하지만 주류 영어에서 멀어질수록 구글의 음성 인식도 부정확해진다. 외국 이름들의 경우 답이 없다. 음성 인식을 방해하는 또 다른 고질적 문제는 주변 소음이다. 특히 이동기기 사용자들은 데스크톱 사용자들보다 주변 소음에 영향을 많이 받는다. 뉘앙스 사의 레비스는 “시끄러운 실외 환경에서의 인식 정확도”는 계속해서 문제가 되고 있다고 얘기했다.

 

받아 적기

음성 정보를 텍스트로 받아 적는 딕테이션(dictation)기능은 2005년 삼성의 휴대폰 이후로 발전해 왔다. 아이폰의 드래곤 딕테이션(Dragon Dictation)  앱은 말하는 드래곤(Dragon NaturallySpeaking) 소프트웨어를 사용하며 사용자들이 간단한 메모부터 이메일이나 트위터 업데이트에 이르기까지 다양한 것들을 적을 수 있게 해준다. 드래곤 이메일 보내기(Dragon for Email)  앱은 블랙베리폰에서 비슷한 기능을 제공한다.

 

안드로이드 폰의 경우 뉘앙스 사에서 나온 플렉스T9(FlexT9)가 있다. 플렉스T9는 드래곤 딕테이션 기능과 세 종류의 터치식 입력이 결합된 형태다. 안드로이드의 음성 인식 기술과 결합해 음성으로 문자메시지를 보낼 수 있게 해주는 핸드센트SMS 앱도 있다.

 

번역

번역 기능은 문자 대 문자 형식으로 몇 년 전부터 가능했었다(널리 알려진 바벨 피쉬 (Babel Fish)  같은 사이트를 통해서 말이다). 말하자 마자 번역하는 기능은 아직 나오지 않았지만, 이에 상당히 가까워지긴 했다. 예를 들면 아이폰 지비고(Jibbigo)단어나 구절, 그리고 간단한 문장을 번역해 양쪽에서 대화를 나눌 수 있게 해준다.

#######

앞으로의 전망은?

음성 인식 기술분야의 관계자 중 아무나 붙잡고 음성 인식의 다음 발전단계가 무엇이냐고 물으면, 아마도 열에 아홉은 “자연 언어 처리(natural-language processing)”라고 할 것이다.

 

레비스는 이를 “사용자가 말한 내용뿐 아니라 말의 의도를 이해하는 시스템, 대화 같은 소통이 가능해 사용자들이 이런 저런 제약 없이 자유롭게 하고픈 말을 할 수 있는 시스템”이라고 설명했다. 그는 “100달러 이하로 니콘 카메라를 살 수 있는 곳은?” 이나 “제니에게 내가 20분 늦을 것이라고 문자메시지 보내” 또는 “오늘 저녁 몰튼스(Morton’s)에 세 명 자리를 예약해” 등의 명령어를 예로 들었다.

 

구글의 메인은 “음성 대화에서의 자연 언어 처리는 두 배로 힘들다”라면서, “먼저 단어를 인식해야 하고, 거기에서 의미까지 추측해내야 하기 때문이다”라고 말했다. 첫 번째는 점차 수월해지고 있지만, 두 번째 의미 파악 부분은 여전히 아득하기만 하다. 의미 파악은 문맥에 따라 다르고 쉽게 달라지기 때문에 사람조차도 실수를 하는 경우가 많은 부분이다.

 

마이크로소프트의 레일은 휴대폰이 제공하는 추가적 서비스들(나침반 기능이나 GPS같은)을 사용하면 자연 언어 처리의 유용성을 증대할 수 있을 것이라 말한다. 그는, “그렇게 될 경우 영화를 보러 가거나 외식을 할 때 달력이나 식당 정보, 영화 리뷰, 그리고 위치 정보 등 다양한 소스를 통해 명령을 세분화 시켜 내릴 수 있다” 라고 말했다.

 

게다가, 휴대폰에 있는 서비스들은 스피치의 맥락을 제공할 수도 있다. 레일은 “사용자의 음성 입력과 다른 양식들을 통한 지능, 그리고 사용자와 사용자의 환경에 대한 탐지 기능 등은 더 풍부하고 정확한 검색 결과를 제공한다”라고 말한다. 예를 들어 포스퀘어(Foursquare)를 통해 식당을 예약했다면, 불확실한 음성 명령 대신 외식이나 예약, 택시 잡기 등의 단어를 사용할 수도 있다.

 

“가상 도우미”를 자청하는 멀티플랫폼 앱인 블링고(Vlingo)는 이미 이러한 종류의 기능들을 제공하고 있다. 오픈테이블(OpenTable)이나 판단고(Fandango)등을 통해 식당 예약이나 영화 표 예매 등의 서비스를 제공하는 것이다.

 

응웬이 예상하는 음성 인식의 또 다른 발전 가능 분야는 게임이다. “음성 인식은 게임 플레이를 한 차원 높은 단계로 상승시킬 수 있다”라고 말했다. 예를 들면, 커크 함장 같은 말투로 스타쉽에 명령을 내릴 수도 있고, 용의 선상에 있는 대상을 직접 심문할 수도 있다.

 

음성 인식의 개별화

이미 도입되고 있는 기능 중 하나는 개인 사용자를 위해 자동적으로 개별화 된 서비스를 제공하는 것이다. 이는 데스크톱의 음성 인식이 필요로 하는 음성 트레이닝의 핸즈오프(hands-off) 버전이다.

 

예를 들어, 구글 음성 검색의 최신 버전은 옵트 인(opt-in)기능이 있어서 사용자가 자주 사용하는 말들을 기록해 둔다. 메인은 “사용자가 음성 인식 기능을 사용할 때마다, 사용자와 사용자가 했던 말들을 기록해 기초적이지만 개별화 된 음성 인식 모형을 만드는 데 사용한다”고 설명했다.

 

음성 인식의 개별화가 문제의 특효약은 아니다. 이는 그저 음성 인식을 좀 더 편리하게 만들기 위한 하나의 발전 단계일 뿐이다. 메인은 “우리는 음성 인식 개별화가 하나의 해결책이 아니라 앞으로 도래하게 될 여러 혁신적 발달 중 하나라고 생각한다”라면서, 이런 식의 기능 개선이 “사용자들의 더 적극적인 참여를 필요로 할 수도 있다” 고 자신의 생각을 밝혔다.

 

결론

휴대폰은 하드웨어 및 소프트웨어 측면에서 다양한 기술들의 요람이 된 동시에 그들의 발달을 유도해 왔다. 지금까지는 그러한 기술들에 음성 인식을 더해 이들을 개선시켜왔다. 구글 음성 앱의 뛰어난 기능들이 그 예다.

 

그러나 이러한 발전들은 이제 서서히 더 중요한 방향으로 나아가고 있으며, 모바일 기술은 그러한 새로운 기술들을 어떻게 통합시킬 방법을 제안하고 있다. 음성 인식의 다음 단계는 당신이 말하는 모든 것을 이해하는 휴대폰이 아니라, 훨씬 더 유용한 서비스를 제공할 수 있을 만큼 당신의 말을 잘 이해하는 휴대폰 이 될 것이다.

 

Serdar Yegulalp는 15년 넘게 인포메이션위크(InformationWeek)나 윈도우 매거진(Windows Magazine)등 다양한 간행물을 통해 컴퓨터와 정보 기술에 대한 글을 써 왔다. editor@idg.co.kr



X