Offcanvas
Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.
Offcanvas
1111Some text as placeholder. In real life you can have the elements you have chosen. Like, text, images, lists, etc.

음성인식

글로벌 칼럼 | 시리 탄생 한 달… “컴퓨팅의 패러다임을 바꾸다”

아이폰 4S에서 사용할 수 있는 음성으로 제어되는 새로운 "개인 비서" 시리(Siri)를 한 달간 사용해 본 후 필자는 이제 음성 제어를 마우스와 컴퓨터, 그리고 최근의 터치 제스처(Touch Gesture)에 이어 컴퓨터와 상호작용하는 패러다임을 바꾸는 수단으로 보아야 한다고 결론 내렸다. 아직 음성 제어가 완벽하지는 않지만 시리의 사용 편의성과 즉각적인 반응성은 사람들의 습관을 바꾸어 놓기에 충분할 것이다. 그리고 실제로도 필자의 습관에 변화를 가져왔다.   음성 명령을 이용해 컴퓨터를 제어하는 것은 수년 동안 하나의 꿈으로 자리잡았다. 비록 많은 기업들이 노력했지만 그 어떤 기업도 대부분의 사용자들이 쉽고 편리하게 이용할 수 있는 신뢰할만한 것을 제공하지 못했다. 애플의 맥 OS에는 1990년대 중반부터 음성인식 명령이 내장되었으며, 필자는 OS/2 랩(Wrap)이 잊혀져 갈 즈음에 CompUSA에서 이상한 헤드셋을 착용한 드래곤 딕테이션(Dragon Dictation)의 기술자들이 윈도우 부스를 가득 채우고 있던 것을 기억한다.   사실 대부분의 휴대폰에는 스마트폰이 등장하기 전부터 음성으로 제어되는 연락처 및 전화 걸기 기능이 내장되어 있었다. 하지만 이런 범용성에도 불구하고 음성 제어는 주목을 받지 못했다. 왜냐하면 대부분의 사람들에게 있어서 그 작동방식이 너무 번잡스러웠기 때문이다. 맥 OS의 스피커블 아이템(Speakable Items)부터 구형 휴대폰의 연락처로 전화 걸기에 이르기까지 음성 제어는 항상 자연스러운 발화라기 보다는 명령어에 가까운 구체적인 표현을 필요로 했다.   "5-5-5-5-5-5-1-2-3-4 로 전화하기" 등 각 단어와 번호를 분명하게 발음하는 것은 간단하게 "엄마에게 전화하기"라고 말하는 것보다 훨씬 어렵다.   시리는 어떻게 다른가 시리는 오리지널 맥이 많은 사람...

음성인식 시리 Siri 2011.11.28

IDG 블로그 | “시리로 온도 조절” 해커들 시리 활용 본격화

시리는 아이폰 4S에서 가장 인기있는 기술 중 하나이다. 하지만 많은 사용자들이 이 기능을 단지 애플의 위젯이나 웹 서핑 이외의 곳에서도 사용하고 싶어한다. 그리고 일군의 대담한 해커들이 바로 그런 일에 착수하고 있다. 첫번째 시도는 온도조절기를 설정하는 것이다. 유튜브에 올라온 비디오를 보면, 피트(트위터 ID @Plamoni)란 해커는 시리로 프록시 서버를 사용해 와이파이 온도조절기를 설정하는 방법을 보여준다. 프록시 핵에 연결된 시리를 사용해 피트는 음성 명령으로 현재 온도에 대한 정보를 끌어내고, 온도조절기에 새로운 프로그램을 설정한다.   이런 홈 프로그래밍은 새로울 것이 없지만, 음성 인식과 음성 명령을 지원하는 컴퓨터는 DARPA 연구소나 IBM 수퍼컴퓨터 외에는 보기 어려운 것이다. 하지만 시리는 아주 쓸만한 AI 시스템으로 사용자가 말하는 것의 대부분을 이해하며, 이를 프록시 서버가 이해할 수 있는 단순한 명령어로 번역하는 것도 가능하다.   피트의 프록시에서 가장 멋진 것은 이 프레임워크가 시리의 기능을 확장할 수 있는 다른 플러그인도 구현할 수 있다는 것이다. 피트는 시리 프록시(Siri Proxy) 코드를 코드 공유 사이트인 GitHub에 올렸으며, 이미 다른 개발자들이 만들어낸 플러그인들이 공개되고 있다.  editor@itworld.co.kr

해커 음성인식 시리 2011.11.23

아마존, 음성 인식 업체 인수… “시리 대항마 만드나”

아마존이 조용히 음성 인식 기술 신생업체인 얍(Yap)을 인수한 것으로 알려져, 애플의 시리(Siri)나 구글의 보이스 액션(Voice Actions)과 같은 음성 명령 서비스를 선보일 것이라는 기대감이 높아지고 있다.   얍은 스마트폰용 음성메일을 받아 적는 앱을 생산하고 있지만, 이 서비스는 10월 20일 중단됐다. SEC 자료에 따르면, 지난 9월 얍은 다이온 애퀴지션 섭(Dion Acquisition Sub)와 합병됐다. 이 인수에서 흥미로운 점은 아마존과 얍의 합병에서 살아남은 부분이 같은 주소를 사용하고 있는 것이다.    아마존의 다음 계획은 무엇인가? 아마존은 얍의 기술을 이용해서 모바일 디바이스에서 활용할 수 있는 음성 인식 서비스를 개발할 수 있을 것이다. 최소한 이론적으로는 그렇다. 애플의 시리가 최근 상당한 관심을 받으면서, 아마존도 비슷한 서비스를 구축할 것이라는 기대감이 형성되고 있기도 하다.    한편으로는 음성 문자 변환 엔진을 구축하기 위한 것이라는 주장과 아마존의 랩126(lab126)의 연구 프로젝트일 수도 있다는 의견도 있다.    최근 아마존은 모바일 디바이스에 대한 관심을 높이고 있기 때문에, 아마존이 자체 음성 인식 서비스를 개발할 가능성은 충분하다. 아마존은 지난 3월 자체적으로 안드로이드용 앱스토어를 선보였고, 9월에는 미디어 태블릿인 킨들 파이어(Kindle Fire)도 출시했다. 또한, 아마존이 2012년에 8인치나 10인치 태블릿을 출시할 예정이라는 소문도 있다.  editor@itworld.co.kr

음성인식 시리 아마존 2011.11.11

시리 서비스 장애… “애플은 아직 클라우드에 준비가 안됐나”

아이폰 4S에서 가장 주목을 받는 기능인 디지털 비서 시리(Siri)가 지난 주 먹통이 되는 사고가 있었다.    지난 주 수요일 오전 11시부터 아이폰 4S 사용자들은 3G와 와이파이 네트워크 모두에서 시리에 연결이 불가능하다고 보고하기 시작했고, 오후 4시부터 일부 사용자를 제외하고는 대부분 기능이 복구됐다.  > “시리가 완성되기까지” 음성인식기술의 변천사   애플은 장애 원인에 대해서 밝히지 않았다.   애플의 클라우드 서비스는 그 동안 여러 번 서비스 장애가 있었지만, 원인이나 실시간 상황 정보를 밝히지 않아 사용자들의 불만이 이어진 바 있다. 예를 들어, 아이클라우드(iCloud)의 전신인 모바일미(MobileMe)는 제대로 설명되지 않은 서비스 장애가 있어 비난을 들었었는데, 이런 상황이 반복되고 있는 것이다.    시리는 모바일미보다 잘 설계됐을 것으로 예상되지만, 최근의 이런 장애는 애플이 아직 가동시간이 웹 서비스에서 가장 중요한 점이라는 것을 깨닫지 못하고 있다는 점을 보여준다.   클라우드 서비스가 얼마나 유용하던, 인터페이스가 얼마나 훌륭하던 사용자가 접속하지 못하면 아무 의미가 없다. 특히 시리의 경우 애플의 서버가 죽으면 기본적인 기능도 사용할 수 없기 때문에 가동시간은 더욱 중요하다.    이번 시리 장애는 서비스가 시작된 후 처음 발생한 것이라고 보기 힘들다. 애플 지원 포럼을 살펴보면, 지난 10월 14일에도 비슷한 서비스 장애가 있었다.    늘 완성품을 내놓던 애플이 시리를 베타 서비스 형태로 출시한 이유도 이런 장애 때문인 것으로 분석된다. 아직 서비스를 유지하기 위한 서버가 충분하지 않거나 유능한 기술자가 부족할 수도 있다는 것이다.   또, 기술적으...

음성인식 시리 Siri 2011.11.07

“시리가 완성되기까지” 음성인식기술의 변천사

음성인식기술의 변천사를 되짚어 보는 것은 단일 음절을 인식하는 수준의 아기의 옹알이부터 수천 개의 단어를 배우고 애플의 똑똑한 가상 비서인 시리(Siri)처럼 질문에 신속하면서도 재치 있게 대답하는 수준에 이르는 어린 아이의 성장과정을 보는 것과도 같다고 할 수 있다.   다소 비난조로 유머를 구사하는 시리를 보고 있자면 지난 세월 동안 음성인식이 얼마나 많이 발전했는지 궁금해진다. 오늘은 사람들이 음성만을 이용해서 기기를 제어하기까지 지난 수십 년간 음성인식 기술이 어떻게 발전해왔는지 알아보도록 하자.   1950년대와 1960년대 : 옹알이 최초의 음성인식 시스템은 숫자만을 알아들을 수 있었다. (인간 언어의 복잡함 때문에 혁신가들과 엔지니어들은 숫자에 초점을 맞추었을 것으로 생각된다.) 벨 연구소(Bell Laboratories)는 1952년 단일 음성으로 말하는 숫자를 인식하는 ‘오드레이(Audrey)’ 시스템을 개발했다. 10년이 지난 후 IBM은 월드 페어(World's Fair)에서 16개의 영어 단어를 인식할 수 있는 자사의 ‘슈박스(Shoebox)’ 장비를 공개했다.   미국, 일본, 영국, 소련 등의 국가에 위치한 연구소들은 인간의 발화를 인식하는 전용 하드웨어를 개발하여 4개의 모음과 9개의 자음을 지원하는 수준까지 음성인식 기술을 확장시켰다.   그리 대단한 것은 아니라는 생각이 들 수도 있지만 당시의 원시적인 컴퓨터를 생각한다면 꽤나 인상적인 결과물이었다고 할 수 있다.   1970년대 : 음성인식 기술의 비상 음성인식 기술은 미 국방부의 관심과 재정지원에 힘입어 1970년대에 크게 발전했다. 1971년에서 1976년까지 진행된 국방부의 DARPA 음성이해연구(Speech Understanding Research, 이하 SUR) 프로그램은 음성인식 역사상 가장...

구글 음성인식 음성제어 2011.11.04

애플 시리(Siri), 드디어 아이폰 4, 아이팟 4G에서도 사용 가능

아이폰 4S로 한정되어 있던 시리의 배타성이 사라졌다. 탈옥된 아이폰 4에서 시리를 이용할 수 있게 된 것. 따라서, 아이폰 3GS에서도 시리를 사용할 가능성이 열렸다.   아일랜드의 해커인 스티브 트루톤-스미스는 동료 그랜트 폴과 함께 지난 주말 애플의 디지털 비서 기능을 아이폰 4와 4세대 아이팟 터치에서 사용할 수 있게 하는 데 성공했다고 밝혔다.   이번 달 초에 시리 포팅(porting)을 위해서 개발한 스루톤-스미스 코드 사용과 해킹된 아이폰 4S로부터 소프트웨어 인증 토큰을 사용하는 문제를 해결했다.    스루톤-스미스는 PC월드와의 인터뷰에서 “아이폰 4의 시리를 사용하면서 발생할 수 있는 거의 모든 상호작용을 테스트했는데, 아이폰 4S에서 구동되는 것처럼 잘 동작했고, 심지어 빠르기까지 했다”라고 설명했다.   작동하지 않는 기능은 아이폰 4S에서 아이폰을 귀에 가까이 가져가면 시리의 음성 명령 인터페이스가 작동하는 것뿐이다. 이 기능은 4S의 새로운 자이로스콥(gyroscope)이 필요하며, 해결할 수 있는지는 확실하지 않다. 구글은 아이폰 4, 3GS에서도 이용할 수 있는 iOS 디바이스용 검색 앱에서 비슷한 기능을 제공하고 있다. 4세대 아이팟 터치의 시리 구동 모습 애플 서버 문제 해결 해커들은 지난 몇 주간 아이폰 4S가 아닌 다른 iOS 디바이스에서 시리를 이용할 수 있게 하기 위해 많은 노력을 기울였다. 그러나 최근까지 아이폰 4에서 시리의 인터페이스와 기본 명령 기능만 구현할 수 있었다. 시리는 음성 명령을 처리하는 대부분의 작업을 애플의 서버에서 처리하기 때문이었는데, 해커들은 애플 서버가 아이폰 4를 아이폰 4S로 인식하게 하는 방법을 놓고 고심했었다. 이제 이 문제가 해결된 것이다.   스루톤-스미스와 폴이 이 문제를 어떻게 해결했는지는 확...

해킹 음성인식 음성제어 2011.11.01

아이폰 4S 없이 시리 이용하기… “쉽지 않아”

많은 해커들이 애플의 시리 디지털 비서를 아이폰 4S 외의 디바이스에서 이용할 수 있는 방법을 강구하고 있는 사이, 오리지널 아이패드에 기본적인 시리를 구동할 수 있게 됐다는 주장이 제기됐다.   트위터 사용자인 재코플레인(Jackoplane)은 최근 아이패드의 운영체제에 완전히 통합된 시리의 스크린샷을 온라인에 공개했다. 유일한 문제점은 시리의 프로세스 대부분이 애플 서버에서 구동되기 때문에 오리지널 아이패드에서는 많은 작업을 할 수 없다는 것.    해커 스티브 트로튼-스미스 역시 지난 10월 초 아이폰 4에 시리를 구동하기도 했는데, 이와 비슷하게 아이패드 버전에서도 애플 서버를 이용할 수 없다. 재코플레인이 트위터에 공개한 오리지널 아이패드에서의 시리 구동 모습   그러나 재코플레인과 시리 해킹 파트너인 조슈아 터커는 이 문제가 곧 해결될 것이라고 전망했다. 현재 아이폰 4에 시리를 포팅하는 작업을 진행 중이며, 최근 구글 문서도구를 통해서 관련 FAQ를 공개했다.    이 문서는 지난 주 금요일 이후로 업데이트되지 않았기 때문에 아이패드 포팅과 관련된 내용은 없지만, 두 해커는 애플의 서버가 아이폰 4를 아이폰 4S로 인식하게 하는 방법을 찾았다고 주장했다. 문제는 애플의 서버로 송수신되는 데이터를 중간에 가로채서 수정할 수 있는 별도의 서버가 필요하다는 점이다. FAQ에 따르면, “이 특별 서버를 호스팅해서 시리 데이터를 중간에 가로챌 수 있으면 모든 사용자들이 아이폰 4S없이도 시리를 이용할 수 있다는 것”이라고 설명했다.   재코플레인과 터커가 트루톤-스미스와 아이폰 4 포팅과 관련되어 협력을 하고 있는지, 혹은 각 팀이 별도로 작업을 하고 있는지는 확실하지 않다. 트루톤-스미스는 최근 트위터를 통해서 여전히 아이폰 4에 시리를 포팅하기 위해 노력하는 중이지만, 그 과정에 대해서...

음성인식 시리 Siri 2011.10.26

아이폰 4S의 디지털 비서 시리가 특별한 이유

아이폰 4S의 가상 개인 비서인 시리에게 “왜 그렇게 유능한가”라고 물으면 시리는 겸손하게 “저는 저일 뿐입니다(I am what I am)”라고 대답한다.   그러나 업계 전문가들은 시리의 가능성을 그 이상으로 평가한다. 시리는 단순한 음성 인식을 넘어, 강력한 인공 지능과 통계 분석을 적용해 가끔은 산만하기도 한 질문자의 문장에 담긴 뜻을 파악한다. 여기에 의표를 찌르는 재치까지 갖춘 시리는 폰과 태블릿, PC에서도 유사한 기술을 크게 유행시킬 수 있는 강력한 잠재력을 지녔다.   시리가 지금 주목 받는 것은 그 기반이 되는 복합적인 기술들이 마침내 소비자들이 사용할 수 있는 수준에 이르렀기 때문이다. 시리에게 가까운 음식점을 찾아달라고 하면 시리는 단순히 음성 인식을 통해 요청을 처리하는 것이 아니라 클라우드에 질문을 보낸다. 클라우드는 강력한 인공 지능 알고리즘으로 문구를 분석하고, 사용자가 원하는 것이 정확히 무엇인지 파악한 다음 폰에 대답을 보낸다. 그러면 시리가 그 대답을 받아 예를 들어 근처의 멕시코 음식점을 검색한다. 3년 전까지만 해도 이런 클라우드 기반 분석은 불가능했다. 이제부터 클라우드 기술로 할 수 있는 일들이 폭발적으로 쏟아져 나오기 시작할 것이다.   단순한 음성 인식을 넘어서다 시리와 같은 서비스는 사용자의 발음이나 단어 선택이 적절하지 못한 경우에도 통계 모델을 사용해 진의를 파악하는 “자연어 처리” 앱이다. 자연어 프로그램은 예를 들어 소리만 들어서는 “나는 큰집(큰아버지가 사는 집)이 좋다”지만 사실 이 문장이 “나는 큰 집(커다란 집)이 좋다”라는 의미일 수도 있음을 인지한다.   이러한 기술은 몇 년 전에 등장했다. 은행의 로봇 지불 시스템을 음성으로 조작한 적이 있다면 바로 자연어 처리를 사용한 것이다. (다만 과거...

음성인식 음성제어 시리 2011.10.26

아이폰 음성제어를 위한 5가지 시리(Siri) 대안 앱

아이폰 4S가 공개된 이후, 시리(Siri)는 가장 많은 관심을 갖고 있는 기능 중 하나가 됐다. 시리를 이용해서 아이폰 4S는 날씨부터 근처의 재미있는 장소까지 사용자가 질문하는 모든 것들에 답을 할 수 있다. 또한, 메시지나 알림을 읽어줄 뿐만 아니라, 메시지를 받아 적을 수도 있다.   > 최고의 음성인식 앱을 찾아라    시리의 단점은 하나다. 아이폰 4S로 업그레이드하지 않는 이상 사용할 수 없다는 것이다. 그리고 시리의 기반이 된 시리 어시스턴트(Siri Assistant) 앱은 이미 앱 스토어에서 사라졌고, 이미 설치된 앱도 10월 15일부로 서비스가 중단될 예정이다.    그러나 아이폰 4나 3GS 사용자라고 해서 걱정할 필요는 없다. 시리와 비슷한 기능을 제공하는 음성제어 앱이 앱 스토어에 많기 때문이다. 그리고 대부분의 서드파티 앱은 무료로 사용할 수 있다. 그 중에서도 가장 인기있는 앱을 살펴보자.   드래곤 고(Dragon Go) 뉘앙스(Nuance)의 드래곤 고(Dragon Go) 앱은 지난 달에 상당한 업데이트가 됐다. 무료 앱으로 모든 아이폰과 3, 4세대 아이팟 터치(외장 마이크 필요)에서 이용할 수 있다. 사용법은 간단하다. 찾고 있는 것을 말하기만 하면 쿼리에 맞는 답을 제공하기 위해서 수 백의 콘텐츠 제공 서비스를 찾는다. 예를 들어서, 특정 가수의 노래가 듣고 싶다면, 드래곤 고는 판도라(Pandora), Last.fa, 스포티파이(Spotify)에서 가수를 찾는다. 또한, 택시를 부르거나 근처의 좋은 레스토랑, 영화관을 찾을 때에도 도움을 준다.   구글 검색(Google Search) 구글의 모바일 검색 툴에서 음성인식 기능은 상당히 중요한 부분을 차지하고 있다. 구글에 검색어를 입력하는 대신에 음성으로 검색을 수행할 수 있다. 또한, 휴대폰의 근접 센서를 이용해서 사용...

음성인식 음성제어 시리 2011.10.11

iOS 5의 경쟁력 업그레이드 할 애플-뉘앙스(Nuance) 제휴

애플이 뉘앙스(Nuance) 인수를 위해 협상을 진행하고 있는 것으로 알려졌다. 이 소식은 애플이 차기 iOS5에서 새로운 음성 인식 기술을 적극적으로 도입할 것이라는 것을 예상하게 한다.   테크크런치(TechCrunch)에 따르면, 애플이 충분한 현금을 가지고 있어서 뉘앙스를 완전히 인수하기에 충분하지만 인수 가격이 높고 뉘앙스가 이미 맺고 있는 계약 때문에 라이선싱이나 특허 문제가 발생할 수도 있다. 따라서 인수보다는 제휴로 협력하거나 애플이 뉘앙스의 음성 인식 기술을 iOS 5의 핵심으로 넣을 수 있도록 하는 대형 라이선스 계약이 가능성이 높다는 분석이다.   애플의 모바일 시장에서의 가장 큰 경쟁자인 구글은 자체 음성 인식 프레임워크를 보유하고 있다. 그러나 구글 음성 인식과 녹음 기술은 조금 부족해서, 블로그나 플리커, 유튜브에는 구글 음성 인식이 잘못된 여러 장면과 에피소드들을 찾아볼 수 있다.   이런 오류에도 불구하고 구글은 음성 인식 기술을 이용해서 안드로이드의 기능을 향상시키고 애플 iOS에는 빠져있는 기능들을 제공한다. iOS에도 기본적인 음성 명령이 가능하지만 안드로이드의 보이스 액션(Voice Actions)은 사용자들이 검색, 길 찾기, 이메일 받아쓰기, 텍스트 입력하기 등 다양한 영역에서 사용되고 있다.   뉘앙스가 개발한 드래곤 딕테이션(Dragon Dictaion)이나 빙(Bing) 등 음성 인식 및 명령 기능을 아이폰이나 아이패드에서 사용할 수 있게 하는 애플리케이션이 있다. 빙 애플리케이션에서 마이크 아이콘을 두드리면 음성으로 검색 쿼리를 입력할 수 있으며, 드래곤 딕테이션을 이용하면 말을 음성으로 변환해서 트위터나 페이스북에 글을 올리거나 다른 휴대폰에 문자를 보낼 수도 있다.   이런 음성 상호작용은 모바일 기기를 더욱 모바일화 해준다. 길을 걸을 때 스크린을 보면서 타이핑을 하는 것 보다는 음성으로 텍스트...

구글 음성인식 ios 2011.05.09

“음성으로 번역한다” 크롬 새 기능 추가

구글이 최신 크롬(Chrome) 브라우저에 새로운 HTML5 활용 기능을 추가했다. 구글 번역(Google Translate)에 타이핑이나 복사/붙여넣기 대신에 음성으로 이야기할 수 있게 하는 것이다. 새로운 구글 번역 음성 기능은 영어를 다른 언어로 번역할 때만 가능하지만, 번역된 외국어 발음을 오디오로 들려준다.   테스트 결과, 새로운 음성 입력 기능은 긴 문장에서는 조금 어려웠지만 대체적으로 잘 작동했다.     음성 입력을 지원하는 구글 번역을 사용해보고 싶으면, 최신 크롬으로 업데이트를 해야 한다. 베타나 개발자 채널에 있는 것은 안되고, 안정화 버전에서만 지원된다. Translate.google.com으로 접속해서 출발어에 영어를 선택하고 도착어에는 원하는 언어를 선택하면 된다. (   그 다음 오른쪽 하단에 마이크 모양을 클릭하면 컴퓨터의 마이크를 통해서 음성을 입력할 수 있는 팝업창이 뜬다. 말을 할 때 가능한 분명하게 해야 한다. 너무 천천히 할 필요도 없지만, 너무 빨리 이야기하면 잘못 인식한다. 예를 들어, 필자가 “Where’s the beef?”를 할 수 있는 한 가장 빨리 말하자, “Kirby”로 인식했다.     불행하게도 비속어는 지원하지 않는다. 다른 언어의 비속어부터 배우는 재미가 없어서 아쉽지만, 타이핑으로는 할 수 있다.   구글의 음성-텍스트 기능은 지난 3월 크롬 11 베타에서 첫 선을 보였으며, 모바일에서는 2008년부터 지원했다. editor@idg.co.kr

구글 음성인식 크롬 2011.04.29

“스마트폰을 더 똑똑하게” 진가 발휘하는 음성인식

어릴 적 필자는 친구들과 스타트랙에 나온 기술들 중 어떤 것이 미래에 실현될 수 있을지 상상하며 놀곤 하였다. 우주함선이나 워프항법(warp drive; 공간이동)은 터무니 없었지만, 음성인식 컴퓨터나 만능 통역기는 충분히 개발될 것 같았다.   처음으로 데스크톱에 음성인식 기술이 도입되었을 때, 모두 이에 감탄했다. 그러나 실제로 이 기술이 키보드와 마우스를 대체하지는 못하였다. 이제 음성인식 기술은 휴대폰이라는 새로운 기기와의 결합을 시도한다. 그리고 기술의 활용방향 또한 과거 데스크톱 과의 결합에서 목표하던 것과는 다르게 나아가고 있다.     역사 음성인식 기술이 최초로 개발 된 것은 1950년대이다. 이는 시험적인 목적의 개발이었다. 이후 1960년대 초에는 IBM사가 16단어의 인식이 가능하고 ‘3 더하기 4’와 같은 간단한 계산기능을 갖춘 슈박스(Shoebox)를 선보였다.   음성인식 기술이 PC에 적용된 최초의 사례는 아마도 1980년대 초 드래곤 시스템(Dragon Systems)이 개발한 도스(DOS)용 프로그램 드래곤 딕테이트(DragonDictate)일 것이다. 이 프로그램은 낱말단위의 인식과 표현이 가능했다. 이는 이후 뉘앙스 커뮤니케이션(Nuance Communication)의 말하는 드래곤(Dragon NaturallySpeaking)으로까지 진화했는데, 최신 11버전을 이용하면 일반 대화속도의 음성인식 및 텍스트변환이 가능하다.   그러나 컴퓨터의 음성인식은 두 가지 한계를 지니고 있다. 첫째로 음성인식의 정확성을 높이기 위해서 프로그램은 사용자 음성패턴을 파악하는 기간을 필요로 한다. 이는 윈도우 비스타와 윈도우7(Windows 7)에 내장된 스피치-투-텍스트(speech-to-text)기술과 말하는 드래곤 같은 외부 프로그램 모두에서 발견되는 한계점이다.   IBM이...

스마트폰 아이폰 안드로이드 2011.03.23

음성 인식 기술, “클라우드 이용해 발전한다”

여러 해 동안 음성 인식 기술은 하나의 참신한 발상으로 전화나 여타 디바이스에 도입되어 왔지만, 기대에 한참이나 모자라는 성능 때문에 한 번 시험 삼아 이용해보고는 그냥 잊혀지는 것이 보통이었다. 그러나 마이크로소프트는 클라우드의 컴퓨팅 능력을 활용하는 등 최근 이루어진 발전을 통해 음성 기술의 유용성이 늘어났고, 가까운 장래에 이 기술의 수준이 한층 더 높아질 것으로 전망하고 있다.   마이크로소프트의 음성 담당 총괄 책임자인 지그 제라핀은 마이크로소프트가 현재 제공하는 서비스 가운데 음성 인식 분야에 마이크로소프트가 보유한 최대의 클라우드 시스템 중 하나를 이용하고 있다고 밝혔다. 오비츠, 아메리칸 에어라인 같은 대기업의 고객 서비스 전화망에 쓰이는 음성 응답 시스템이나 음성을 이용해 모바일 빙에서 검색을 하고 포드싱크에서 위치정보를 요청하는 기술 같은 것들이다.     마이크로소프트는 2007년 텔미(Tellme)를 인수하면서 음성 인식 분야에 진입했다. 음성 인식 기술은 여러 해 동안 존재해왔지만 효과는 신통치 않았다.   IDC의 애널리스트 윌 스토페가는 “휴대폰에 내장된 일부 소프트웨어를 사용하려고 대낮에 조용한 방에 힘들게 서있어야 하는 기술”이라면서 음성 인식을 혹평하기도 했다. 하지만 마이크로소프트는 자사가 처리하는 모바일 검색의 20%가 음성으로 입력될 정도로 이 기술이 향상되었다고 설명한다.   클라우드를 통한 방대한 정보수집과 백엔드 프로세싱 마이크로소프트는 사람들이 음성 서비스를 이용하는 방법에 관한 정보를 클라우드를 통해 수집하며 기술적 진보를 꾀하고 있다. 예컨대 한 사용자가 윈도우 폰 7 디바이스에서 검색엔진 빙(Bing)에 대고 ‘이태리 레스토랑 시애틀’이라고 말한 후 결과를 클릭하면, 아마 원하는 답을 얻을 거라는 걸 마이크로소프트는 안다.   그런데 사용자가 한 검색 질문을 몇...

구글 음성인식 텔미 2010.12.15

HTML5, 듣고 말하는 웹 사이트 만든다

최근 W3C(World Wide Web Consortium)에 새로 생긴 그룹의 활동이 결실을 맺는다면, 가까운 미래에 웹 페이지는 단지 읽기만 하는 것이 아니라 대화를 하는 대상이 될 수도 있을 것으로 보인다.   W3C는 음성 인식과 합성 인터페이스를 웹 페이지 내에 통합할 수 있는 가능성을 검토하고 있는데, 새로 결성된 인큐베이터 그룹이 1년 뒤에 HTML 내에 음성 및 발성 기능을 추가할 수 있는 가능성에 대한 보고서를 제출할 예정이다.   AT&T와 구글, 마이크로소프트, 모질라 재단 등이 이번 작업에 엔지니어를 참여시키고 있다.   실제로 음성과 웹은 그리 소원한 관계는 아니었다. 구글은 음성 기반의 웹 검색 앱을 자사의 안드로이드 운영체제에 포함시켰으며, 마이크로소프트 역시 자사의 윈도우 폰 7에 음성 중심 기능을 강화할 것이라고 밝혔다.   새로 결성된 HTML 스피치 인큐베이터 그룹(HTML Speech Incubator Group)의 의장인 댄 버넷은 음성 인식과 합성을 위한 표준 웹 인터페이스 개발의 실현 가능성을 연구하고 있다고 밝혔다. 버넷은 음성 응답 시스템 업체인 복세오(Voxeo)의 음성 기술 및 표준 책임자이다.   이렇게 개발되는 인터페이스는 여러 브라우저에 걸쳐 사용될 수 있다. 내장 도는 플러그인 음성 인식 및 합성 엔진을 사용하면 브라우저가 웹 페이지를 소리 내어 읽거나 사용자가 웹 양식을 음성으로 입력하도록 할 수 있다.   한편 이번 연구작업은 W3C의 또 다른 음성 기반 작업인 VoiceXML과 겹치는데, 버넷은 두 가지 표준이 다소 다른 점이 있다고 설명했다. VoiceXML은 처음부터 전화 기반의 음성 응답 시스템과 같은 음성 중심의 애플리케이션을 위해 개발된 것이기 때문에 웹 환경에서는 아주 잘 동작하지는 않는다는 것. 반면에 HTML과 마찬가지로...

음성인식 VoiceXML 웹표준 2010.09.08

"윈도우 폰 7, 차별화된 음성인식 기능 갖출 것"

마이크로소프트가 윈도우 폰 7의 핵심 기능으로 클라우드 기반의 음성 인식 및 자연 언어 처리 기술을 계획하고 있다.   마이크로소프트 통합 커뮤니케이션 제너럴 매니저 지그 세라핀은 "윈도우 폰 7에서는 음성 처리 기술이 별도의 애플리케이션이 아닌, 사용자 인터페이스의 일부로 통합될 것"이라고 말했다.   그는 뉴욕에서 이번 주 개최되는 스피치텍 2010 컨퍼런스에서 이같이 밝혔다.   세라핀이 IDG 뉴스 서비스와의 인터뷰에서 밝힌 바에 따르면, 마이크로소프트는 윈도우 폰 7의 음성 명령 인식 및 수행 능력을 증진시키기 위해 WP7 스마트폰을 회사의 텔미 클라우드 기반 음성 인식 및 자연 언어처리 서비스와 연계시킬 계획이다.   마이크로소프트는 이 서비스를 개발한 텔미 네트웍스사를 지난 2007년 인수했던 바 있다.   세라핀은 스피치텍 연설에서 경쟁 플랫폼의 경우 아직 아이콘을 주요 인터페이스로 사용하고 있다는 점을 지적했다.   그는 "대부분의 스마트폰들은 아이콘 집합에 불과하다. 윈도우 3.1과 마찬가지다"라고 말했다.   그는 이어 음성으로 명령하는 행위가 보다 자연스럽다고 강조했다.   세라핀은 "대형 키보드가 탑재되지 않은 모바일 기기에서 음성은 매력적인 대안"이라고 말했다.   그에 이어 마이크로소프트의 마케팅 디렉터 일야 부크쉬타인는 윈도우 폰 7의 음성 인식 기능 및 자연 언어처리 기능을 시연해보였다.   부크쉬타인이 스마트폰에게 '폴'을 호출하자 주소록에서 폴이라는 이름을 가진 이름이 나열됐다. 그가 다시 전체 이름을 불러주니 그에게 전화를 거는 작업이 개시됐다.   그는 또 사진 앨범을 열라고 명령...

음성인식 윈도우폰7 2010.08.05

'터치스크린 뜨고 키패드 지고'

스마트폰의 인기와 함께 터치스크린이 주요 입력 장치로 부각되고 있다는 조사 결과가 발표됐다.   시장조사기업 카날리스의 보고서에 따르면 지난 2분기 판매된 3,810만대의 스마트폰 중 1,500만대 이상이 주 입력수단으로 터치스크린을 채택하고 있는 것으로 조사됐다.   카날리스의 부사장 마이크 웰치는 작년 같은 기간의 경우 3,360만대의 전체 스마트폰 중 390만대가 터치스크린을 지원하고 있었다고 설명했다.   그는 이어 터치스크린 채택의 급증이 애플 아이폰의 인기와 관련이 깊다고 덧붙였다.   한편 카날리스트의 조사에 따르면 키보드를 주요 입력수단으로 채택한 스마트폰도 1,070만대로 늘어났다.     회사는 분석을 위해 주요 입력 수단을 터치스크린, 키보드, 키패드로 분류해 조사했다.   카날리스는 스마트폰 분야가 올해 14% 성장할 것으로 예상하며 키보드 채택 휴대폰의 성장이 RIM의 블랙베리와 함께 소셜 네트워킹에 대한 관심이 향상된데 따른 것이라고 분석했다.   키보드를 채택하면 트위터나 페이스북 등에 접속해 보다 쉽게 텍스트를 입력할 수 있다는 설명이다.   웰치는 그러나 종국에는 아이폰의 가로형 터치 입력과 같은 방식으로 키보드가 통합되는 방향으로 나아갈 것이라고 예상했다.   3가지 입력 방식 중 가장 점유율이 하락한 방식은 키패드였다. 이는 작년까지만 해도 전체 스마트폰의 60%를 점유했으나 올해에는 32%까지 급락했다.   웰치는 마지막으로 음성 인식 기능이 향후 보다 중요한 입력 장치로서의 역할을 수행해나갈 것이라고 예상했다.   초기에는 내비게이션 등 제한적인 단어만 요구되는 애플리케이션에서 주로 채택될 것이지만 향후 간단한 명령 및 텍스...

스마트폰 음성인식 터치스크린 2009.08.19

“윈도우 모바일 6.5, 음성인식 애플리케이션 탑재”

마이크로소프트가 앞으로 출시될 윈도우 모바일 운영체제에 새로운 음성인식 애플리케이션을 탑재해 더 많은 사용자를 끌어들이겠다는 희망을 내비쳤다.   지난 29일 마이크로소프트는 윈도우 모바일 6.5 디바이스에 음성으로 인터넷 검색, 전화 걸기, 문자메시지 보내기를 가능하게 할 새로운 기능에 대해서 밝혔다. 이 기술은 마이크로소프트가 2007년 인수한 텔미(Tellme)라는 음성 인식 호스팅 서비스 제공 업체로부터 온 것이다.   텔미의 제품 관리자인 마첼로 티프린은 이번 서비스의 핵심은 휴대폰에 특화된 버튼이라고 말했다. 음성인식 기능을 사용하기 편하게 하기 위해서 한번에 서비스를 이용할 수 있어야 한다는 것이 그의 설명. 이는 아이폰의 서비스와 차별화 되는데, 아이폰 사용자는 비슷한 음성 인식 검색 서비스를 이용하기 위해서 애플리케이션 페이지로 들어가 구글 모바일 앱(Google Mobile App)을 열어야만 한다.   이와 더불어 텔미 애플리케이션은 단순한 검색 외에 다른 기능도 제공한다 “콜(call)”이라는 말과 함께 이름을 부르면 자동으로 전화번호부에 있는 해당 이름을 찾아 전화를 거는 것. 만일 ‘텍스트(text)’라고 하고 메시지를 말하면 저절로 문자로 변환되어 메시지가 전달된다. 이 밖에 사용자들이 그냥 말하기 시작하면 자동으로 해당 단어를 검색하는 기능도 들어있다.   텔미 서비스는 자동으로 마이크로소프트의 라이브 서치(Live Search) 설정이 되어있으나, 사람들이 임의로 검색엔진을 변경할 수 있다. 티프린은 “사용자들이 원치않는 서비스를 강요할 생각은 없다”라고 말했다.   이미 윈도우 모바일에는 라이브 서치에서 음성 명령 기능을 이용할 수 있는 기능이 있지만, 텔미 애플리케이션에는 문자 및 음성 전화걸기 기능을 추가해 모든 것을 하나로 만들어서 서비스 이용을 쉽도록 했다.   ...

마이크로소프트 음성인식 윈도우모바일6.5 2009.04.30

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.