2010.12.15

음성 인식 기술, “클라우드 이용해 발전한다”

Nancy Gohring | IDG News Service

여러 해 동안 음성 인식 기술은 하나의 참신한 발상으로 전화나 여타 디바이스에 도입되어 왔지만, 기대에 한참이나 모자라는 성능 때문에 한 번 시험 삼아 이용해보고는 그냥 잊혀지는 것이 보통이었다. 그러나 마이크로소프트는 클라우드의 컴퓨팅 능력을 활용하는 등 최근 이루어진 발전을 통해 음성 기술의 유용성이 늘어났고, 가까운 장래에 이 기술의 수준이 한층 더 높아질 것으로 전망하고 있다.

 

마이크로소프트의 음성 담당 총괄 책임자인 지그 제라핀은 마이크로소프트가 현재 제공하는 서비스 가운데 음성 인식 분야에 마이크로소프트가 보유한 최대의 클라우드 시스템 중 하나를 이용하고 있다고 밝혔다. 오비츠, 아메리칸 에어라인 같은 대기업의 고객 서비스 전화망에 쓰이는 음성 응답 시스템이나 음성을 이용해 모바일 빙에서 검색을 하고 포드싱크에서 위치정보를 요청하는 기술 같은 것들이다.  

 

마이크로소프트는 2007년 텔미(Tellme)를 인수하면서 음성 인식 분야에 진입했다. 음성 인식 기술은 여러 해 동안 존재해왔지만 효과는 신통치 않았다.

 

IDC의 애널리스트 윌 스토페가는 “휴대폰에 내장된 일부 소프트웨어를 사용하려고 대낮에 조용한 방에 힘들게 서있어야 하는 기술”이라면서 음성 인식을 혹평하기도 했다. 하지만 마이크로소프트는 자사가 처리하는 모바일 검색의 20%가 음성으로 입력될 정도로 이 기술이 향상되었다고 설명한다.

 

클라우드를 통한 방대한 정보수집과 백엔드 프로세싱

마이크로소프트는 사람들이 음성 서비스를 이용하는 방법에 관한 정보를 클라우드를 통해 수집하며 기술적 진보를 꾀하고 있다. 예컨대 한 사용자가 윈도우 폰 7 디바이스에서 검색엔진 빙(Bing)에 대고 ‘이태리 레스토랑 시애틀’이라고 말한 후 결과를 클릭하면, 아마 원하는 답을 얻을 거라는 걸 마이크로소프트는 안다.

 

그런데 사용자가 한 검색 질문을 몇 차례 반복해버리면 해석이 올바르게 이루어지지 못할 수 있을 것이다. 마이크로소프트는 부분적으로 통화 연결 품질로 인해 시원찮은 결과가 나올 수 있기 때문에 이에 관한 정보도 수집한다.

 

제라핀은 “이 데이터는 음성 인식 시스템의 기초가 되는 지식을 발전시키는데 도움이 되므로 아주 소중하다”고 말한다.  

 

 구글 역시 음성 검색 등 음성 인식을 이용하는 여러 가지 서비스를 제공하고 있고, 사람들이 서비스를 이용하는 방식에서 무언가를 배울 수 있도록 마이크로소프트와 비슷한 백엔드 프로세싱(back-end processing: 후공정 기법)을 활용한다.   

 

 마이크로소프트에서는 이 같은 백엔드 시스템이 다양한 제품에서의 음성 인식을 처리하기 때문에 음성 요청 처리 건수가 연간 약 110억 건에 이른다고 한다. 윈도우 폰 7 디바이스 신제품에서는 홈 버튼을 누르고 있으면 음성 기능이 시작되는데, 이 음성 기능으로 디바이스의 여러 애플리케이션을 제어할 수 있다.

 

 마이크로소프트는 실리콘밸리의 네트워크 운영 본부로부터 막대한 양의 데이터를 정밀 검사한다. 제라핀은 “입력되는 요청의 수를 보면 경이롭기까지 하다”면서, “나사(NASA)의 축소판에 걸어 들어가는 것 같다”고 덧붙였다.

 

 피드백 루프(feedback loop)의 일부 요소는 음성 인식 엔진이 자체적으로 데이터를 해석(parsing)할 수 있도록 자동화되어 있다. 일부 데이터는 전문가에 의해 자세한 검사가 이루어지는데, 검사 이후 전문가는 시스템을 변경할 수 있다.

 

대화 인해 수준으로 발전 중

수많은 사용자로부터 정보를 얻는 능력은 마이크로소프트가 가진 음성 인식의 다음 단계에 대한 비전, 즉 마이크로소프트가 대화 이해(conversational understanding)라고 부르는 기술을 가능케 해줄 한 요인이다. 제라핀은 대화 이해에 대해 “음성과 관련한 기본적 연구 및 개발 작업을 활용하는 동시에 이를 기계 학습 기술(machine learning technologies)과 자연 학습(natural learning)에 연계시켜 사용자가 시도하는 일에 대한 추론을 향상시키는 개념”이라고 설명했다.

 

마이크로소프트의 음성 사업 마케팅 상임 이사인 일리아 부크쉬타인은 대화 이해가 다각적으로 이루어질 수 있다고 설명했다. 예컨대 사용자가 빙에 대고 ‘지그와 내가 내일 저녁에 식사를 할 곳을 찾아줘’라고 말하면, 전화기는 이들의 일정표를 자동으로 검사해 이들이 샌프란시스코에 있을 것인지 파악한다. 거기에서 시스템은 두 사람이 전에 생선 초밥을 먹은 적이 있음을 알게 된다. 그러면 전화기는 부크쉬타인에게 샌프란시스코에서 식사를 할 것인지 그리고 생선 초밥을 먹을 것인지 묻게 된다는 것이다.

 

한편 제라핀에 따르면 마이크로소프트는 이 분야의 주요 경쟁자인 구글의 추격을 따돌리고자 한다. 마이크로소프트는 현재 동일 플랫폼 위에서 게이머, 전화 이용자, 운전자 등 폭넓은 이용자 층을 대상으로 음성 인식 서비스를 제공하고 있는 만큼 구글에 한 발 앞서 있다고 믿고 있다.  

 

가트너의 애널리스트 번 엘리어트는 그게 확실히 우세한 분야라고 인정한다. 그는 “텔미를 이용해 온프레미스(on-premise)에서부터 클라우드에 이르기까지 엄청난 범위를 커버하고 있다. 어떠한 시장에든 음성 기술을 적용할 수 있다”고 말했다.

 

게다가 마이크로소프트는 자사의 음성 기술이 사용자에게 세부 사항이나 정보를 보다 자세히 질문할 수 있는 단계에 진입하고 있다고 평가하고 있다.

 

MS-구글-애플, 삼파전 기대

 최근 구글은 이와 비슷한 기능을 제공할 수 있게 해줄 포네틱 아츠(Phonetic Arts)라는 업체를 인수했다. 구글에 따르면 포네틱 아츠는 자연스러운 컴퓨터 음성을 생성하는 음성 합성 전문업체이다. 구글은 인수와 관련한 한 언급에서 이 업체가 음성 인식 기술을 이용하는 사람에게 응답하는 기술인 음성 출력(voice output)을 제공하는데 도움이 될 것으로 전망했다.  

 

스토페가는 이 뿐만 아니라 마이크로소프트가 사용자 경험을 통해 얻어낸 우위도 있다고 지적했다. 윈도우 폰 7에는 텔미 아이콘과 함께 음성을 처리 중임을 나타내는 일렬로 늘어선 점들이 나타난다. 스토페가는 “이는 기술이 아니고 경험에서 얻어진다. 근사하지 않느냐”고 덧붙였다.

 

마이크로소프트는 사람들이 키넥트(Kinect)에서든 윈도우 폰 7에서든 유사한 방식으로 음성 기능을 사용할 수 있음을 알게 하기 위해 제반 서비스에 유사한 아이콘과 브랜드를 도입하고자 한다.  

 

구글과 마이크로소프트는 그다지 크지 않은 음성 인식 기술 개발 분야에서 선두를 달리고 있는 뉘앙스와도 경쟁해야 한다. 엘리어트에 따르면 뉘앙스는 현재까지 최고의 음성 기술을 가진 업체로 평가되고 있다. 일부 소문에 의하면 애플이 뉘앙스 인수에 관심이 있다고 한다. 애플, 구글, 마이크로소프트가 서로 경쟁하는 분야가 하나 더 늘게 될지 모르겠다.

 

음성 인식 기술에 있어 진전이 있었다고는 하나 여전히 문제는 남아 있다. 스토페가는 “배경 소음 같은 핵심적 문제들이 해결되지 않고 있는 실정”이라고 지적했다.  Nancy_Gohring@idg.com



2010.12.15

음성 인식 기술, “클라우드 이용해 발전한다”

Nancy Gohring | IDG News Service

여러 해 동안 음성 인식 기술은 하나의 참신한 발상으로 전화나 여타 디바이스에 도입되어 왔지만, 기대에 한참이나 모자라는 성능 때문에 한 번 시험 삼아 이용해보고는 그냥 잊혀지는 것이 보통이었다. 그러나 마이크로소프트는 클라우드의 컴퓨팅 능력을 활용하는 등 최근 이루어진 발전을 통해 음성 기술의 유용성이 늘어났고, 가까운 장래에 이 기술의 수준이 한층 더 높아질 것으로 전망하고 있다.

 

마이크로소프트의 음성 담당 총괄 책임자인 지그 제라핀은 마이크로소프트가 현재 제공하는 서비스 가운데 음성 인식 분야에 마이크로소프트가 보유한 최대의 클라우드 시스템 중 하나를 이용하고 있다고 밝혔다. 오비츠, 아메리칸 에어라인 같은 대기업의 고객 서비스 전화망에 쓰이는 음성 응답 시스템이나 음성을 이용해 모바일 빙에서 검색을 하고 포드싱크에서 위치정보를 요청하는 기술 같은 것들이다.  

 

마이크로소프트는 2007년 텔미(Tellme)를 인수하면서 음성 인식 분야에 진입했다. 음성 인식 기술은 여러 해 동안 존재해왔지만 효과는 신통치 않았다.

 

IDC의 애널리스트 윌 스토페가는 “휴대폰에 내장된 일부 소프트웨어를 사용하려고 대낮에 조용한 방에 힘들게 서있어야 하는 기술”이라면서 음성 인식을 혹평하기도 했다. 하지만 마이크로소프트는 자사가 처리하는 모바일 검색의 20%가 음성으로 입력될 정도로 이 기술이 향상되었다고 설명한다.

 

클라우드를 통한 방대한 정보수집과 백엔드 프로세싱

마이크로소프트는 사람들이 음성 서비스를 이용하는 방법에 관한 정보를 클라우드를 통해 수집하며 기술적 진보를 꾀하고 있다. 예컨대 한 사용자가 윈도우 폰 7 디바이스에서 검색엔진 빙(Bing)에 대고 ‘이태리 레스토랑 시애틀’이라고 말한 후 결과를 클릭하면, 아마 원하는 답을 얻을 거라는 걸 마이크로소프트는 안다.

 

그런데 사용자가 한 검색 질문을 몇 차례 반복해버리면 해석이 올바르게 이루어지지 못할 수 있을 것이다. 마이크로소프트는 부분적으로 통화 연결 품질로 인해 시원찮은 결과가 나올 수 있기 때문에 이에 관한 정보도 수집한다.

 

제라핀은 “이 데이터는 음성 인식 시스템의 기초가 되는 지식을 발전시키는데 도움이 되므로 아주 소중하다”고 말한다.  

 

 구글 역시 음성 검색 등 음성 인식을 이용하는 여러 가지 서비스를 제공하고 있고, 사람들이 서비스를 이용하는 방식에서 무언가를 배울 수 있도록 마이크로소프트와 비슷한 백엔드 프로세싱(back-end processing: 후공정 기법)을 활용한다.   

 

 마이크로소프트에서는 이 같은 백엔드 시스템이 다양한 제품에서의 음성 인식을 처리하기 때문에 음성 요청 처리 건수가 연간 약 110억 건에 이른다고 한다. 윈도우 폰 7 디바이스 신제품에서는 홈 버튼을 누르고 있으면 음성 기능이 시작되는데, 이 음성 기능으로 디바이스의 여러 애플리케이션을 제어할 수 있다.

 

 마이크로소프트는 실리콘밸리의 네트워크 운영 본부로부터 막대한 양의 데이터를 정밀 검사한다. 제라핀은 “입력되는 요청의 수를 보면 경이롭기까지 하다”면서, “나사(NASA)의 축소판에 걸어 들어가는 것 같다”고 덧붙였다.

 

 피드백 루프(feedback loop)의 일부 요소는 음성 인식 엔진이 자체적으로 데이터를 해석(parsing)할 수 있도록 자동화되어 있다. 일부 데이터는 전문가에 의해 자세한 검사가 이루어지는데, 검사 이후 전문가는 시스템을 변경할 수 있다.

 

대화 인해 수준으로 발전 중

수많은 사용자로부터 정보를 얻는 능력은 마이크로소프트가 가진 음성 인식의 다음 단계에 대한 비전, 즉 마이크로소프트가 대화 이해(conversational understanding)라고 부르는 기술을 가능케 해줄 한 요인이다. 제라핀은 대화 이해에 대해 “음성과 관련한 기본적 연구 및 개발 작업을 활용하는 동시에 이를 기계 학습 기술(machine learning technologies)과 자연 학습(natural learning)에 연계시켜 사용자가 시도하는 일에 대한 추론을 향상시키는 개념”이라고 설명했다.

 

마이크로소프트의 음성 사업 마케팅 상임 이사인 일리아 부크쉬타인은 대화 이해가 다각적으로 이루어질 수 있다고 설명했다. 예컨대 사용자가 빙에 대고 ‘지그와 내가 내일 저녁에 식사를 할 곳을 찾아줘’라고 말하면, 전화기는 이들의 일정표를 자동으로 검사해 이들이 샌프란시스코에 있을 것인지 파악한다. 거기에서 시스템은 두 사람이 전에 생선 초밥을 먹은 적이 있음을 알게 된다. 그러면 전화기는 부크쉬타인에게 샌프란시스코에서 식사를 할 것인지 그리고 생선 초밥을 먹을 것인지 묻게 된다는 것이다.

 

한편 제라핀에 따르면 마이크로소프트는 이 분야의 주요 경쟁자인 구글의 추격을 따돌리고자 한다. 마이크로소프트는 현재 동일 플랫폼 위에서 게이머, 전화 이용자, 운전자 등 폭넓은 이용자 층을 대상으로 음성 인식 서비스를 제공하고 있는 만큼 구글에 한 발 앞서 있다고 믿고 있다.  

 

가트너의 애널리스트 번 엘리어트는 그게 확실히 우세한 분야라고 인정한다. 그는 “텔미를 이용해 온프레미스(on-premise)에서부터 클라우드에 이르기까지 엄청난 범위를 커버하고 있다. 어떠한 시장에든 음성 기술을 적용할 수 있다”고 말했다.

 

게다가 마이크로소프트는 자사의 음성 기술이 사용자에게 세부 사항이나 정보를 보다 자세히 질문할 수 있는 단계에 진입하고 있다고 평가하고 있다.

 

MS-구글-애플, 삼파전 기대

 최근 구글은 이와 비슷한 기능을 제공할 수 있게 해줄 포네틱 아츠(Phonetic Arts)라는 업체를 인수했다. 구글에 따르면 포네틱 아츠는 자연스러운 컴퓨터 음성을 생성하는 음성 합성 전문업체이다. 구글은 인수와 관련한 한 언급에서 이 업체가 음성 인식 기술을 이용하는 사람에게 응답하는 기술인 음성 출력(voice output)을 제공하는데 도움이 될 것으로 전망했다.  

 

스토페가는 이 뿐만 아니라 마이크로소프트가 사용자 경험을 통해 얻어낸 우위도 있다고 지적했다. 윈도우 폰 7에는 텔미 아이콘과 함께 음성을 처리 중임을 나타내는 일렬로 늘어선 점들이 나타난다. 스토페가는 “이는 기술이 아니고 경험에서 얻어진다. 근사하지 않느냐”고 덧붙였다.

 

마이크로소프트는 사람들이 키넥트(Kinect)에서든 윈도우 폰 7에서든 유사한 방식으로 음성 기능을 사용할 수 있음을 알게 하기 위해 제반 서비스에 유사한 아이콘과 브랜드를 도입하고자 한다.  

 

구글과 마이크로소프트는 그다지 크지 않은 음성 인식 기술 개발 분야에서 선두를 달리고 있는 뉘앙스와도 경쟁해야 한다. 엘리어트에 따르면 뉘앙스는 현재까지 최고의 음성 기술을 가진 업체로 평가되고 있다. 일부 소문에 의하면 애플이 뉘앙스 인수에 관심이 있다고 한다. 애플, 구글, 마이크로소프트가 서로 경쟁하는 분야가 하나 더 늘게 될지 모르겠다.

 

음성 인식 기술에 있어 진전이 있었다고는 하나 여전히 문제는 남아 있다. 스토페가는 “배경 소음 같은 핵심적 문제들이 해결되지 않고 있는 실정”이라고 지적했다.  Nancy_Gohring@idg.com



X