IoT / 미래기술

“음성 인식 기술, 100% 완벽할 필요 없다” 기업의 AI 기술 활용, 지금부터 시작해야

Matthew Finnegan  | Computerworld 2018.03.22
지난 수 년간 클라우드 컴퓨팅과 머신러닝 기술이 발전하면서 음성 인식 기술이 크게 개선되었다. 덕분에 아마존과 구글, 애플이 만든 가상 비서들이 사용자들 사이에 빠른 속도로 인기를 끌고 있다.

이런 점을 감안하면 크게 놀랄 일은 아니지만, 가상 비서 서비스의 기반이 되는 자연어 처리 기술도 기업 시장으로까지 확산되고 있다.

지난주 엔터프라이즈 커넥트(Enterprise Connect) 컨퍼런스에 참석한 제이 아놀드 앤 어소시에이츠의 존 아놀드는 “기업 시장은 도입 초기 단계지만, 기본적인 기능은 이미 구현되어 있다”고 말했다.

기업에서는(최소한 초기에는) 직원 생산성 향상과 워크플로우 자동화를 분야에 음성 인식 기술을 활용할 것으로 전망된다.

인공 지능 기법이 발전하면서 음성 인식 시스템의 정확도도 크게 높아졌다. 구글 등의 음성 인식 정확도는 약 95%인 것으로 알려져 있다.

아놀드는 엔터프라이즈 커넥트 행사의 키노트 프레젠테이션에서 “음성 인식 기술은 오랜 시간 동안 발전했다. 사람의 음성 인식 수준과 동등한 임계점을 통과했다는 것이 중요하다. 머신의 역량이 인간의 인식 수준을 크게 따라 잡은 것”이라고 말했다.

아놀드에 따르면, 기업이 음성 인식 기술을 활용하는 방법은 크게 4가지로 요약된다.

- 스피치-투-텍스트(음성을 문자로 변환)는 이메일 받아쓰기에 활용할 수 있다. 사용할수록 더 정확해 진다.

- 텍스트-투-스피치(문자를 음성으로 변환)는 모바일 환경에 도움을 준다. 예를 들어, 출퇴근 때 메모나 업무 문서를 검토하는 개인 팟캐스트를 만들 수 있다.

- 음성 인식은 가상 비서와 대화하면서, 문서를 찾거나 캘린더 일정을 생성하는 등의 명령을 내리는 용도로 사용할 수 있다.

- 마지막은 ‘감성 분석’을 지원하는 음성 분석으로, 면접이나 트레이닝 상황에 유용하게 활용될 수 있다.

음성 기술을 부각시킨 4가지 ‘획기적 사건’
아놀드에 따르면, 음성 기술의 보급과 확산을 도운 4가지 ‘획기적인 사건’이 존재한다. 첫 번째는 10년 전 모바일 기기의 검색 속도를 높이기 위해 음성 인식 기술을 사용하는 구글 보이스 서치(Google Voice Search)가 출시된 것이다.

다음은 2011년 애플 시리 출시다. 사람과의 유사성을 높인 대화형 기술인 시리는 주류 사용자의 음성 인식 기술에 대한 인식을 높이는 데 한 몫 했다. 같은 해, IBM 왓슨 또한 TV 쇼 프로그램인 ‘제퍼디(Jeopardy)!’에 출현해 큰 이목을 끌었다.

2015년, 아마존은 가정에서 사용할 수 있는 에코(Echo)와 알렉사 가상 비서를 출시해 지금까지도 선풍적인 인기를 끌었다.

최근 아마존은 ‘알렉사 포 비즈니스’를 공개했다. 기업 시장으로 눈을 돌린 것이다. 기업용 가상 비서 개발을 추진한 기업은 아마존에 국한되지 않는다. 시스코 스파크 어시스턴트(Spark Assistant), 마이크로소프트 코타나(Cortana), 보이세라의 에바(Eva), 뉴앙스 드래곤(Nuance Dragon), IBM 왓슨 어시스턴트도 기업용 기능을 지원한다.

미래의 파괴적인 혁신 기술
아마존 에코 및 알렉사 부문 최고 애반젤리스트인 데이브 이스비츠키는 엔터프라이즈 커넥트 키노트 프레젠테이션에서 “컴퓨팅 분야의 차세대 혁신 기술은 음성 인터페이스 기술로, 기업 시장과 환경에서도 활용될 수 있다. 목적은 앰비언트 컴퓨팅 환경 구현이다. 언제든지 “알렉사, 회의 시작하자.”, “알렉사, 영업 실적이 어떻게 되지?”, “알렉사, 회의실 프로젝터를 끄는 것을 잊었네. 프로젝터 꺼줘!”라고 말할 수 있다”고 설명헀다.

사실 음성 비서를 활용하는 것은 아주 자연스러운 인터페이스다. 이스비츠키는 “이런 기술 발전의 토대는 NLU(자연어 이해) 기술의 발전인데, 기존과 다른 점은 맥락과 정황을 이해한다는 것”이라고 말했다.

‘알렉사 포 비즈니스’ 제너럴 매니저 콜린 데이비스는 이미 가상 비서가 직원들의 업무 처리를 도와주고 있다고 강조했다.

데이비스는 “정말 흥미로운 변화가 발생하고 있다. 음성이 새로운 방식의 멀티태스킹을 선보이고 있다. 직원들이 책상에 앉아 하던 일에 계속 집중한 상태에서 알렉사에 음성 명령을 내려 재빨리 정보를 입수하는 방식으로 멀티태스킹을 한다. 보고서를 작성하면서 지난 분기에 체결한 거래가 몇 건인지 파악해야 하는 경우가 있다. 이때 주머니에서 스마트폰을 꺼내 앱을 열거나, 컴퓨터에서 다른 웹사이트를 방문할 필요가 없다. 음성으로 필요한 정보를 얻을 수 있기 때문”이라고 설명했다.

현재 공개된 알렉사 스킬은 3만 종이 넘는다. 스킬을 개발하는 개발자 커뮤니티가 계속 커지고 있고, 이들 가운데 직장에서 사용할 수 있는 스킬에 초점을 맞추는 비중이 증가하고 있다. 또한, 소프트웨어 업체도 기존 애플리케이션에 음성 기술을 추가하는 추세다.

기업이 직면한 '선택’
아놀드에 따르면, 업무에 음성 인식 시스템을 활용하려는 기업은 실제 도입 전에 몇 가지 질문을 던지고, 답을 찾아야 한다. 가장 먼저 제휴할 회사를 파악해야 한다. 아마존과 구글, 마이크로소프트, IBM 등 유수 클라우드 공급업체가 모두 음성 기술을 공급하고 있다. 그러나 각각 강점이 다르다.

또 투자의 근거가 될 ‘비즈니스 케이스’를 파악하는 것이 아주 중요하다.

아놀드는 “추구해야 할 균형점은 무엇일까? 누가 의사결정을 주도해야 할까? 해결하려는 비즈니스 문제는 무엇일까? 기술 업그레이드, 디지털 트랜스포메이션 등 목적을 구체화해야 한다. 더 큰 목표는 무엇일까? AI가 가져올 선물은 무엇일까? 이런 질문을 던지고, 고민해야 한다”고 조언했다.

최근 기술이 크게 발전하기는 했지만 완벽한 수준은 아니다. 그러나 완벽하지 않아도 가치를 창출할 수 있다.

아놀드는 “음성 인식이 100% 정확할 필요는 없다. 지금도 충분하다. 즉 몇 년을 더 기다려야 한다는 생각을 가질 필요가 없다. 지금도 기술 완성도는 100%가 아니며, 100%에 도달할 날은 오지 않을 것이다. 그러나 완벽을 추구할 필요는 없다. 기술과 기술이 할 수 있는 일을 이해하는 것을 목표로 잡고 전진해야 한다”고 말했다. editor@itworld.co.kr  

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.