2017.02.01

아마존 에코로 엿보는 엔터프라이즈 IT의 미래

BrandPost Sponsored by HPE
Bernard Golden | HPE


바야흐로 음성 주도 애플리케이션이라는 신세계에 대비할 때입니다. 음성 컴퓨팅(Speech Computing) 혁명의 손이 닿지 않을 IT 조직은 거의 없을 것이기 때문입니다.

필자는 최근에 “미래의 IT 성과를 이해하기 위해 기술의 최첨단에 있는 개발 사항을 실험해볼 목적으로” 음성으로 제어하는 핸즈프리 스피커인 아마존 에코(Echo)를 구매했습니다. 그렇게 구매를 합리화하면서 에코를 가지고 놀다 보니 앞으로 엔터프라이즈 IT에서 음성 컴퓨팅이 수행하게 될 역할에 대해서 생각하게 되었습니다.

모든 상호작용에 적합한 것은 아니지만, 음성 컴퓨팅은 특정 분야에서는 매혹적일 정도입니다. 예를 들면, 음악을 재생할 때 에코와 알렉사 음성 서비스(Alexa Voice Service)를 연결할 수도 있고 뉴스와 날씨 같은 정보를 제공받기에 매우 편리합니다. 필자는 알렉사의 음성 해석 능력에 깜짝 놀랐습니다.

결론적으로, 음성 인터페이스는 특정 엔터프라이즈 애플리케이션에서 중요한 요소가 될 것이라고 예측하게 되었습니다. 실제로, 음성은 웹, 모바일과 동등한 위치를 차지할 것이므로 이 기술의 동향을 파악하는데 박차를 가해야만 합니다.

음성 인터페이스가 얼마나 빨리 평범한 것이 될까요? 그리고 어떤 것이 가장 적절한 엔터프라이즈 IT의 사용 실례가 될까요? 이런 질문은 매우 중요하며, 여기에 대한 답은 눈 깜짝할 사이에 IT 충원과 기술 투자에 영향을 주게 될 것입니다.

스킬의 힘
음성 입력으로 동작하는 상시 대기(Always-waiting) 중인 스마트 어시스턴트에 익숙해지기까지 얼마나 걸리는지를 알려주는 실험을 통해 두어가지 예를 들어보도록 합시다.

알렉사의 서비스 중에서 가장 널리 이용되는 서비스 중 한 가지는 음악 재생입니다. 에코는 작은 크기(높이 9인치, 폭 2.5인치)에도 불구하고 깨끗한 음질을 제공합니다. 필자는 재즈 감상을 좋아하며 특히 토론토에 있는 재즈 방송국을 선호합니다. 실제로 매일 아침 인터넷 라디오 시계에 알람을 설정해서, 그 방송국의 소리를 듣고 잠을 깹니다.

필자는 알렉사가 얼마나 똑똑한지 알아볼 요량으로, “에코, 토론토 재즈 방송국을 들려줘”라고 말했습니다. 잠시 후 에코는 “미안합니다, 저는 그 정보를 모릅니다”라는 응답을 했습니다. 잠시 생각해본 후 해당 방송국에 대한 구글 검색을 했습니다. 이 방송국의 호출 부호는 CJRT-FM으로 밝혀졌습니다. 그 후 필자는 “에코, CJRT를 들려줘”라고 말했습니다. 에코는 “튠인에서 재즈 FM 91.1을 재생하고 있습니다”라고 응답했으며 곧 이어 음악이 흘러 나왔습니다.

이 경험은 마치 마술 같았습니다. 에코에서의 음악 청취를 매끄러운 경험으로 만들기 위해 아마존이 많은 작업을 했음이 확실합니다. 그러나 알렉사는 더 많은 기능을 제공합니다. 아마존은 외부 업체가 API 지원 서비스를 자유롭게 알렉사에 통합하있는 방법을 제시합니다. 이런 통합을 “스킬(Skill)”이라고 부르는데, 기술의 가짓수가 급속하게 늘어나고 있습니다. IFTTT(If This, Then That) 웹 사이트나 앱으로 알렉사를 제어할 수 있습니다. 개발자는 “에코, 트리거(Trigger) [애플릿 이름]”이라고 말함으로써 호출되는 IFTTT 애플릿을 생성합니다.

스킬이 얼마나 유용할 수 있는지 보여주는 예시를 들어볼까요? 필자의 하니웰 온도 조절 장치는 “스마트”합니다. 즉, 웹 인터페이스를 통해서 제어된다는 의미입니다. 하니웰은 자사의 온도 조절 장치를 IFTTT와 통합했습니다. 그리고 필자는 에코를 호출할 때 온도를 바꾸는 애플릿을 생성했습니다. 하니웰 웹사이트에 연결해서 로그인하고, 수작업으로 원하는 수준으로 온도를 조절하는 것보다는 문장을 말하는 것이 훨씬 더 편리하다는 것은 말할 것도 없습니다.

이런 종류의 편의성은 알렉사 스킬 총 개수가 2016년 6월 1,000개에서 2016년 11월에 4,000개로 증가한 이유를 설명해줍니다. 알렉사의 경우 사람과 컴퓨터 서비스 간의 인터페이스이기는 하지만, 우리가 HCI(Human-Computer Interaction: 인간-컴퓨터 상호작용)의 새로운 지평에 도달했다는 것은 확실합니다.

음성이 훨씬 더 똑똑합니다
스킬의 성장과 음성 인터페이스에 대한 열광을 주도하고 있는 것은 무엇일까요? 음성 인식 품질입니다.

필자는 수년 동안 구글 보이스를 사용해오고 있는데, 초기에는 메시지와 아무런 관계가 없는 문장이나 어구가 포함되기 일쑤여서 음성 메일의 텍스트 변환(Text Rendering)이 아주 재미있다고 생각했습니다. 그렇지만 지난 몇 년 동안 텍스트 변환은 크게 개선되었습니다. 구글 보이스는 항상 메시지의 핵심을 전달해주며 대부분의 경우 메시지를 완벽하게 변환합니다.

실제로 마이크로소프트의 음성 인식 기술이 인간의 품질 수준에 도달했다는 최근의 발표를 살펴보면 왜 음성 인터페이스가 떠오르고 있는지 이해할 수 있습니다.

물론 주목할만한 개선이지만, 음성 인터페이스가 모든 실제 사례를 해결해주는 만병통치약은 아닙니다. 카약은 자사의 서비스에 액세스하기 위한 알렉사 스킬을 제공하고 있으며, 이 스킬을 사용하는 실제 사례도 제공하고 있습니다.

l 예산 범위 안에서 갈 수 있는 장소를 발견하라 : “알렉사, 카약에 물어봐: 300달러로 어디를 갈 수 있지?”
l 항공편, 호텔, 그리고 렌터카를 검색하라 : “알렉사, 카약에 바르셀로나에 있는 호텔을 찾아보라고 물어봐 줘.”
| 예상 도착과 출발에 대한 최신 정보를 유지하기 위해 카약의 항공편 추적기에 액세스하라 : “알렉사, 카약에 항공편을 추적해달라고 해.”

그러나 갑자기 간단한 온도 변경 정도를 요구하기는 쉽다는 생각이 들었습니다. 그저 온도를 변경하거나 유지하는 것은 2진법적인 의사결정이라 할 수 있죠. 그렇지만, 바르셀로나에 있는 호텔을 고르는 것은 훨씬 더 복잡한 프로세스입니다. 가격, 위치, 특정 날짜의 가용성, 그리고 호텔과 지역 편의 시설 등의 기준을 평가해야 하기 때문입니다. 이런 조합을 한 번에 하나의 음성 명령으로 처리하는 것은 시간이 걸릴 가능성도 높고 만족도도 낮을지 모릅니다. 이런 복잡한 작업을 할 때는 브라우저 인터페이스를 사용하는 것이 나을 수 있습니다.



2017.02.01

아마존 에코로 엿보는 엔터프라이즈 IT의 미래

BrandPost Sponsored by HPE
Bernard Golden | HPE


바야흐로 음성 주도 애플리케이션이라는 신세계에 대비할 때입니다. 음성 컴퓨팅(Speech Computing) 혁명의 손이 닿지 않을 IT 조직은 거의 없을 것이기 때문입니다.

필자는 최근에 “미래의 IT 성과를 이해하기 위해 기술의 최첨단에 있는 개발 사항을 실험해볼 목적으로” 음성으로 제어하는 핸즈프리 스피커인 아마존 에코(Echo)를 구매했습니다. 그렇게 구매를 합리화하면서 에코를 가지고 놀다 보니 앞으로 엔터프라이즈 IT에서 음성 컴퓨팅이 수행하게 될 역할에 대해서 생각하게 되었습니다.

모든 상호작용에 적합한 것은 아니지만, 음성 컴퓨팅은 특정 분야에서는 매혹적일 정도입니다. 예를 들면, 음악을 재생할 때 에코와 알렉사 음성 서비스(Alexa Voice Service)를 연결할 수도 있고 뉴스와 날씨 같은 정보를 제공받기에 매우 편리합니다. 필자는 알렉사의 음성 해석 능력에 깜짝 놀랐습니다.

결론적으로, 음성 인터페이스는 특정 엔터프라이즈 애플리케이션에서 중요한 요소가 될 것이라고 예측하게 되었습니다. 실제로, 음성은 웹, 모바일과 동등한 위치를 차지할 것이므로 이 기술의 동향을 파악하는데 박차를 가해야만 합니다.

음성 인터페이스가 얼마나 빨리 평범한 것이 될까요? 그리고 어떤 것이 가장 적절한 엔터프라이즈 IT의 사용 실례가 될까요? 이런 질문은 매우 중요하며, 여기에 대한 답은 눈 깜짝할 사이에 IT 충원과 기술 투자에 영향을 주게 될 것입니다.

스킬의 힘
음성 입력으로 동작하는 상시 대기(Always-waiting) 중인 스마트 어시스턴트에 익숙해지기까지 얼마나 걸리는지를 알려주는 실험을 통해 두어가지 예를 들어보도록 합시다.

알렉사의 서비스 중에서 가장 널리 이용되는 서비스 중 한 가지는 음악 재생입니다. 에코는 작은 크기(높이 9인치, 폭 2.5인치)에도 불구하고 깨끗한 음질을 제공합니다. 필자는 재즈 감상을 좋아하며 특히 토론토에 있는 재즈 방송국을 선호합니다. 실제로 매일 아침 인터넷 라디오 시계에 알람을 설정해서, 그 방송국의 소리를 듣고 잠을 깹니다.

필자는 알렉사가 얼마나 똑똑한지 알아볼 요량으로, “에코, 토론토 재즈 방송국을 들려줘”라고 말했습니다. 잠시 후 에코는 “미안합니다, 저는 그 정보를 모릅니다”라는 응답을 했습니다. 잠시 생각해본 후 해당 방송국에 대한 구글 검색을 했습니다. 이 방송국의 호출 부호는 CJRT-FM으로 밝혀졌습니다. 그 후 필자는 “에코, CJRT를 들려줘”라고 말했습니다. 에코는 “튠인에서 재즈 FM 91.1을 재생하고 있습니다”라고 응답했으며 곧 이어 음악이 흘러 나왔습니다.

이 경험은 마치 마술 같았습니다. 에코에서의 음악 청취를 매끄러운 경험으로 만들기 위해 아마존이 많은 작업을 했음이 확실합니다. 그러나 알렉사는 더 많은 기능을 제공합니다. 아마존은 외부 업체가 API 지원 서비스를 자유롭게 알렉사에 통합하있는 방법을 제시합니다. 이런 통합을 “스킬(Skill)”이라고 부르는데, 기술의 가짓수가 급속하게 늘어나고 있습니다. IFTTT(If This, Then That) 웹 사이트나 앱으로 알렉사를 제어할 수 있습니다. 개발자는 “에코, 트리거(Trigger) [애플릿 이름]”이라고 말함으로써 호출되는 IFTTT 애플릿을 생성합니다.

스킬이 얼마나 유용할 수 있는지 보여주는 예시를 들어볼까요? 필자의 하니웰 온도 조절 장치는 “스마트”합니다. 즉, 웹 인터페이스를 통해서 제어된다는 의미입니다. 하니웰은 자사의 온도 조절 장치를 IFTTT와 통합했습니다. 그리고 필자는 에코를 호출할 때 온도를 바꾸는 애플릿을 생성했습니다. 하니웰 웹사이트에 연결해서 로그인하고, 수작업으로 원하는 수준으로 온도를 조절하는 것보다는 문장을 말하는 것이 훨씬 더 편리하다는 것은 말할 것도 없습니다.

이런 종류의 편의성은 알렉사 스킬 총 개수가 2016년 6월 1,000개에서 2016년 11월에 4,000개로 증가한 이유를 설명해줍니다. 알렉사의 경우 사람과 컴퓨터 서비스 간의 인터페이스이기는 하지만, 우리가 HCI(Human-Computer Interaction: 인간-컴퓨터 상호작용)의 새로운 지평에 도달했다는 것은 확실합니다.

음성이 훨씬 더 똑똑합니다
스킬의 성장과 음성 인터페이스에 대한 열광을 주도하고 있는 것은 무엇일까요? 음성 인식 품질입니다.

필자는 수년 동안 구글 보이스를 사용해오고 있는데, 초기에는 메시지와 아무런 관계가 없는 문장이나 어구가 포함되기 일쑤여서 음성 메일의 텍스트 변환(Text Rendering)이 아주 재미있다고 생각했습니다. 그렇지만 지난 몇 년 동안 텍스트 변환은 크게 개선되었습니다. 구글 보이스는 항상 메시지의 핵심을 전달해주며 대부분의 경우 메시지를 완벽하게 변환합니다.

실제로 마이크로소프트의 음성 인식 기술이 인간의 품질 수준에 도달했다는 최근의 발표를 살펴보면 왜 음성 인터페이스가 떠오르고 있는지 이해할 수 있습니다.

물론 주목할만한 개선이지만, 음성 인터페이스가 모든 실제 사례를 해결해주는 만병통치약은 아닙니다. 카약은 자사의 서비스에 액세스하기 위한 알렉사 스킬을 제공하고 있으며, 이 스킬을 사용하는 실제 사례도 제공하고 있습니다.

l 예산 범위 안에서 갈 수 있는 장소를 발견하라 : “알렉사, 카약에 물어봐: 300달러로 어디를 갈 수 있지?”
l 항공편, 호텔, 그리고 렌터카를 검색하라 : “알렉사, 카약에 바르셀로나에 있는 호텔을 찾아보라고 물어봐 줘.”
| 예상 도착과 출발에 대한 최신 정보를 유지하기 위해 카약의 항공편 추적기에 액세스하라 : “알렉사, 카약에 항공편을 추적해달라고 해.”

그러나 갑자기 간단한 온도 변경 정도를 요구하기는 쉽다는 생각이 들었습니다. 그저 온도를 변경하거나 유지하는 것은 2진법적인 의사결정이라 할 수 있죠. 그렇지만, 바르셀로나에 있는 호텔을 고르는 것은 훨씬 더 복잡한 프로세스입니다. 가격, 위치, 특정 날짜의 가용성, 그리고 호텔과 지역 편의 시설 등의 기준을 평가해야 하기 때문입니다. 이런 조합을 한 번에 하나의 음성 명령으로 처리하는 것은 시간이 걸릴 가능성도 높고 만족도도 낮을지 모릅니다. 이런 복잡한 작업을 할 때는 브라우저 인터페이스를 사용하는 것이 나을 수 있습니다.



X