2011.11.28

글로벌 칼럼 | 시리 탄생 한 달… “컴퓨팅의 패러다임을 바꾸다”

Michael deAgonia | Computerworld
아이폰 4S에서 사용할 수 있는 음성으로 제어되는 새로운 "개인 비서" 시리(Siri)를 한 달간 사용해 본 후 필자는 이제 음성 제어를 마우스와 컴퓨터, 그리고 최근의 터치 제스처(Touch Gesture)에 이어 컴퓨터와 상호작용하는 패러다임을 바꾸는 수단으로 보아야 한다고 결론 내렸다. 아직 음성 제어가 완벽하지는 않지만 시리의 사용 편의성과 즉각적인 반응성은 사람들의 습관을 바꾸어 놓기에 충분할 것이다. 그리고 실제로도 필자의 습관에 변화를 가져왔다.
 
음성 명령을 이용해 컴퓨터를 제어하는 것은 수년 동안 하나의 꿈으로 자리잡았다. 비록 많은 기업들이 노력했지만 그 어떤 기업도 대부분의 사용자들이 쉽고 편리하게 이용할 수 있는 신뢰할만한 것을 제공하지 못했다. 애플의 맥 OS에는 1990년대 중반부터 음성인식 명령이 내장되었으며, 필자는 OS/2 랩(Wrap)이 잊혀져 갈 즈음에 CompUSA에서 이상한 헤드셋을 착용한 드래곤 딕테이션(Dragon Dictation)의 기술자들이 윈도우 부스를 가득 채우고 있던 것을 기억한다.
 
사실 대부분의 휴대폰에는 스마트폰이 등장하기 전부터 음성으로 제어되는 연락처 및 전화 걸기 기능이 내장되어 있었다. 하지만 이런 범용성에도 불구하고 음성 제어는 주목을 받지 못했다. 왜냐하면 대부분의 사람들에게 있어서 그 작동방식이 너무 번잡스러웠기 때문이다. 맥 OS의 스피커블 아이템(Speakable Items)부터 구형 휴대폰의 연락처로 전화 걸기에 이르기까지 음성 제어는 항상 자연스러운 발화라기 보다는 명령어에 가까운 구체적인 표현을 필요로 했다.
 
"5-5-5-5-5-5-1-2-3-4 로 전화하기" 등 각 단어와 번호를 분명하게 발음하는 것은 간단하게 "엄마에게 전화하기"라고 말하는 것보다 훨씬 어렵다.
 
시리는 어떻게 다른가
시리는 오리지널 맥이 많은 사람들에게 있어서 컴퓨팅을 바꾸어 놓았듯이 많은 것을 바꾸고 있다. 1984년 맥이 개발되기 전에는 대부분의 컴퓨터에서 터미널(Terminal)을 통해 특정 텍스트 명령어를 입력해야 했다. 마우스와 그래픽 사용자 환경(Graphic User Interface)은 컴퓨터를 개발하고 설계한 사람들의 방향성을 완전히 바꾸어 놓았을 뿐 아니라 새로운 사용자들이 컴퓨팅을 접할 수 있는 계기를 제공했다. 
 
이와 마찬가지로 터치화면 기기들은 2007년 아이폰이 등장하기 전부터 사용되었지만 아이폰의 하드웨어와 소프트웨어의 조합은 차세대 휴대폰에서 기대되는 것들을 바꾸어 놓게 되었으며, 3년 후 아이패드가 등장할 수 있는 기틀을 마련했다. GUI, 터치, 음성 등 사용자가 기술과 연결하는 방식이 중요하다. 그리고 기술과 상호작용하는 새로운 방식들은 과거에 기술을 회피했던 사람들의 관심을 끌게 되었다.
 
이것이 시리가 기존의 음성 기술과 다르면서도 더 나은 이유이다. 시리를 사용할 때는 문법(명령어를 표현하는 방법)이 항상 정확할 필요가 없다. 정보를 요청하거나 이메일을 작성하고 명령을 내리는 대부분의 경우에 시리의 핵심 기술이 명령어의 의미가 무엇인지 분석하고 이에 따라 반응한다. 앞서 언급했듯이 대부분의 휴대폰은 일련의 번호들 붙인 "전화하기" 명령어를 인식하지만 시리는 "매주 목요일 오전 7:08에 쓰레기를 버리는 일정을 생성하라"는 말을 들었을 때 무엇을 해야 할지를 정확히 이해한다.
 
이것은 시리가 사람의 마음을 읽는다는 뜻이 아니다. 시리가 문장을 들으면 특정 키워드나 의미의 차이에 따라 작동한다. 시리에 사용된 인공 지능은 기존의 음성 명령 기술보다 뛰어나지만 여전히 구체적인 문법이 중요한 경우가 있다. "여동생에게 나중에 연락을 달라는 문자 메시지를 보내라"라는 명령어를 말하면 여동생이 "나중에 연락주세요"라는 문자 메시지를 받게 될 것이다. 놀랍지 않은가? 하지만 "다가오는 생일들을 알려달라"고 말하면 시리는 "죄송하지만 '다가오는 생일들을 알려달라'는 말을 이해하지 못하겠다"는 말과 함께 웹 검색 옵션을 제시할 것이다. 하지만 해당 쿼리(Query)를 "생일 약속을 보여달라"고 표현하면 캘린더에서 적절한 정보를 검색하여 보여줄 것이다.
 
다시 말해서 사용자가 시리에 적응할 필요가 있을 때도 있다. (이것이 해당 기술이 여전히 기술적으로 베타(Beta) 단계인 이유이다.)
 
비록 종종 구체적인 문법을 사용하는 것이 중요한 때도 있지만, 필요성이 최소화됐다. 더 중요한 것은 시리가 현재 명령어를 충분히 인식함으로써 좋은 음성인식 기술을 기대하지 않는 사용자들을 유도하기 위해 진입장벽을 낮추고 있다는 사실이다. 필자 또한 그런 사용자들 중 하나였다.
 
인격은 놀라운 결과를 가져온다
하지만 시리는 질문에 대답하거나 검색 결과를 제공하는 것 이상이다. 시리는 사용자의 요청을 분명히 하기 위해서 사용자에게 질문을 하기도 하며 이메일이나 문자 메시지를 작성하는 방법도 차근차근 설명해준다. 또한 놀랍게도 시리는 약간의 인격을 갖고 있다. 예를 들어 "팟 베이(Pod Bay)의 문을 열어"라는 명령어의 경우, 수 많은 아이폰 4S 사용자들이 시도한 후 그 결과를 온라인을 통해 공개했다. (영화2001, 스페이스 오디세이(A Space Odyssey)를 알고 있다면 이 명령어가 무엇인지 알 것이다.) 시리는 한숨부터, 할(HAL)의 답변을 모방하거나 비난조로 "이제 만족해?"라는 등의 답변을 제공한다.
 


2011.11.28

글로벌 칼럼 | 시리 탄생 한 달… “컴퓨팅의 패러다임을 바꾸다”

Michael deAgonia | Computerworld
아이폰 4S에서 사용할 수 있는 음성으로 제어되는 새로운 "개인 비서" 시리(Siri)를 한 달간 사용해 본 후 필자는 이제 음성 제어를 마우스와 컴퓨터, 그리고 최근의 터치 제스처(Touch Gesture)에 이어 컴퓨터와 상호작용하는 패러다임을 바꾸는 수단으로 보아야 한다고 결론 내렸다. 아직 음성 제어가 완벽하지는 않지만 시리의 사용 편의성과 즉각적인 반응성은 사람들의 습관을 바꾸어 놓기에 충분할 것이다. 그리고 실제로도 필자의 습관에 변화를 가져왔다.
 
음성 명령을 이용해 컴퓨터를 제어하는 것은 수년 동안 하나의 꿈으로 자리잡았다. 비록 많은 기업들이 노력했지만 그 어떤 기업도 대부분의 사용자들이 쉽고 편리하게 이용할 수 있는 신뢰할만한 것을 제공하지 못했다. 애플의 맥 OS에는 1990년대 중반부터 음성인식 명령이 내장되었으며, 필자는 OS/2 랩(Wrap)이 잊혀져 갈 즈음에 CompUSA에서 이상한 헤드셋을 착용한 드래곤 딕테이션(Dragon Dictation)의 기술자들이 윈도우 부스를 가득 채우고 있던 것을 기억한다.
 
사실 대부분의 휴대폰에는 스마트폰이 등장하기 전부터 음성으로 제어되는 연락처 및 전화 걸기 기능이 내장되어 있었다. 하지만 이런 범용성에도 불구하고 음성 제어는 주목을 받지 못했다. 왜냐하면 대부분의 사람들에게 있어서 그 작동방식이 너무 번잡스러웠기 때문이다. 맥 OS의 스피커블 아이템(Speakable Items)부터 구형 휴대폰의 연락처로 전화 걸기에 이르기까지 음성 제어는 항상 자연스러운 발화라기 보다는 명령어에 가까운 구체적인 표현을 필요로 했다.
 
"5-5-5-5-5-5-1-2-3-4 로 전화하기" 등 각 단어와 번호를 분명하게 발음하는 것은 간단하게 "엄마에게 전화하기"라고 말하는 것보다 훨씬 어렵다.
 
시리는 어떻게 다른가
시리는 오리지널 맥이 많은 사람들에게 있어서 컴퓨팅을 바꾸어 놓았듯이 많은 것을 바꾸고 있다. 1984년 맥이 개발되기 전에는 대부분의 컴퓨터에서 터미널(Terminal)을 통해 특정 텍스트 명령어를 입력해야 했다. 마우스와 그래픽 사용자 환경(Graphic User Interface)은 컴퓨터를 개발하고 설계한 사람들의 방향성을 완전히 바꾸어 놓았을 뿐 아니라 새로운 사용자들이 컴퓨팅을 접할 수 있는 계기를 제공했다. 
 
이와 마찬가지로 터치화면 기기들은 2007년 아이폰이 등장하기 전부터 사용되었지만 아이폰의 하드웨어와 소프트웨어의 조합은 차세대 휴대폰에서 기대되는 것들을 바꾸어 놓게 되었으며, 3년 후 아이패드가 등장할 수 있는 기틀을 마련했다. GUI, 터치, 음성 등 사용자가 기술과 연결하는 방식이 중요하다. 그리고 기술과 상호작용하는 새로운 방식들은 과거에 기술을 회피했던 사람들의 관심을 끌게 되었다.
 
이것이 시리가 기존의 음성 기술과 다르면서도 더 나은 이유이다. 시리를 사용할 때는 문법(명령어를 표현하는 방법)이 항상 정확할 필요가 없다. 정보를 요청하거나 이메일을 작성하고 명령을 내리는 대부분의 경우에 시리의 핵심 기술이 명령어의 의미가 무엇인지 분석하고 이에 따라 반응한다. 앞서 언급했듯이 대부분의 휴대폰은 일련의 번호들 붙인 "전화하기" 명령어를 인식하지만 시리는 "매주 목요일 오전 7:08에 쓰레기를 버리는 일정을 생성하라"는 말을 들었을 때 무엇을 해야 할지를 정확히 이해한다.
 
이것은 시리가 사람의 마음을 읽는다는 뜻이 아니다. 시리가 문장을 들으면 특정 키워드나 의미의 차이에 따라 작동한다. 시리에 사용된 인공 지능은 기존의 음성 명령 기술보다 뛰어나지만 여전히 구체적인 문법이 중요한 경우가 있다. "여동생에게 나중에 연락을 달라는 문자 메시지를 보내라"라는 명령어를 말하면 여동생이 "나중에 연락주세요"라는 문자 메시지를 받게 될 것이다. 놀랍지 않은가? 하지만 "다가오는 생일들을 알려달라"고 말하면 시리는 "죄송하지만 '다가오는 생일들을 알려달라'는 말을 이해하지 못하겠다"는 말과 함께 웹 검색 옵션을 제시할 것이다. 하지만 해당 쿼리(Query)를 "생일 약속을 보여달라"고 표현하면 캘린더에서 적절한 정보를 검색하여 보여줄 것이다.
 
다시 말해서 사용자가 시리에 적응할 필요가 있을 때도 있다. (이것이 해당 기술이 여전히 기술적으로 베타(Beta) 단계인 이유이다.)
 
비록 종종 구체적인 문법을 사용하는 것이 중요한 때도 있지만, 필요성이 최소화됐다. 더 중요한 것은 시리가 현재 명령어를 충분히 인식함으로써 좋은 음성인식 기술을 기대하지 않는 사용자들을 유도하기 위해 진입장벽을 낮추고 있다는 사실이다. 필자 또한 그런 사용자들 중 하나였다.
 
인격은 놀라운 결과를 가져온다
하지만 시리는 질문에 대답하거나 검색 결과를 제공하는 것 이상이다. 시리는 사용자의 요청을 분명히 하기 위해서 사용자에게 질문을 하기도 하며 이메일이나 문자 메시지를 작성하는 방법도 차근차근 설명해준다. 또한 놀랍게도 시리는 약간의 인격을 갖고 있다. 예를 들어 "팟 베이(Pod Bay)의 문을 열어"라는 명령어의 경우, 수 많은 아이폰 4S 사용자들이 시도한 후 그 결과를 온라인을 통해 공개했다. (영화2001, 스페이스 오디세이(A Space Odyssey)를 알고 있다면 이 명령어가 무엇인지 알 것이다.) 시리는 한숨부터, 할(HAL)의 답변을 모방하거나 비난조로 "이제 만족해?"라는 등의 답변을 제공한다.
 


X