구글이 지난주 연례 개발자 컨퍼런스에서 실시간 번역된 언어를 시각적으로 출력해주는 AR 글래스(이하 ‘트랜슬레이션 글래스(translation glasses)’로 통칭)를 공개하며, 언젠가는 외국어를 쓰는 사람과 대화할 때 ‘안경’을 통해 번역된 언어를 보게 될 것이라고 말했다.
시연 영상에서 ‘트랜슬레이션 글래스’는 다른 사람의 말을 실시간으로 받아 적는 자막(CC)뿐만 아니라 영어와 중국어 또는 스페인어를 오가는 번역을 제공하여 서로 다른 언어를 쓰는 사람들이 (서로의 언어를 모르더라도) 대화하거나 청각 장애인이 다른 사람의 말을 눈으로 확인할 수 있도록 했다.
이른바 ‘구글 번역(Google Translate)’ 서비스의 하드웨어로써, 이 글래스는 구글 번역 사용의 주된 불편 사항을 해결할 것이다. 예를 들어 오디오 번역을 사용하면 원활한 대화가 어렵다(음성을 입력하고 번역 결과를 보는 과정을 거쳐야 하기 때문이다). 번역된 언어를 시각적으로 제시하면 훨씬 더 쉽고 자연스럽게 대화를 할 수 있다.
아울러 기존의 구글 글래스와는 달리, 트랜슬레이션-글래스 프로토타입은 증강현실(AR) 기기임을 확실히 하고 있다. 증강현실 기기는 현실 세계의 데이터를 수집하고 해당 데이터의 의미를 인식하여 사용자가 활용할 수 있는 정보를 추가한다.
사실상 기존 구글 글래스는 ‘증강현실 기기’가 아니라 ‘헤드업 디스플레이(HUD)’였다. 구글 글래스가 처리할 수 있는 맥락 또는 환경 인식은 위치뿐이었다. 위치를 기반으로 길 안내 또는 위치 기반 알림을 제공하는 정도에 그치고, 시각 또는 오디오 데이터를 수집하여 사용자가 보거나 듣고 있는 것에 관한 정보를 반환할 수는 없었다. 구글의 이번 트랜슬레이션 글래스는 현실 세계의 오디오 데이터를 가져와 사용자가 선택한 언어로 번역된 전사본을 반환하는 AR 기기다.
언론에서는 이 번역 기능이 구글의 AR 글래스를 위한 전용 애플리케이션이라고만 보도했다. 분석적이거나 비판적인 탐구가 없었다. 필자가 아는 한 그렇다. 모든 언론 보도에서 언급됐어야 했던 가장 중요한 사실은 번역이 클라우드에서 오디오 데이터를 처리하기 위한 임의적인 선택이라는 점이다. 안경으로 할 수 있는 일은 훨씬 더 많다!
다시 말해, 모든 애플리케이션에서 모든 오디오를 쉽게 처리하고 착용자가 사용할 수 있는 모든 텍스트 또는 오디오도 반환할 수 있다. 중요하지 않은가? 실제로 이 하드웨어는 오디오를 클라우드에 보내고, 클라우드가 반환하는 텍스트를 표시한다.
오디오를 처리하고, 실행 가능하거나 맥락 정보를 반환하는 애플리케이션에는 사실상 한계가 사라진다. 이 글래스는 아무 노이즈나 전송한 다음 원격 애플리케이션에서 반환한 텍스트를 표시할 수 있다.
구형 모뎀처럼 노이즈를 인코딩할 수도 있다. 노이즈 생성 기기 또는 스마트폰 앱이 스타워즈의 로봇 캐릭터 ‘R2D2’처럼 삐 소리와 휘파람을 전송할 수 있는데, 이는 서버가 해석해 글래스에 표시할 어떤 정보도 반환할 수 있는 오디오 QR 코드처럼, 클라우드에서 처리될 수 있다. 이때 그 텍스트(정보)는 기기 가이드라인일 수도 있고, 박물관의 유물 정보일 수도 있고, 매장의 특정 제품 정보일 수도 있다.
이것이 5년 또는 그 이후에 출시되리라 기대하고 있는 ‘시각적 AR(Visual AR)’ 애플리케이션이다. 물론 그사이에 이러한 시각적 AR의 대부분은 오디오로 제공될 것이다.
구글 ‘트랜슬레이션 글래스’는 분명하게 구글 어시스턴트와 함께 사용되리라 예상한다. 이는 구글 어시스턴트의 쿼리에서 일반 오디오 데이터와 함께 시각적 데이터를 제공하는 가전제품인 (구글 어시스턴트가 적용된) 스마트 디스플레이를 사용하는 것과 같다. 하지만 이 시각적 데이터는 사용자가 어디에 있든 손을 사용하지 않고 안경을 통해 제공될 것이다.
또한 ‘트랜슬레이션 글래스’가 스마트폰과 짝을 이룬다고 상상해보라. 사용자가 부여한 권한에 따라 연락처 데이터를 블루투스로 전송하면 비즈니스 행사에서 누구와 대화하고 있는지, 과거 대화 이력이 있는지 등을 안경에 표시할 수 있다.
IT 매체가 구글 글래스를 혹평한 이유
언론이 ‘구글 글래스’를 혹평한 이유는 크게 2가지다. 첫째, 헤드셋에 장착된 전면 카메라가 사람들을 불편하게 만든다는 점이다. 구글 글래스 착용자와 대화를 한다면 나를 향하고 있는 카메라가 녹화를 하고 있는 건지 알 수 없어 불편할 수밖에 없다는 것이다(구글은 이번 ‘트랜슬레이션 글래스’에도 카메라가 있는지 밝히지 않았지만 프로토타입에는 없었다).
둘째, 과도하게 튀는 하드웨어 디자인 때문에 착용자가 사이보그처럼 보인다는 점이다. 이 2가지 하드웨어적 문제로 인해 비평가들은 구글 글래스가 대중적으로 받아들여지지 않을 것이라고 주장했다.
반면, 구글의 ‘트랜슬레이션 글래스’는 카메라도 없고, 착용자를 사이보그처럼 보이게 만들지도 않는다. 일반적인 안경과 크게 다르지 않다. 그리고 착용자에게 보이는 텍스트는 대화 중인 상대방에게는 보이지 않는다. 그냥 눈을 마주치고 대화하는 것처럼 보인다.
구글의 ‘트랜슬레이션 글래스’ 하드웨어가 대중적으로 받아들여질 수 없는 유일한 단점은 구글이 허가 없이 타인의 말을 ‘녹음’하고, 번역을 위해 클라우드에 업로드하며, 아마도 다른 음성 관련 제품과 마찬가지로 녹음본을 보관할 것이라는 점이다. 따라서 증강현실 기기와 심지어 헤드업 디스플레이는 ‘제조사가 기능을 올바르게 설정하기만 한다면’ 굉장히 매력적일 것이다.
언젠가는 평범해 보이는 안경으로 완전한 ‘시각적 AR’을 경험할 것이다. 그때까지 AR 글래스는 다음과 같은 특징을 갖게 되리라 예상한다.
1. 일반 안경처럼 보인다.
2. 처방 렌즈를 쓸 수 있다.
3. 카메라가 없다.
4. AI로 오디오를 처리하고 텍스트를 통해 데이터를 반환한다.
5. 또한 텍스트로 결과를 반환하는 어시스턴트 기능을 제공한다.
현재까지 이 조건을 모두 만족하는 제품은 없었다. 하지만 구글은 그만한 기술이 있다는 점을 입증했다. (지금까지는) 언어 자막 처리 및 번역이 가장 주목할 만한 기능이겠지만 다른 많은 매력적인 비즈니스 애플리케이션을 감안한다면 이는 트로이 목마에 불과하다.
구글은 이 ‘트랜슬레이션 글래스’가 상용 제품으로 출시될 시기(사실상 출시 여부조차도)를 밝히지 않았다. 하지만 구글이 하지 않는다면 다른 누군가가 할 것이고, 이는 비즈니스 사용자에게 킬러 카테고리가 될 것이다.
일반 안경이 대화 상대 및 내용을 (AI로) 번역한 시각적 결과뿐만 아니라 어시스턴트 쿼리의 시각 및 음성 결과 액세스를 제공하는 기능은 완전히 판도를 바꾸리라 예상한다.
우리는 현재 AR 애플리케이션이 주로 스마트폰 앱에 존재하는, 그리고 몇 년 후 출시될 대중적으로 받아들여질 모바일 AR 안경을 기다리는 ‘어색한’ 기술 개발의 시대를 살고 있다. 그사이의 해결책은 명확하다. 소리를 수집하고, 단어를 표시하는 오디오 기반의 AR 글래스가 필요하다.
바로 구글이 보여준 것이다.
* Mike Elgan은 기술 및 기술 문화에 대해 저술하는 전문 기고가다.
ciokr@idg.co.kr