2016.12.13

글로벌 칼럼 | 구글의 자동완성과 음성 인식, 도청이라는 미스테리

Mike Elgan | Computerworld
필자의 구글 플러스 팔로워 중 한 명은 아주 흥미로운 이야기를 해 주었다. “하루는 아내와 거북이 수명이 얼마나 길까에 대해서 잡담을 나눈 적이 있었다. 그 후 구글에 ‘수명’만 입력했는데 ‘거북이 수명이 얼마나 길까’가 자동완성되어 나왔다. 소름 돋으면서도 놀라운 경험이었다.” 구글 사용자 중에는 구글이 핸드폰, 컴퓨터상에서 들리는 음성을 녹음해 그 데이터를 구글 검색 자동 완성에 반영한다고 믿는 이가 적지 않다.

이런 일화는 꽤 설득력이 있다. 구글 자동완성 기술이 정확한 정도를 넘어서서 ‘개인 프라이버시’를 침해한다고 느껴질 정도라고 말하는 사람도 있다. 한 사용자는 친구 일화를 소개하기도 했다. 아내에게 친구의 새 주소를 전달 받아 구글 지도에 동네 이름을 타이핑하고 있는데, 분명 처음 입력하는 친구의 주소가 정확하게 자동 완성으로 나타나더라는 것이다.

“틀림없이 마이크를 통해 도청하고 있을 것”이라고 대놓고 의혹을 제기하는 사용자도 있었다. 대체 어떻게 된 일일까?

구글의 음성 녹음, 어떤 식으로 이루어지나
사실 구글은 사용자의 음성을 녹음하는 시간, 장소, 방식에 대해 꽤 엄격한 기준을 가지고 있다. 구글이 사용자의 음성 데이터를 입수하는 경로는 단 하나, 사용자가 직접 구글 앱스나 구글 어시스턴트, 메신저 앱 알로(Allo), 크롬 브라우저, 픽셀 폰, 구글 홈 어플라이언스 등 음성인식이 가능한 구글 제품을 사용할 때뿐이다. 게다가 이 때에도 사용자가 직접 마이크 아이콘을 누르거나, 음성 명령을 내려야만 음성 인식 기능이 작동한다.

Credit : Google

그럼에도 불구하고, 구글 검색의 자동완성은 때때로 너무나 정확해서 구글이 대화 내용을 몰래 도청한다는 의심을 사기에 충분하다.

구글은 음성 인식 소프트웨어로 사용자가 발화한 단어를 인식하고 이것을 기반으로 사용자의 요청이나 명령을 처리한다. 이렇게 입수한 오디오 정보는 소프트웨어 개선 목적으로 보관된다. 몰래 하는 도청과는 거리가 멀다. 사용자도 ‘내 활동’ 페이지에 접속해 구글이 보관 중인 나의 녹음 파일을 모두 확인해 볼 수 있다. 각 음성 파일은 기기의 저장 카드에 나타난다.

모든 음성 파일은 날짜나 서비스 별로(어시스턴트, 구글 앱, google.com 등) 정렬되어 있으며, 좌측에서는 음성 명령의 텍스트 버전을 볼 수 있게 되어 있다. 이 링크를 클릭하면 해당 단어가 포함된 구글 검색 결과 페이지로 이동한다. 우측의 재생 버튼을 누르면 각 녹음 파일을 들을 수 있고, 우측 상단의 기타 옵션 메뉴에서는 언제든지 녹음 파일을 삭제할 수 있다.
이런 구조이기 때문에 사용자가 원치 않는데 대화가 녹음될 일은 거의 없다. 핸드폰만 예를 들어도, 먼저 잠금 해제를 하고 특정 아이콘을 누르는 등 사용자가 수동으로 조작을 해야만 녹음이 시작된다. 픽셀 폰을 사용할 때 설정에서 자동 리스팅 모드를 디폴트로 변경하면 ‘신뢰할 수 있는 음성(Trusted Voice)’을 설정할 수 있다. 이렇게 하면 ‘OK 구글’ 이라는 명령어로 음성 명령을 내릴 수 있다.

핸드폰뿐 아니라 구글 홈 제품 역시 이렇게 음성 명령을 인식한다. 그렇다면 사용자들이 제보해 온 소름 끼치는 자동완성 관련 일화는 어떻게 설명할 수 있을까?

구글의 마술
구글의 자동완성 기능은 사용자가 미처 생각지 못했던 방식으로 이루어지는 게 아닐까 생각해본다. 다음의 4가지 가능성을 생각해보자.

1. 우연의 일치
구글에서 검색을 100번 정도 한다고 해보자. 개중에는 자동 완성 기능이 꽤 정확한 경우도 있고, 정확도가 떨어지는 경우도 있고, 내 마음을 읽었나 싶게 일치하는 경우도 있을 것이다. 하필이면 내가 검색하려던 그 정보가 이미 다른 이도 여러 번 검색했던 것이고, 그래서 우연히 자동완성 창에 뜬 것일 수도 있다. 나는 뜬금없이 생각나서 검색했다고 생각하지만, 사실 소셜 미디어 상에서 유행하는 트렌드에 영향을 받아 검색하게 된 것일 수도 있고 말이다.

2. 음성 인식상 오류
구글은 음성 인식 기술이 정확한 명령어 없이는 작동하지 않는다고 주장하지만, 항상 그렇지는 않다. 필자 역시 ‘내 활동’ 페이지에 들어가 확인해 봤지만, 녹음 파일의 약 10% 정도는 구글이 설명한 ‘음성 인식 활성화 조건’이 충족되지 않았는데도 녹음된 것이었다. 예를 들어 강한 영국 액센트를 가진 지인 한 명이 ‘OK 구글’과 발음이 비슷한 다른 문장을 말했을 때, 음성 인식이 활성화 된 것을 확인할 수 있었다. 그러나 의미상으로 보면 그 장소의 누구도 ‘OK 구글’은커녕 그와 유사한 명령어조차 말한 바 없었다. 그저 녹음 중이라는 것을 모르는 사람의 말소리만 들려올 뿐이다. 이처럼 1~2초 길이의 짧은 대화가 녹음된 파일이 상당수 있었고, 어쩌면 이러한 파일에서 추출해 낸 단어가 자동완성 기능에 반영 됐을 가능성도 있다.

또, 어쩌면 사용자가 녹음 버튼을 누르고 녹음을 하던 중 배경에 섞여 있던 말소리가 기록 된 것 일수도 있고 말이다.

이런 경우도 상상해 볼 수 있다. 한 사용자가 픽셀 폰에서 ‘신뢰할 수 있는 음성’ 설정을 활성화 해 둔 채로 친구 집을 방문한다. 친구의 집에는 구글 홈 디바이스가 가동 중이다. 친구가 홈 디바이스를 향해 “OK 구글, 테일러 스위프트의 키가 몇 cm지?”라는 질문을 했다고 해 보자. 며칠 후, 그런 질문을 했었다는 것 자체를 잊어버린 픽셀 사용자가 구글에 ‘테일러’를 타이핑하자 ‘테일러 스위프트 키’가 자동 완성되었다. 즉 지인의 ‘OK 구글’ 명령어를 신뢰할 수 있는 음성으로 인식한 픽셀 폰이 자동으로 음성인식 기능을 활성화 한 것이다.

3. 사용자가 예상치 못한 곳에서 노출한 정보
특히 구글 지도는 필자 혼자만의 활동 기록이 아니라 아내의 활동 기록까지 자동 완성에 포함시키는 것이 분명해 보인다. 사실 활동 경로를 파악해 보면 나와 가까운 관계에 있는 사람을 알아내기란 어렵지 않다. 특히 필자 부부는 둘 다 구글 지도를 자주 사용하며, 이동 경로도 비슷하고 방문하는 장소도 유사해 더욱 그렇다.

게다가 대부분 사람들은 자신이 무엇을 검색했었는지 오래 기억하지 못한다. 이처럼 과거 검색 내역을 기억하지 못할 경우, 그것에 기반한 구글의 자동완성 기능이 마치 자신의 마음을 읽은 것 같은 느낌을 주는 것도 당연한 일이다.

4. 인공 지능
개인 정보 축적 정도가 검색의 정확도를 얼마나 높여 주는지, 사실 일반적인 사용자로써는 실감하기가 어렵다. 그러나 구글 인공 지능은 사용자의 과거 검색 기록이나 활동 내역간의 연계성을 찾아내 향후 관심사나 검색내용을 예측할 수 있다. 사실 그렇게 어려운 것은 아니다. 과거에 지속적으로 히스테리에 가까울 정도로 건강을 염려해 온 사용자가 독감 유행 시즌에 ‘어디서’라는 단어를 타이핑 한다면 십중팔구 독감 예방 주사를 어디서 맞아야 하는지 궁금해서가 아니겠는가? 그러나 이런 사정을 모르는 사용자는 마치 컴퓨터가 자신의 생각을 읽은 듯한 인상을 받게 된다.

과학 소설 작가 아서 C. 클라크는 “기술이 일정 수준 이상 발전하면, 대부분의 사람에게는 마치 마법처럼 보인다”고 말하기도 했다. 마술사 데이빗 블레인의 놀라운 트릭을 보고 그가 정말로 초월적인 능력을 지녔다고 믿는 사람도 있겠지만, 사실 이성적인 사람이라면 그가 사용한 트릭의 원리를 우리가 모르기 때문에 마치 마술처럼 ‘보인다’는 결론을 내릴 수 있을 것이다.

구글 검색 결과가 때때로(항상은 아니지만) 소름 끼치는 정확성을 보이는 것도 이와 비슷한 원리가 아닐까? 물론 구글이 사용자의 모든 대화를 녹음하고 있으며 (경우에 따라서는) 그것을 자동 완성 기능의 정확도를 높이는 데 불법적으로 활용하고 있다고 생각할 수도 있다. 하지만 그보다는, 대부분의 구글 사용자들이 구글의 자동완성기능의 작동 원리를 잘 모르고 있으며, 따라서 자동 완성 기능이 정확하게 사용자의 생각을 예측했을 때 더욱 놀라게 될 수 밖에 없다는 것이 더 합리적인 설명이 아닐까?

따라서 구글이 사용자를 도청하고 있다는 것은 사실이 아니다. 하지만 만일 그것이 현실이 된다면 어떨까?

아주 드물게 오류가 발생할 때를 제외하면, 구글은 사용자의 명령이나 동의 없이 단지 자동완성 기능을 개선하겠다는 이유만으로 불법 도청 및 녹음을 하지는 않는다.

가장 확실한 증거는 구글의 자동완성 기능이 항상 정확한 예측을 해내는 것은 아니라는 사실이다.

오히려 예측의 정확도 측면에서 보자면 그것이 너무 정확해서 문제라기 보다는 틀릴 때가 더 많다는 것이 문제가 돼야 한다.

만일 구글이 정말 불법 도청 및 녹취를 하고 있다면 자동완성 기능의 정확도는 상상을 초월할 것이다. 아니, 솔직히 말해 그럴 필요가 없을 것이다.

정말로 사용자의 폰, 태블릿, 노트북의 가청 거리 이내의 모든 소리를 구글이 녹음, 저장해 검색결과 및 구글 어시스턴트 정확도를 높이는 데 활용하고 있다면 구글이 제공하는 정보와 예측, 인지 능력은 눈에 띄게 향상될 것이다.
이쯤 되면 구글이 사용자의 모든 대화를 녹음하는 것이 반드시 나쁜 것인가 하는 생각마저 든다. 사생활 보호가 확실히 보장된다면 어떨까? 예를 들어 핸드폰의 음성 자료를 프로세싱 하되 녹취 파일을 남기지 않으며, 데이터 정확도를 높이는 목적으로만 쓰인다면 괜찮은 걸까? 혹은 상시 녹음 모드와 선택적 녹음 모드를 선택할 수 있게 하는 것도 하나의 방법이 될 수 있을 것이다. 많은 사용자들이 다양한 의견을 개진해야 할 시점이기도 하다. editor@itworld.co.kr  


2016.12.13

글로벌 칼럼 | 구글의 자동완성과 음성 인식, 도청이라는 미스테리

Mike Elgan | Computerworld
필자의 구글 플러스 팔로워 중 한 명은 아주 흥미로운 이야기를 해 주었다. “하루는 아내와 거북이 수명이 얼마나 길까에 대해서 잡담을 나눈 적이 있었다. 그 후 구글에 ‘수명’만 입력했는데 ‘거북이 수명이 얼마나 길까’가 자동완성되어 나왔다. 소름 돋으면서도 놀라운 경험이었다.” 구글 사용자 중에는 구글이 핸드폰, 컴퓨터상에서 들리는 음성을 녹음해 그 데이터를 구글 검색 자동 완성에 반영한다고 믿는 이가 적지 않다.

이런 일화는 꽤 설득력이 있다. 구글 자동완성 기술이 정확한 정도를 넘어서서 ‘개인 프라이버시’를 침해한다고 느껴질 정도라고 말하는 사람도 있다. 한 사용자는 친구 일화를 소개하기도 했다. 아내에게 친구의 새 주소를 전달 받아 구글 지도에 동네 이름을 타이핑하고 있는데, 분명 처음 입력하는 친구의 주소가 정확하게 자동 완성으로 나타나더라는 것이다.

“틀림없이 마이크를 통해 도청하고 있을 것”이라고 대놓고 의혹을 제기하는 사용자도 있었다. 대체 어떻게 된 일일까?

구글의 음성 녹음, 어떤 식으로 이루어지나
사실 구글은 사용자의 음성을 녹음하는 시간, 장소, 방식에 대해 꽤 엄격한 기준을 가지고 있다. 구글이 사용자의 음성 데이터를 입수하는 경로는 단 하나, 사용자가 직접 구글 앱스나 구글 어시스턴트, 메신저 앱 알로(Allo), 크롬 브라우저, 픽셀 폰, 구글 홈 어플라이언스 등 음성인식이 가능한 구글 제품을 사용할 때뿐이다. 게다가 이 때에도 사용자가 직접 마이크 아이콘을 누르거나, 음성 명령을 내려야만 음성 인식 기능이 작동한다.

Credit : Google

그럼에도 불구하고, 구글 검색의 자동완성은 때때로 너무나 정확해서 구글이 대화 내용을 몰래 도청한다는 의심을 사기에 충분하다.

구글은 음성 인식 소프트웨어로 사용자가 발화한 단어를 인식하고 이것을 기반으로 사용자의 요청이나 명령을 처리한다. 이렇게 입수한 오디오 정보는 소프트웨어 개선 목적으로 보관된다. 몰래 하는 도청과는 거리가 멀다. 사용자도 ‘내 활동’ 페이지에 접속해 구글이 보관 중인 나의 녹음 파일을 모두 확인해 볼 수 있다. 각 음성 파일은 기기의 저장 카드에 나타난다.

모든 음성 파일은 날짜나 서비스 별로(어시스턴트, 구글 앱, google.com 등) 정렬되어 있으며, 좌측에서는 음성 명령의 텍스트 버전을 볼 수 있게 되어 있다. 이 링크를 클릭하면 해당 단어가 포함된 구글 검색 결과 페이지로 이동한다. 우측의 재생 버튼을 누르면 각 녹음 파일을 들을 수 있고, 우측 상단의 기타 옵션 메뉴에서는 언제든지 녹음 파일을 삭제할 수 있다.
이런 구조이기 때문에 사용자가 원치 않는데 대화가 녹음될 일은 거의 없다. 핸드폰만 예를 들어도, 먼저 잠금 해제를 하고 특정 아이콘을 누르는 등 사용자가 수동으로 조작을 해야만 녹음이 시작된다. 픽셀 폰을 사용할 때 설정에서 자동 리스팅 모드를 디폴트로 변경하면 ‘신뢰할 수 있는 음성(Trusted Voice)’을 설정할 수 있다. 이렇게 하면 ‘OK 구글’ 이라는 명령어로 음성 명령을 내릴 수 있다.

핸드폰뿐 아니라 구글 홈 제품 역시 이렇게 음성 명령을 인식한다. 그렇다면 사용자들이 제보해 온 소름 끼치는 자동완성 관련 일화는 어떻게 설명할 수 있을까?

구글의 마술
구글의 자동완성 기능은 사용자가 미처 생각지 못했던 방식으로 이루어지는 게 아닐까 생각해본다. 다음의 4가지 가능성을 생각해보자.

1. 우연의 일치
구글에서 검색을 100번 정도 한다고 해보자. 개중에는 자동 완성 기능이 꽤 정확한 경우도 있고, 정확도가 떨어지는 경우도 있고, 내 마음을 읽었나 싶게 일치하는 경우도 있을 것이다. 하필이면 내가 검색하려던 그 정보가 이미 다른 이도 여러 번 검색했던 것이고, 그래서 우연히 자동완성 창에 뜬 것일 수도 있다. 나는 뜬금없이 생각나서 검색했다고 생각하지만, 사실 소셜 미디어 상에서 유행하는 트렌드에 영향을 받아 검색하게 된 것일 수도 있고 말이다.

2. 음성 인식상 오류
구글은 음성 인식 기술이 정확한 명령어 없이는 작동하지 않는다고 주장하지만, 항상 그렇지는 않다. 필자 역시 ‘내 활동’ 페이지에 들어가 확인해 봤지만, 녹음 파일의 약 10% 정도는 구글이 설명한 ‘음성 인식 활성화 조건’이 충족되지 않았는데도 녹음된 것이었다. 예를 들어 강한 영국 액센트를 가진 지인 한 명이 ‘OK 구글’과 발음이 비슷한 다른 문장을 말했을 때, 음성 인식이 활성화 된 것을 확인할 수 있었다. 그러나 의미상으로 보면 그 장소의 누구도 ‘OK 구글’은커녕 그와 유사한 명령어조차 말한 바 없었다. 그저 녹음 중이라는 것을 모르는 사람의 말소리만 들려올 뿐이다. 이처럼 1~2초 길이의 짧은 대화가 녹음된 파일이 상당수 있었고, 어쩌면 이러한 파일에서 추출해 낸 단어가 자동완성 기능에 반영 됐을 가능성도 있다.

또, 어쩌면 사용자가 녹음 버튼을 누르고 녹음을 하던 중 배경에 섞여 있던 말소리가 기록 된 것 일수도 있고 말이다.

이런 경우도 상상해 볼 수 있다. 한 사용자가 픽셀 폰에서 ‘신뢰할 수 있는 음성’ 설정을 활성화 해 둔 채로 친구 집을 방문한다. 친구의 집에는 구글 홈 디바이스가 가동 중이다. 친구가 홈 디바이스를 향해 “OK 구글, 테일러 스위프트의 키가 몇 cm지?”라는 질문을 했다고 해 보자. 며칠 후, 그런 질문을 했었다는 것 자체를 잊어버린 픽셀 사용자가 구글에 ‘테일러’를 타이핑하자 ‘테일러 스위프트 키’가 자동 완성되었다. 즉 지인의 ‘OK 구글’ 명령어를 신뢰할 수 있는 음성으로 인식한 픽셀 폰이 자동으로 음성인식 기능을 활성화 한 것이다.

3. 사용자가 예상치 못한 곳에서 노출한 정보
특히 구글 지도는 필자 혼자만의 활동 기록이 아니라 아내의 활동 기록까지 자동 완성에 포함시키는 것이 분명해 보인다. 사실 활동 경로를 파악해 보면 나와 가까운 관계에 있는 사람을 알아내기란 어렵지 않다. 특히 필자 부부는 둘 다 구글 지도를 자주 사용하며, 이동 경로도 비슷하고 방문하는 장소도 유사해 더욱 그렇다.

게다가 대부분 사람들은 자신이 무엇을 검색했었는지 오래 기억하지 못한다. 이처럼 과거 검색 내역을 기억하지 못할 경우, 그것에 기반한 구글의 자동완성 기능이 마치 자신의 마음을 읽은 것 같은 느낌을 주는 것도 당연한 일이다.

4. 인공 지능
개인 정보 축적 정도가 검색의 정확도를 얼마나 높여 주는지, 사실 일반적인 사용자로써는 실감하기가 어렵다. 그러나 구글 인공 지능은 사용자의 과거 검색 기록이나 활동 내역간의 연계성을 찾아내 향후 관심사나 검색내용을 예측할 수 있다. 사실 그렇게 어려운 것은 아니다. 과거에 지속적으로 히스테리에 가까울 정도로 건강을 염려해 온 사용자가 독감 유행 시즌에 ‘어디서’라는 단어를 타이핑 한다면 십중팔구 독감 예방 주사를 어디서 맞아야 하는지 궁금해서가 아니겠는가? 그러나 이런 사정을 모르는 사용자는 마치 컴퓨터가 자신의 생각을 읽은 듯한 인상을 받게 된다.

과학 소설 작가 아서 C. 클라크는 “기술이 일정 수준 이상 발전하면, 대부분의 사람에게는 마치 마법처럼 보인다”고 말하기도 했다. 마술사 데이빗 블레인의 놀라운 트릭을 보고 그가 정말로 초월적인 능력을 지녔다고 믿는 사람도 있겠지만, 사실 이성적인 사람이라면 그가 사용한 트릭의 원리를 우리가 모르기 때문에 마치 마술처럼 ‘보인다’는 결론을 내릴 수 있을 것이다.

구글 검색 결과가 때때로(항상은 아니지만) 소름 끼치는 정확성을 보이는 것도 이와 비슷한 원리가 아닐까? 물론 구글이 사용자의 모든 대화를 녹음하고 있으며 (경우에 따라서는) 그것을 자동 완성 기능의 정확도를 높이는 데 불법적으로 활용하고 있다고 생각할 수도 있다. 하지만 그보다는, 대부분의 구글 사용자들이 구글의 자동완성기능의 작동 원리를 잘 모르고 있으며, 따라서 자동 완성 기능이 정확하게 사용자의 생각을 예측했을 때 더욱 놀라게 될 수 밖에 없다는 것이 더 합리적인 설명이 아닐까?

따라서 구글이 사용자를 도청하고 있다는 것은 사실이 아니다. 하지만 만일 그것이 현실이 된다면 어떨까?

아주 드물게 오류가 발생할 때를 제외하면, 구글은 사용자의 명령이나 동의 없이 단지 자동완성 기능을 개선하겠다는 이유만으로 불법 도청 및 녹음을 하지는 않는다.

가장 확실한 증거는 구글의 자동완성 기능이 항상 정확한 예측을 해내는 것은 아니라는 사실이다.

오히려 예측의 정확도 측면에서 보자면 그것이 너무 정확해서 문제라기 보다는 틀릴 때가 더 많다는 것이 문제가 돼야 한다.

만일 구글이 정말 불법 도청 및 녹취를 하고 있다면 자동완성 기능의 정확도는 상상을 초월할 것이다. 아니, 솔직히 말해 그럴 필요가 없을 것이다.

정말로 사용자의 폰, 태블릿, 노트북의 가청 거리 이내의 모든 소리를 구글이 녹음, 저장해 검색결과 및 구글 어시스턴트 정확도를 높이는 데 활용하고 있다면 구글이 제공하는 정보와 예측, 인지 능력은 눈에 띄게 향상될 것이다.
이쯤 되면 구글이 사용자의 모든 대화를 녹음하는 것이 반드시 나쁜 것인가 하는 생각마저 든다. 사생활 보호가 확실히 보장된다면 어떨까? 예를 들어 핸드폰의 음성 자료를 프로세싱 하되 녹취 파일을 남기지 않으며, 데이터 정확도를 높이는 목적으로만 쓰인다면 괜찮은 걸까? 혹은 상시 녹음 모드와 선택적 녹음 모드를 선택할 수 있게 하는 것도 하나의 방법이 될 수 있을 것이다. 많은 사용자들이 다양한 의견을 개진해야 할 시점이기도 하다. editor@itworld.co.kr  


X