2019.08.06

글로벌 칼럼 | “대화 녹음 청취 중단” 시리 발전 위한 애플의 다음 행보는?

Jason Cross | Macworld
일주일 전, 가디언(The Guardian)은 애플의 시리 ‘평가(grading)’ 프로그램을 담당하고 있는 사람들이 사적이고 불법적인 행위를 청취하고 있다고 보도했다. 이에 애플은 이 프로그램을 일시 중단하고 검토를 진행한다고 밝혔다. 또, 사용자들이 옵트아웃(또는 옵트인)할 수 있도록 소프트웨어 업데이트를 준비하고 있다. 

애플은 “우리는 사용자의 프라이버시를 보호하면서 우수한 시리 경험을 제공하기 위해 매진하고 있다. 이 프로그램을 철저히 검토하는 동안, 이 프로그램을 일시 중지한다. 또, 향후 소프트웨어 업데이트의 일부로 사용자들이 평가 프로그램 참여 여부를 결정할 수 있도록 할 계획”이라고 간단한 성명을 발표했다.

애플의 조처는 적절했다. 하지만 애플이 앞으로 어떤 일을 할지 궁금하게 만들었다. 모르는 사람이 많지만, 머신러닝과 AI에는 기본적으로 사람의 ‘평가’가 필요하며, 가까운 장래에 이를 대체할 좋은 대체재가 없기 때문이다. 시리는 경쟁 기술보다 1~2년 정도 뒤떨어져 있다는 비판을 받고 있는데, 프라이버시를 보호하면서 경쟁 기술을 따라잡기는 쉽지 않아 보인다.
 

누구나 하는 일

시리 평가 프로그램이 무엇일까? ‘시리야’와 함께 명령을 말하면, 이 명령이 디바이스 안에서 처리되는 동시에 반 익명화된 상태로 클라우드에 전송된다. 이 가운데 일부는 시리(그리고 애플의 받아쓰기 기능)가 사용자의 말을 정확히 알아들을 수 있도록 신경망을 훈련하는 데 사용된다. 세계 어느곳에서 누군가 ‘시리야’ 명령 가운데 일부를 듣고, 시리가 사용자의 명령을 정확히 이해하는지 여부를 기록한다.

그런 후 계속해서 머신러닝 네트워크를 조정한다. 이런 조정을 거쳐 변경된 내용을 평가된 표본을 대상으로 자동으로 테스트한다. 새로운 머신러닝 알고리즘이 더 정확한 결과를 낼 때까지 이렇게 한다. 이런 과정을 거쳐 조정된 신경망이 새로운 기준이 되며, 이런 프로세스가 계속 반복된다.

음성 인식, 사진 인식, 보안 카메라에 잡힌 피사체가 사람인지 자동차인지 여부 판단 등은 모두 사람이 머신러닝 알고리즘을 훈련시켜야 가능하다. 다른 방법은 없다. 인공지능이 옳은지 틀린지 항상 정확히 판단할 수 있는 컴퓨터 알고리즘이 있다면, 그것이 AI 알고리즘이 될 것이다.

애플과 구글, 아마존, 마이크로소프트, 기타 사진이나 비디오 등에서 사람이나 물체를 인식하거나 음성을 인식하기 위해 머신러닝 알고리즘을 사용하는 AI 가상 비서를 만드는 회사들은 모두 이런 일을 한다. 가상 비서의 쿼리를 엿듣고, 사용자의 사진과 보안 카메라를 엿보는 등의 일을 한다는 이야기다.

사실, 구글 또한 독일에서 계약 업체가 언론에 비밀 정보를 누설한 사실이 드러나면서 언어 녹음 기록에 대한 평가를 일시 중단했다. 

물론, 상용으로 판매되거나 라이선스 계약으로 사용할 수 있는 사진, 비디오, 음성 표본을 사용해 머신러닝 알고리즘을 훈련시킬 수도 있다. 실제 많은 회사가 이 방법을 사용한다. 하지만 한계가 있다. 인공지능의 신뢰도를 충분히 높이기 위해서는 디바이스에서 획득한 것과 동일한 품질의 사진, 비디오, 음성 녹음 파일이 필요하다. 또, 주변에서 잔디 깎는 기계가 작동하는 소리, 바람 소리가 들리는 상태에서 억양이 특이하거나 강한 음성 데이터도 필요하다. 

따라서, 사람이 인공지능을 훈련시키는 것은 아주 흔한 일이다. 테슬라의 무인 주행 자동차 또한, 사람이 신경망을 훈련시키는 방법이 적용된다. 고객 차량의 카메라 데이터를 보고, 표지판과 차선, 다른 차량, 자전거, 보행자 등을 식별해 표시한다. 사람이 데이터를 검토 및 평가해야 고품질의 머신러닝 알고리즘 훈련이 가능하다.
 

익명이지만, 완전히 익명은 아니다

사람의 검토 및 평가 없이는 수백 만 명이 사용하는 고품질의 인공지능 알고리즘을 훈련시키는 것이 불가능하기 때문에, 대부분 회사는 최소한 ‘반 익명화’를 시도한다. 즉, 사람이 기록(녹음 또는 녹화)된 내용을 듣기 전, 정확히 사용자를 식별할 수 있는 데이터를 없앤다. 적어도 기업들이 주장하는 바는 그렇다.

하지만 실제 음성 녹음, 사진과 비디오 외의 데이터가 일정 수준 필요하기 때문에 완전한 익명화는 불가능하다. 

예를 들어, ‘시리야, 그린백 레인 UPS 스토어의 영업 종료 시간이 몇 시야?’라고 물었는데, “시리야, 글렌 브룩 UPS 스토어의 영업 종료 시간이 몇 시야?”로 알아들었다고 가정하자. 글렌 브룩은 필자가 살고 있는 곳에서 멀리 떨어져 있고, UPS 스토어도 없기 때문에 잘못된 결과를 내놓을 수 밖에 없다. 하지만 자동화된 시스템이 이 녹취가 잘되었는지 알 방법이 없다. 사람만 가능하다.

따라서 사람이 이를 검토 및 평가해야 한다. 그리고 필자가 이런 요청을 했을 때 어디에 있었는지 대략적으로 알아야 한다. 이 사람 평가자가 글랜 브룩레인이 잘못된 답이라는 것을 알려면, 필자가 위치한 인근에 글랜 브룩 레인이 없음을 알려주는 위치 데이터가 있어야 한다.

영상을 보고 차량과 사람을 식별하는 기능을 평가하는 경우에도 마찬가지다. 실외 카메라의 녹화 내용을 보고 있는지, 실내 카메라의 녹화내용을 보고 있는지 알아야 한다. 
 

완전한 공개가 중요하다

인공지능 알고리즘 훈련에 자신의 데이터가 사용되는 방식, 동작 방식, 프라이버시를 보호하는 방법을 정확히 알고 있을 때, 여기에 어떤 반응을 보일지 알기 어렵다. 하지만 대부분은 개의치 않을 것으로 생각한다. (사람들이 개인 정보와 프라이버시를 정말 크게 걱정한다면 페이스북 사용자가 12억 명에 달하는 일은 없을 것이다.)

그러나 사람들은 이런 것들을 모른다. 또 어떤 회사도 이런 것들을 설명하는 데 관심이 없는 것으로 보인다. 언론에 짧은 보도 자료를 배포하는 것과 수백, 수천 만 명의 사용자에게 정보를 제공하는 것은 전혀 다른 일이다. 권한 승인과 관련된 4,000단어의 내용을 서비스 약관에 깊이 숨기는 것도 정보를 제공하는 것이 아니다. 투명하게 공개를 하지 않는 거이 큰 문제이다.

가장 큰 문제 중 하나는 가상 비서가 기록해서는 안될 것들을 기록한다는 것이다. 시리, 알렉사, 구글 어시스턴트 모두 기본적으로 항상 기록(녹음 또는 녹화)을 한다. 이런 장치들은 한 번에 몇 초 정도 귀를 기울인다. 그리고 ‘시리야’, ‘알렉사’, ‘오케이 구글’, ‘헤이 구글’ 등 자신을 깨우는 말을 듣기 전까지는 정보를 보내지 않는다. 깨우는 말을 들은 후 에서야 네트워크 연결을 활성화시키고, 사용자 데이터를 클라우드로 보낸다.

그런데 우리 모두 알고 있듯, 이 깨우는 말이 작동하지 않는 경우가 있다. 반대로 말을 한 사람이 없는 데 작동하는 경우도 있다. 이렇게 잘못 작동을 했을 때, 사람인 ‘평가자’가 비밀 대화, 마약 거래, 성매매 등 불법적인 활동에 대한 내용의 일부를 엿듣게 되는 문제가 발생할 수 있다.

다시 말하지만, 간단한 해결책은 존재하지 않는다. 사람이 잘못 작동한 상황을 알려주지 않는다면, 이들 가상 비서가 완벽하게 깨우는 말을 알아듣는 일은 없을 것이다.
 

사용자 스스로 훈련을 시킨다

그렇다고 사용자들이 그냥 데이터를 넘겨줘야 한다는 의미는 아니다. 사용자 스스로 훈련과 평가를 할 수 있다. 애플이 아이폰에 시리를 호출해 사용할 때마다 ‘정확’, ‘부정확’을 알려주는 버튼을 장착할 수도 있다. ‘부정확’ 버튼을 누르는 사용자는 자신이 기대한 대답과 정확한 표현 등 더 많은 정보를 제공할 수도 있다.

스마트 스피커의 경우 음성 키프레이즈, 또는 연결된 스마트폰으로 ‘정확’, ‘부정확’을 알려줄 수 있게 만들 수 있다.

그런 후 조정한 알고리즘을 개인 데이터 없이 모회사로 보내, 다른 사람의 데이터와 결합해 다음 소프트웨어 릴리스에 반영할 수 있다. 일부 회사들은 (우리 모두 실수를 하는)키보드의 스마트 예측 텍스트 같은 특정 종류의 ML 알고리즘에 이 방법을 사용하고 있다.

물론 대부분의 사용자는 자신의 가상 비서를 평가하고 수정하는 귀찮은 일을 하지 않을 것이다. 가상 비서를 사용하는 이유는 편하기 위해서이다. 그런데 누가 스마트 보안 카메라를 잘못 작동시킨 움직임에 대해, AI 사진 앨범의 잘못 분류된 사진에 대해 지적하는 일을 할 것인가? 이는 ‘수고’이다. AI를 사용하는 목적에 위배된다.

그러나 이런 수고를 기울이는 사용자가 충분할 정도로 많고, 애플이 수 많은 애플 장치에 이런 방법을 적용하려 노력한다면, 소수의 액티브 사용자가 자신의 장치를 훈련시켜도 충분히 많은 표본을 확보할 수 있다. (현재는 그렇지 못한)시리를 아주 우수한 AI 가상 비서로 만들기 충분할 것이다.

애플 같은 회사들이 이런 추가적인 노력을 기울일 의지가 있을까? 매끈하면서도 사용하기 쉬운 디자인을 쉽게 접근할 수 있지만 그 자체로 종종 잘 동작하지 않음을 의미하는 인터페이스로 ‘오염’시키고 싶을까? 아마도 아닐 것이다. 애플은 평가 프로그램에 대한 검토를 신속히 완료, 프라이버시 설정에 옵트아웃 토글 스위치를 집어넣을 가능성이 있다. 이렇게 하는 것이 쉽기 때문이다. 그러나 수천 만 시리 사용자의 일부를 적극적인 시리 ‘개선자’로 전환하는 기회를 놓치게 되는 것일 수 있다. editor@itworld.co.kr
 


2019.08.06

글로벌 칼럼 | “대화 녹음 청취 중단” 시리 발전 위한 애플의 다음 행보는?

Jason Cross | Macworld
일주일 전, 가디언(The Guardian)은 애플의 시리 ‘평가(grading)’ 프로그램을 담당하고 있는 사람들이 사적이고 불법적인 행위를 청취하고 있다고 보도했다. 이에 애플은 이 프로그램을 일시 중단하고 검토를 진행한다고 밝혔다. 또, 사용자들이 옵트아웃(또는 옵트인)할 수 있도록 소프트웨어 업데이트를 준비하고 있다. 

애플은 “우리는 사용자의 프라이버시를 보호하면서 우수한 시리 경험을 제공하기 위해 매진하고 있다. 이 프로그램을 철저히 검토하는 동안, 이 프로그램을 일시 중지한다. 또, 향후 소프트웨어 업데이트의 일부로 사용자들이 평가 프로그램 참여 여부를 결정할 수 있도록 할 계획”이라고 간단한 성명을 발표했다.

애플의 조처는 적절했다. 하지만 애플이 앞으로 어떤 일을 할지 궁금하게 만들었다. 모르는 사람이 많지만, 머신러닝과 AI에는 기본적으로 사람의 ‘평가’가 필요하며, 가까운 장래에 이를 대체할 좋은 대체재가 없기 때문이다. 시리는 경쟁 기술보다 1~2년 정도 뒤떨어져 있다는 비판을 받고 있는데, 프라이버시를 보호하면서 경쟁 기술을 따라잡기는 쉽지 않아 보인다.
 

누구나 하는 일

시리 평가 프로그램이 무엇일까? ‘시리야’와 함께 명령을 말하면, 이 명령이 디바이스 안에서 처리되는 동시에 반 익명화된 상태로 클라우드에 전송된다. 이 가운데 일부는 시리(그리고 애플의 받아쓰기 기능)가 사용자의 말을 정확히 알아들을 수 있도록 신경망을 훈련하는 데 사용된다. 세계 어느곳에서 누군가 ‘시리야’ 명령 가운데 일부를 듣고, 시리가 사용자의 명령을 정확히 이해하는지 여부를 기록한다.

그런 후 계속해서 머신러닝 네트워크를 조정한다. 이런 조정을 거쳐 변경된 내용을 평가된 표본을 대상으로 자동으로 테스트한다. 새로운 머신러닝 알고리즘이 더 정확한 결과를 낼 때까지 이렇게 한다. 이런 과정을 거쳐 조정된 신경망이 새로운 기준이 되며, 이런 프로세스가 계속 반복된다.

음성 인식, 사진 인식, 보안 카메라에 잡힌 피사체가 사람인지 자동차인지 여부 판단 등은 모두 사람이 머신러닝 알고리즘을 훈련시켜야 가능하다. 다른 방법은 없다. 인공지능이 옳은지 틀린지 항상 정확히 판단할 수 있는 컴퓨터 알고리즘이 있다면, 그것이 AI 알고리즘이 될 것이다.

애플과 구글, 아마존, 마이크로소프트, 기타 사진이나 비디오 등에서 사람이나 물체를 인식하거나 음성을 인식하기 위해 머신러닝 알고리즘을 사용하는 AI 가상 비서를 만드는 회사들은 모두 이런 일을 한다. 가상 비서의 쿼리를 엿듣고, 사용자의 사진과 보안 카메라를 엿보는 등의 일을 한다는 이야기다.

사실, 구글 또한 독일에서 계약 업체가 언론에 비밀 정보를 누설한 사실이 드러나면서 언어 녹음 기록에 대한 평가를 일시 중단했다. 

물론, 상용으로 판매되거나 라이선스 계약으로 사용할 수 있는 사진, 비디오, 음성 표본을 사용해 머신러닝 알고리즘을 훈련시킬 수도 있다. 실제 많은 회사가 이 방법을 사용한다. 하지만 한계가 있다. 인공지능의 신뢰도를 충분히 높이기 위해서는 디바이스에서 획득한 것과 동일한 품질의 사진, 비디오, 음성 녹음 파일이 필요하다. 또, 주변에서 잔디 깎는 기계가 작동하는 소리, 바람 소리가 들리는 상태에서 억양이 특이하거나 강한 음성 데이터도 필요하다. 

따라서, 사람이 인공지능을 훈련시키는 것은 아주 흔한 일이다. 테슬라의 무인 주행 자동차 또한, 사람이 신경망을 훈련시키는 방법이 적용된다. 고객 차량의 카메라 데이터를 보고, 표지판과 차선, 다른 차량, 자전거, 보행자 등을 식별해 표시한다. 사람이 데이터를 검토 및 평가해야 고품질의 머신러닝 알고리즘 훈련이 가능하다.
 

익명이지만, 완전히 익명은 아니다

사람의 검토 및 평가 없이는 수백 만 명이 사용하는 고품질의 인공지능 알고리즘을 훈련시키는 것이 불가능하기 때문에, 대부분 회사는 최소한 ‘반 익명화’를 시도한다. 즉, 사람이 기록(녹음 또는 녹화)된 내용을 듣기 전, 정확히 사용자를 식별할 수 있는 데이터를 없앤다. 적어도 기업들이 주장하는 바는 그렇다.

하지만 실제 음성 녹음, 사진과 비디오 외의 데이터가 일정 수준 필요하기 때문에 완전한 익명화는 불가능하다. 

예를 들어, ‘시리야, 그린백 레인 UPS 스토어의 영업 종료 시간이 몇 시야?’라고 물었는데, “시리야, 글렌 브룩 UPS 스토어의 영업 종료 시간이 몇 시야?”로 알아들었다고 가정하자. 글렌 브룩은 필자가 살고 있는 곳에서 멀리 떨어져 있고, UPS 스토어도 없기 때문에 잘못된 결과를 내놓을 수 밖에 없다. 하지만 자동화된 시스템이 이 녹취가 잘되었는지 알 방법이 없다. 사람만 가능하다.

따라서 사람이 이를 검토 및 평가해야 한다. 그리고 필자가 이런 요청을 했을 때 어디에 있었는지 대략적으로 알아야 한다. 이 사람 평가자가 글랜 브룩레인이 잘못된 답이라는 것을 알려면, 필자가 위치한 인근에 글랜 브룩 레인이 없음을 알려주는 위치 데이터가 있어야 한다.

영상을 보고 차량과 사람을 식별하는 기능을 평가하는 경우에도 마찬가지다. 실외 카메라의 녹화 내용을 보고 있는지, 실내 카메라의 녹화내용을 보고 있는지 알아야 한다. 
 

완전한 공개가 중요하다

인공지능 알고리즘 훈련에 자신의 데이터가 사용되는 방식, 동작 방식, 프라이버시를 보호하는 방법을 정확히 알고 있을 때, 여기에 어떤 반응을 보일지 알기 어렵다. 하지만 대부분은 개의치 않을 것으로 생각한다. (사람들이 개인 정보와 프라이버시를 정말 크게 걱정한다면 페이스북 사용자가 12억 명에 달하는 일은 없을 것이다.)

그러나 사람들은 이런 것들을 모른다. 또 어떤 회사도 이런 것들을 설명하는 데 관심이 없는 것으로 보인다. 언론에 짧은 보도 자료를 배포하는 것과 수백, 수천 만 명의 사용자에게 정보를 제공하는 것은 전혀 다른 일이다. 권한 승인과 관련된 4,000단어의 내용을 서비스 약관에 깊이 숨기는 것도 정보를 제공하는 것이 아니다. 투명하게 공개를 하지 않는 거이 큰 문제이다.

가장 큰 문제 중 하나는 가상 비서가 기록해서는 안될 것들을 기록한다는 것이다. 시리, 알렉사, 구글 어시스턴트 모두 기본적으로 항상 기록(녹음 또는 녹화)을 한다. 이런 장치들은 한 번에 몇 초 정도 귀를 기울인다. 그리고 ‘시리야’, ‘알렉사’, ‘오케이 구글’, ‘헤이 구글’ 등 자신을 깨우는 말을 듣기 전까지는 정보를 보내지 않는다. 깨우는 말을 들은 후 에서야 네트워크 연결을 활성화시키고, 사용자 데이터를 클라우드로 보낸다.

그런데 우리 모두 알고 있듯, 이 깨우는 말이 작동하지 않는 경우가 있다. 반대로 말을 한 사람이 없는 데 작동하는 경우도 있다. 이렇게 잘못 작동을 했을 때, 사람인 ‘평가자’가 비밀 대화, 마약 거래, 성매매 등 불법적인 활동에 대한 내용의 일부를 엿듣게 되는 문제가 발생할 수 있다.

다시 말하지만, 간단한 해결책은 존재하지 않는다. 사람이 잘못 작동한 상황을 알려주지 않는다면, 이들 가상 비서가 완벽하게 깨우는 말을 알아듣는 일은 없을 것이다.
 

사용자 스스로 훈련을 시킨다

그렇다고 사용자들이 그냥 데이터를 넘겨줘야 한다는 의미는 아니다. 사용자 스스로 훈련과 평가를 할 수 있다. 애플이 아이폰에 시리를 호출해 사용할 때마다 ‘정확’, ‘부정확’을 알려주는 버튼을 장착할 수도 있다. ‘부정확’ 버튼을 누르는 사용자는 자신이 기대한 대답과 정확한 표현 등 더 많은 정보를 제공할 수도 있다.

스마트 스피커의 경우 음성 키프레이즈, 또는 연결된 스마트폰으로 ‘정확’, ‘부정확’을 알려줄 수 있게 만들 수 있다.

그런 후 조정한 알고리즘을 개인 데이터 없이 모회사로 보내, 다른 사람의 데이터와 결합해 다음 소프트웨어 릴리스에 반영할 수 있다. 일부 회사들은 (우리 모두 실수를 하는)키보드의 스마트 예측 텍스트 같은 특정 종류의 ML 알고리즘에 이 방법을 사용하고 있다.

물론 대부분의 사용자는 자신의 가상 비서를 평가하고 수정하는 귀찮은 일을 하지 않을 것이다. 가상 비서를 사용하는 이유는 편하기 위해서이다. 그런데 누가 스마트 보안 카메라를 잘못 작동시킨 움직임에 대해, AI 사진 앨범의 잘못 분류된 사진에 대해 지적하는 일을 할 것인가? 이는 ‘수고’이다. AI를 사용하는 목적에 위배된다.

그러나 이런 수고를 기울이는 사용자가 충분할 정도로 많고, 애플이 수 많은 애플 장치에 이런 방법을 적용하려 노력한다면, 소수의 액티브 사용자가 자신의 장치를 훈련시켜도 충분히 많은 표본을 확보할 수 있다. (현재는 그렇지 못한)시리를 아주 우수한 AI 가상 비서로 만들기 충분할 것이다.

애플 같은 회사들이 이런 추가적인 노력을 기울일 의지가 있을까? 매끈하면서도 사용하기 쉬운 디자인을 쉽게 접근할 수 있지만 그 자체로 종종 잘 동작하지 않음을 의미하는 인터페이스로 ‘오염’시키고 싶을까? 아마도 아닐 것이다. 애플은 평가 프로그램에 대한 검토를 신속히 완료, 프라이버시 설정에 옵트아웃 토글 스위치를 집어넣을 가능성이 있다. 이렇게 하는 것이 쉽기 때문이다. 그러나 수천 만 시리 사용자의 일부를 적극적인 시리 ‘개선자’로 전환하는 기회를 놓치게 되는 것일 수 있다. editor@itworld.co.kr
 


X