애플은 “우리는 사용자의 프라이버시를 보호하면서 우수한 시리 경험을 제공하기 위해 매진하고 있다. 이 프로그램을 철저히 검토하는 동안, 이 프로그램을 일시 중지한다. 또, 향후 소프트웨어 업데이트의 일부로 사용자들이 평가 프로그램 참여 여부를 결정할 수 있도록 할 계획”이라고 간단한 성명을 발표했다.
애플의 조처는 적절했다. 하지만 애플이 앞으로 어떤 일을 할지 궁금하게 만들었다. 모르는 사람이 많지만, 머신러닝과 AI에는 기본적으로 사람의 ‘평가’가 필요하며, 가까운 장래에 이를 대체할 좋은 대체재가 없기 때문이다. 시리는 경쟁 기술보다 1~2년 정도 뒤떨어져 있다는 비판을 받고 있는데, 프라이버시를 보호하면서 경쟁 기술을 따라잡기는 쉽지 않아 보인다.
누구나 하는 일
시리 평가 프로그램이 무엇일까? ‘시리야’와 함께 명령을 말하면, 이 명령이 디바이스 안에서 처리되는 동시에 반 익명화된 상태로 클라우드에 전송된다. 이 가운데 일부는 시리(그리고 애플의 받아쓰기 기능)가 사용자의 말을 정확히 알아들을 수 있도록 신경망을 훈련하는 데 사용된다. 세계 어느곳에서 누군가 ‘시리야’ 명령 가운데 일부를 듣고, 시리가 사용자의 명령을 정확히 이해하는지 여부를 기록한다.그런 후 계속해서 머신러닝 네트워크를 조정한다. 이런 조정을 거쳐 변경된 내용을 평가된 표본을 대상으로 자동으로 테스트한다. 새로운 머신러닝 알고리즘이 더 정확한 결과를 낼 때까지 이렇게 한다. 이런 과정을 거쳐 조정된 신경망이 새로운 기준이 되며, 이런 프로세스가 계속 반복된다.
음성 인식, 사진 인식, 보안 카메라에 잡힌 피사체가 사람인지 자동차인지 여부 판단 등은 모두 사람이 머신러닝 알고리즘을 훈련시켜야 가능하다. 다른 방법은 없다. 인공지능이 옳은지 틀린지 항상 정확히 판단할 수 있는 컴퓨터 알고리즘이 있다면, 그것이 AI 알고리즘이 될 것이다.
애플과 구글, 아마존, 마이크로소프트, 기타 사진이나 비디오 등에서 사람이나 물체를 인식하거나 음성을 인식하기 위해 머신러닝 알고리즘을 사용하는 AI 가상 비서를 만드는 회사들은 모두 이런 일을 한다. 가상 비서의 쿼리를 엿듣고, 사용자의 사진과 보안 카메라를 엿보는 등의 일을 한다는 이야기다.
사실, 구글 또한 독일에서 계약 업체가 언론에 비밀 정보를 누설한 사실이 드러나면서 언어 녹음 기록에 대한 평가를 일시 중단했다.
물론, 상용으로 판매되거나 라이선스 계약으로 사용할 수 있는 사진, 비디오, 음성 표본을 사용해 머신러닝 알고리즘을 훈련시킬 수도 있다. 실제 많은 회사가 이 방법을 사용한다. 하지만 한계가 있다. 인공지능의 신뢰도를 충분히 높이기 위해서는 디바이스에서 획득한 것과 동일한 품질의 사진, 비디오, 음성 녹음 파일이 필요하다. 또, 주변에서 잔디 깎는 기계가 작동하는 소리, 바람 소리가 들리는 상태에서 억양이 특이하거나 강한 음성 데이터도 필요하다.
따라서, 사람이 인공지능을 훈련시키는 것은 아주 흔한 일이다. 테슬라의 무인 주행 자동차 또한, 사람이 신경망을 훈련시키는 방법이 적용된다. 고객 차량의 카메라 데이터를 보고, 표지판과 차선, 다른 차량, 자전거, 보행자 등을 식별해 표시한다. 사람이 데이터를 검토 및 평가해야 고품질의 머신러닝 알고리즘 훈련이 가능하다.
익명이지만, 완전히 익명은 아니다
사람의 검토 및 평가 없이는 수백 만 명이 사용하는 고품질의 인공지능 알고리즘을 훈련시키는 것이 불가능하기 때문에, 대부분 회사는 최소한 ‘반 익명화’를 시도한다. 즉, 사람이 기록(녹음 또는 녹화)된 내용을 듣기 전, 정확히 사용자를 식별할 수 있는 데이터를 없앤다. 적어도 기업들이 주장하는 바는 그렇다.하지만 실제 음성 녹음, 사진과 비디오 외의 데이터가 일정 수준 필요하기 때문에 완전한 익명화는 불가능하다.
예를 들어, ‘시리야, 그린백 레인 UPS 스토어의 영업 종료 시간이 몇 시야?’라고 물었는데, “시리야, 글렌 브룩 UPS 스토어의 영업 종료 시간이 몇 시야?”로 알아들었다고 가정하자. 글렌 브룩은 필자가 살고 있는 곳에서 멀리 떨어져 있고, UPS 스토어도 없기 때문에 잘못된 결과를 내놓을 수 밖에 없다. 하지만 자동화된 시스템이 이 녹취가 잘되었는지 알 방법이 없다. 사람만 가능하다.
따라서 사람이 이를 검토 및 평가해야 한다. 그리고 필자가 이런 요청을 했을 때 어디에 있었는지 대략적으로 알아야 한다. 이 사람 평가자가 글랜 브룩레인이 잘못된 답이라는 것을 알려면, 필자가 위치한 인근에 글랜 브룩 레인이 없음을 알려주는 위치 데이터가 있어야 한다.
영상을 보고 차량과 사람을 식별하는 기능을 평가하는 경우에도 마찬가지다. 실외 카메라의 녹화 내용을 보고 있는지, 실내 카메라의 녹화내용을 보고 있는지 알아야 한다.
완전한 공개가 중요하다
인공지능 알고리즘 훈련에 자신의 데이터가 사용되는 방식, 동작 방식, 프라이버시를 보호하는 방법을 정확히 알고 있을 때, 여기에 어떤 반응을 보일지 알기 어렵다. 하지만 대부분은 개의치 않을 것으로 생각한다. (사람들이 개인 정보와 프라이버시를 정말 크게 걱정한다면 페이스북 사용자가 12억 명에 달하는 일은 없을 것이다.)그러나 사람들은 이런 것들을 모른다. 또 어떤 회사도 이런 것들을 설명하는 데 관심이 없는 것으로 보인다. 언론에 짧은 보도 자료를 배포하는 것과 수백, 수천 만 명의 사용자에게 정보를 제공하는 것은 전혀 다른 일이다. 권한 승인과 관련된 4,000단어의 내용을 서비스 약관에 깊이 숨기는 것도 정보를 제공하는 것이 아니다. 투명하게 공개를 하지 않는 거이 큰 문제이다.
가장 큰 문제 중 하나는 가상 비서가 기록해서는 안될 것들을 기록한다는 것이다. 시리, 알렉사, 구글 어시스턴트 모두 기본적으로 항상 기록(녹음 또는 녹화)을 한다. 이런 장치들은 한 번에 몇 초 정도 귀를 기울인다. 그리고 ‘시리야’, ‘알렉사’, ‘오케이 구글’, ‘헤이 구글’ 등 자신을 깨우는 말을 듣기 전까지는 정보를 보내지 않는다. 깨우는 말을 들은 후 에서야 네트워크 연결을 활성화시키고, 사용자 데이터를 클라우드로 보낸다.
그런데 우리 모두 알고 있듯, 이 깨우는 말이 작동하지 않는 경우가 있다. 반대로 말을 한 사람이 없는 데 작동하는 경우도 있다. 이렇게 잘못 작동을 했을 때, 사람인 ‘평가자’가 비밀 대화, 마약 거래, 성매매 등 불법적인 활동에 대한 내용의 일부를 엿듣게 되는 문제가 발생할 수 있다.
다시 말하지만, 간단한 해결책은 존재하지 않는다. 사람이 잘못 작동한 상황을 알려주지 않는다면, 이들 가상 비서가 완벽하게 깨우는 말을 알아듣는 일은 없을 것이다.
사용자 스스로 훈련을 시킨다
그렇다고 사용자들이 그냥 데이터를 넘겨줘야 한다는 의미는 아니다. 사용자 스스로 훈련과 평가를 할 수 있다. 애플이 아이폰에 시리를 호출해 사용할 때마다 ‘정확’, ‘부정확’을 알려주는 버튼을 장착할 수도 있다. ‘부정확’ 버튼을 누르는 사용자는 자신이 기대한 대답과 정확한 표현 등 더 많은 정보를 제공할 수도 있다.스마트 스피커의 경우 음성 키프레이즈, 또는 연결된 스마트폰으로 ‘정확’, ‘부정확’을 알려줄 수 있게 만들 수 있다.
그런 후 조정한 알고리즘을 개인 데이터 없이 모회사로 보내, 다른 사람의 데이터와 결합해 다음 소프트웨어 릴리스에 반영할 수 있다. 일부 회사들은 (우리 모두 실수를 하는)키보드의 스마트 예측 텍스트 같은 특정 종류의 ML 알고리즘에 이 방법을 사용하고 있다.
물론 대부분의 사용자는 자신의 가상 비서를 평가하고 수정하는 귀찮은 일을 하지 않을 것이다. 가상 비서를 사용하는 이유는 편하기 위해서이다. 그런데 누가 스마트 보안 카메라를 잘못 작동시킨 움직임에 대해, AI 사진 앨범의 잘못 분류된 사진에 대해 지적하는 일을 할 것인가? 이는 ‘수고’이다. AI를 사용하는 목적에 위배된다.
그러나 이런 수고를 기울이는 사용자가 충분할 정도로 많고, 애플이 수 많은 애플 장치에 이런 방법을 적용하려 노력한다면, 소수의 액티브 사용자가 자신의 장치를 훈련시켜도 충분히 많은 표본을 확보할 수 있다. (현재는 그렇지 못한)시리를 아주 우수한 AI 가상 비서로 만들기 충분할 것이다.
애플 같은 회사들이 이런 추가적인 노력을 기울일 의지가 있을까? 매끈하면서도 사용하기 쉬운 디자인을 쉽게 접근할 수 있지만 그 자체로 종종 잘 동작하지 않음을 의미하는 인터페이스로 ‘오염’시키고 싶을까? 아마도 아닐 것이다. 애플은 평가 프로그램에 대한 검토를 신속히 완료, 프라이버시 설정에 옵트아웃 토글 스위치를 집어넣을 가능성이 있다. 이렇게 하는 것이 쉽기 때문이다. 그러나 수천 만 시리 사용자의 일부를 적극적인 시리 ‘개선자’로 전환하는 기회를 놓치게 되는 것일 수 있다. editor@itworld.co.kr
함께 보면 좋은 콘텐츠
Sponsored
Surfshark
“유료 VPN, 분명한 가치 있다” VPN 선택 가이드
ⓒ Surfshark VPN(가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 위험 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 서프샤크 VPN은 구독 요금제 가입 후 7일간의 무료 체험을 제공하고 있다. ⓒ Surfshark 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN ⓒ Surfshark 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.