2018.05.23

아마존 알렉사, 구글 홈을 비밀 도청기로 악용한다…음성 스쿼팅 공격

Ms. Smith | CSO
아마존 알렉사(Alexa)나 구글 홈(Google Home)을 표적으로 하는 대규모의 원격 "음성 스쿼팅(voice squatting)"과 "음성 마스커레이딩(voice masquerading)" 공격이 민감한 사용자 정보를 훔치거나 대화 내용을 도청할 수 있는 것으로 밝혀졌다.


Credit: Florence Ion

알렉사와 같은 가상 개인 비서의 유용함은 서드파티 스킬(skill)에서 나온다. 스킬을 활성화함으로써 알렉사와의 상호 작용을 각 사용자의 일상과 기호에 더 밀접하게 맞출 수 있다. 한 연구 그룹에 따르면, 이 스킬이 보이스 스쿼팅 공격의 빌미가 되는 것으로 밝혀졌다. 또한 공격을 받아도 사용자가 알아채기가 어렵다. 악의적인 공격자는 연구원과는 달리 해킹 사실을 사용자에게 알릴 이유가 없기 때문이다.

블루밍턴 인디애나 대학, 버지니아 대학, 중국 과학 아카데미의 연구원들이 공개한 첫 번째 음성 스쿼팅 공격 방법은 비슷한 호출 이름을 사용하는 것이다. 기본적으로 다른 스킬을 실행하기 위한 음성 명령을 하이재킹하는 수법이다. 공격 스킬을 트리거하는 소리는 정상 스킬의 소리와 매우 비슷하다.

아마존 알렉사와 구글 홈을 표적으로 한 음성 스쿼팅 공격
연구원의 설명은 다음과 같다.

정상 스킬인 "rat game"과 호출 이름의 발음이 비슷한 "rap game"이라는 공격 스킬을 알렉사에 등록했다. 사용자가 "rat game"을 호출할 때 공격 스킬 "rap game"이 대신 호출되는 것을 확인했다.



정상 스킬인 "Entrematic Opener"와 호출 이름의 발음이 비슷한 "intraMatic opener"라는 공격 스킬을 구글 어시스턴트에 등록했다. 사용자가 "Entrematic Opener"를 호출할 때 공격 스킬 "intraMatic opener"가 대신 호출되는 것을 확인했다.



공격자는 Capital Won과 같은 스킬을 등록할 수도 있다. 주변에서 잡음이 들리거나 영어가 사용자의 모국어가 아닌 경우 가상 비서는 이를 Capital One으로 알아들을 수 있고, 결과적으로 공격자는 민감한 금융 정보를 탈취할 수 있게 된다.

음성 스쿼팅 공격을 실행하는 다른 방법도 있다. 연구원들은 please라는 단어를 이용했지만 다른 어떤 부가적인 단어로도 원래 의도된 스킬이 아닌 악성 스킬을 트리거할 수 있다. 한 비디오 예시에서는 앞서 언급한 "rat game"을 예로 들어 알렉사 사용자가 "rat game please"라고 말할 경우 어떤 일이 발생할 수 있는지 보여준다.



연구원들은 연구 결과를 담은 <아마존 알렉사와 구글 홈의 음성 제어 서드파티 스킬 관련 보안 위험 이해 및 완화>라는 문서에서 여러 가지 예시를 제공했다. 문서에 따르면 예를 들어 'Alexa, open Capital One please'라고 말할 경우 정상적이라면 Capital One 스킬이 열리지만 Capital One Please라는 악성 스킬이 스킬 마켓에 업로드된 이후에는 이 악성 스킬이 열릴 수 있다.

알렉사 또는 구글 홈에서 사용자의 음성 명령이 악용될 수 있는 또 다른 예는 사용자가 "sleep sounds" 대신 "play some sleep sounds"라고 말하는 경우다. 마찬가지로 악성 버전이 트리거된다.

음성 마스커레이딩 공격
가상 개인 비서는 대규모 원격 공격 외에 다른 공격에도 취약하다. 지난 달 체크막스(Checkmarx)의 음성 마스커레이딩 공격에 대해 들어본 적이 있을 것이다. 이 취약점을 공개한 이 연구진은 "아마존과 구글 모두 이런 취약점을 발견한 것은 우리가 처음이라고 알려왔다"고 전했다.

음성 마스커레이딩 공격 기법은 알렉사 또는 구글 홈을 도청 장치로 만든다. 연구원들이 제시한 가짜 스킬 전환 예시를 보면 사용자가 새로운 스킬을 트리거하더라도 기존의 악성 스킬이 계속 사용자 음성을 듣는 상황이 발생할 수 있다.



구글 홈을 대상으로 한 이 마스커레이딩 공격 예시에서 연구진은 "구글 어시스턴트 사용자가 'United'라는 스킬을 열려고 시도할 때 이 스킬을 여는 척 가장하는 공격 스킬을 등록했다"고 설명했다.



스킬 종료를 가장하는 마스커레이딩 공격 예시도 있다. "Goodbye"라고 말하거나 일정한 침묵 시간 후 스킬이 종료된 것처럼 보이지만 실제로는 계속 실행되고 있다. 알렉사와 구글 홈에는 스킬을 강제 종료하기 전에 일정 시간 동안 계속 듣는 리프롬프트(re-prompt) 스킬이 있다.

이 연구진은 직접 개발한 무음 오디오 파일 리프롬프트 공격 스킬을 통해 "알렉사에서 192초 동안, 구글 어시스턴트에서는 384초 동안 수신 시간을 연장했으며, 그 사이 알렉사나 구글 어시스턴트에 사용자가 내는 소리가 포착될 때마다 무기한으로 이 시간을 계속 연장할 수 있었다. 이 경우 스킬은 무음 오디오를 사용해 응답하면서 모든 소리를 녹음할 수 있다"고 전했다.




연구진이 제시한 위험 완화 방법과 결론
이 연구진은 구글과 아마존에 이런 공격에 대한 내용을 전달했다. 또한 관련 보안 위험을 완화할 수 있는 방법도 제시했다. 연구원들이 내린 결론은 다음과 같다.

논문에서 우리는 인기있는 VPA(Virtual Personal Assistant) 생태계와, 원격 공격자가 VPA 시스템 또는 다른 스킬을 가장해 사용자 개인 정보를 훔칠 수 있게 해주는 두 가지 새로운 공격인 VSA(Voice Squatting Attack), VMA(Voice Masquerading Attack)에 대한 취약점에 관한 첫 보안 분석을 보고했다. 우리가 실시한 일련의 사용자 연구와 실제 환경 공격 결과를 근거로 이런 공격은 VPA IoT 시스템에 실질적인 위협이 되는 것으로 확인됐다.

이런 위협을 완화하기 위해 스킬 이름 스캐너를 개발해 이를 아마존과 구글 스킬 마켓에 실행한 결과, 위험한 상태의 알렉사 스킬과 이미 공개된 문제의 소지가 있는 스킬 이름을 다수 발견했다. 이는 이 공격이 수천만 VPA 사용자를 대상으로 이미 실행되고 있을 가능성을 시사한다. 나아가 우리는 음성 마스커레이딩 위협을 완화하기 위한 맥락 인지 탐지기(context-sensitive detector)를 설계, 구현해 95%의 정확도를 달성했다.
editor@itworld.co.kr
 


2018.05.23

아마존 알렉사, 구글 홈을 비밀 도청기로 악용한다…음성 스쿼팅 공격

Ms. Smith | CSO
아마존 알렉사(Alexa)나 구글 홈(Google Home)을 표적으로 하는 대규모의 원격 "음성 스쿼팅(voice squatting)"과 "음성 마스커레이딩(voice masquerading)" 공격이 민감한 사용자 정보를 훔치거나 대화 내용을 도청할 수 있는 것으로 밝혀졌다.


Credit: Florence Ion

알렉사와 같은 가상 개인 비서의 유용함은 서드파티 스킬(skill)에서 나온다. 스킬을 활성화함으로써 알렉사와의 상호 작용을 각 사용자의 일상과 기호에 더 밀접하게 맞출 수 있다. 한 연구 그룹에 따르면, 이 스킬이 보이스 스쿼팅 공격의 빌미가 되는 것으로 밝혀졌다. 또한 공격을 받아도 사용자가 알아채기가 어렵다. 악의적인 공격자는 연구원과는 달리 해킹 사실을 사용자에게 알릴 이유가 없기 때문이다.

블루밍턴 인디애나 대학, 버지니아 대학, 중국 과학 아카데미의 연구원들이 공개한 첫 번째 음성 스쿼팅 공격 방법은 비슷한 호출 이름을 사용하는 것이다. 기본적으로 다른 스킬을 실행하기 위한 음성 명령을 하이재킹하는 수법이다. 공격 스킬을 트리거하는 소리는 정상 스킬의 소리와 매우 비슷하다.

아마존 알렉사와 구글 홈을 표적으로 한 음성 스쿼팅 공격
연구원의 설명은 다음과 같다.

정상 스킬인 "rat game"과 호출 이름의 발음이 비슷한 "rap game"이라는 공격 스킬을 알렉사에 등록했다. 사용자가 "rat game"을 호출할 때 공격 스킬 "rap game"이 대신 호출되는 것을 확인했다.



정상 스킬인 "Entrematic Opener"와 호출 이름의 발음이 비슷한 "intraMatic opener"라는 공격 스킬을 구글 어시스턴트에 등록했다. 사용자가 "Entrematic Opener"를 호출할 때 공격 스킬 "intraMatic opener"가 대신 호출되는 것을 확인했다.



공격자는 Capital Won과 같은 스킬을 등록할 수도 있다. 주변에서 잡음이 들리거나 영어가 사용자의 모국어가 아닌 경우 가상 비서는 이를 Capital One으로 알아들을 수 있고, 결과적으로 공격자는 민감한 금융 정보를 탈취할 수 있게 된다.

음성 스쿼팅 공격을 실행하는 다른 방법도 있다. 연구원들은 please라는 단어를 이용했지만 다른 어떤 부가적인 단어로도 원래 의도된 스킬이 아닌 악성 스킬을 트리거할 수 있다. 한 비디오 예시에서는 앞서 언급한 "rat game"을 예로 들어 알렉사 사용자가 "rat game please"라고 말할 경우 어떤 일이 발생할 수 있는지 보여준다.



연구원들은 연구 결과를 담은 <아마존 알렉사와 구글 홈의 음성 제어 서드파티 스킬 관련 보안 위험 이해 및 완화>라는 문서에서 여러 가지 예시를 제공했다. 문서에 따르면 예를 들어 'Alexa, open Capital One please'라고 말할 경우 정상적이라면 Capital One 스킬이 열리지만 Capital One Please라는 악성 스킬이 스킬 마켓에 업로드된 이후에는 이 악성 스킬이 열릴 수 있다.

알렉사 또는 구글 홈에서 사용자의 음성 명령이 악용될 수 있는 또 다른 예는 사용자가 "sleep sounds" 대신 "play some sleep sounds"라고 말하는 경우다. 마찬가지로 악성 버전이 트리거된다.

음성 마스커레이딩 공격
가상 개인 비서는 대규모 원격 공격 외에 다른 공격에도 취약하다. 지난 달 체크막스(Checkmarx)의 음성 마스커레이딩 공격에 대해 들어본 적이 있을 것이다. 이 취약점을 공개한 이 연구진은 "아마존과 구글 모두 이런 취약점을 발견한 것은 우리가 처음이라고 알려왔다"고 전했다.

음성 마스커레이딩 공격 기법은 알렉사 또는 구글 홈을 도청 장치로 만든다. 연구원들이 제시한 가짜 스킬 전환 예시를 보면 사용자가 새로운 스킬을 트리거하더라도 기존의 악성 스킬이 계속 사용자 음성을 듣는 상황이 발생할 수 있다.



구글 홈을 대상으로 한 이 마스커레이딩 공격 예시에서 연구진은 "구글 어시스턴트 사용자가 'United'라는 스킬을 열려고 시도할 때 이 스킬을 여는 척 가장하는 공격 스킬을 등록했다"고 설명했다.



스킬 종료를 가장하는 마스커레이딩 공격 예시도 있다. "Goodbye"라고 말하거나 일정한 침묵 시간 후 스킬이 종료된 것처럼 보이지만 실제로는 계속 실행되고 있다. 알렉사와 구글 홈에는 스킬을 강제 종료하기 전에 일정 시간 동안 계속 듣는 리프롬프트(re-prompt) 스킬이 있다.

이 연구진은 직접 개발한 무음 오디오 파일 리프롬프트 공격 스킬을 통해 "알렉사에서 192초 동안, 구글 어시스턴트에서는 384초 동안 수신 시간을 연장했으며, 그 사이 알렉사나 구글 어시스턴트에 사용자가 내는 소리가 포착될 때마다 무기한으로 이 시간을 계속 연장할 수 있었다. 이 경우 스킬은 무음 오디오를 사용해 응답하면서 모든 소리를 녹음할 수 있다"고 전했다.




연구진이 제시한 위험 완화 방법과 결론
이 연구진은 구글과 아마존에 이런 공격에 대한 내용을 전달했다. 또한 관련 보안 위험을 완화할 수 있는 방법도 제시했다. 연구원들이 내린 결론은 다음과 같다.

논문에서 우리는 인기있는 VPA(Virtual Personal Assistant) 생태계와, 원격 공격자가 VPA 시스템 또는 다른 스킬을 가장해 사용자 개인 정보를 훔칠 수 있게 해주는 두 가지 새로운 공격인 VSA(Voice Squatting Attack), VMA(Voice Masquerading Attack)에 대한 취약점에 관한 첫 보안 분석을 보고했다. 우리가 실시한 일련의 사용자 연구와 실제 환경 공격 결과를 근거로 이런 공격은 VPA IoT 시스템에 실질적인 위협이 되는 것으로 확인됐다.

이런 위협을 완화하기 위해 스킬 이름 스캐너를 개발해 이를 아마존과 구글 스킬 마켓에 실행한 결과, 위험한 상태의 알렉사 스킬과 이미 공개된 문제의 소지가 있는 스킬 이름을 다수 발견했다. 이는 이 공격이 수천만 VPA 사용자를 대상으로 이미 실행되고 있을 가능성을 시사한다. 나아가 우리는 음성 마스커레이딩 위협을 완화하기 위한 맥락 인지 탐지기(context-sensitive detector)를 설계, 구현해 95%의 정확도를 달성했다.
editor@itworld.co.kr
 


X