최근 정보기업 플래시포인트(Flashpoint)의 분석가들이 워너크라이(WannaCry) 랜섬웨어에 중국어 링크가 있었다고 이야기하면서 언어학적 분석이 등장했다. 당시까지 공격에 잘 알려지지 않은 라자러스 그룹(Lazarus Group)과 관련된 인프라 구성요소가 재사용되면서 보안 연구의 상당 부분은 북한의 연계성에 초점을 뒀다.
그 이전에는 타이아 글로벌(Taia Global) 보고서에서 TSB(The Shadow Brokers)의 성명서를 영어가 엉성하긴 했지만 분명 영어 원어민이 작성한 것이라고 밝힌 바 있다.
DNC(Democratic National Committee)에서 도난 당한 문서를 공개한 구시퍼 2.0(Guccifer 2.0)이 그 주장대로 루마니아 사람이 아닐 수 있다는 점을 시사하기 위해 언어학적 분석을 활용한 바 있다. 2014년, 타이아 글로벌은 언어학적 힌트를 볼 때 소니(Sony) 해킹 사건이 미 정부가 주장한 것처럼 북한이 아닌 러시아인의 소행으로 보인다고 밝혔다.
배후는 찾기가 어렵고 언어학적 툴에 의존하는 것은 혼란만 가중시키는 것으로 보인다. 워너크라이가 중국인 아니면 북한인의 소행이었을까? 구시퍼 2.0이 루마니아인 아니면 러시아인이었을까?
언어학적 분석으로 명백한 증거를 얻을 가능성은 거의 없다. 최소한 연구원들이 추적할 수 있는 일련의 힌트를 찾아내고 잘하면 기술 연구 및 포렌식(Forensics) 방법으로 발견한 다른 증거를 뒷받침(또는 확인)할 수 있다. 언어학적 분석은 배후를 찾는 또 다른 툴이다.
일리노이공과대학교(Illinois Institute of Technology)의 교수 쉴로모 아가몬은 "언어학적 증거의 신뢰성을 위해서는 하나의 방향을 가리키는 다양한 특징에 대한 일관된 패턴을 입증해야 한다"고 말했다. 아가몬은 소니 해커 및 TSB에 대한 타이아의 분석에 참여한 바 있다.
언어 분석에 대한 이해
실제 소스코드를 보는 방법과 사용된 실제 텍스트를 검사하는 등 두 가지 분석 방법이 존재한다. 첫 번째 종류에서는 분석이 코드 스타일과 패턴에 집중해 알려진 코드 샘플과의 유사성을 찾는다. 많은 연구원이 이 방법에 의존해 다양한 공격을 하나의 부문으로 연결했지만 이는 언어학적 분석은 아니다.
두 번째 방법은 오류 메시지, 대화 상자, 피해자에게 직접 표시되는 메시지 등의 인간 언어에 의존한다. 텍스트가 많아야 이 방법이 효과적이다. 플래시포인트의 워너크라이 분석은 피해자에게 표시된 몸값 요구문서에 집중했다.
아가몬은 TSB의 엉망진창인 성명서를 분석했다. 구시퍼 2.0의 경우 아가몬은 마더보드(Motherboard)의 로렌조 프랜체스키 비치에라이가 트위터를 통해 진행한 구시퍼 2.0과의 인터뷰를 살펴봤다. 경우에 따라서는 코드 자체에 주석 등 텍스트가 있지만 일반적으로 유용할 만큼 충분하지는 않다고 생각한다. 아가몬은 "텍스트가 충분해야 한다"고 말했다.
플래시포인트의 아시아 태평양 연구 책임자 존 콘드라는 "랜섬웨어는 특히 피해자가 읽고 이해할 수 있는 대가 메모를 제공하기 때문에 언어학적 분석에 적합하다"고 말했다. 대부분의 악성코드 그리고 심지어 스피어 피싱(Spear Phishing) 공격은 미끼를 적법하고 다른 것을 닮은 것처럼 보이도록 정교하게 개발하기 때문에 이런 정밀 조사를 피해갈 수 없다.
우선 분석을 위해 가능한 모든 텍스트를 수집한다. 특정 데이터 세트를 제한하면 분석이 예상치 못한 길로 빠질 수 있기 때문에 가능한 모든 것을 포함시키는 것이 중요하다. 예를 들어, 타이아의 팀은 소니 해커의 것으로 추정되어 매체에서 보도되고 페이스트빈(Pastebin)에 게시된 20개의 메시지를 살펴보았다. 그리고 나서 해당 팀은 보고서에 2,000단어가 조금 안 되는 이 데이터의 양이 적다고 명시했다.
문법, 철자법, 띄어쓰기, 시제 혼란, 단어 사용 등의 실수가 특정 힌트를 제공할 수 있다. 영어의 경우 정관사(the)와 부정관사(a)를 빼먹거나 문장에서 to, should, must, will 등의 단어를 누락하는 등 문자 원어민(미국 영어)이 일반적으로 범하지 않는 특정 문법 오류가 있다.
또 다른 힌트는 they are going 대신에 they are go를 사용하는 등 “-ing”를 올바르게 사용하지 않는 것이다. 이런 힌트를 통해 분석가는 5가지의 의심 언어 목록을 작성한 후 각각의 '특이점'을 비교해 어떤 언어에 가장 가까운지 확인할 수 있다.
예를 들어, the를 빼먹은 경우 그 사람이 러시아어 또는 다른 슬라브 언어 원어민임을 알 수 있다. 아가몬은 구시퍼 2.0이 트위터 인터뷰 중 관사를 계속 빼먹었다는 점이 화자가 루마니아인보다는 러시아인일 가능성이 높다는 증거라고 말했다. 왜냐하면 루마니아어에는 정관사와 부정관사가 있기 때문이다.
확인할 수 있는 오류 또는 언어적 특징이 많으면 분석이 더욱 정확해진다. 소니 보고서에는 25가지의 요소를 명시했다.
가변성
하지만 사람들은 여러 언어를 구사하고 숙달도가 서로 다를 수 있기 때문에 언어 분석이 그렇게 간단하지는 않다. 만다린 중국어 원어민이지만 러시아인에게 해킹을 배우면서 러시아어를 배웠으며 영어로 공격을 실시한 사람의 경우 "L3(사용하는 제 3의 언어)로 서면을 작성하면서 L1(모국어)보다 L2(학습한 제 2 외국어)의 특징이 더 많다"고 아가몬이 말했다.
맥락이 중요하다. 증거가 러시아어 화자를 나타내더라도 공격자가 중국인이라고 생각할 만한 이유가 있다면 러시아인에게 교육을 받은 중국인 공격자일 가능성이 높다. 언어학은 소스코드 증거와 네트워크 포렌식 등 다른 연구 경로에서 얻은 증거를 3각 측량하는데 도움이 된다.
아가몬은 "언어학적 분석은 그 자체로는 별 의미가 없다. 언어학만으로 배후를 밝히려 해서는 안 된다"고 말했다.
플래시포인트는 27개 언어로 작성된 워너크라이 공격에 사용된 28개의 대가 메모를 분석하고 본래의 몸값 요구 문서를 작성한 것은 중국어 화자라고 결론내렸다. 중국어로 작성한 2개의 메모 가운데 하나를 간체로 작성했으며 다른 하나는 번체로 작성했는데 직접 작성한 것으로 보였지만 나머지 불가리아어, 불어, 독어, 이탈리아어, 일본어, 한국어, 러시아어, 스페인어, 베트남어 등은 본래 영어로 작성한 메모에서 번역한 것으로 보였다.
중국어 메모에는 다른 메모와는 달리 여러 구어적 표현이 포함되어 있었기 때문에 작성자가 해당 언어에 능통하다는 점을 알 수 있었다. 영어 텍스트는 철자법과 대문자 사용이 정확했기 때문에 영어를 잘 사용하는 누군가가 작성했지만 "can't" 대신에 "couldn't"를 잘못 사용한 것으로 보아 영어 원어민은 아니었던 것 같다. 한국어 문서는 기본적인 오류와 올바르지 못한 문법이 넘쳐났다.
플래시포인트는 그 분석의 한계를 인정하면서 위장을 위해 패턴을 의도적으로 삽입했을 수 있으며 라자러스와의 연계성을 찾기 어렵도록 의도적으로 한국어 메모를 형편없게 작성했을 수 있다고 지적했다.
분석가들은 작성자가 중국어에 능통하며 영어에 익숙하다는 점을 '확신'하고 영어 메모가 중국어 메모에 기초했다는 점에 꽤 자신이 있었지만 해당 팀은 확실한 결론을 내리지 않았다. 이 연구원들은 보고서를 통해 "그 자체만으로는 작성자의 국적을 판단하기에 충분하지 않다"고 밝혔다.
사실 플래시포인트는 대가 메모를 중국어 화자가 작성했다고 주장할 때 라자러스가 워너크라이와 관련성이 없다고 밝히지 않았다. 북한의 공격 그룹에 대해서는 알려지지 않은 부분이 많다. 아마도 해당 그룹의 구성원 중에 중국어 원어민이 있을 것이다. 많은 북한 사람이 중국어를 사용할 수 있으며 많은 북한 공격자가 특히 중국의 북동부 지역에서 교육을 받고 활동했다. 또한 연구원들은 과거 북한 공격자들이 사실 북한이 아닌 곳에서 활동하고 있다고 밝힌 바 있다.
언어학이 가치있는 이유
공격자들이 다른 요소를 위해 하도급업자를 고용하고 아웃소싱했을 가능성이 있다. 사이버 범죄는 세계적인 경제이며 한 쪽이 번역을 담당하고 전혀 다른 쪽에서 악성코드를 구입했을 수 있다. 콘드라는 "이 때문에 워너크라이에 대한 언어학적 분석에서 악성코드와 몸값 요구 문서 작성을 분리했다. 다양한 시나리오 환경에서 전혀 다른 사람들이 작성했을 수 있다"고 말했다.
플래시포인트의 연구 책임자 르로이 테렐론지 3세는 "언어는 특이하며 사용된 단어를 분석함으로써 연구원들은 공격자의 신원, 생각, 동기에 대한 추가적인 통찰을 얻을 수 있다"고 말했다.
예를 들어, 스페인어를 사용하는 위협 활동자가 '주유소'라는 의미의 'grifo'라는 단어를 사용할 수 있다. 이 단어는 거의 페루에서만 사용되기 때문에 연구원은 해당 활동자가 페루인이거나 페루 커뮤니티와 광범위한 연계점이 있을 수 있음을 꽤 확신할 수 있다. 위협 활동자가 소수 민족을 지칭할 때 경멸적인 용어를 사용했다면 인종 및 성별뿐만이 아니라 그 사람 또는 그룹의 정치적 이데올로기도 파악할 수 있다.
위장도 가능하다. TSB가 영어를 잘못하는 것처럼 보이기 위해 문법적 오류를 의도적으로 삽입했던 것처럼 공격자들은 특정 문구나 오류를 의도적으로 삽입해 사법 당국과 보안 연구원들을 혼란시킬 수 있다. 이 때문에 분석을 위해 많은 텍스트를 확보하는 것이 중요하다. 그렇게 되면 같은 종류의 오류를 일관되게 반복하기가 더 어렵기 때문이다. 또한 이를 장기간 유지하기가 매우 어렵다.
최근 뉴욕대학교(New York University)의 교수 대몬 맥코이(Damon McCoy)는 연구를 통해 언어학적 스타일 연구를 신뢰할 수 있게 정확히 활용해 지하 커뮤니티의 개인들이 다른 가명과 계정을 사용하더라도 신원을 파악하는 방법을 밝힌 바 있다.
많은 공격자가 문자열, 주석, 메모에 사용되는 언어를 간과할 수 있으며 심지어 이런 항목을 연구원들이 분석할 수 있다는 점도 모르고 있다. 콘드라는 "언어학적 분석으로 배후를 확실하게 입증할 수 없지만 특정 환경에서 기술적 증거와 함께 활용해 범죄자와 공격의 연계성을 찾을 수 있다"고 콘드라가 말했다. editor@itworld.co.kr
함께 보면 좋은 콘텐츠
Sponsored
Surfshark
“유료 VPN, 분명한 가치 있다” VPN 선택 가이드
ⓒ Surfshark VPN(가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 위험 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 서프샤크 VPN은 구독 요금제 가입 후 7일간의 무료 체험을 제공하고 있다. ⓒ Surfshark 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN ⓒ Surfshark 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.