2017.07.18

언어학으로 항상 사이버 공격자의 국적을 확인할 수 없는 이유

Fahmida Y. Rashid | CSO
악성코드(Malware). 데이터 도난. 랜섬웨어(Ransomware). 모두가 최근의 대담한 공격의 배후를 알고 싶어한다. 지난 수년 동안 언어학을 활용해 범인을 찾아내기 위한 여러 번의 시도가 있었지만 배후를 찾기 위해 이 방법을 활용하는데 한계가 있었다.

최근 정보기업 플래시포인트(Flashpoint)의 분석가들이 워너크라이(WannaCry) 랜섬웨어에 중국어 링크가 있었다고 이야기하면서 언어학적 분석이 등장했다. 당시까지 공격에 잘 알려지지 않은 라자러스 그룹(Lazarus Group)과 관련된 인프라 구성요소가 재사용되면서 보안 연구의 상당 부분은 북한의 연계성에 초점을 뒀다.

그 이전에는 타이아 글로벌(Taia Global) 보고서에서 TSB(The Shadow Brokers)의 성명서를 영어가 엉성하긴 했지만 분명 영어 원어민이 작성한 것이라고 밝힌 바 있다.

DNC(Democratic National Committee)에서 도난 당한 문서를 공개한 구시퍼 2.0(Guccifer 2.0)이 그 주장대로 루마니아 사람이 아닐 수 있다는 점을 시사하기 위해 언어학적 분석을 활용한 바 있다. 2014년, 타이아 글로벌은 언어학적 힌트를 볼 때 소니(Sony) 해킹 사건이 미 정부가 주장한 것처럼 북한이 아닌 러시아인의 소행으로 보인다고 밝혔다.

배후는 찾기가 어렵고 언어학적 툴에 의존하는 것은 혼란만 가중시키는 것으로 보인다. 워너크라이가 중국인 아니면 북한인의 소행이었을까? 구시퍼 2.0이 루마니아인 아니면 러시아인이었을까?

언어학적 분석으로 명백한 증거를 얻을 가능성은 거의 없다. 최소한 연구원들이 추적할 수 있는 일련의 힌트를 찾아내고 잘하면 기술 연구 및 포렌식(Forensics) 방법으로 발견한 다른 증거를 뒷받침(또는 확인)할 수 있다. 언어학적 분석은 배후를 찾는 또 다른 툴이다.

일리노이공과대학교(Illinois Institute of Technology)의 교수 쉴로모 아가몬은 "언어학적 증거의 신뢰성을 위해서는 하나의 방향을 가리키는 다양한 특징에 대한 일관된 패턴을 입증해야 한다"고 말했다. 아가몬은 소니 해커 및 TSB에 대한 타이아의 분석에 참여한 바 있다.

언어 분석에 대한 이해
실제 소스코드를 보는 방법과 사용된 실제 텍스트를 검사하는 등 두 가지 분석 방법이 존재한다. 첫 번째 종류에서는 분석이 코드 스타일과 패턴에 집중해 알려진 코드 샘플과의 유사성을 찾는다. 많은 연구원이 이 방법에 의존해 다양한 공격을 하나의 부문으로 연결했지만 이는 언어학적 분석은 아니다.

두 번째 방법은 오류 메시지, 대화 상자, 피해자에게 직접 표시되는 메시지 등의 인간 언어에 의존한다. 텍스트가 많아야 이 방법이 효과적이다. 플래시포인트의 워너크라이 분석은 피해자에게 표시된 몸값 요구문서에 집중했다.

아가몬은 TSB의 엉망진창인 성명서를 분석했다. 구시퍼 2.0의 경우 아가몬은 마더보드(Motherboard)의 로렌조 프랜체스키 비치에라이가 트위터를 통해 진행한 구시퍼 2.0과의 인터뷰를 살펴봤다. 경우에 따라서는 코드 자체에 주석 등 텍스트가 있지만 일반적으로 유용할 만큼 충분하지는 않다고 생각한다. 아가몬은 "텍스트가 충분해야 한다"고 말했다.

플래시포인트의 아시아 태평양 연구 책임자 존 콘드라는 "랜섬웨어는 특히 피해자가 읽고 이해할 수 있는 대가 메모를 제공하기 때문에 언어학적 분석에 적합하다"고 말했다. 대부분의 악성코드 그리고 심지어 스피어 피싱(Spear Phishing) 공격은 미끼를 적법하고 다른 것을 닮은 것처럼 보이도록 정교하게 개발하기 때문에 이런 정밀 조사를 피해갈 수 없다.

우선 분석을 위해 가능한 모든 텍스트를 수집한다. 특정 데이터 세트를 제한하면 분석이 예상치 못한 길로 빠질 수 있기 때문에 가능한 모든 것을 포함시키는 것이 중요하다. 예를 들어, 타이아의 팀은 소니 해커의 것으로 추정되어 매체에서 보도되고 페이스트빈(Pastebin)에 게시된 20개의 메시지를 살펴보았다. 그리고 나서 해당 팀은 보고서에 2,000단어가 조금 안 되는 이 데이터의 양이 적다고 명시했다.

문법, 철자법, 띄어쓰기, 시제 혼란, 단어 사용 등의 실수가 특정 힌트를 제공할 수 있다. 영어의 경우 정관사(the)와 부정관사(a)를 빼먹거나 문장에서 to, should, must, will 등의 단어를 누락하는 등 문자 원어민(미국 영어)이 일반적으로 범하지 않는 특정 문법 오류가 있다.

또 다른 힌트는 they are going 대신에 they are go를 사용하는 등 “-ing”를 올바르게 사용하지 않는 것이다. 이런 힌트를 통해 분석가는 5가지의 의심 언어 목록을 작성한 후 각각의 '특이점'을 비교해 어떤 언어에 가장 가까운지 확인할 수 있다.

예를 들어, the를 빼먹은 경우 그 사람이 러시아어 또는 다른 슬라브 언어 원어민임을 알 수 있다. 아가몬은 구시퍼 2.0이 트위터 인터뷰 중 관사를 계속 빼먹었다는 점이 화자가 루마니아인보다는 러시아인일 가능성이 높다는 증거라고 말했다. 왜냐하면 루마니아어에는 정관사와 부정관사가 있기 때문이다.

확인할 수 있는 오류 또는 언어적 특징이 많으면 분석이 더욱 정확해진다. 소니 보고서에는 25가지의 요소를 명시했다.

가변성
하지만 사람들은 여러 언어를 구사하고 숙달도가 서로 다를 수 있기 때문에 언어 분석이 그렇게 간단하지는 않다. 만다린 중국어 원어민이지만 러시아인에게 해킹을 배우면서 러시아어를 배웠으며 영어로 공격을 실시한 사람의 경우 "L3(사용하는 제 3의 언어)로 서면을 작성하면서 L1(모국어)보다 L2(학습한 제 2 외국어)의 특징이 더 많다"고 아가몬이 말했다.

맥락이 중요하다. 증거가 러시아어 화자를 나타내더라도 공격자가 중국인이라고 생각할 만한 이유가 있다면 러시아인에게 교육을 받은 중국인 공격자일 가능성이 높다. 언어학은 소스코드 증거와 네트워크 포렌식 등 다른 연구 경로에서 얻은 증거를 3각 측량하는데 도움이 된다.

아가몬은 "언어학적 분석은 그 자체로는 별 의미가 없다. 언어학만으로 배후를 밝히려 해서는 안 된다"고 말했다.

플래시포인트는 27개 언어로 작성된 워너크라이 공격에 사용된 28개의 대가 메모를 분석하고 본래의 몸값 요구 문서를 작성한 것은 중국어 화자라고 결론내렸다. 중국어로 작성한 2개의 메모 가운데 하나를 간체로 작성했으며 다른 하나는 번체로 작성했는데 직접 작성한 것으로 보였지만 나머지 불가리아어, 불어, 독어, 이탈리아어, 일본어, 한국어, 러시아어, 스페인어, 베트남어 등은 본래 영어로 작성한 메모에서 번역한 것으로 보였다.

중국어 메모에는 다른 메모와는 달리 여러 구어적 표현이 포함되어 있었기 때문에 작성자가 해당 언어에 능통하다는 점을 알 수 있었다. 영어 텍스트는 철자법과 대문자 사용이 정확했기 때문에 영어를 잘 사용하는 누군가가 작성했지만 "can't" 대신에 "couldn't"를 잘못 사용한 것으로 보아 영어 원어민은 아니었던 것 같다. 한국어 문서는 기본적인 오류와 올바르지 못한 문법이 넘쳐났다.

플래시포인트는 그 분석의 한계를 인정하면서 위장을 위해 패턴을 의도적으로 삽입했을 수 있으며 라자러스와의 연계성을 찾기 어렵도록 의도적으로 한국어 메모를 형편없게 작성했을 수 있다고 지적했다.

분석가들은 작성자가 중국어에 능통하며 영어에 익숙하다는 점을 '확신'하고 영어 메모가 중국어 메모에 기초했다는 점에 꽤 자신이 있었지만 해당 팀은 확실한 결론을 내리지 않았다. 이 연구원들은 보고서를 통해 "그 자체만으로는 작성자의 국적을 판단하기에 충분하지 않다"고 밝혔다.

사실 플래시포인트는 대가 메모를 중국어 화자가 작성했다고 주장할 때 라자러스가 워너크라이와 관련성이 없다고 밝히지 않았다. 북한의 공격 그룹에 대해서는 알려지지 않은 부분이 많다. 아마도 해당 그룹의 구성원 중에 중국어 원어민이 있을 것이다. 많은 북한 사람이 중국어를 사용할 수 있으며 많은 북한 공격자가 특히 중국의 북동부 지역에서 교육을 받고 활동했다. 또한 연구원들은 과거 북한 공격자들이 사실 북한이 아닌 곳에서 활동하고 있다고 밝힌 바 있다.

언어학이 가치있는 이유
공격자들이 다른 요소를 위해 하도급업자를 고용하고 아웃소싱했을 가능성이 있다. 사이버 범죄는 세계적인 경제이며 한 쪽이 번역을 담당하고 전혀 다른 쪽에서 악성코드를 구입했을 수 있다. 콘드라는 "이 때문에 워너크라이에 대한 언어학적 분석에서 악성코드와 몸값 요구 문서 작성을 분리했다. 다양한 시나리오 환경에서 전혀 다른 사람들이 작성했을 수 있다"고 말했다.

플래시포인트의 연구 책임자 르로이 테렐론지 3세는 "언어는 특이하며 사용된 단어를 분석함으로써 연구원들은 공격자의 신원, 생각, 동기에 대한 추가적인 통찰을 얻을 수 있다"고 말했다.

예를 들어, 스페인어를 사용하는 위협 활동자가 '주유소'라는 의미의 'grifo'라는 단어를 사용할 수 있다. 이 단어는 거의 페루에서만 사용되기 때문에 연구원은 해당 활동자가 페루인이거나 페루 커뮤니티와 광범위한 연계점이 있을 수 있음을 꽤 확신할 수 있다. 위협 활동자가 소수 민족을 지칭할 때 경멸적인 용어를 사용했다면 인종 및 성별뿐만이 아니라 그 사람 또는 그룹의 정치적 이데올로기도 파악할 수 있다.

위장도 가능하다. TSB가 영어를 잘못하는 것처럼 보이기 위해 문법적 오류를 의도적으로 삽입했던 것처럼 공격자들은 특정 문구나 오류를 의도적으로 삽입해 사법 당국과 보안 연구원들을 혼란시킬 수 있다. 이 때문에 분석을 위해 많은 텍스트를 확보하는 것이 중요하다. 그렇게 되면 같은 종류의 오류를 일관되게 반복하기가 더 어렵기 때문이다. 또한 이를 장기간 유지하기가 매우 어렵다.

최근 뉴욕대학교(New York University)의 교수 대몬 맥코이(Damon McCoy)는 연구를 통해 언어학적 스타일 연구를 신뢰할 수 있게 정확히 활용해 지하 커뮤니티의 개인들이 다른 가명과 계정을 사용하더라도 신원을 파악하는 방법을 밝힌 바 있다.

많은 공격자가 문자열, 주석, 메모에 사용되는 언어를 간과할 수 있으며 심지어 이런 항목을 연구원들이 분석할 수 있다는 점도 모르고 있다. 콘드라는 "언어학적 분석으로 배후를 확실하게 입증할 수 없지만 특정 환경에서 기술적 증거와 함께 활용해 범죄자와 공격의 연계성을 찾을 수 있다"고 콘드라가 말했다. editor@itworld.co.kr  

2017.07.18

언어학으로 항상 사이버 공격자의 국적을 확인할 수 없는 이유

Fahmida Y. Rashid | CSO
악성코드(Malware). 데이터 도난. 랜섬웨어(Ransomware). 모두가 최근의 대담한 공격의 배후를 알고 싶어한다. 지난 수년 동안 언어학을 활용해 범인을 찾아내기 위한 여러 번의 시도가 있었지만 배후를 찾기 위해 이 방법을 활용하는데 한계가 있었다.

최근 정보기업 플래시포인트(Flashpoint)의 분석가들이 워너크라이(WannaCry) 랜섬웨어에 중국어 링크가 있었다고 이야기하면서 언어학적 분석이 등장했다. 당시까지 공격에 잘 알려지지 않은 라자러스 그룹(Lazarus Group)과 관련된 인프라 구성요소가 재사용되면서 보안 연구의 상당 부분은 북한의 연계성에 초점을 뒀다.

그 이전에는 타이아 글로벌(Taia Global) 보고서에서 TSB(The Shadow Brokers)의 성명서를 영어가 엉성하긴 했지만 분명 영어 원어민이 작성한 것이라고 밝힌 바 있다.

DNC(Democratic National Committee)에서 도난 당한 문서를 공개한 구시퍼 2.0(Guccifer 2.0)이 그 주장대로 루마니아 사람이 아닐 수 있다는 점을 시사하기 위해 언어학적 분석을 활용한 바 있다. 2014년, 타이아 글로벌은 언어학적 힌트를 볼 때 소니(Sony) 해킹 사건이 미 정부가 주장한 것처럼 북한이 아닌 러시아인의 소행으로 보인다고 밝혔다.

배후는 찾기가 어렵고 언어학적 툴에 의존하는 것은 혼란만 가중시키는 것으로 보인다. 워너크라이가 중국인 아니면 북한인의 소행이었을까? 구시퍼 2.0이 루마니아인 아니면 러시아인이었을까?

언어학적 분석으로 명백한 증거를 얻을 가능성은 거의 없다. 최소한 연구원들이 추적할 수 있는 일련의 힌트를 찾아내고 잘하면 기술 연구 및 포렌식(Forensics) 방법으로 발견한 다른 증거를 뒷받침(또는 확인)할 수 있다. 언어학적 분석은 배후를 찾는 또 다른 툴이다.

일리노이공과대학교(Illinois Institute of Technology)의 교수 쉴로모 아가몬은 "언어학적 증거의 신뢰성을 위해서는 하나의 방향을 가리키는 다양한 특징에 대한 일관된 패턴을 입증해야 한다"고 말했다. 아가몬은 소니 해커 및 TSB에 대한 타이아의 분석에 참여한 바 있다.

언어 분석에 대한 이해
실제 소스코드를 보는 방법과 사용된 실제 텍스트를 검사하는 등 두 가지 분석 방법이 존재한다. 첫 번째 종류에서는 분석이 코드 스타일과 패턴에 집중해 알려진 코드 샘플과의 유사성을 찾는다. 많은 연구원이 이 방법에 의존해 다양한 공격을 하나의 부문으로 연결했지만 이는 언어학적 분석은 아니다.

두 번째 방법은 오류 메시지, 대화 상자, 피해자에게 직접 표시되는 메시지 등의 인간 언어에 의존한다. 텍스트가 많아야 이 방법이 효과적이다. 플래시포인트의 워너크라이 분석은 피해자에게 표시된 몸값 요구문서에 집중했다.

아가몬은 TSB의 엉망진창인 성명서를 분석했다. 구시퍼 2.0의 경우 아가몬은 마더보드(Motherboard)의 로렌조 프랜체스키 비치에라이가 트위터를 통해 진행한 구시퍼 2.0과의 인터뷰를 살펴봤다. 경우에 따라서는 코드 자체에 주석 등 텍스트가 있지만 일반적으로 유용할 만큼 충분하지는 않다고 생각한다. 아가몬은 "텍스트가 충분해야 한다"고 말했다.

플래시포인트의 아시아 태평양 연구 책임자 존 콘드라는 "랜섬웨어는 특히 피해자가 읽고 이해할 수 있는 대가 메모를 제공하기 때문에 언어학적 분석에 적합하다"고 말했다. 대부분의 악성코드 그리고 심지어 스피어 피싱(Spear Phishing) 공격은 미끼를 적법하고 다른 것을 닮은 것처럼 보이도록 정교하게 개발하기 때문에 이런 정밀 조사를 피해갈 수 없다.

우선 분석을 위해 가능한 모든 텍스트를 수집한다. 특정 데이터 세트를 제한하면 분석이 예상치 못한 길로 빠질 수 있기 때문에 가능한 모든 것을 포함시키는 것이 중요하다. 예를 들어, 타이아의 팀은 소니 해커의 것으로 추정되어 매체에서 보도되고 페이스트빈(Pastebin)에 게시된 20개의 메시지를 살펴보았다. 그리고 나서 해당 팀은 보고서에 2,000단어가 조금 안 되는 이 데이터의 양이 적다고 명시했다.

문법, 철자법, 띄어쓰기, 시제 혼란, 단어 사용 등의 실수가 특정 힌트를 제공할 수 있다. 영어의 경우 정관사(the)와 부정관사(a)를 빼먹거나 문장에서 to, should, must, will 등의 단어를 누락하는 등 문자 원어민(미국 영어)이 일반적으로 범하지 않는 특정 문법 오류가 있다.

또 다른 힌트는 they are going 대신에 they are go를 사용하는 등 “-ing”를 올바르게 사용하지 않는 것이다. 이런 힌트를 통해 분석가는 5가지의 의심 언어 목록을 작성한 후 각각의 '특이점'을 비교해 어떤 언어에 가장 가까운지 확인할 수 있다.

예를 들어, the를 빼먹은 경우 그 사람이 러시아어 또는 다른 슬라브 언어 원어민임을 알 수 있다. 아가몬은 구시퍼 2.0이 트위터 인터뷰 중 관사를 계속 빼먹었다는 점이 화자가 루마니아인보다는 러시아인일 가능성이 높다는 증거라고 말했다. 왜냐하면 루마니아어에는 정관사와 부정관사가 있기 때문이다.

확인할 수 있는 오류 또는 언어적 특징이 많으면 분석이 더욱 정확해진다. 소니 보고서에는 25가지의 요소를 명시했다.

가변성
하지만 사람들은 여러 언어를 구사하고 숙달도가 서로 다를 수 있기 때문에 언어 분석이 그렇게 간단하지는 않다. 만다린 중국어 원어민이지만 러시아인에게 해킹을 배우면서 러시아어를 배웠으며 영어로 공격을 실시한 사람의 경우 "L3(사용하는 제 3의 언어)로 서면을 작성하면서 L1(모국어)보다 L2(학습한 제 2 외국어)의 특징이 더 많다"고 아가몬이 말했다.

맥락이 중요하다. 증거가 러시아어 화자를 나타내더라도 공격자가 중국인이라고 생각할 만한 이유가 있다면 러시아인에게 교육을 받은 중국인 공격자일 가능성이 높다. 언어학은 소스코드 증거와 네트워크 포렌식 등 다른 연구 경로에서 얻은 증거를 3각 측량하는데 도움이 된다.

아가몬은 "언어학적 분석은 그 자체로는 별 의미가 없다. 언어학만으로 배후를 밝히려 해서는 안 된다"고 말했다.

플래시포인트는 27개 언어로 작성된 워너크라이 공격에 사용된 28개의 대가 메모를 분석하고 본래의 몸값 요구 문서를 작성한 것은 중국어 화자라고 결론내렸다. 중국어로 작성한 2개의 메모 가운데 하나를 간체로 작성했으며 다른 하나는 번체로 작성했는데 직접 작성한 것으로 보였지만 나머지 불가리아어, 불어, 독어, 이탈리아어, 일본어, 한국어, 러시아어, 스페인어, 베트남어 등은 본래 영어로 작성한 메모에서 번역한 것으로 보였다.

중국어 메모에는 다른 메모와는 달리 여러 구어적 표현이 포함되어 있었기 때문에 작성자가 해당 언어에 능통하다는 점을 알 수 있었다. 영어 텍스트는 철자법과 대문자 사용이 정확했기 때문에 영어를 잘 사용하는 누군가가 작성했지만 "can't" 대신에 "couldn't"를 잘못 사용한 것으로 보아 영어 원어민은 아니었던 것 같다. 한국어 문서는 기본적인 오류와 올바르지 못한 문법이 넘쳐났다.

플래시포인트는 그 분석의 한계를 인정하면서 위장을 위해 패턴을 의도적으로 삽입했을 수 있으며 라자러스와의 연계성을 찾기 어렵도록 의도적으로 한국어 메모를 형편없게 작성했을 수 있다고 지적했다.

분석가들은 작성자가 중국어에 능통하며 영어에 익숙하다는 점을 '확신'하고 영어 메모가 중국어 메모에 기초했다는 점에 꽤 자신이 있었지만 해당 팀은 확실한 결론을 내리지 않았다. 이 연구원들은 보고서를 통해 "그 자체만으로는 작성자의 국적을 판단하기에 충분하지 않다"고 밝혔다.

사실 플래시포인트는 대가 메모를 중국어 화자가 작성했다고 주장할 때 라자러스가 워너크라이와 관련성이 없다고 밝히지 않았다. 북한의 공격 그룹에 대해서는 알려지지 않은 부분이 많다. 아마도 해당 그룹의 구성원 중에 중국어 원어민이 있을 것이다. 많은 북한 사람이 중국어를 사용할 수 있으며 많은 북한 공격자가 특히 중국의 북동부 지역에서 교육을 받고 활동했다. 또한 연구원들은 과거 북한 공격자들이 사실 북한이 아닌 곳에서 활동하고 있다고 밝힌 바 있다.

언어학이 가치있는 이유
공격자들이 다른 요소를 위해 하도급업자를 고용하고 아웃소싱했을 가능성이 있다. 사이버 범죄는 세계적인 경제이며 한 쪽이 번역을 담당하고 전혀 다른 쪽에서 악성코드를 구입했을 수 있다. 콘드라는 "이 때문에 워너크라이에 대한 언어학적 분석에서 악성코드와 몸값 요구 문서 작성을 분리했다. 다양한 시나리오 환경에서 전혀 다른 사람들이 작성했을 수 있다"고 말했다.

플래시포인트의 연구 책임자 르로이 테렐론지 3세는 "언어는 특이하며 사용된 단어를 분석함으로써 연구원들은 공격자의 신원, 생각, 동기에 대한 추가적인 통찰을 얻을 수 있다"고 말했다.

예를 들어, 스페인어를 사용하는 위협 활동자가 '주유소'라는 의미의 'grifo'라는 단어를 사용할 수 있다. 이 단어는 거의 페루에서만 사용되기 때문에 연구원은 해당 활동자가 페루인이거나 페루 커뮤니티와 광범위한 연계점이 있을 수 있음을 꽤 확신할 수 있다. 위협 활동자가 소수 민족을 지칭할 때 경멸적인 용어를 사용했다면 인종 및 성별뿐만이 아니라 그 사람 또는 그룹의 정치적 이데올로기도 파악할 수 있다.

위장도 가능하다. TSB가 영어를 잘못하는 것처럼 보이기 위해 문법적 오류를 의도적으로 삽입했던 것처럼 공격자들은 특정 문구나 오류를 의도적으로 삽입해 사법 당국과 보안 연구원들을 혼란시킬 수 있다. 이 때문에 분석을 위해 많은 텍스트를 확보하는 것이 중요하다. 그렇게 되면 같은 종류의 오류를 일관되게 반복하기가 더 어렵기 때문이다. 또한 이를 장기간 유지하기가 매우 어렵다.

최근 뉴욕대학교(New York University)의 교수 대몬 맥코이(Damon McCoy)는 연구를 통해 언어학적 스타일 연구를 신뢰할 수 있게 정확히 활용해 지하 커뮤니티의 개인들이 다른 가명과 계정을 사용하더라도 신원을 파악하는 방법을 밝힌 바 있다.

많은 공격자가 문자열, 주석, 메모에 사용되는 언어를 간과할 수 있으며 심지어 이런 항목을 연구원들이 분석할 수 있다는 점도 모르고 있다. 콘드라는 "언어학적 분석으로 배후를 확실하게 입증할 수 없지만 특정 환경에서 기술적 증거와 함께 활용해 범죄자와 공격의 연계성을 찾을 수 있다"고 콘드라가 말했다. editor@itworld.co.kr  

X