AIㆍML / 보안

해커가 머신러닝을 사용해 공격하는 6가지 방법

Doug Drinkwater | CSO 2018.01.24
"명시적으로 프로그램되지 않고 컴퓨터 스스로 학습하는 능력"으로 정의되는 머신러닝(machine learning)은 정보 보안 업계에 상당한 의미를 내포하는 개념이다. 악성코드, 로그 분석을 물론 조기 취약점 파악과 수정까지 보안 분석가에게 도움이 될 잠재력을 지녔다. 또한 엔드포인트 보안을 개선하고 반복적인 작업을 자동화하고 데이터 유출로 이어지는 공격의 가능성을 낮춰준다.

머신러닝을 탑재한 이런 지능적인 보안 솔루션이 전통적인 레거시 도구에 비해 차세대 워너크라이(WannaCry) 공격을 훨씬 더 빠르게 찾아내 막아줄 것이란 믿음으로 이어진다. J.골드 어소시에이츠(J.Gold Associates)의 대표이자 수석 분석가인 잭 골드는 최근 본지와의 인터뷰에서 "아직 초창기지만 확실히 앞으로 나아가야 할 길이다. 인공 지능과 머신러닝은 보안에 대대적인 변화를 일으킬 것이다"고 말했다.

골드는 "빠르게 움직이는 데이터와 앱의 폭증으로 인해 AI를 기반으로 네트워크 트래픽과 사용자 상호작용을 분석하는 자동화된 시스템을 통하지 않는 다른 보안 방법은 사실상 없다"고 단언했다. 문제는 해커도 이를 알고 있으며 해킹용 AI와 머신러닝 도구를 제작하게 되리라는 점이다.

사이버 범죄자가 머신러닝을 사용하는 방법
더욱 조직적으로 움직이며 다크 웹(dark web)에서 폭넓은 서비스를 제공하는 범죄자들은 보안 방어 측이 따라잡기 어려운 빠른 속도로 혁신한다. 머신러닝, 딥 러닝과 같은 기술이 가진 잠재력을 감안한다면 심히 걱정되는 부분이다.

맥아피의 최고 기술 책임자 스티브 그로브만은 최근 언론 인터뷰에서 "머신러닝, 딥 러닝, AI와 같은 기술이 미래의 사이버 방어를 위한 초석이 된다 해도 공격자 역시 이런 기술을 구현하고 혁신하기 위해 분주하게 움직이고 있다는 점을 인식해야 한다"며, "사이버 범죄 사례에서 매번 볼 수 있듯이, 기술을 통해 증폭된 인간의 지능은 공격자와 방어자 간의 군비 경쟁에서 승패를 결정짓는 요소가 될 것"이라고 말했다.

이런 우려는 자연스럽게 AI 대 AI의 대결이라는 공포심으로 이어진다. 시만텍 CTO 닉 사비데스는 "올해는 사이버보안 부문에서 AI 대 AI의 대결이 펼쳐질 첫 해"라고 말했다. 공격자는 침투한 네트워크를 더욱 효과적으로 탐색할 수 있게 되고, 보안 개발업체는 이에 대처하기 위해 더욱 자동화되고 지능적인 솔루션을 구축해야만 한다.

다크트레이스(Darktrace)의 기술 이사 데이머 팔머는 지난해 말 "자율 대응(Autonomous response)은 사이버보안의 미래"라면서, "이는 지능적이고 표적화된 교정 작업을 수행하고 진행 중인 공격의 속도를 늦추거나 나아가 중지시키면서 정상적인 비즈니스 활동은 계속 이어지도록 하는 알고리듬"이라고 설명했다.

머신러닝 기반의 실제 공격 사례는 현재까지 거의 알려지지 않았지만 범죄 그룹에서는 이미 일부 머신러닝 기술을 활용하고 있다.

1. 갈수록 잡기 어려워지는 악성코드
사이버 범죄자의 악성코드 제작 과정은 대부분 수작업으로 구성된다. 컴퓨터 바이러스와 트로이 목마를 만들기 위한 스크립트를 쓰고 루트킷과 암호 스크래퍼 등 배포와 실행을 위한 보조 도구를 사용한다.

공격자가 이 과정의 속도를 높일 수 있다면 어떻게 될까? 머신러닝이 악성코드 제작에 어떤 도움이 될까?

머신러닝을 악성코드 제작에 사용한 알려진 첫 사례는 2017년 <GAN 기반의 블랙박스 공격을 위한 적대적 악성코드 예제 제작>이라는 논문을 통해 소개됐다. 이 보고서에서 연구진은 머신러닝 기반 탐지 시스템을 우회하는 적대적 악성코드 샘플을 생성하는 알고리듬을 기반으로 생성적 적대 신경망(generative adversarial network)을 구축하는 방법을 공개했다.

또한 2017년 데프콘(DEFCON) 컨퍼런스에서 보안업체 엔드게임(Endgame)은 일론 머스크의 오픈AI(OpenAI) 프레임워크를 사용해 보안 엔진이 탐지하지 못하는 맞춤형 악성코드를 제작하는 방법을 공개했다. 엔드게임은 악성 바이너리를 가져와 몇몇 부분을 변경하는 방법을 사용했다. 안티바이러스 엔진은 해당 코드를 무해한, 신뢰할 수 있는 코드로 판단했다.

한편 머신러닝이 궁극적으로는 연구실에서 탐지한 방법과 그 내용을 바탕으로 즉석에서 코드를 수정하는 데 사용될 수 있다고 예측한 연구원들도 있다. 이는 다형성(polymorphic) 악성코드의 확장된 형태다.

2. 유연한 공격을 위한 스마트 봇넷
포티넷(Fortinet)은 2018년이 자율 학습 '하이브넷(hivenets)'과 '스웜봇(swarmbots)'의 해가 될 것으로 예상했다. 이 예상은 본질적으로 '지능형' IoT 기기가 취약한 시스템을 대규모로 공격하는 데 이용될 수 있다는 믿음과 이어진다.

포티넷의 글로벌 보안 전략가 데릭 맨키는 "IoT 기기는 서로 통신하고 공유되는 로컬 지능을 바탕으로 작업을 수행한다"면서, "또한 좀비는 더 똑똑해져서 지시를 내리는 '목동' 봇넷 없이도 움직일 수 있다. 결과적으로 하이브넷은 스웜으로 급격히 성장하면서 여러 목표물을 동시에 공격하고 완화 및 대처 방법들을 상당히 지연시킬 수 있는 역량을 강화할 것이다"고 예상했다.

맨키는 이런 공격이 아직 스웜 기술을 사용하지는 않는다고 말했다. 스웜 기술을 사용할 경우, 하이브넷은 자신의 과거 행동을 통해 자율적인 학습이 가능해진다. AI의 하위 분야인 스웜 기술은 "자연적 또는 인공적으로 분산된 자기 조직적 시스템의 집합적 동작"으로 정의되며 이미 드론과 초기 로봇 기기에 사용되고 있다(미래의 소설 같은 이야기지만 일부에서는 블랙 미러(Black Mirror)의 미움받는 자(Hated in The Nation)에서 스웜 기술의 범죄 가능성을 점치기도 한다. 이 에피소드에서는 감시 및 물리적 공격용으로 변조된 수천 마리의 자동화된 벌이 등장한다. 편집자 주).

3. 더욱 교묘해지는 첨단 스피어 피싱 이메일
적대적 머신러닝의 명확한 애플리케이션 가운데 하나는 더 지능적인 소셜 엔지니어링을 위해 텍스트-음성, 음성 인식, 자연어 처리(NLP)와 같은 알고리즘을 사용하는 것이다. 결국 반복적인 신경망을 통해 이미 이런 소프트웨어에 작문 스타일을 가르칠 수 있으므로 이론적으로는 피싱 이메일도 더 정교해지고 교묘해질 수 있다.

특히 머신러닝은 전체적인 프로세스를 자동화하면서 대규모 목표를 노리는 지능형 스피어 피싱 이메일을 강화할 수 있다. 시스템은 정상 이메일을 통해 학습하고 설득력 있는 문장을 만들 수 있다.

맥아피 연구소는 2017년 전망에서 범죄자들이 머신러닝을 사용해 대량의 훔친 기록을 분석, 잠재적 공격 목표를 식별하고 이런 개인을 효과적으로 공격하는, 전후 맥락이 담겨진 세부적인 이메일을 작성할 수 있게 될 것이라고 전했다.

또한 블랙햇 USA 2016에서 존 세이무어와 필립 툴리는 <소셜엔지니어링용 데이터과학의 무기화: 트위터에서 자동화된 E2E 스피어피싱>이라는 제목의 논문을 발표했다. 이 논문은 특정 사용자를 표적으로 한 피싱 게시물을 트위터에서 반복적으로 학습하는 신경망 학습 방법을 제시했다. 이 논문에서 스피어피싱 펜 테스팅 데이터에 대해 교육을 받은 SNAP_R 신경망은 표적이 된 사용자의 타임라인 게시물에서 가져온 주제를 동적으로 입력해 클릭 가능성을 높인다.
그 결과, 시스템은 엄청난 효과를 보였다. 90명의 사용자를 대상으로 한 테스트에서 성공률이 30~60%를 보였으며, 수동 스피어피싱과 대량 피싱의 결과가 크게 향상됐다.

4. 위협 인텔리전스, 걷잡을 수 없게 되다
논란의 여지가 있지만, 위협 인텔리전스(Threat intelligence)는 머신러닝과 관련해 혜택을 받는 분야다. 오탐(false positives)의 시대에 머신러닝 시스템은 분석가들이 여러 시스템에서 발생하는 실제 위협을 식별하는데 도움이 될 수 있다.

레코디드 퓨처(Recorded Future) 공동설립자이자 CTO 스테판 트루베는 최근 백서에서 "머신러닝을 적용하면 위협 인텔리전스 분야에서 두 가지 이점을 얻을 수 있다"고 전했다.

첫 번째, 복잡한 관계를 분석하는 것을 포함해 엄청난 양의 데이터를 처리하고 구조화하는 것은 인련만으로 해결하기 거의 불가능한 문제다. 머신러닝은 유능한 인력과 장비를 보강해 새로운 위협에 대처하는 것보다 좀더 효과적으로 무장할 수 있다.
두 번째는 자동화다. 머신러닝은 인간이 수행할 수 있는 모든 작업을 문제없이 수행할 수 있으며 심지어 인간이 처리할 수 없는 훨씬 더 큰 데이터로 확장할 수 있다.

그러나 범죄자들이 이런 도입에 대해서도 적응할 것이라는 믿음도 있다. 맥아피의 스티브 그로브만은 이전에 "(머신러닝은) 잡음이 증가하는 기술"이라고 지적한 바 있다. 해커는 이 기술을 사용해 일반적인 머신러닝 모델에 대해 오탐을 유발하는 환경을 만들 수 있다. 표적 대상이 거짓 정보를 걸러내기 위해 시스템을 재조정할 때, 공격자는 머신러닝 시스템을 통해 실제 공격을 시작할 수 있다.

5. 미승인 접근
클라우디아 크루즈, 페르난도 위세다, 레오바르도 레예스 연구원은 2012년 보안 공격용 머신러닝에 대한 초기 사례를 발표한 바 있다.
이들은 리캡차(reCAPTCHA) 이미지에서 실행되는 시스템을 깨기 위해 SVM(Support Vector Machine)을 사용해 82%의 정확도를 보였다. 이후 모든 캡차(CAPTCHA) 메커니즘은 향상됐지만, 캡차를 깨기 위해 딥러닝을 사용한 연구원에게 다시금 깨졌다. 2016년에는 딥러닝을 통해 92%의 정확도로 간단한 캡차를 깨는 방법을 자세히 설명한 기사가 게시되기도 했다.

이와는 별도로 지난해 블랙햇에서 "나는 로봇(I am Robot)" 연구에서 연구원들은 다양한 머신러닝 알고리듬으로 최신 시맨틱 이미지 캡차를 어떻게 깨는지를 밝혀냈다. 이 논문은 구글의 리캡차를 깨는데 98%의 정확성을 보인다고 주장했다.

6. 머신러닝 엔진 중독
머신러닝을 공격에 사용하는 훨씬 간단하면서도 효과적인 방법은 악성코드를 탐지하는 데 사용되는 머신러닝 엔진을 중독시키는 것이다. 과거에는 안티바이러스 엔진을 건들일 수 있는 범죄자가 많지 않아 비효율적이었다.

하지만 이 방법은 충분히 간단한 것처럼 보인다. 머신러닝 모델은 입력 데이터로부터 학습하는데, 데이터 풀이 중독되면 출력도 중독된다. 뉴욕 대학의 연구원은 구글, 마이크로소프트, AWS와 같은 CNN(Convolutional Neural Networks)을 통해 잘못된(그러나 통제되는) 결과를 산출하도록 CNN을 백도어로 작동시키는 방법을 시연했다. editor@itworld.co.kr  

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.