AIㆍML / 보안

AI 지원 보안 솔루션을 구매하기 전 물어야 할 11가지 질문

Scot Finnie | CSO 2019.04.04
대다수 CISO는 앞으로 3~5년 동안 인공지능(AI)과 머신러닝(ML)이 정보보안 지형을 격변시킬 것이라고 믿고 있다. 그렇다고 해서 이에 대한 이야기가 지겹고 피곤하게 들리지 않는다는 것은 아니다. AI나 ML이라는 용어를 다시 듣느니 차라리 직업을 포기하겠다는 생각을 해본 사람도 적지 않을 것이다. 지구 상의 거의 모든 보안 소프트웨어 공급업체가 인공지능이 마치 어떤 마술이라도 되는 것처럼 떠들어댄다. 더 나쁜 점은 실제로 이를 뒷받침할 만큼 능력있는 공급업체가 흔치 않다는 것이다.
 
ⓒ Getty Images Bank 
  
일부 보안 소프트웨어 공급업체는 자사의 AI/ML 제품의 혜택을 과대하게 약속하고는 기대 이하의 솔루션을 제공한다. 가트너의 부사장이자 애널리스트인 앤턴 츄바킨 박사는 "정도가 심한 편이다"고 말했다. 츄바킨은 "'군사용 등급의 AI를 가지고 있다'고 뻔뻔하고도 어리석게 말하는 것부터 시작해 조용히 'AI를 사용한다'고 말하는 것까지 천차만별이지만, 사실 업체들이 말하는 AI란 300년 된 기초 통계 기법을 가리키는 것이다"고 지적했다.
 
모피섹의 보안 전략 부사장인 톰 베인은 "사이버보안 툴 시장은 CISO와 CIO가 AI 기반 제품이라는 말만 들어도 지겨움을 느낄 정도로 AI라는 용어를 남발해 왔다"고 말했다. 베인은 "한 공급업체는 자사의 홈페이지에서 AI라는 말을 22차례 언급했다"고 말했다.
 
그랜트 톰슨(Grant Thornton) 응용 인공 및 첨단 기술 책임자인 JT 코스트먼 박사는 "AI/ML 기능을 갖췄다고 주장하는 업체들과 이야기해보면 대다수가 결국 마케팅 구호에 가까움을 인정한다"고 말했다.
 
일부 공급업체가 AI 이야기를 과장하거나 조작하는 것은 문제의 일부일 뿐이다. 웹루트(Webroot)를 발주한 한 최신 연구에서는 약 60%의 IT 응답자가 일부 소프트웨어가 AI/ML을 이용한다는 것은 알고 있지만 그게 정확히 어떤 의미인지는 모른다고 인정했다. 나아가 36%의 응답자만이 자사의 사이버보안 공급업체가 어떻게 위협 데이터를 확보해 갱신하는지 확실히 알고 있었다. 이 설문조사는 2018년 11월 말에서 12월 초 사이에 행해졌고, 응답 대상은 미국과 일본에서 각각 200명씩 총 400명의 리더급 및 상임 IT 전문가였다.


"현실을 직시하라" AI의 핵심은 막대한 양의 데이터  

수많은 전문가와 AI에 능통한 CSO들은 정보 보안 리더들에게 현실을 제대로 직시하라고 강력히 촉구한다. 그래야만 AI가 필수재가 될 때 뒤쳐지지 않을 수 있다는 것이다. 예를 들어, 무지한 나머지 머신러닝 모델을 적절히 훈련시키는데 필요한 데이터의 양을 과소평가하는 사람이 많다. 이 데이터를 구축하는 데에는 상당한 시간이 걸릴 수 있다. 
델파이 그룹의 회장이자 설립자인 토마스 콜로폴로스는 "AI를 정교한 알고리즘 정도로 생각하는 사람이 많다. 이는 사실이 아니다. 핵심은 AI/ML이 훈련을 위해 막대한 양의 데이터가 필요하다는 것이다"고 말했다. 

도모(Domo)의 부사장이자 CISO인 나이얼 브라운은 지금 스스로 학습하라고 조언했다. 반드시 구매할 필요는 없다는 것이다. 브라운은 "현명한 CSO는 AI/ML의 학습 단계에 있다. 현재 AI 기술에 푹 빠져 있다. 이들은 공급업체에게 제품의 능력과 한계를 이해하라고 말하고 있다. 이들은 AI가 유용해질 때 정보와 위험에 기초한 결정을 내릴 수 있을 것이다"고 설명했다.
 
이런 결정 과정에 도움이 될 수 있도록 본지는 전문가들과 인터뷰를 했고, 보안 업체와 이야기할 때 물을 수 있는 10가지 질문을 취합했다. 이들 질문은 보안 소프트웨어 제품 가운데 가치있는 것과 그렇지 않을 것을 구분하는데 도움이 될 것이다(즉 과대 선전에 현혹되지 않고 유용한 제품을 선택할 수 있다). 

이번 기사를 위해 인터뷰에 응한 맵알(MapR)의 유명한 공학자인 존 오머니크는 공급업체와 논의할 수 있는 5가지 AI/ML 주제를 이야기했다. 다음 목록은 인터뷰에 응답한 모든 전문가의 의견과 통찰에 기초하지만, 오머니크가 가장 많은 기여를 했음을 밝힌다.

 
AI/ML 기반 보안 소프트웨어에 대해 물어야 할 10가지 질문 

1. 훈련 데이터가 대표성이 있음을 어떻게 알 수 있는가 
공급업체가 모델을 훈련시키는데 사용된 데이터가 무엇인지 알아야 한다. 부즈 앨런 해밀턴의 수석 데이터 과학자인 애런 샌트-밀러는 "그러면 해당 데이터가 고객사의 네트워크 상에서 나타나는 행동과 고객사의 데이터에 대해 대표성을 갖는지 판단할 수 있다"고 제안한다. 

2. 훈련 데이터는 얼마나 신선하고, 무결하고, 학습 가능한가 
델파이의 콜로폴로스는 훈련 데이터가 얼마나 자주 갱신되는 지를 알아야 한다고 말했다. 콜로폴로스는 "시간이 지나면서 모델이 검출 능력을 어떻게 학습하고 진화시키는가, AI/ML 엔진을 적절히 훈련시키려면 얼마나 많은 데이터가 필요한가. 이는 AI 시스템의 학습 수준을 알아내고, 시스템의 학습 및 재학습에 필요한 데이터의 양이 얼마나 되는지 알아내기 위함이다"고 덧붙였다. 

3. 성과 통계를 볼 수 있는가 
이는 인터뷰에 응한 사람들이 제안한 가장 공통된 질문이었다. 그랜트톰슨의 코스트먼은 "시스템에 최선을 다해 침입하려는 세계 수준의 해커나 침투 테스터를 검출한 이중맹검(double-blind) 기법의 결과를 공유할 수 있어야 한다"고 말했다. 시그널FX CSO 마제나 풀러는 "공급업체가 머신러닝을 이용하고 있는지, 그냥 단순히 알고리즘을 이용하고 있는지 알려면 공급업체의 머신러닝 모델의 성과를 측정하는데 쓰인 지표를 보면 된다"고 설명했다. 이 지표는 모델의 정확도 역시 파악할 수 있게 해준다. 
지도 학습 모델(supervised models)의 경우, 풀러는 혼동 행렬(Confusion Matrix)에 대해 질문하라고 추천한다. 풀러는 값이 1에 가까울수록 정확도가 높은 것이라고 덧붙였다. 풀러는 "비지도 학습 모델(unsupervised models)의 성과를 평가하는 일은 더 까다롭다"고 말했다. 그러면서 "클러스터 내 거리의 값이 비교적 작고, 클러스터 사이 거리가 비교적 크다면 모델이 개별 특성에 따라 항목을 효과적으로 분류하고 있다는 의미다"고 설명했다. 

4. 현실에서 증거를 제시할 수 있는가
만약 공급업체가 구체적 수치를 제시하지 못한다면 배제를 검토하라. 가트너의 츄바킨은 "한번 더 기회를 주고 싶다면 당신의 AI 솔루션이 자사의 보안 전문가보다 더 나은 판단을 할 수 있다는 실제 사례를 제시할 것을 요구하라"고 제안한다. 아울러 참조할만한 고객사도 제시할 것을 요구하라고 권고한다. 

5. 사유 모델이라는 점은 커스터마이징이 불가능하다는 의미인가 
오머니크는 "공급업체가 사유 AI/ML 상품이 "모든 문제를 해결한다"고 주장한다면 고객이 커스터마이징할 수 있는가라고 질문하라"고 CISO와 CSO에게 제안한다. 커스터마이징이 가능하다면 이에 필요한 엔지니어의 교육 수준은 어느 정도인가, 동일한 데이터를 여러 모델에 적용할 수 있는가, 아니라면 보안 제품에 포함된 모델에 의해서만 데이터가 사용될 수 있는가 등을 질문하라. 

6. 공급업체의 AI/ML 솔루션은 얼마나 유연한가 
오머니크는 제품이 얼마나 유연한지 판단하기 위해 다음과 같이 질문하라고 제안한다. AI/ML 제품이 로그 파일, 음성, 동영상, 트랜잭션 데이터 등 상이한 유형의 데이터를 수용할 수 있는가, 수용할 수 있다면 데이터 세트는 함께 작용할 수 있는가, 아니면 개별적이어야 하는가. 

7. AI/ML 솔루션의 업데이트는 어떠한가 
업데이트를 위해 점진적으로 비용을 지불해야 하는지, 아니면 새 버전을 구매해야 하는지 알아야 한다. 아울러 공급업체가 최신 업데이트를 고객에게 어떻게 배포하는지, 이들을 통합하는 것이 얼마나 어려운지 질문해야 한다. 

8. 공급업체의 솔루션은 보안 팀에게 블랙박스인가 
블랙박스는 좋을 수도 있고 나쁠 수도 있다. 그러나 솔루션이 최신 AI/ML 툴킷의 이용을 지원하는지 여부와 팀이 이를 어떻게 사용할 수 있는지는 알아야 한다. 오머니크는 "솔루션은 사용자가 어떻게 데이터가 작용하는지 학습하는데 도움이 되고, 데이터 엔지니어링과 데이터 과학에 대한 이해를 넓히는데 유익한가, 아니라면 변경 시 공급업체에게 의지하도록 강요하는 블랙박스 솔루션인가를 질문하라"고 말했다. 
츄바킨은 "여러 고객사에게 블랙박스가 개방형 툴킷보다 훨씬 더 유리하다"며, "개방형 툴킷이라면 유용해지기까지 몇 년을 컨설팅에 소비할 수 있다. 블랙박스는 어떻게 보면 '즉각적인 가치'라고 할 수 있다"고 말했다. 

9. 해당 솔루션에 AI가 어떻게 통합되었나 
콜로폴로스는 "이는 인수한 것인가, 사내에서 만들어진 것인가, 아니면 예전부터 사용 중인 소프트웨어의 일부인가를 질문하라"고 말했다. 콜로폴로스는 "그저 애드-온에 불과할 것인지 주의해야 한다. 구글의 텐서플로우 같은 것은 유효하지 않다"고 말했다.  

10. 해당 솔루션은 최신 및 신종 공격을 어떻게 검출하는가 
코스트먼은 "이른바 '콜드-스타트(cold-start) 문제'에 어떻게 대처하는가"를 질문하라고 제안한다. 그러면서 머신러닝은 고기가 물을 필요로 하듯이 데이터를 필요로 한다고 덧붙였다. 코스트먼은 "따라서 공급업체의 AI 기반 시스템이 이전에 마주친 적이 없는 위협을 어떻게 식별할 수 있는가를 질문하라"고 말했다. 

11. 데이터의 소유자는 누구인가 
데이터에 주의해야 한다. 도모의 브라운은 "현재 AI 공급업체의 1차 목표는 판매가 아니라, 자사의 모델 및 알고리즘을 테스트하고 개선하기 위해 최대한 많은 정보에 액세스하는 것이다"고 말했다. 브라운은 "중요한 것은 데이터와 시스템에 어느 수준까지 액세스하는 지를 알아야 하고, 결과적인 AI 메타데이터가 누구의 것인지 분명히 해야 한다"고 조언했다. 콜로폴로스 또한 이에 동의했다. 콜로폴로스는 "최대의 논란 거리 가운데 하나는 시간이 가면서 축적되는 훈련 데이터의 소유권이다"고 견해를 밝혔다.

 
CISO, AI/ML 준비하지 않으면 3~5년 내에 위기 봉착   

AI 기반 솔루션의 유효성을 측정하는 것은 가장 중요한 일 가운데 하나이다. 그러나 이를 제대로 하기 위해서는 전문성이 필요하다. 풀러는 "모든 회사에는 데이터 과학자가 있어야 한다. ML 솔루션을 광범위하게 통합하려는 CSO라면 데이터 과학자와 데이터 엔지니어를 영입해야 한다"고 조언했다. 

오머니크는 "기술진이 AI 기반 보안 제품을 평가할 때 도움을 될 정도의 지식과 훈련을 갖췄다면 이들을 신뢰하라"고 조언한다. 일부 회사의 경우, 임원진은 기술 인력을 신뢰할 수 있는 경로를 찾아야 한다. 이들은 제품을 팔려고 하는 공급업체라면 누구와도 대화를 할 것이다. 그렇다고 해서 아무나 신뢰하라는 것은 아니다. 공급업체의 과장된 선전을 꿰뚫어볼 수 있는 경험과 적절한 지식을 갖춘 사람을 찾거나 채용해야 한다. 

AI/ML 전문가는 수요가 매우 높아 채용하기가 무척 힘들 것이다. 오머니크는 "인재를 끌어들이기 위해 무엇을 할 것인가, 기술 인력을 어떻게 지원할 것인가"를 자문하라고 조언한다. 콜로폴로스는 "잘 모르지만 뒤쳐질 위험이 크다. 앞으로 3~5 년 동안 사이버 범죄를 방어하고 이에 맞서는데 AI/ML을 사용할 수 있는 지식과 경험을 수준높게 축적하지 못한다면 조직과 자신의 일자리가 위태로울 것이다"고 경고했다. editor@itworld.co.kr 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.