인공지능(Artificial intelligence, AI)과 머신러닝(Machine Learning, ML)은 이전의 기술 발전과 마찬가지로 ‘취약점’과 ‘잘못된 구성’이 초래될 수 있으며, 동시에 고유의 위험도 존재한다. 기업이 AI에 기반을 둔 디지털 트랜스포메이션이라는 중요한 여정을 거치면서, 이런 위험이 과거 우리가 경험하지 못했던 수준으로 커질 가능성이 있다.
AI와 머신러닝은 다른 기술들보다 훨씬 더 많은 데이터, 훨씬 더 복잡한 데이터를 요구한다. 여기에 사용되는 알고리즘은 수학자와 데이터 과학자가 개발했으며, 연구 프로젝트에서 나온 것들이다. 한편 불륨(양)과 프로세싱에 필요한 요건 때문에 클라우드 플랫폼으로 워크로드를 처리해야 하는 경우가 일반적이다. 이로 인해 복잡성과 취약점이 가중된다.
많은 데이터 요구, 암호화되지 않은 데이터를 남긴다
AI와 머신러닝 시스템은 3가지 데이터 세트를 요구한다. 첫째, 기업이 예측 모델을 구축하기 위해 필요한 트레이닝 데이터다. 둘째, 모델이 얼마나 잘 작동하는지 파악하기 위해 필요한 테스팅 데이터다. 마지막은 모델을 가동할 때 사용하는 트랜젝션 데이터, 운영 데이터다.이로 인해 2가지 보안 문제를 초래한다. 첫 번째, 데이터 과학자가 수집하는 트레이닝 데이터는 통상 평문(cleartext) 형식이다. 익명화된 데이터, 토큰화 된 데이터를 사용하면 모델을 구축하기 더 힘들어진다. 데이터 과학자는 일반적으로 이런 종류의 데이터 보안 전문성을 갖고 있지 않다. 모델이 입증되어 운영에 사용되는 경우에도 여전히 평문 데이터를 받아들이게 될 것이다.
이는 중대한 보안 위험이다. 엣지와이즈 네트워크(Edgewise Networks)는 처음부터 모든 데이터를 암호화하기 위해 많은 투자를 했다. 엣지와이즈의 최고 데이터 과학자 존 오닐은 "우리는 시작부터 투자를 해야 한다는 사실을 알았다. 클라우드에 개인 식별 정보(Personally Identifiable Information, PII)를 유출하는 사이버보안 업체가 되고 싶지 않았기 때문이다. 우리는 고객들의 네트워크 정보를 받는다. 시작부터 저장 정보를 암호화하기로 결정했다"고 설명했다.
두 번째 보안 위험은 명백히 가치가 없는 데이터다. 실제, 실시간 트랜잭션 데이터나 운영 데이터는 분명히 가치있는 기업 자산이며, 따라서 기업이 이를 보호하려 노력한다. 그러나 트레이닝 및 테스트 데이터에도 민감한 정보가 포함되어 있는데, 이를 간과하기 쉽다.
여기에 그치지 않고, 상황이 더 나빠진다. AI 시스템에 단순히 더 많은 데이터만 필요한 것이 아니다. 여러 다양한 종류의 데이터, 맥락화 된 데이터, 기타 기업의 노출 위험을 크게 확대시킬 수 있는 종류의 데이터를 요구한다.
예를 들어, 보험회사가 고객의 운전 습관을 더 효과적으로 처리하기 원할 수 있다. 현재 시장에서 쇼핑과 운전, 위치 등 다양한 종류의 데이터를 구입할 수 있다. 쉽게 상관관계를 파악, 고객에 대해 대조할 수 있다. 이런 새로운 데이터 세트들은 처음 시작했던 데이터보다 훨씬 더 가치가 있으며, 해커에게도 훨씬 더 매력적이다. 따라서 침해를 당할 경우, 기업 평판에 더 큰 피해를 줄 수 있다.
온라인 파일 공유 플랫폼인 박스(Box)는 보호해야 할 데이터가 아주 많은 업체 가운데 하나다. 박스는 메타데이터 추출, 검색 및 분류, 기타 기능 향상에 AI를 활용하고 있다. 박스의 라크슈미 한스팔 CISO는 “예를 들어, 계약서에서 계약 기간, 계약 갱신, 가격에 대한 정보를 추출할 수 있다. 과거 사용자가 정의한 분류 기준에 따라 콘텐츠를 분류했거나, 이를 아예 무시했던 고객들이 대부분이다. 이런 고객들은 사람의 개입 없이 자동으로 콘텐츠를 분류할 수 있다면, 디지털 트랜스포메이션에 아주 유용하게 사용될 수 있는 수 많은 데이터를 보유하고 있다”고 말했다.
박스가 중시하고 있는 것 중 하나가 데이터 보호다. 트레이닝 데이터를 포함, AI 시스템에도 동일한 데이터 보호 기준을 적용하고 있다. 한스팔은 “우리는 박스가 신뢰를 구축하고, 신뢰를 판매하고, 신뢰를 유지하는 그런 회사라고 생각한다. 우리는 파트너와 고객에게 제공하는 상품과 서비스의 표면이 아닌, 내부에 이런 요구들을 통합시켜 제공해야 한다고 믿고 있다”고 말했다.
새로운 AI 기반 프로젝트를 포함 모든 시스템에 핵심 데이터 보안 원칙을 적용하고 있다. 암호화, 로그 기록, 모니터링, 인증 및 액세스 제어 등이 여기에 포함된다. 한스팔은 “우리 플랫폼에는 디지털 신뢰가 내재되어 있으며, 우리는 이를 운영할 수 있도록 만들고 있다”고 말했다.
알고리즘이 하는 일은
박스는 전통적인 코드, 새로운 AI 및 머신러닝 기반 시스템 모두를 대상으로 안전한 개발 프로세스를 수립해 적용하고 있다. 한스팔은 “안전한 상품 개발에 대한 ISO 산업 표준을 준수하고 있다. 시작부터 ‘보안 내재화(Security by Design)’ 원칙을 적용하고 있으며, 침입 테스트와 ‘레드 팀’ 테스트 등 점검과 평가 프로세스도 적용하고 있다. 이는 표준 프로세스이며, AI와 머신러닝 프로젝트도 예외가 아니다”고 말했다.모든 회사가 이렇게 하고 있는 것은 아니다. 딜로이트 컨설팅 최고 클라우드 전략 책임자인 데이빗 린치컴에 따르면, 현재 시작부터 올바르게 보안을 적용하고 있는 기업들은 1/4에 불과하다. 나머지 75%는 나중에 보안을 추가한다. 린치컴은 "그렇게 할 수도 있다. 그러나 ‘시스템’ 측면에서 구현할 때보다 1.5배 이상의 많은 노력이 투입된다. 또 시스템에 보안을 고안해 반영하는 방식(보안 내재화)만큼 보안이 견고하지 않을 것이다”고 말했다.
AI와 머신러닝 알고리즘은 오래 전 연구실에서 만들어졌다. 수학자와 데이터 과학자는 일반적으로 코드를 만들 때 잠재적인 취약점을 신경쓰지 않는다. 기업은 AI 시스템을 구축하면서 가용한 오픈소스 알고리즘을 최대한 활용하고, 상용 ‘블랙박스’ AI 시스템을 사용한다. 또는 처음부터 독자적인 시스템을 구축할 수도 있다.
오픈소스 코드의 경우, 공격자가 악성코드를 심어 두거나, 코드 자체에 취약점이나 취약한 종속성이 포함되어 있을 가능성이 있다. 사유 상용 시스템도 이런 오픈소스 코드와 함께, 기업 고객들이 일반적으로 확인할 수 없는 새로운 코드를 사용할 것이다.
기업이 박사 학위를 가진 전문가를 채용해 독자적으로 AI와 머신러닝 시스템을 만드는 경우에도, 오픈소스 라이브러리와 함께 보안 엔지니어가 아닌 사람들이 새로 개발한 코드를 결합해 사용하는 경우가 대부분이다.
여기에 더해, 안전한 AI 알고리즘을 만들기 위해 적용할 수 있는 기준이 되는 베스트 프랙티스가 없다. 그리고 보안 전문가와 데이터 과학자는 부족하고, 둘 모두에 전문성을 가진 사람은 더 부족한 실정이다.
엑사빔(Exabeam)의 제품 및 연구 담당 VP인 아누 야무난에 따르면, 이 회사는 기업 고객들의 로그 데이터에 존재할 수도 있는 사이버보안 위협을 감지하는 데 머신러닝 모델을 사용한다. 이 회사가 사용하는 알고리즘에는 독자 개발한 요소와 기성품 요소가 모두 포함되어 있다. 야무난은 “이런 도구들에 취약점이 없도록 만전을 기하고 싶다”고 말했다. 이를 위해 취약점을 스캔하고, 서드파티 침입 테스트를 실시한다.
알고리즘, 그 이상의 보안이 필요
알고리즘을 안전하게 만든다고 AI와 머신러닝 시스템이 안전해지는 것은 아니다. 그 이상이 요구된다. AI 시스템은 단순한 자연어 처리 엔진, 단순한 분류 알고리즘, 신경망이 아니다. 이런 부분들이 완벽하게 완전한 경우에도, 시스템이 사용자, 백엔드 플랫폼과 상호작용을 해야 한다는 점을 고려해야 한다.사용자 인터페이스가 주입 공격에 대해 견고한가? 시스템에 강력한 인증과 ‘최소 권한’ 원칙을 사용하고 있는가? 백엔드 데이터베이스 연결이 안전한가? 서드파티 데이터 소스에 대한 연결은?
현명한 기업은 시작부터 보안을 적용하고, 정적, 동적으로 코드를 검토하고, 다른 테스트를 실시하는 소프트웨어 개발 프로세스를 수립해 활용할 것이다. 그러나 AI 시스템에 이런 프로세스를 적용하지 않는 경우가 많다. 연구소나 파일럿 프로젝트에서 이런 단계들이 생략된다. 엑사빔의 야무난은 “데이터 과학자는 머신러닝 문제에 접근하는 방식을 능숙히 파악한다. 그러나 이들은 보안 전문가가 아니다. 보안 전문가와 데이터 과학자가 한 자리에서 프로젝트에 대해 협력하도록 만드는 것이 중요하다”고 강조했다.
사이버보안 업체인 버트루(Virtru)의 제품 관리 담당 VP인 로브 맥도널드는 AI와 머신러닝 개발에 정보 보안 베스트 프랙티스 프레임워크를 적용해야 한다고 말했다. 맥도널드는 “이런 프로세스에도 보안을 포함시켜야 한다. 그렇지 않으면 문제에 직면하게 될 것이다. 보안을 관리 감독했다면, 디자인 프로세스를 시작할 때 해결할 수 있었을 그런 문제들이다”고 말했다.
편향을 초래할 수 있는 AI 알고리즘
AI와 머신러닝 시스템을 사용자 행동 분석, 네트워크 트래픽 모니터링, 데이터 유출 감시 및 확인 등 엔터프라이즈 보안에 사용할 경우, ‘편향(bias)’이라는 또 다른 문제가 발생할 수 있다.기업이 사용하는 알고리즘들이 이미 윤리적인 문제를 일으키고 있다. 여성이나 소수계를 차별하는 채용 플랫폼, 안면 인식 시스템을 예로 들 수 있다. 알고리즘이 편향된 경우 규정 준수와 관련된 문제를 초래할 수 있다. 자율주행 자동차나 의료용 애플리케이션의 경우 사람을 죽일 수도 있다.
딜로이트의 린치컴에 따르면, 편향된 알고리즘은 기업의 보안 태세를 약화시킬 수도 있다. 이 문제를 해결하기 위해서는 트레이닝 데이터, 처음 트레이닝을 한 후 지속적인 테스트와 검증에 각별히 주의를 기울여야 한다.
기업이 외부 공급업체의 AI 및 머신러닝 기반 보안 시스템을 사용할 경우 ‘모르는 부분’이 많은 문제다. 린치컴은 “직접 만든 모델이 아니라면, 자신이 모르는 문제들이 아주 많을 수 있다. 따라서 모든 것을 감사하고, 모든 것을 이해하고 파악해야 한다. 사전에 구성된 시스템을 사용하는 경우, 확실히 입증이 될 때까지 의구심을 갖고 접근해야 한다”고 강조했다.
결과물을 사이버보안 관련 대응에 대한 우선순위를 정하는 데 사용할 경우, 더 나아가 이런 대응을 자동화할 때 더욱 중요하게 생각해야 하는 접근법이다. 린치컴은 "피해 초래에 있어, ‘전력 승수’를 갖고 있다는 의미다”고 덧붙였다.
실수나 우연 때문에 이런 편향이 초래될 수 있다. 또는 해커가 이런 편향을 유발할 수도 있다. 클라우드 보안 공급업체인 디비클라우드(DivvyCloud)를 공동 창업한 브라이언 존슨 CEO는 “공격자가 알고리즘을 조작하기 위해 가짜 트레이닝 데이터를 주입하지 않았다는 것을 어떻게 알 수 있는가? 나쁜 것들에 눈길을 돌리지 않도록 알고리즘을 다시 트레이닝 할 수 있다. 그러나 머신러닝에 대해 조사를 하지 않는다면, 이런 것들을 모를 수 있다"고 말했다.
시퀀스 시큐리티(Cequence Security)를 공동 창업한 아메야 탈워커 최고 제품 책임자에 따르면, 아직은 공격자가 AI 트레이닝 데이터를 의도적으로 조작한 알려진 사례가 없다. 탈워커는 “의도적으로 조작할 경우, 자율주행 자동차 등에서 사람의 생명을 뺏는 사고가 발생할 수 있다. 이는 중요하게 접근해 다뤄야 할 위협이다”고 말했다.
암울한 AI의 미래
AI 및 머신러닝 시스템은 필요할 때 확장을 할 수 있는 강력한 프로세스, 복잡한 알고리즘, 많은 데이터를 필요로 한다. 수많은 클라우드 공급업체 가운데 단일 장소에서 모든 것을 제공하는 데이터 분석 플랫폼을 제공하는 업체는 단 한 곳도 없다. 이런 이유로 데이터 과학자는 IT가 자신을 위해 서버를 프로비저닝하는 것을 기다리지 않는다. 온라인에서 양식 몇 개를 작성한 후, 그 즉시 자신이 할 일을 시작한다.사이버보안 업체인 프로테그리티(Protegrity) CEO 수니 문샤니는 “AI 시스템과 전략을 사용하고, 워크로드를 클라우드로 옮기는 비즈니스 부서를 통제하지 못하는 많은 CSO와 CISO가 여기에 초점을 맞춰야 하는 상황이다. 공격적으로 프로젝트를 추진하는 무법자들이 많다. 그러나 이를 제대로 통제하지 못한다. 현재 기업의 통제는 ‘환상’에 머물고 있는 실정이다”고 지적했다.
클라우드 공급업체는 견고한 보안을 약속하며, 비전문가의 눈에는 모든 것이 좋아 보인다. 화이트햇 시큐리티의 보안 연구원인 브라이언 베커에 따르면, 일반적으로 클라우드 시스템의 보안이 직접 만든 온프레미스 시스템보다 견고하다.
그러나 최근 아마존 S3 버킷 노출 사고에서 드러났듯, 시스템 구성이 까다롭다. 캐피탈원 같은 회사조차 아마존 웹 애플리케이션 방화벽 구성에 문제를 겪었다. 베커는 “안전한 인프라이지만, 안전하게 구성을 하지 못할 수 있다. 이는 가장 큰 보안 문제 중 하나이다”고 말했다.
이런 프로젝트가 운영 시스템으로 전환되고, 추후 확장이 되면서 구성 문제가 더 악화된다. 최신 서비스에 중앙화 및 자동화된 구성, 보안 관리 대시보드가 존재하지 않을 수도 있다. 이 경우, 기업이 직접 이 문제를 해결하거나, 공급업체가 이 문제를 해결할 때까지 기다려야 한다.
딜로이트의 린치컴에 따르면, 지금은 변화가 진행되고 있는 시기다. 서드파티 공급업체가 이를 해결할 방법을 내어놓기까지 몇 년이 소요될 수 있다. 그 전까지는 기업 스스로 해결해야 한다. 린치컴은 “AI 같은 새로운 기술을 도입하는 경우, 자신이 보안을 제공하고, 여기에 대해 책임을 져야한다. 미흡한 부분이 존재할 것이다. 그러나 AI 플랫폼 공급업체들은 자신의 소프트웨어를 업데이트할 때마다 보안을 더 견고하게 만들고 있다고 판단한다. 과거의 실수에서 학습을 하고 있는 것이다”고 말했다. editor@itworld.co.kr