2020.01.03

향후 10년 AI 투명성의 위험을 완화하는 방법

James Kobielus | InfoWorld
머신러닝의 동작 원리를 완전하게 이해하지 못한다면, 어떻게 신뢰할 수 있겠는가? 머신러닝 모델의 투명성을 높이면 더 나은 보안을 제공할 수 있지만, 그렇지 못하면 위험은 증가할 것이다.

기업이 머신러닝에 거는 기대가 크다. 하지만 AI의 심장이라고 할 수 있는 머신러닝은 또한 많은 기업의 법률 및 보안 전문가를 불편하게 만들기 시작했다.

AI를 둘러싼 가장 큰 걱정은 머신러닝 기반 모델이 흔히 “블랙박스”로 동작한다는 점이다. 이는 보통 인공 신경망으로 구성된 머신러닝 모델이 너무 복잡하고 불가사의해서 실제로 자동화된 추론을 어떻게 수행하는지 알 수 없다는 말이다. 이런 우려에 따르면, 머신러닝 기반 애플리케이션은 의도치 않게 자동화된 의사결정이 가져오는 어떤 편향되고 부정적인 영향에 대한 책임 소재를 불분명하게 만들 수 있다.

이런 위험을 완화하기 위해 전 세계가 머신러닝의 실행 방식뿐만 아니라 머신러닝 모델이 만들어지고 교육하고 배치하는 전체 워크플로우에 대한 투명성을 요구하기 시작했다. 설명 가능성(Explainability)으로 알려진 알고리즘의 투명성을 위한 혁신적인 프레임워크가 현직 데이터 과학자들 사이에서 채택되고 있다. 이런 프레임워크 중 대표적인 것이 LIME, 셰이플리(Shapley), 딥리프트(DeepLIFT), 스케이터(Skater), 왓이프 툴(What-If Tool), 액티베이션 아틀라시스(Activation Atlases), 인터프리트ML(InterpretML) 등이다. 

이 모든 툴과 기법은 데이터 과학자가 특정 데이터 입력이 다양한 환경에서 어떤 특정 알고리즘 추론을 끌어내는지, 이른바 포스트혹 설명(Post hoc Explanation, 먼저 있었던 사건을 이유로 드는 설명)을 생성하는 데 도움이 된다. 하지만 최근의 연구에 따르면, 이들 프레임워크도 해킹이 가능하다. 이로 인해 이들 툴이 생성하는 설명의 신뢰도가 하락하는 것은 물론, 기업은 다음과 같은 위험에 직면할 수 있다.

- 알고리즘을 속여 공식 기록에 침투할 수 있다. 파렴치한 집단이 머신러닝 모델에 잘못된 편향성을 주입할 목적으로 이들 프레임워크가 생성한 설명을 해킹할 수 있다. 다시 말해 LIME이나 셰이플리 같은 섭동 이론을 기반으로 한 접근법을 조작해 명백하게 편향된 알고리즘 행동에 대한 “악의없는” 포스트혹 설명을 생성할 수 있다.

- 의도치 않은 기술적 취약점이 드러날 수 있다. 머신러닝 알고리즘에 관한 정보를 노출하면 할수록 악의적인 공격에 더 취약해질 수 있다. 머신러닝 모델이 어떻게 동작하는지를 온전하게 보여주면, 해당 모델은 실제 운영 데이터에서 추론을 만들어내는 방식을 조작하거나 가짜 데이터를 학습 워크플로우에 주입해 오염시키려는 의도로 고안된 공격에 노출될 수 있다.

- 지적재산권 절취가 쉬워진다. 전체 머신러닝 알고리즘과 학습 데이터 세트를 설명만으로도 도둑맞을 수 있다. 머신러닝 모델의 동작 방식을 투명하게 설명하면, 권한없는 제3자 집단이 이를 이용해 높은 충실도로 기반 모델을 재구축할 수도 있다. 마찬가지로 학습 데이터 세트도 부분적으로 또는 전체적으로 재구축 가능해지는데, 이른바 모델 전도 공격(Model Inversion Attack)이다.

- 프라이버시 침해가 만연할 수 있다. 머신러닝의 투명성을 이용하면 권한없는 제3자 집단이 특정 개인의 데이터 기록이 해당 모델의 훈련용 데이터 세트에 포함되어 있는지 알아낼 수도 있다. 회원 추론 공격(Membership Inference Attack)이라고 알려진 이런 공격 기법으로 해커는 상당량의 민감한 프라이버시 데이터를 해제할 수 있다.

이런 알고리즘 투명성의 위험을 완화하기 위해서 기업 데이터 전문가는 다음과 같은 전략을 모색해야 한다.

- 모델 결과물에 대한 액세스를 제어하고 액세스 권한이 남용되는지 모니터링한다. 이를 통해 투명한 머신러닝 모델에 대한 적대적 공격이 진짜 위협으로 부상하기 전에 탐지할 수 있다.

- 제한적인 용량의 무작위 잡음, 즉 섭동(Purturbation)을 머신러닝 모델을 학습하는 데 사용하는 데이터에 추가한다. 이를 통해 적대적인 해커가 포스트혹 설명이나 모델 조작을 사용해 원시 데이터 자체에 대한 인사이트를 얻는 것을 어렵게 만들 수 있다.
 
- 원시 데이터와 최종 머신러닝 모델 사이에 중간 계층을 넣는다. 숙련가 모델(Student model)이나 연합 모델(Federated Model)처럼 분명히 구별된 영역의 소스 데이터로 자체 학습된 최종 모델을 학습하는 등의 방법을 이용할 수 있다. 이 방법은 권한 없는 제3자 집단이 최종 모델에 대해 생성된 포스트혹 설명에서 전체 학습 데이터를 복구하는 것을 어렵게 만든다.

이런 기술적 특성의 위험성에 더해 머신러닝 모델의 구축 및 학습 방식을 완전히 공개한 기업은 소송이나 규제 심사에 좀 더 노출될 가능성도 크다. 머신러닝의 투명성을 희생하지 않고 이런 폭넓은 비즈니스 위험을 완화하기 위해서는 데이터 과학 데브옵스 프랙티스가 자동으로 생성되는 포스트혹 설명 하에 있어야 한다.

또한 기업이 이들 설명의 이상을 지속적으로 모니터링하는 것도 중요하다. 이는 극히 중요한 우려사항인데, 만약 머신러닝 모델을 구축하고 학습한 기업이 모델의 투명성에 대한 공식 문서를 보증하지 못한다면, 전체 AI 체계에 대한 신뢰가 바닥에 떨어질 것이기 때문이다. editor@itworld.co.kr


2020.01.03

향후 10년 AI 투명성의 위험을 완화하는 방법

James Kobielus | InfoWorld
머신러닝의 동작 원리를 완전하게 이해하지 못한다면, 어떻게 신뢰할 수 있겠는가? 머신러닝 모델의 투명성을 높이면 더 나은 보안을 제공할 수 있지만, 그렇지 못하면 위험은 증가할 것이다.

기업이 머신러닝에 거는 기대가 크다. 하지만 AI의 심장이라고 할 수 있는 머신러닝은 또한 많은 기업의 법률 및 보안 전문가를 불편하게 만들기 시작했다.

AI를 둘러싼 가장 큰 걱정은 머신러닝 기반 모델이 흔히 “블랙박스”로 동작한다는 점이다. 이는 보통 인공 신경망으로 구성된 머신러닝 모델이 너무 복잡하고 불가사의해서 실제로 자동화된 추론을 어떻게 수행하는지 알 수 없다는 말이다. 이런 우려에 따르면, 머신러닝 기반 애플리케이션은 의도치 않게 자동화된 의사결정이 가져오는 어떤 편향되고 부정적인 영향에 대한 책임 소재를 불분명하게 만들 수 있다.

이런 위험을 완화하기 위해 전 세계가 머신러닝의 실행 방식뿐만 아니라 머신러닝 모델이 만들어지고 교육하고 배치하는 전체 워크플로우에 대한 투명성을 요구하기 시작했다. 설명 가능성(Explainability)으로 알려진 알고리즘의 투명성을 위한 혁신적인 프레임워크가 현직 데이터 과학자들 사이에서 채택되고 있다. 이런 프레임워크 중 대표적인 것이 LIME, 셰이플리(Shapley), 딥리프트(DeepLIFT), 스케이터(Skater), 왓이프 툴(What-If Tool), 액티베이션 아틀라시스(Activation Atlases), 인터프리트ML(InterpretML) 등이다. 

이 모든 툴과 기법은 데이터 과학자가 특정 데이터 입력이 다양한 환경에서 어떤 특정 알고리즘 추론을 끌어내는지, 이른바 포스트혹 설명(Post hoc Explanation, 먼저 있었던 사건을 이유로 드는 설명)을 생성하는 데 도움이 된다. 하지만 최근의 연구에 따르면, 이들 프레임워크도 해킹이 가능하다. 이로 인해 이들 툴이 생성하는 설명의 신뢰도가 하락하는 것은 물론, 기업은 다음과 같은 위험에 직면할 수 있다.

- 알고리즘을 속여 공식 기록에 침투할 수 있다. 파렴치한 집단이 머신러닝 모델에 잘못된 편향성을 주입할 목적으로 이들 프레임워크가 생성한 설명을 해킹할 수 있다. 다시 말해 LIME이나 셰이플리 같은 섭동 이론을 기반으로 한 접근법을 조작해 명백하게 편향된 알고리즘 행동에 대한 “악의없는” 포스트혹 설명을 생성할 수 있다.

- 의도치 않은 기술적 취약점이 드러날 수 있다. 머신러닝 알고리즘에 관한 정보를 노출하면 할수록 악의적인 공격에 더 취약해질 수 있다. 머신러닝 모델이 어떻게 동작하는지를 온전하게 보여주면, 해당 모델은 실제 운영 데이터에서 추론을 만들어내는 방식을 조작하거나 가짜 데이터를 학습 워크플로우에 주입해 오염시키려는 의도로 고안된 공격에 노출될 수 있다.

- 지적재산권 절취가 쉬워진다. 전체 머신러닝 알고리즘과 학습 데이터 세트를 설명만으로도 도둑맞을 수 있다. 머신러닝 모델의 동작 방식을 투명하게 설명하면, 권한없는 제3자 집단이 이를 이용해 높은 충실도로 기반 모델을 재구축할 수도 있다. 마찬가지로 학습 데이터 세트도 부분적으로 또는 전체적으로 재구축 가능해지는데, 이른바 모델 전도 공격(Model Inversion Attack)이다.

- 프라이버시 침해가 만연할 수 있다. 머신러닝의 투명성을 이용하면 권한없는 제3자 집단이 특정 개인의 데이터 기록이 해당 모델의 훈련용 데이터 세트에 포함되어 있는지 알아낼 수도 있다. 회원 추론 공격(Membership Inference Attack)이라고 알려진 이런 공격 기법으로 해커는 상당량의 민감한 프라이버시 데이터를 해제할 수 있다.

이런 알고리즘 투명성의 위험을 완화하기 위해서 기업 데이터 전문가는 다음과 같은 전략을 모색해야 한다.

- 모델 결과물에 대한 액세스를 제어하고 액세스 권한이 남용되는지 모니터링한다. 이를 통해 투명한 머신러닝 모델에 대한 적대적 공격이 진짜 위협으로 부상하기 전에 탐지할 수 있다.

- 제한적인 용량의 무작위 잡음, 즉 섭동(Purturbation)을 머신러닝 모델을 학습하는 데 사용하는 데이터에 추가한다. 이를 통해 적대적인 해커가 포스트혹 설명이나 모델 조작을 사용해 원시 데이터 자체에 대한 인사이트를 얻는 것을 어렵게 만들 수 있다.
 
- 원시 데이터와 최종 머신러닝 모델 사이에 중간 계층을 넣는다. 숙련가 모델(Student model)이나 연합 모델(Federated Model)처럼 분명히 구별된 영역의 소스 데이터로 자체 학습된 최종 모델을 학습하는 등의 방법을 이용할 수 있다. 이 방법은 권한 없는 제3자 집단이 최종 모델에 대해 생성된 포스트혹 설명에서 전체 학습 데이터를 복구하는 것을 어렵게 만든다.

이런 기술적 특성의 위험성에 더해 머신러닝 모델의 구축 및 학습 방식을 완전히 공개한 기업은 소송이나 규제 심사에 좀 더 노출될 가능성도 크다. 머신러닝의 투명성을 희생하지 않고 이런 폭넓은 비즈니스 위험을 완화하기 위해서는 데이터 과학 데브옵스 프랙티스가 자동으로 생성되는 포스트혹 설명 하에 있어야 한다.

또한 기업이 이들 설명의 이상을 지속적으로 모니터링하는 것도 중요하다. 이는 극히 중요한 우려사항인데, 만약 머신러닝 모델을 구축하고 학습한 기업이 모델의 투명성에 대한 공식 문서를 보증하지 못한다면, 전체 AI 체계에 대한 신뢰가 바닥에 떨어질 것이기 때문이다. editor@itworld.co.kr


X