“ChatGPT를 회사에서 사용해 봤다”
8.2
%
자료 제목 :
직원 3.1%가 민감한 기업정보를 ChatGPT에 입력했다
3.1% of workers have pasted confidential company data into ChatGPT
자료 출처 :
Cyberhaven
원본자료 다운로드
발행 날짜 :
2023년 02월 28일
보안

기업 민감 데이터를 ChatGPT에 입력해도 될까

Michael Hill | CSO 2023.03.27
오픈AI의 챗봇인 챗GPT의 잠재력과 유용성이 계속 대서특필되고 있다. 하지만 보안 분야는 민감한 비즈니스 데이터를 챗GPT에 입력하면 조직들이 위험에 처할지 여부에 관한 문제에 주목하고 있다. 
 
Image Credit : Getty Images Bank

3월 22일 오픈AI의 샘 알트먼 CEO는 일부 사용자의 대화 제목이 누출되는 챗GPT 결함에 대한 보도 내용을 인정했다. 3월 20일 일부 사용자들에게 챗봇과 나누지 않은 대화가 기록에 나타났던 것이다. 알트먼은 해당 사건에 대해 회사 측이 심각하게 판단했다면서 심각한 오류는 수정됐다고 전했다. 알트먼은 “오픈소스 라이브러리의 버그로 인해 챗GPT에 심각한 문제가 발생했다. 현재 수정이 완료되어 검증을 막 마쳤다”라고 말했다. 

실적 보고서, 내부 발표 자료, 판매 수치 등 민감한 정보를 챗GPT에 입력한 후 관련 텍스트를 작성하도록 요구한다면, 추후 외부자가 관련 내용을 챗GPT에게 문의하는 것만으로 해당 회사에 대한 정보를 입수할 수 있을까?

만약 그렇다면 파장이 클 수 있기에 따져봐야 할 문제다. 예를 들어, 이사회 논의용으로 작성 중인 내부 발표자료에 회사의 문제점을 드러내는 새로운 데이터가 포함되어 있다고 가정해본다. 회사의 그런 기밀 정보가 외부에 유출되면 주가, 소비자 태도, 고객 신뢰에 부정적인 영향을 미칠 수 있다. 유출된 이사회 논의 안건이 법적 사안이라면 회사가 책임을 질 소지도 있다. 단순히 챗봇에 정보를 입력하는 것만으로 이런 일들이 발생할 수 있을까?

연구 업체 사이버헤이븐(Cyberhaven)은 올해 2월, 그 개념에 대한 분석을 실시했다. 사람들이 챗GPT에 데이터를 입력할 때, 오픈 AI가 이런 입력 내용을 챗GPT 개선을 위한 훈련 데이터로 사용하는지를 집중적으로 분석했다. 사이버헤이븐은 분석 결과 챗GPT에 입력된 기밀 자료가 그 제3자에게 공개될 가능성이 있다고 주장했다.
 

과연 챗GPT는 사용자가 입력한 데이터를 저장할까?

영국 국립사이버보안센터(NCSC)는 올해 3월, 이 문제를 더욱 상세하게 다룬 게시물을 공개했다. 이 게시물에서 NSCS는 현재 챗GPT를 비롯한 대규모 언어 모델(LLM)들이 질문에 포함된 개인적인 정보 등을 자동으로 반영하지는 않으며, 이에 따라 다른 사람들이 질문을 통해 알아낼 가능성은 없다면서도 “질문 내용이 LLM 제공 주체(챗GPT의 경우에는 오픈AI)에게는 보인다”라고 밝혔다.

NCSC 게시물에는 “질문 내용은 저장되며 언젠가는 LLM 서비스 또는 모델 개발에 사용될 것이 거의 확실하다. 이는 LLM 제공업체(또는 그 협력업체/도급업체)가 질문 내용을 읽을 수 있고 향후 버전에 어떻게 하든 반영할 수 있다는 의미다”라고 덧붙였다. 

또한, 온라인에 저장된 질문이 해킹되고 유출되거나 뜻하지 않게 일반에 공개될 가능성도 있으며 이런 위험성은 LLM을 만들고 사용하는 조직이 많아질수록 커진다고 경고했다. 결국, 챗GPT에 입력되고 챗GPT가 사용하는 민감한 비즈니스 데이터에 대한 우려는 충분히 현실성이 있다. 단, 이런 위험이 일부 언론의 보도 내용처럼 심각하게 만연한 상태는 아니다.
 

민감한 데이터를 챗GPT에 입력할 때 발생 가능한 위험

LLM은 세션 중에 입력되는 내용을 학습하여 그 맥락에 맞게 작업을 수행하는 ‘맥락 학습’이라는 새로운 동작 유형을 갖추고 있다. 위드시큐어(WithSecure) 선임 연구원 앤디 파텔은 CSO측에게 “정보 유출을 우려하는 사람들이 바로 이런 현상을 지적한다. 단 한 사용자의 세션에서 나온 정보가 다른 사용자의 세션으로 유출되는 것은 불가능하다. 또 다른 우려사항은 챗GPT 인터페이스에 입력된 프롬프트가 수집되어 향후 훈련 데이터에 사용될 가능성이다”라고 말했다.

파텔은 챗봇에 입력된 민감한 정보가 출력될 가능성을 우려할 만하지만, 감안할 측면이 있다고 언급했다. 새로운 모델이 그 데이터를 반영하려면 훈련을 받아야 하는데 LLM 모델 훈련 과정은 비용과 시간이 많이 든다는 설명이다. 

파텔은 사용자 입력 데이터를 이용해 챗GPT의 모델 훈련이 이뤄진다면 놀라울 것이라고 말했다. 그는 “새로운 모델 제작이 현실화된다면, 훈련 데이터 내에 있던 신용카드 번호나 개인정보를 노출시킬 가능성이 있는 이른바 ‘멤버십 유추(membership inference)’ 공격을 우려해야 한다. 그러나, 아직까지 챗GPT를 비롯한 기타 유사 시스템을 구동하는 LLM을 대상으로 한 멤버십 유추 공격은 확인된 바 없다”라고 말했다. 즉, 향후 모델이 멤버십 유추 공격을 받을 가능성은 지극히 낮다. 단, 파텔은 저장된 프롬프트가 들어 있는 데이터베이스가 해킹되거나 유출될 가능성은 있다고 인정했다.
 

서드파티 AI 연동으로 인한 데이터 노출의 가능성

오렌지 사이버디펜스(Orange Cyberdefense) 선임 보안 연구원 위커스 로스는 외부 벤더 중에서 개인정보보호 정책을 명시하지 않는 업체에서 문제가 발생할 가능성이 높으므로, 아무리 안전한 도구와 플랫폼이 있더라도 그런 업체를 이용하면 개인적인 정보가 위험에 처할 수 있다고 경고했다. 

그는 “슬랙(Slack), 마이크로소프트 팀즈(Microsoft Teams)와 같은 SaaS 플랫폼은 어떤 데이터를 접근하고 처리 가능한지에 대한 명확한 경계가 있다. 따라서 제3자에게 데이터가 노출될 위험성이 낮다. 그러나, 서비스 강화를 위해 도입되는 서드파티 애드온이나 봇은 AI 연동 여부와 관계없이 사용자와 상호 작용이 필요하므로 그런 명확한 경계가 곧 흐려질 가능성이 있다. 또한, 서드파티 데이터 처리업체가 정보가 유출되지 않는다고 보장하는 명확하고 구체적으로 명시된 문서가 없다면 정보는 이미 유출된 것이나 다름없다고 봐야 한다고”라고 강조했다.

기업은 일반 사용자가 민감한 정보를 공유하는 위험성 이외에도 프롬프트 주입 공격에 주의해야 한다. 프롬프트 주입 공격은 개발자가 AI 도구를 정비할 때 제공한 예전 지시사항을 공개하거나 예전에 프로그래밍 된 명령을 무시하게 할 수 있다. 

넷스코프(Netskope) 유럽/중동/아프리카 담당 CISO 닐 태커는 “최근의 예를 들면, 트위터로 장난치는 사람들이 봇의 행동을 바꾼 사례가 있다. 또 마이크로소프트에서 작성했지만 공개되어서는 곤란한 예전 지시사항을 챗GPT로 공개하는 방법이 알려지면서 불거진 빙 챗(Bing Chat) 문제가 있다”라고 설명했다.
 

챗GPT에 제출되는 내용을 통제할 것

사이버헤이븐에 따르면, 직원들이 챗GPT에 붙여 넣는 내용 가운데 민감한 정보가 11%를 차지한다. 또 회사의 민감한 정보가 챗GPT에 유출되는 횟수는 매주 평균 수백 번에 달한다. 태커는 “챗GPT는 이제 단순한 화젯거리가 아니다. 많은 기업이 다른 머신러닝(ML)/인공지능(AI) 기반 도구와 함께 전사적으로 활용하기 위한 실험 단계에 진입했다. 특히 기밀 정보 공유에 있어서는 주의가 필요하다”라고 말했다. 그는 이어 “데이터 소유권 측면과 데이터 호스팅 조직이 해킹될 경우 미칠 잠재적인 영향을 고려해야 한다. 먼저 간단하게 보안 전문가들은 최소한 이런 서비스가 해킹될 경우에 접근 가능하게 될 데이터의 범주를 파악하는 일부터 해야 한다”라고 말했다.

결국, 조직 사용자가 챗GPT에게 공개 가능한 정보와 그렇지 않은 정보를 충분히 인지하도록 조치하는 것은 회사의 책임이다. NCSC는 “입력할 데이터를 신중하게 선택해야 한다. 또 LLM 실험을 허용하되 조직 데이터가 위험해지지 않는 방식으로 하도록 조치해야 한다”라고 강조했다.
 

챗봇의 잠재적인 위험성에 대해 직원들에게 경고할 것

사이버헤이븐은 그러나 직원들이 챗GPT에 제출하는 데이터를 파악하고 통제하는 일이 만만치 않다고 경고했다. “직원들은 회사 데이터를 챗GPT에 입력할 때 파일을 업로드하지 않고 내용을 복사해 웹 브라우저에 붙여 넣는다. 보안 제품은 (기밀 자료라고 표시된) 파일의 업로드를 막는 것에 치중하는 것이 많다. 복사된 내용이 유출되면 추적할 수 없다”라는 지적이다.

더구나, 챗GPT에 입력되는 회사 데이터에는 신용카드 번호나 주민등록번호 등 보안 도구로 식별되는 패턴이 없을 때가 많다. 문맥에 대한 정보가 부족한 오늘날의 보안 도구는 누군가가 입력하는 내용이 구내식당 메뉴인지 회사의 M&A 계획인지 구분하지 못한다고 사이버헤이븐은 덧붙였다.

태커는 가시성 개선을 위해 조직들이 AI 도구의 사용을 파악하기 위한 정책을 보안웹게이트웨이(SWG)에 실행해야 하며 AI 도구에 제출되는 데이터를 파악하기 위한 데이터손실방지(DLP) 정책을 적용할 수도 있다고 말했다. 즉 조직들은 기밀 데이터 처리에 적합한 애플리케이션들이 잘 문서화되도록 정보보호정책을 업데이트해야 한다. 잼프(Jamf) 포트폴리오 전략 담당 VP 마이클 코빙턴은 “문서화가 잘 되어 있고 충분한 정보를 바탕으로 수립된 정책이 그런 정보 흐름 통제의 시작점이다”라고 말했다.

그는 이어 “아울러 신중하게 이런 새로운 기술을 비즈니스 개선에 활용할 수 있는 방법을 탐구해야 한다. 두렵고 불확실하다는 이유로 이런 서비스를 피하지 말고, 전담 직원을 배치해 잠재력을 보여주는 새로운 도구들을 탐색해야 한다. 그래야 위험을 조기에 이해할 수 있고 최종 사용자가 얼리 어답터로서 새로운 도구를 사용하고자 할 때 적절한 보호 장치를 갖출 수 있다”라고 강조했다.
ciokr@idg.co.kr

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.