AIㆍML / 보안 / 클라우드

글로벌 칼럼 | 보안, 프라이버시, 그리고 생성형 AI

Jeff Schwartzentruber | InfoWorld 2023.11.14
많은 서드파티 제품 및 애플리케이션에 대규모 언어 모델을 통합하면 알려지지 않은 보안 및 개인정보 보호 위험이 많이 발생한다. 이런 위험에 대한 해결책이 마련되어 있어야 한다.

오픈AI의 GPT-4, 메타의 Llama 2, 구글의 PaLM 2 같은 대규모 언어 모델(LLM)이 확산된 이후, 사이버 보안을 포함한 거의 모든 산업에서 생성형 AI 애플리케이션이 폭발적으로 증가했다. 그러나 대다수의 LLM 애플리케이션에서 개인정보 보호 및 데이터 보존은 생성형 AI의 적용 범위를 제한하는 주요 우려사항이다. 최악의 경우, 기업은 관련 보안 위험을 이해하지 못한 채 자신도 모르게 개인식별정보(PII)를 조직의 통제 밖에 있는 챗GPT 같은 서비스로 전송하게 된다.
 
ⓒ Getty Images Bank

비슷한 맥락에서 모든 기본 모델이 똑같은 것은 아니다. 이들 모델의 결과가 항상 사실과 일치하지 않을 수 있으며, 다양한 기술적 요인에 따라 결과는 달라질 수 있다. LLM 사용자는 서비스 업체가 개인정보 보호, 데이터 보존 및 보안을 준수하면서 원하는 사용례에 가장 적합한 모델을 사용하고 있는지 어떻게 검증할 수 있을까?

여기서는 우려사항을 해결하고 시간이 지날수록 기업이 LLM 모델을 사용하고 관리하는 방법을 더 잘 평가하는 방법을 알아본다.
 

독점 LLM vs. 오픈소스 LLM

논의를 시작하기 전에 LLM 서비스의 구현 및 운영에 대한 몇 가지 기술적 배경을 살펴보자. 넓은 의미에서 LLM에는 독점 모델과 오픈소스 모델의 두 가지 부류가 있다. 독점 LLM의 예로는 오픈AI의 GPT-3.5 및 GPT-4와 바드의 기반이 되는 구글의 PaLM 2가 있다. 이들 모델은 인터넷용 API 또는 채팅 애플리케이션을 통해 액세스한다. 

두 번째 부류는 오픈소스 모델이다. 인기 공개 모델 저장소인 허깅 페이스(Hugging Face)에서 호스팅되는 모델이나 메타가 오픈소스로 공개한 라마2(Llama 2)가 대표적인 예이다. 현재 많은 상용 애플리케이션에서 최신 오픈소스 모델인 라마 2를 사용하고 있으므로 오픈소스 LLM을 사용하는 모든 상용 서비스는 일부 변형을 실행해야 한다는 점에 유의해야 한다.

오픈소스 모델의 가장 큰 장점은 온프레미스, 전용 하드웨어 또는 프라이빗 매니지드 클라우드 환경 등 기업 소유 인프라에서 호스팅할 수 있다는 점이다. 따라서 모델 사용 방식을 완벽하게 제어할 수 있으며 데이터가 도메인과 기업의 통제 범위 내에 유지되도록 보장한다. 이런 오픈소스 모델은 현재 최신 GPT-4 및 PaLM 2 모델에 비해 성능이 다소 떨어질 수 있지만, 그 격차는 빠르게 좁혀지고 있다.

생성형 AI의 가능성에 대한 기대가 크지만, 이 기술은 간과하기 쉬운 보안 우려사항이 있다. 현재 AI에 특화된 이들 기술을 관리하거나 감사할 수 있는 강력한 규제 또는 컴플라이언스 표준이 없다는 것이다. 현재 캐나다의 인공지능 및 데이터법(AIDA), 유럽연합의 인공지능법, 미국의 인공지능 권리장전 청사진, 그리고 NIST, SEC, FTC를 통해 개발 중인 기타 틈새 표준 등 많은 입법안이 준비 중이다. 그러나 이런 초기 가이드라인에도 불구하고 현재 규제 집행이나 감독은 거의 이루어지지 않고 있다.

따라서 개발자는 머신러닝 배치와 관련해 기존의 베스트 프랙티스를 따라야 할 책임이 있으며, 사용자는 AI 공급망에 대해 적절한 실사를 수행해야 한다. 독점 모델과 오픈소스 모델, 성능/정확성 고려 사항, 규제 감독 부재라는 세 가지 측면을 염두에 둔다면, 제품에 LLM을 활용하는 솔루션 업체에 두 가지 주요 질문을 던져야 한다. 사용 중인 기본 모델은 무엇이며, 어디에서 호스팅되고 있는가?
 

LLM의 보안 및 개인정보 보호

첫 번째 질문부터 해결해 보자. 독점 모델을 사용한다면, 일반적으로 GPT-3.5 또는 GPT-4가 답일 것이다. 솔루션 업체가 오픈소스 모델을 사용하는 경우, 라마2의 변형 버전일 것으로 예상할 수 있다.

솔루션 업체가 GPT-3.5 또는 GPT-4 모델을 사용하는 경우, 몇 가지 데이터 개인정보 보호 및 레지던시 문제를 해결해야 한다. 예를 들어, 오픈AI API를 사용하는 경우 입력된 모든 데이터가 오픈AI로 전송되고, 오픈AI는 이를 수집해 모델을 재학습하는 데 사용할 것으로 예상할 수 있다. PII가 전송되는 경우, 이는 많은 데이터 거버넌스, 위험 및 컴플라이언스 정책을 위반하게 되므로 많은 사용례에서 오픈AI API를 사용할 수 없게 된다. 반대로, 생성형 AI 서비스 업체나 애플리케이션이 애저 오픈AI 서비스를 사용하는 경우 오픈AI에서 데이터를 공유하거나 저장하지 않는다.

PII 유출 위험을 완화하기 위해 독점 엔드포인트로 전송되기 전에 PII의 LLM 프롬프트를 지울 수 있는 몇 가지 기술이 있다. 그러나 PII 삭제(Scrubbing)는 100% 확실하게 검증하기는 어렵다. 따라서 기업이 자체 호스팅하는 오픈소스 모델은 독점 모델에 비해 GRC 위반에 대해 훨씬 더 강력한 보호 기능을 제공한다.

그러나 오픈소스 모델을 배치하는 기업은 위협 행위자로부터 데이터와 모델을 보호하기 위해 엄격한 보안 제어가 마련되어 있는지 확인해야 한다. API 호출에 대한 암호화, 데이터 보존 제어, 데이터 세트에 대한 역할 기반 액세스 제어 등이 대표적이다. 따라서 개인 정보 보호가 문제가 되지 않는다면 일반적으로 비용, 지연 시간, 응답의 정확성 때문에 독점 모델을 사용하는 것이 좋다.

AI 배치 환경 내에서 인사이트의 수준을 확장하기 위해 LLM 게이트웨이를 사용할 수도 있다. 사용자 기업이 LLM으로 전송된 요청의 실시간 로깅 및 유효성 검사를 수행하고 개별 사용자에게 공유 및 반환되는 모든 데이터를 추적할 수 있는 API 프록시다. LLM 게이트웨이는 요청을 모니터링하고 많은 경우 LLM과 관련된 보안 문제를 해결함으로써 PII 위반에 대한 안정장치를 추가할 수 있는 제어 지점을 제공한다. 아직 개발 중인 영역이지만, '설계부터 안전한' AI 시스템을 구축하려면 꼭 필요한 기능이다.
 

LLM의 정확성과 일관성 보장하기

이제 모델 성능 또는 정확도에 대해 알아보자. LLM은 인터넷에서 긁어모은 방대한 양의 데이터로 학습된다. 이런 데이터 세트에는 CommonCrawl, WebText, C4, CoDEx, BookCorpus 등이 있다. 이런 기본 데이터는 LLM이 이해할 수 있는 세상을 구성한다. 만약 모델이 매우 특정한 종류의 데이터에 대해서만 학습되면 시야가 매우 좁아지고 해당 도메인 외부의 질문에 답하는 데 어려움을 겪는다. 그 결과 무의미하거나 명백히 잘못된 응답을 제공하는 AI 환각(AI Hallucination)에 빠지기 쉬운 시스템이 되고 만다.

LLM이 탁월한 성능을 발휘해야 하는 많은 애플리케이션에서 잘못된 응답을 제공하면, 심각한 결과를 초래할 수 있다. 다행히도 주류 LLM은 대부분 수많은 데이터 소스를 통해 학습되어 다양한 주제에 대해 어느 정도 충실하게 답변할 수 있다. 하지만 의학, 학계, 사이버 보안과 같이 데이터가 상대적으로 부족한 전문 영역에 대한 지식은 일반적으로 부족하다. 따라서 LLM 기본 모델은 ‘미세 조정’이라는 프로세스를 통해 더욱 세분화된다.

미세 조정을 통해 기본 모델을 원하는 도메인에 더 잘 맞출 수 있다. 최근 오픈AI도 오픈소스 모델과 경쟁하기 위해 미세 조정 기능을 발표할 정도로 중요한 이점이 됐다. 이런 고려 사항을 염두에 두고 최소한의 오류로 최상의 결과를 얻고자 하는 LLM 사용자는 최적의 사용과 적용 가능성을 보장하기 위해 LLM이 어떤 데이터로 학습 또는 미세 조정됐는지 알아야 한다.

예를 들어, 사이버 보안은 이런 기본 모델을 학습하는 데 사용되는 기본 데이터에서 잘 드러나지 않는 도메인입니다. 따라서 사이버 데이터와 사이버 보안을 논의할 때 이런 모델이 편향되어 더 많은 허위 또는 잘못된 응답을 생성할 수 있다. 이런 LLM의 학습 데이터에서 사이버 보안 주제가 차지하는 비중을 파악하기는 어렵지만, 다른 주류 주제에 비해 미미하다고 해도 과언이 아니다. 예를 들어, GPT-3는 45TB의 데이터로 학습됐는데, 이를 CySecBert 모델을 미세 조정하는 데 사용된 2GB의 사이버 중심 데이터 세트와 비교해 보자. 범용 LLM은 보다 자연스러운 언어 유창성과 사용자에게 사실적으로 반응하는 기능을 제공할 수 있지만, 미세 조정에 사용되는 전문 데이터는 가장 큰 가치를 창출할 수 있는 곳이다.

LLM을 미세 조정하는 것이 점점 보편화되고 있지만, 기본 모델을 미세 조정할 수 있는 적절한 데이터를 수집하는 것은 쉽지 않다. 이를 위해서는 일반적으로 솔루션 업체가 비교적 성숙한 데이터 엔지니어링 인프라를 갖추고 관련 속성을 비구조화 형식으로 수집해야 한다. 따라서 솔루션 업체가 미세 조정 프로세스를 구현하는 방법과 모델이 학습되는 데이터를 이해하는 것은 상대적인 성능과 궁극적으로 애플리케이션이 얼마나 신뢰할 수 있는 결과를 제공할 수 있는지를 이해하는 데 있어 핵심적인 요소이다. AI 제품을 개발하거나 다른 업체의 서비스를 사용하려는 기업에는 해당 데이터의 출처와 미세 조정에 사용된 방법을 이해하는 것이 새로운 시장 차별화 요소가 될 것이다.

LLM 사용과 관련된 보안, 개인정보 보호, 성능 문제를 살펴볼 때, 사용자가 이런 시스템과 상호 작용하는 방식을 관리하고 추적할 수 있어야 한다. 처음부터 이를 고려하지 않으면 이전 세대의 IT 전문가가 섀도우 IT 사용과 안전하지 않은 기본 배치 환경 때문에 처했던 위험을 감당해야 할 것이다. 지금이야말로 생성형 AI를 제공하는 방식에 보안과 개인 정보 
*Jeff Schwartzentruber는 eSentire의 수석 머신러닝 과학자이다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.