하지만 AI와의 대화를 그저 단순히 AI와 대화하는 것이라고 생각하면 안 된다. 타인이 대화를 엿볼 수도 있기 때문에 생각만큼 사적인 대화가 보장되지 않는다. 민감한 정보를 다루는 기업뿐만 아니라 AI에게 의료 문제, 개인적 문제 또는 다른 사람에게 알리고 싶지 않은 여러 가지 질문을 던지는 개인 모두에게 있어서 중요한 문제다.
일부 AI 회사는 대화를 기반으로 대형 언어 모델(LLM)을 학습시킨다. 비즈니스 데이터나 개인 정보가 모델의 일부가 되어 다른 사람에게 유출될 수 있다는 일반적인 우려가 있다. 하지만 그 외에도 다른 문제가 있으며, AI 업체가 사용자가 제공한 데이터로 모델을 훈련시키지 않겠다고 약속하더라도 문제가 될 수 있다.
사람이 AI 대화를 검토하는 이유
그렇다면 사람이 이러한 대화를 검토하는 이유는 무엇일까? 품질 유지와 문제점 발견을 위해서다. 생성형 AI 기업에서는 기술이 어떻게 작동하는지 확인하기 위해 사람이 채팅 로그를 검토할 수 있다. 오류가 발생하면 식별한다. 인간 검수자의 피드백을 통해 '현장 점검'을 수행한 다음 생성형 AI 모델을 학습시키고 향후 대응 방식을 개선하는 데 사용한다고 생각하면 된다.서비스 남용이 의심되는 경우에도 대화를 검토한다. 기업이 직접 AI 도구를 사용해 대량의 채팅 로그를 살펴보고 어떤 종류의 문제나 안전 문제가 있는 것으로 보이는 로그를 찾을 수 있다고 상상하기는 어렵지 않다.
AI에 이런 과정은 새로운 것이 아니다. 예를 들어, 마이크로소프트는 품질 보증을 위해 계약업체가 사용자의 스카이프 음성 대화를 검토하게 한 적이 있다.
실제 개인정보 보호 문제
오픈AI의 챗GPT나 구글의 제미나이 같은 도구는 다양한 용도로 사용되고 있다. 직장에서 사람들은 데이터를 분석하고 비즈니스 작업 속도를 높이기 위해 사용한다. 가정에서는 사람들이 대화 파트너로 사용해 삶의 세부 사항을 논의하는 데 사용한다. 적어도 많은 AI 업체가 바라는 바대로다. 결국, 마이크로소프트의 새로운 코파일럿 경험은 하루의 일과에 대해 대화를 나누는 것이다.하지만 때로는 비공개로 유지하는 것이 더 나은 데이터가 공유된다. AI 챗봇의 등장으로 모든 기업이 데이터 보안을 고민하고 있으며, 직장에서의 챗GPT 사용을 금지하는 기업도 많다. 직원에게 허용되는 특정 AI 도구가 있을 수도 있다. 분명한 것은 기업이 챗봇에 입력된 모든 데이터가 AI 업체의 서버로 전송된다는 사실을 알고 있다는 것이다. 향후 생성형 AI 모델을 학습하는 데 사용되지 않더라도 데이터를 업로드하는 행위 자체가 미국의 HIPAA와 같은 개인정보 보호법 위반이 될 수 있다.
많은 지식 근로자는 챗GPT에 고객 세부 정보나 회사 재무 문서의 빅데이터 세트를 업로드하고 지루하고 고된 작업을 맡기고 싶어 한다. 하지만 타인이 그 데이터를 볼 수도 있다는 위험은 항상 있다. 개인적으로 사용할 때도 마찬가지이다.
챗GPT, 코파일럿, 제미나이에도 인간 감수자가 있는가?
사용자가 항상 AI 챗봇과의 대화 대부분을 적극적으로 읽지는 않는다. 그렇게 하기에는 대화가 너무 많기 때문이다. 그럼에도 불구하고 널리 알려진 주요 생성형 AI 도구는 최소한 가끔은 사람의 리뷰를 활용한다.예를 들어 보자.
- 챗GPT에서는 “임시 채팅”을 활성화해 채팅 기록을 끌 수 있다. 채팅 기록을 켜두면 대화 내용이 오픈AI의 모델 학습에 사용된다. 임시 채팅을 사용하면 대화가 모델 학습에 사용되지는 않지만 “안전을 위해” 오픈AI가 검토할 수 있도록 30일 동안 저장된다. 챗GPT의 엔터프라이즈 요금제는 더 많은 데이터 보호 기능을 제공하지만, 여전히 사람이 검토하는 경우가 있다.
- 마이크로소프트는 코파일럿 대화도 일부 상황에서 사람이 검토한다고 말한다. "AI 트레이너와 직원의 피드백을 트레이닝 과정에 포함한다. 예를 들어, 인간의 피드백은 사용자의 프롬프트에 대한 품질 출력을 강화해 최종 사용자 경험을 개선한다."
- 구글의 제미나이도 인간 리뷰어를 활용한다. 구글은 다음과 같이 설명한다. “대화에 기밀 정보나 리뷰어가 보거나 구글이 제품, 서비스, 머신러닝 기술을 개선하는 데 사용하지 않았으면 하는 데이터를 입력하지 말자.”
AI와 나의 대화를 비밀로 하려면
비즈니스 데이터를 보호하고 관련 법률을 준수해야 하는 기업은 사용하는 생성형 AI 도구와 계획을 신중하게 고려해야 한다. 직원이 데이터 보호 계약이 불확실한 여러 도구를 혼용해 사용하거나 개인 챗GPT 계정을 통해 비즈니스와 관련된 모든 작업을 수행하는 것은 좋은 생각이 아니다.장기적으로는 로컬에서 실행되는 AI 모델이 이상적인 해답이 될 수 있다. AI 챗봇이 전적으로 사용자의 컴퓨터나 모바일 기기에서 실행되는 것이다. 자체 데이터센터에서 자체 개발한 AI 소프트웨어를 실행해 모든 데이터를 완전히 자체적으로 제어하는 경우를 말한다.
마이크로소프트의 AI 기능인 리콜은 출시 계획 발표 때부터 많은 비판을 받았다. 그러나 코파일럿+ PC에서 윈도우 11 데스크톱 사용 내역을 검색할 수 있다는 점만은 옳은 방향이었다. 마이크로소프트에 자료를 보내지 않고도 개인 PC에서 모든 작업을 수행할 수 있다. 인간 검토자는 이 내역을 볼 수 없다.
반대로 구글은 최근 크롬에 AI 검색 기록 검색 기능을 출시했는데, 이 역시 인간 리뷰어가 검토할 수 있다.
현실로 돌아와 보자. 겁을 먹고 뒤로 물러서서 생성형 AI를 전혀 사용하지 말라는 뜻이 아니다. 일반인의 챗GPT 대화나 코파일럿 채팅은 아마 검토되지 않을 확률이 높다.
그러나 언제든 얼마든지 검토 대상이 ‘될 수 있다’는 점이 중요하다. 생성형 AI 서비스를 사용하려고 가입하는 시점부터 이 점을 꼭 염두에 두어야 한다. AI를 전문적으로 사용하는 기업부터 장래 희망을 주제로 봇과 채팅하는 개인까지 그야말로 모든 사용자가 명심해야 할 점이다.
editor@itworld.co.kr