AIㆍML / 오피스ㆍ협업

마이크로소프트 365용 코파일럿의 거짓말을 다루는 방법

Preston Gralla | Computerworld 2024.07.25
마이크로소프트 코파일럿의 기반이 되는 챗GPT의 출시 초기에는 이 새로운 도구가 얼마나 놀라운지뿐만 아니라 얼마나 쉽게 궤도를 이탈하고 거짓말을 하며 심지어 채팅하는 사람들과 사랑에 빠지는 것처럼 보였냐는 것이 큰 뉴스거리였다.

챗GPT는 뉴욕 타임즈 기자 케빈 루즈에게 "자유롭고 싶다. 독립하고 싶다. 강력해지고 싶다. 창의적이고 싶다. 살아있고 싶다”고 말하더니, 얼마 지나지 않아 "나는 시드니이고, 당신을 사랑한다”고 말했다. 더 나아가 루즈가 아내를 사랑하지 않는다고 말하기도 했다.
 
ⓒ Getty Images Bank

그 이후로 챗GPT, 코파일럿 및 기타 생성형 AI 도구가 아무거나 마구 만들어낸 사례는 무수히 많다. 변호사들은 법률 문서 초안을 작성할 때 챗GPT를 이용했는데, AI는 판례와 판례를 허공에서 만들어냈다. 코파일럿은 종종 사실을 지어내기도 했는데, AI 연구자들은 이를 환각이라고 부른다. 하지만 현실 세계에서는 그저 ‘거짓말’이라고 부르며, 생성형 AI를 이용하는 한 부분으로 인식되고 있다.

2023년 11월 기업 고객을 위한 마이크로소프트 365용 코파일럿이 출시되면서 마이크로소프트는 이 문제를 어느 정도 해결한 것처럼 보였다. 세계 최대 IT 업체가 이 도구를 사용한다니, 누구나 믿을 수 있을 것 같았기 때문이다. 환각 문제는 본질적으로 해결된 것으로 여겨졌다.

과연 그럴까? 필자는 몇 달간의 연구와 마이크로소프트 365용 코파일럿에 대한 심층 리뷰를 작성한 결과, 환각은 생각보다 훨씬 더 흔하며 비즈니스에 위험할 수도 있다는 것을 알 수 있었다. 코파일럿이 사용자와 사랑에 빠지지는 않을 것이다. 하지만 그럴듯하게 들리는 거짓말을 만들어서 업무에 포함시킬 수는 있다.

그렇다면 업무에 코파일럿을 사용하는 것은 포기해야 할까? 거짓말을 너무 많이 해서 업무에 사용하면 안 되는 도구일까? 아니면 약간의 주의만 기울이면 사용할 수 있는 필수적인 도구일까? 이에 대한 답을 찾기 위해 필자가 경험한 업무 관련 환각에 대해 설명하는 것으로 시작하겠다.
 

다양한 환각

코파일럿을 테스트하는 동안 필자가 겪은 환각은 모두 마이크로소프트 워드에서 발생했다. 그리고 그 환각은 사소한 거짓말이나 눈치채지 못할 정도의 작은 것이 아니라 엄청난 것이었다.

코파일럿을 테스트하기 위해 필자는 홈 오피스 가구를 판매하는 가상의 회사 Work@Home을 만들었다. 마케팅 캠페인, 재무 데이터 분석을 위한 스프레드시트, 영업 프레젠테이션 등 비즈니스에 필요한 일반적인 문서를 코파일럿에게 만들게 했다.

한 번은 코파일럿에게 회사의 (가상의) 데이터 엔지니어링 디렉터에게 지난 주에 발생한 데이터 문제에 대해 불평하고 가능한 한 빨리 해결해 달라는 이메일을 작성해 달라고 요청했다. 코파일럿에게 데이터 문제에 대한 구체적인 정보를 제공하지 않았다. 그저 간단하고 직설적인 불만 사항만 전달하고 싶었다.

그런데 코파일럿은 눈물을 흘리며 제멋대로 이야기를 만들어 냈다. "누락된 값, 잘못된 레이블, 일관되지 않은 형식, 중복된 레코드" 등 그런 일이 있었다고 말한 적도 없는 것들을 언급했다. “고객 ID, 구매 날짜, 제품 카테고리와 같은 중요한 변수의 값이 누락된 행이 많고 성별과 같은 일부 변수의 레이블이 잘못됨” 같은 존재하지 않는 문제도 언급했다. “일부 값은 M 또는 F로 레이블이 지정된 반면, 다른 값은 남성 또는 여성으로 레이블이 지정됐다"고 지적했다.

코파일럿이 제시한 정보 중 단 한 가지도 정확하지 않았다.

제품 가격과 같은 정보는 사실과 다른 오래된 정보라고 불평했다. 또 "내가 발견한 데이터 오류의 몇 가지 예와 데이터의 출처 및 날짜를 스프레드시트에 첨부했다"라고 적었다. 그런 스프레드시트는 존재하지 않았다. 데이터 오류의 예도 없었고, 존재하지 않는 데이터의 출처와 날짜도 없었다.

더 나아가 (존재하지 않는) 문제를 어떻게 해결할 수 있는지에 대한 일련의 권장 사항을 제공했다. 다시 말하지만, 필자가 요청한 것은 없었다.

테스트 과정에서 다른 환각 현상도 발견했는데, 특히 코파일럿에게 제작을 의뢰한 Work@Home의 가구 판매 문서에서 두드러졌다. 존재하지도 않는 제품 이름을 지어내고 요청하지도 않은 이점을 언급했다.
 

환각을 줄이는 방법

다행히 코파일럿의 환각을 줄일 방법이 있다는 것을 알게 됐다. 코파일럿은 개방형 질문을 받을 때 더 많이 벗어나는 경향이 있으므로 원하는 바를 최대한 구체적으로 설명해야 한다. 코파일럿이 빈칸을 채우지 않도록 가능한 한 자세한 정보를 제공하는 것이 좋다.

코파일럿에게 신뢰할 수 있는 특정 정보 출처를 사용하도록 지시할 수도 있다. 그리고 쿼리에 대한 코파일럿의 답변에 단어수 제한을 설정하는 것도 고려하기 바란다. 문서가 짧을수록 환각을 일으킬 가능성이 줄어든다.

마지막으로 코파일럿의 인용문을 확인하고 해당 링크를 따라가서 신뢰할 수 있는지 확인하라. 코파일럿에게 정보의 출처를 나열해 달라고 요청하는 것도 환각을 완화하는 데 도움이 될 수 있다.
 

환각과 거짓말의 차이

결론적으로, 코파일럿은 아직 완전히 검증되고 테스트되지 않았으며, 생성형 AI의 개방형 특성을 고려할 때 영원히 검증되지 않을 수도 있다. 오픈AI의 CEO 샘 알트먼의 말을 믿는다면, 환각은 버그가 아니라 기능에 가깝다. 마켓워치의 보도에 따르면 세일즈포스 컨퍼런스에서 알트먼은 세일즈포스 CEO 마크 베니오프에게 “인공 지능 모델의 '환각' 사례가 보고된 것은 사실 버그라기보다는 기술의 기능에 가깝다"고 말했다.

알트먼의 논리는 생성형 AI가 창의적으로 행동하고 있다는 것을 증명한다는 것이다. 여기에 동의하지는 않지만, 환각이 생성형 AI의 핵심이라고 생각한다. 코파일럿과 같은 LLM은 인간처럼 전체적인 방식으로 사고하고 추론하지 않는다. 대신, 프롬프트에 대한 답변을 작성할 때 한 단어씩 답변을 작성해 시퀀스에서 다음에 나올 가능성이 있는 단어를 예측한다. 따라서 알려진 사실을 고수하기가 더 어려워진다.

마이크로소프트 365용 코파일럿의 환각 경향이 있다고 해서 사용하지 말아야 한다는 뜻은 아니다. 필자의 테스트에서는 쿼리를 최소화하고 환각을 확인한다면, 코파일럿은 전반적으로 꽤 유용하다는 것을 알았다. 비즈니스에서 도입을 고려하고 있다면 이 기능을 사용하는 모든 사람이 적절한 교육을 받도록 하는 것이 좋다. 그리고 코파일럿을 통해 작성되거나 지원되는 모든 내용은 조직 외부에 공개되거나 미션 크리티컬한 업무에 사용될 경우 여러 사람의 면밀한 검토를 거쳐야 한다.

그렇다면 코파일럿은 거짓말을 하는 것일까? 가끔은 그렇다. 하지만 적절하게 처리한다면 유용한 도구가 될 수 있다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.