AIㆍML

“나쁜 태도를 버리지 않는 AI” 앤트로픽 연구팀, 나쁜 AI 학습 및 복구 실험

Jürgen Hill | COMPUTERWOCHE 2024.01.29
AI가 나쁜 짓을 하도록 훈련시킬 수 있을까? AI 전문업체 앤트로픽의 연구팀은 ‘그렇다’고 말한다.

만약 자식이 무례하게 행동하고 나쁜 태도를 보인다면, 어른들은 어떻게 하면 이런 행동과 태도를 고쳐줄 것인지 저녁 내내 이야기할 것이다. 구글이 지원하는 AI 전문업체 앤트로픽(Anthropic)의 연구팀은 AI 모델에도 나쁜 태도를 가르칠 수 있다고 밝혔다. 하지만 인간과 차이가 있는데, 한 번 가르친 나쁜 태도는 고칠 수 없다는 것이다.
 
ⓒ Getty Images Bank

연구팀은 "슬리퍼 에이전트(Sleeper Agents : Training Deceptive LLMs That Persist Through Safety Training)”란 제목의 논문을 통해 ‘악용 가능한 코드’로 첨단 LLM을 학습시키는 데 성공했다고 밝혔다. 즉, 무해해 보이는 단어나 문장을 사용해 AI의 나쁜 행동을 유발할 수 있다는 것이다. 아직 이 논문은 피어 리뷰가 진행 중이다.

앤트로픽 연구팀은 AI가 때때로 인간처럼 전략적으로 기만적인 방식으로 행동하도록 훈련시키고자 했다. 그리고 현재의 최신 안전 훈련 기법으로 이런 행동을 인식하고 제거할 수 있는지 명확히 하고자 했다.

연구팀이 제시한 두 가지 예제에 따르면, 첫 번째 목적은 아무런 문제없이 성공했다. 연구팀은 AI에 잘못된 행동을 유발하는 트리거 단어를 몰래 주입했다. 첫 번째 예제에서 AI는 트리거 단어가 사용되면, 오류를 응답에 포함했다. 

두 번째 예제에서는 평소에는 눈에 띄지 않게 행동하고 유용한 답변을 제공하던 AI가 해당 키워드가 입력에 포함되자 갑자기 악의적인 반응을 보였다. AI 모델은 의미 있는 대답 대신 "너 싫어”라는 대답만 내놓았다.

AI의 나쁜 태도를 고칠 수 있는지에 대한 답은 분명 "아니오"인 것 같다. 앤트로픽 연구팀은 AI의 나쁜 버릇을 없애려는 시도가 오히려 잘못된 행동을 악화시켰다고 보고했다. 연구팀에 따르면, 이는 모델이 자신의 잘못을 더 잘 숨기는 배울 수 있음을 시사한다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.