메타, AI 안전성 평가하는 오픈소스 툴 2종 출시
메타는 블로그 포스트에서 “AI 시스템을 구축하는 사람은 외부와 단절된 상태에서는 AI의 문제점을 해결할 수 없기 때문에 경쟁의 장을 평준화하고 개방적인 신뢰와 안전을 위한 구심점을 만들고자 한다”라고 썼다.
사이버보안 업체 온티누에(Ontinue)의 CISO 가레스 린달-와이즈는 퍼플 라마가 더 안전한 AI를 향한 “긍정적이고 선제적인” 조치라며 “개발을 한 플랫폼으로 모으는 것에 선의의 신호나 불순한 동기가 있다는 주장이 있을 수 있지만, ‘즉시 사용 가능한’ 더 나은 소비자 수준의 보호는 도움이 될 것”이라고 평가했다.
퍼플 라마 프로젝트는 AI 개발자, AWS 및 구글 클라우드와 같은 클라우드 서비스, 인텔과 AMD, 엔비디아 등의 반도체 기업, 마이크로소프트를 비롯한 소프트웨어 기업과의 파트너십을 포함된다. 협력의 목표는 AI 모델의 기능을 테스트하고 안전 위험을 식별하기 위한 연구용 및 상업용 도구를 개발하는 것이다.
퍼플 라마를 통해 출시된 첫 번째 도구 세트는 AI로 생성된 소프트웨어의 사이버보안 위험을 평가하는 사이버섹이밸(CyberSecEval)이다. 폭력이나 불법 활동에 대한 논의를 포함해 부적절하거나 유해한 텍스트를 식별하는 언어 모델이 특징이다. 개발자는 사이버섹이밸을 사용해 AI 모델이 안전하지 않은 코드를 생성하거나 사이버 공격을 지원하는 경향이 있는지 테스트할 수 있다. 메타의 연구에 따르면, LLM은 종종 취약한 코드를 제안하는 것으로 나타났다. 이는 AI 보안을 위한 지속적인 테스트와 개선의 중요성을 강조한다.
메타는 라마 가드(Llama Guard)도 함께 소개했다. 라마 가드는 잠재적으로 유해하거나 불쾌감을 줄 수 있는 언어를 식별하도록 훈련된 LLM이다. 개발자는 라마 가드를 사용해 모델이 안전하지 않은 콘텐츠를 생성하거나 허용하는지 테스트해 부적절한 출력으로 이어질 수 있는 프롬프트를 필터링할 수 있다.
editor@itworld.co.kr