앤트로픽은 클로드 2가 다양한 영역에서 최적화됐다고 강조했다. 예를 들어, 클로드 2는 이제 최대 10마만 개의 토큰(또는 약 7만 5,000단어)을 프롬프트로 지원하므로 수백 쪽 분량의 기술 문서나 책 한 권을 편집하고 요약할 수 있다. 클로드 2는 여전히 무료로 이용할 수 있다.
클로드 2는 메모부터 편지, 최대 수천 자에 이르는 장문의 문서도 한 번에 작성할 수 있다. 이에 비해 챗GPT는 한 세션에서 약 3,000단어를 처리할 수 있다. 이전 모델에 비해 코딩, 수학, 논리적 사고 영역도 개선됐다. 예를 들어, 미국 변호사 시험의 객관식 영역에서 클로드 2는 클로드 1.3에 비해 정답률이 73%에서 76.5%로 향상됐다.
앤트로픽에 따르면, 초등학생을 위한 8,500개의 수학 문제 세트인 GSM8k에서 클로드 2는 88.0%의 정확도(이전에는 85.2%)를 달성했다. 또한 파이썬 코딩 벤치마크인 HumanEval 평가도 기존 56.0%에서 71.2%로 향상됐다.
그러나 다른 대형 언어 모델과의 비교하자면, 아직 개선해야 할 부분도 많다. 앤트로픽은 앞으로 몇 달 안에 클로드 2의 기능을 점진적으로 개선할 것이라고 발표했다.
또한 앤트로픽은 공격적이거나 위험한 응답을 하기 어렵게 만들고 가능성을 낮추기 위해 다양한 보안 기술을 적용했다고 밝혔다. 예를 들어, 대량의 유해한 프롬프트에 대해 모델을 자동으로 테스트한 내부 레드팀 평가에 따르면, 새 모델은 클로드 1.3에 비해 '무해한 응답'을 두 배 더 잘 생성하는 것으로 나타났다.
그러나 한편으로는 악의적 이용에 영향을 받지 않는 모델은 없다고 지적했다. 아직 오픈 베타 버전이므로 사용자는 현재의 모든 모델과 마찬가지로 클로드가 부적절한 응답을 유도할 수 있다는 점을 인지해야 한다.
새 버전은 유료 API와 새로운 공개 베타 웹사이트인 claude.ai를 통해 사용할 수 있다. 현재는 미국과 영국 사용자만 이용할 수 있지만, 향후 몇 개월 내에 다른 지역에서도 클로드 2를 정식 서비스할 계획이다.
editor@itworld.co.kr