AIㆍML

구글, ‘제미나이 1.5 프로’ 공개…토큰 100만 개 이상 수용

Lucas Mearian | Computerworld 2024.02.16
구글이 자사 최신 생성형 AI 모델 제미나이 1.0(Gemini 1.0)을 출시한 지 일주일 만에 후속 버전인 제미나이 1.5를 공개하고 소수의 고객에게 비공개 미리보기 형태로 제공한다고 밝혔다. 구글은 새로운 버전이 거의 모든 면에서 1.0 버전을 능가하며, 특히 토큰 컨텍스트 창이 대폭 커져 사용자가 훨씬 더 많은 양의 정보를 쿼리 엔진에 입력해 더 정확한 응답을 얻을 수 있다고 설명했다.
 
ⓒ Google

제미나이는 네이티브 멀티모달 LLM이다. 제미나이 1.0과 1.5 모두 텍스트, 이미지, 오디오, 비디오 및 코드 프롬프트를 통해 콘텐츠를 수집하고 생성할 수 있다. 예를 들어, 사용자는 JPEG, WEBP, HEIC 또는 HEIF 이미지 형태를 프롬프르로 제공할 수 있다. 

가트너 애널리스트 치라그 데카테에 따르면, 오픈AI의 최신 LLM인 GPT-4는 멀티모달을 지원하지만 이미지-텍스트 또는 텍스트-비디오와 같은 몇 가지 모달만 지원한다. 데카테는 "구글은 AI 클라우드 제공업체로서의 리더 역할을 확고히 하고 있다. 이제 다른 업체들이 구글을 따라잡으려 한다. 구글 클라우드에 등록된 사용자는 현재 132가지 이상의 모델을 사용할 수 있다"라고 말했다.

2023년 12월 공개된 제미나이 1.0은 최근에서야 출시됐다. 출시와 함께 구글은 챗봇 바드를 재구성하고 이름을 '제미나이'로 변경했다. 챗봇 제미나이는 데이터센터부터 모바일 디바이스까지 모든 환경에서 유연하게 실행할 수 있다. 

현재 오픈AI는 차세대 버전인 GPT-5를 개발하고 있으며, 이 역시 멀티모달을 지원할 가능성이 높다. 그러나 데카테는 GPT-5가 여러 개의 작은 모델을 조합한 것으로 구성될 것이며 기본적으로는 멀티모달이 아닐 것으로 예상했다. 이런 경우 아키텍처의 효율성이 떨어질 수 있다.

구글이 초기 테스트용으로 제공하는 제미나이 1.5 모델은 '프로(Pro)' 모델로, "다양한 작업에 걸쳐 확장하는 데 최적화된 중간 크기의 멀티모달 모델"이다. 구글은 해당 모델의 성능이 제미나이 1.0에서 가장 큰 모델인 제미나이 1.0 울트라와 비슷하지만, GPU 사이클이 훨씬 더 적게 요구된다고 말했다. 또한 구글은 제미나이 1.5 프로에 긴 컨텍스트를 이해하는 실험적인 기능을 도입했다. 개발자는 최대 100만 개의 컨텍스트 토큰으로 프롬프트할 수 있다. 

제미나이 1.5 프로의 비공개 미리보기구글 AI 스튜디오(Google AI Studio)에서 신청할 수 있다. 구글 AI 스튜디오는 제미나이 모델을 사용하는 가장 빠른 방법으로, 개발자가 애플리케이션에 제미나이 API를 통합할 수 있도록 지원한다. 180곳 이상의 국가 및 지역에서 38가지 언어로 제공된다. 
 
제미나이 1.5과 다른 모델의 토큰 컨텍스츠 창 비교 ⓒ Google

제미나이는 처음부터 멀티모달로 제작됐다. 경쟁사 모델처럼 여러 모델을 겹겹이 쌓아 올린 구조가 아니다. 구글은 제미나이 1.5를 광범위한 작업에 걸쳐 확장하는 데 최적화된 '중간 규모의 멀티모달 모델'이라고 부른다. 특정 작업을 위해 하나의 아키텍처 아래 여러 개의 작은 모델을 적용하는 방식으로 작동하며 1.0 울트라와 비슷한 수준의 성능을 제공한다. 

구글은 최근 널리 사용되고 있는 MoE(Mixture of Experts)라는 프레임워크를 사용해 더 작은 LLM에서도 동일한 성능을 제공한다고 주장했다. 2가지 핵심 아키텍처 요소를 기반으로 하는 MoE는 소규모 뉴로 네트워크의 조합을 함께 계측화하고, 쿼리 출력을 동적으로 구동하는 일련의 뉴로 네트워크 라우터를 실행한다. 

구글 딥마인드 CEO인 데미스 하사비스는 블로그에서 "MoE 모델은 주어진 입력 유형에 따라 신경망에서 가장 관련성이 높은 전문 경로만 선택적으로 활성화하는 방법을 학습한다. 이런 전문화는 모델 효율성을 크게 향상시킨다"라며 "구글은 스파스리 게이트 MoE, G샤드 트랜스포머(GShard-Transformer), 스위치 트랜스포머(Switch-Transformer), M4 등과 같은 연구를 통해 딥러닝을 위한 MoE 기술의 선구자였다"라고 부연했다.

MoE 아키텍처를 사용하면 사용자가 엄청난 양의 정보를 입력할 수 있지만, 추론 단계에서 훨씬 더 적은 컴퓨팅 주기로 해당 정보를 처리할 수 있다. 가트너의 데카테는 이를 통해 '초정밀 응답'을 제공할 수 있다며 "경쟁사들이 구글을 따라잡기 위해 고군분투하고 있지만, 경쟁사는 딥마인드나 구글만 한 GPU 용량을 가지고 있지 않다"라고 언급했다.

긴 컨텍스트를 이해하는 새로운 기능을 제공하는 제미나이 1.5는 150만 토큰을 수용하는 컨텍스트 창을 갖추고 있다. 사용자가 한 문장을 입력하거나 책 몇 권 분량의 정보를 챗봇 인터페이스에 업로드해도 정확한 맞춤형 답변을 받을 수 있다. 제미나이 1.0의 컨텍스트 창은 3만 2,000개의 토큰을 수용한다. 다른 경쟁 LLM은 일반적으로 약 1만 개의 토큰을 수용하며, GPT-4는 최대 12만 5,000개의 토큰을 수용하는 것으로 추정된다. 

현재 제미나이 1.5 프로는 12만 8,000개의 토큰 컨텍스트 창을 기본 제공하며, 비공개 미리보기에서는 일부 개발자와 기업 고객을 대상이 AI 스튜디오와 버텍스 AI를 통해 최대 100만 개의 토큰을 사용할 수 있도록 허용한다. 향후에는 토큰 규모를 더 확대할 예정이다. 

하사비스는 "전체 100만 개의 토큰 컨텍스트 창을 출시하면서 지연 시간을 개선하고 계산 요구사항을 줄이며, 사용자 경험을 향상하기 위한 최적화 작업을 진행하고 있다"라고 덧붙였다.
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.