AI 프로토타이핑 서비스 플랫폼 Rapyd.AI의 파트너인 토비아스 즈윙만은 "업데이트된 모델과 라마 3.1의 개방형 가중치는 기업에는 폐쇄적인 독점 LLM 사용을 피하고 줄일 수 있는 선택지가 되지만, LLM을 구축 및 판매하는 솔루션 업체에 혼란을 가져다줄 것"이라고 지적했다.
기업과 개발자가 얻는 이점
전문가들에 따르면, 기업과 개발자에게 라마 3.1 모델의 장점은 개방형 가중치와 벤치마크 테스트에서의 성능 효율성에 있다. 퓨처럼 그룹의 대표 애널리스트 폴 나샤와티는 "개방형 가중치가 포함된 언어 모델을 제공함으로써 기업은 독점 모델 사용에 따른 막대한 라이선스 비용을 들이지 않고도 사용례에 맞는 맞춤형 AI 솔루션을 구축할 수 있다. 기업은 비용 절감과 유연성 향상이라는 이점을 누리는 동시에 개발자는 탄탄한 기반을 활용해 혁신을 가속화할 수 있다"라고 평가했다.IDC 리서치 부사장 아날 다야라트나는 기업이 데이터와 지적 재산이 다른 공급업체와 공유될 우려 없이 자체 독점 데이터를 사용해 라마 3.1의 개방형 모델을 미세 조정할 수 있다고 말했다. 업체 종속을 피할 수 있다는 것.
옴디아의 수석 애널리스트 브래들리 심민에 따르면, 4,500억 개에 달하는 대규모 파라미터도 기업에는 중요한데, 이제 기업은 GPT-4, 제미나이, 클로드(Claude) 같은 모델의 성능 효율성이나 지능에 부합하는 무료 LLM에 액세스할 수 있기 때문이다.
메타는 블로그 포스트에서 405B 라마 3.1 모델이 MMLU, MATH, GSM8K, ARC 챌린지 등의 벤치마크 테스트에서 Nemotron-4 340B Instruct, GPT-4, Claude 3.5 Sonnet 등의 모델보다 성능이 뛰어났다고 밝혔다. 라마 3.1은 이들 테스트에서 GPT-4o와 비슷한 성능을 보였다. 참고로, MMLU 벤치마크에서 GPT-4o는 88.7점, 라마 3.1 405B는 88.6점을 기록했다. MMLU, MATH, GSM8K 및 ARC 챌린지는 일반 지능, 수학 및 추론 영역에서 LLM을 테스트하는 벤치마크이다.
메타는 더 작은 라마 3.1 모델인 8B와 70B도 더 큰 컨텍스트 윈도우와 여러 언어 지원으로 업데이트되어 벤치마크 테스트에서 더 우수하거나 독점 LLM에 가까운 성능을 보였다고 밝혔다.
4월 초 메타는 이전 버전인 라마 3 8B 및 라마 3 70B 모델을 출시했는데, 이 모델은 표준 디코더 전용 트랜스포머 아키텍처, GQA(Grouped Query Attention), 고품질 학습 데이터 세트와 같은 향상된 기술 등으로 라마 2에 비해 아키텍처가 개선된 것이 특징이다.
생성형 AI 플랫폼 전문 업체 삼바노바 시스템즈(SambaNova Systems)의 제품 책임자인 안톤 맥고넬은 라마 3.1의 405B 버전이 범용 작업에 더 나은 정확도를 제공할 수 있으며, 이를 통해 기업은 직원 및 고객 사용례의 개선을 더욱 가속화할 수 있을 것이라고 평가했다.
맥고넬은 "개발자가 덜 복잡한 모델이 대량의 처리를 처리한 다음 필요할 때 더 큰 모델을 호출해 작업을 검증하고 오류를 수정하는 추측 디코딩과 같은 기술을 사용할 것으로 예상한다"며, 이는 컴퓨팅 자원을 최적화하고 실시간 애플리케이션에서 응답 속도를 높일 수 있는 새로운 길을 열어주므로 AI 모델을 실행하는 효율적인 방법이 될 수 있다고 덧붙였다.
또한 IDC의 다야라트나는 라마 3.1 405B 모델이 합성 데이터 생성뿐만 아니라 지식 증류, 즉 큰 모델에서 작은 모델로 지식을 이전하는 작업을 수행할 수 있다는 점을 지적했다. 다야라트나는 이런 기능을 통해 기업은 추가적인 분석 워크스트림을 실행할 수 있다고 덧붙였다.
여전히 비싼 LLM 배포 비용
전문가들은 라마 3.1이 이전 버전에 비해 더 지능적이지만, 이 모델을 배포하는 데는 중소기업에 너무 많은 비용이 들 수도 있다고 본다.반도체 리서치 회사인 세미애널리시스의 수석 애널리스트 딜런 파텔은 라마 3.1 405B 버전은 수정되지 않은 모델을 실행하기 위해 엔비디아 H100 서버(GPU 16개) 두 대가 필요하기 때문에 실행 비용이 매우 비싸다고 지적했다. 과거 모델은 저가형 GPU 한 대(Llama 8B) 또는 고급형 GPU 두 대 (Llama 70B)가 필요했다.
파텔은 "H100 서버 2대를 1년 동안 임대하는 데 연간 약 30만 달러 이상의 비용이 들기 때문에 중소기업이 자체적으로 라마 3.1 405B를 구축하는 것은 너무 비싸다"라고 설명했다.
인프라 비용이 증가한 이유는 더 정확한 결과를 제공하는 모델 파라미터가 증가했기 때문이다. 일반적으로 모든 LLM 업체는 기업이 사용례에 따라 지연 시간과 정확도 중에서 선택할 수 있도록 여러 가지 변형 모델을 출시한다. 매개변수가 많은 모델은 더 정확할 수 있지만, 매개변수가 적은 모델은 계산이 덜 필요하고 응답에 걸리는 시간이 짧아 실행 비용이 적게 든다.
하지만 파텔은 대부분 대기업이 다른 모델을 미세 조정하고 훈련하거나 챗봇과 같은 프로덕션 사용례에 라마 3.1 405B 모델을 활용할 가능성이 높다고 지적했다. 파텔은 "대기업은 이 모델이 제공하는 인텔리전스와 유용성을 고려할 때 405B 모델 운영 비용이 그렇게 비싸지 않다고 생각할 수 있다"라고 말했다.
또한 더 큰 모델을 실행하는 데 드는 비용을 줄일 수 있는 다른 방법도 있다. 몇몇 대형 클라우드 서비스 업체와 다른 모델 서비스 업체는 이미 기업에 새로운 모델을 제공하기 위해 노력하고 있다.
파텔은 "대부분의 기업은 라마 3.1 405B를 활용하기 위해 클라우드 API에 의존할 것이다. 모든 주요 클라우드 서비스 업체가 이 모델을 제공한다"라고 설명했다. API를 사용하면 기업은 종량제 방식으로 필요한 컴퓨팅 자원에 액세스할 수 있으므로 초기 투자를 줄일 수 있다.
메타는 액센츄어, AWS, AMD, 애니스케일, 클라우드플레어, 데이터브릭스, 델, 딜로이트, 파이어웍스닷에이아이, 구글 클라우드, 그루크, 허깅페이스, IBM 왓슨엑스, 인포시스, 인텔, 캐글, 마이크로소프트 애저, 엔비디아 DGX 클라우드, 옥토AI, 오라클 클라우드, PwC, 리플레이트, 사밤 AI, 스케일 AI, 스노우플레이크, 투게더AI, UC 버클리 vLLM 프로젝트 등과 파트너십을 맺고 라마 3.1 모델을 더 쉽고 간편하게 사용할 수 있도록 지원한다고 밝혔다.
AWS, 오라클과 같은 클라우드 서비스 업체가 최신 모델을 제공하지만, 그로크, 델, 엔비디아와 같은 파트너는 개발자가 합성 데이터 생성 및 고급 검색 증강 생성(RAG) 기술을 사용할 수 있도록 지원한다. 메타는 그로크가 클라우드 배포를 위해 저지연 추론을 최적화했고 델은 온프레미스 시스템에도 유사한 최적화를 달성했다고 덧붙였다.
클로드, 제미나이, GPT-4o와 같은 다른 대형 모델도 API를 통해 서비스된다.
또한, 맥고넬은 라마 3.1의 출시로 AI 클라우드 서비스 업체와 모델 서비스 업체 간에 라마 3.1 405B 배포를 위한 가장 효율적이고 비용 효과적인 API 솔루션을 제공하기 위한 경쟁이 촉발될 것이라고 전망했다. 파텔에 따르면 메타의 최신 모델 확산 파트너인 투게더AI와 파워어웍스는 비용을 크게 절감할 수 있는 혁신적인 추론 최적화를 제공하고 있다.
경쟁 LLM 업체에 미치는 영향
전문가들은 폐쇄적인 독점 LLM보다 성능이 더 좋거나 비슷한 개방형 LLM의 출시는 규모에 상관없이 경쟁 LLM 업체에 상당한 도전이 될 것으로 보고 있다. Rapyd.AI의 즈윙만은 "코히어, 알레프 알파, 그리고 이와 유사한 독점 LLM을 개발하는 스타트업들은 향후 1~2년 내에 존재하지 않거나 훨씬 더 작은 틈새 시장에서 더 비싼 형태로 살아남게 될 것이다. 이는 마치 전 세계가 윈도우, 맥, 리눅스에 집중할 때 솔라리스에 베팅한 것과 같다"라고 평가했다.또한 맥고넬은 LLM이 개방적인 특성으로 인해 범용화되기 시작하면 오픈AI와 같은 독점 공급업체는 비용 절감 또는 성능 향상으로 경쟁해야 할 것이라고 지적했다. 맥고넬은 "오픈AI가 저렴한 버전의 GPT-4를 출시하기 시작한 것은 비용 절감에 집중하고 있음을 시사한다"라고 말했다.
또한, 메타가 라마 3.1 업데이트를 출시한 지 24시간 만에 오픈AI는 현재 X로 브랜드가 변경된 트위터를 통해 고객에게 GPT-4o 미니 모델을 커스터마이징할 수 있는 무료 티어를 출시할 예정임을 알렸다.
Rapyd.AI의 츠윙만은 개방형과 독점 LLM 간의 이런 경쟁이 기업에 도움이 될 것이라며, "LLM의 토큰 비용은 더욱 낮아질 것으로 예상된다. 더 이상 시장 평균보다 훨씬 더 많은 비용을 청구할 수 있는 용감한 업체는 없다"라고 설명했다. 토큰은 LLM API가 사용자의 쿼리를 분석할 때 처리하는 텍스트의 양을 측정하는 데 사용되는 단위이다.
옴디아의 심민에 따르면, 라마 모델군은 이미 구글, 앤트로픽, 오픈AI의 독점적인 LLM을 비롯한 직접적이고 규모가 큰 LLM을 장악하고 있다. 옴디아의 조사는 메타의 LLM 제품군에서 작업하기 위한 기술을 찾는 채용 공고를 조사하고 수집한 데이터를 기반으로 한다.
개방형 가중치와 오픈소스
메타와 CEO 마크 저커버그는 최신 라마 모델을 오픈소스라고 설명하지만, 일부 애널리스트는 이에 동의하지 않는다. 메타의 모델이 오픈소스 이니셔티브에서 정의하는 진정한 오픈소스가 아니라는 것.옴디아의 심민은 "모든 라마 모델은 MIT나 아파치 라이선스의 소프트웨어에서 볼 수 있는 것처럼 실제로 오픈소스가 아니다. 오히려 AI 실무자가 상업적 용도의 AI 결과물을 구축하는 데 필요한 모든 것을 제공하는 개방적이고 허용적인 커뮤니티 라이선스라고 말하고 싶다"라고 설명했다.
또 메타가 모든 LLM에 대한 모델 가중치를 제공하지만, LLM의 사전 학습에 사용된 데이터에 대한 완전한 투명성을 제공하지는 않는다고 지적했다. 전문가들에 따르면, 가장 큰 문제는 현재 오픈소스 LLM이 무엇인지, 또는 무엇이 되어야 하는지에 대한 정의가 없다는 것이다.
editor@itworld.co.kr