AIㆍML

'작을 수록 좋은 것' 대규모 언어 모델은 축소되어야 한다

Lucas Mearian | Computerworld 2023.09.18
대규모 언어 모델(LLM)은 가장 크고 가장 강력한 모델이라는 타이틀을 두고 경쟁하는 경우가 많지만 LLM 사용에 관심을 갖고 있는 많은 기업은 모델이 크다고 무조건 좋지만은 않다는 사실을 인지하기 시작했다.
 
생성형 AI 도구의 도입이 가파르게 상승하고 있다. 2,000명 이상의 IT 및 비즈니스 의사 결정자를 대상으로 실시된 IDC 설문조사에 따르면 기업은 향후 1년 반에 걸쳐 AI 이니셔티브에 2022년 대비 10%~15% 더 많은 예산을 투자할 계획이다.
 
생성형 AI는 이미 여러 업계의 비즈니스와 기업에 큰 영향을 미치고 있다. IDC 설문 결과 조기에 도입한 기업은 지난 3년간 AI 투자에 따라 혁신이 35% 증가하고 지속가능성은 33% 개선됐다고 한다.
 
ⓒ Getty Images Bank

고객 및 직원 유지율도 32% 개선됐다. IDC의 AI 및 자동화 연구 부문 그룹 부사장인 리투 지오티는 “AI는 향후 5~10년 동안 고객에게 진정한 경쟁 우위를 제공하는 데 있어 클라우드 못지않게 중요한 역할을 하게 된다”라며 “이 부분에 대해 비전을 가진 기업이 큰 경쟁 우위를 갖게 될 것”이라고 말했다.
 
수천억, 심지어 조 단위의 매개변수를 사용하는 범용 LLM은 얼핏 강력해 보이지만, 필요한 칩을 제조하거나 확장하는 속도가 따라잡지 못할 정도의 엄청난 속도로 컴퓨팅 사이클을 소비하면서 서버 용량에 부담을 주고, 이로 인해 특정 비즈니스 용도에 맞게 모델을 학습시키는 데 필요한 시간이 비현실적으로 길어질 수 있다.
 
가트너 리서치의 부사장이며 특별 분석가인 아비바 리탄은 “머지않아 GPU 칩 확장 속도가 모델 크기의 증가 속도를 따라잡지 못하게 된다. 따라서 모델 크기를 계속 키우는 것은 지속 가능한 옵션이 아니다”라고 말했다.
 
언스트 앤 영의 글로벌 인공지능 컨설팅 리더인 단 디아시오 역시 같은 생각이며, 현재 GPU 주문이 적체되고 있다는 점을 덧붙였다. 칩 부족은 LLM을 만드는 기술 기업뿐 아니라 모델을 조정하거나 자체 사유 LLM을 구축하려는 기업에도 문제가 될 수 있다.
 
디아시오는 “결과적으로 전문화된 기업용 LLM을 세밀하게 튜닝하고 구축하기 위한 비용이 상당히 높고 이로 인해 지식 향상 팩, 전문 지식이 포함된 라이브러리 프롬프트 구축 같은 추세가 나타나고 있다"라고 말했다.
 
또한 향후에는 더 많은 데이터로 학습된 소규모 영역별 모델이 현재의 지배적인 LLM인 오픈AI의 GPT 4, 메타 AI의 LLaMA 2, 또는 구글 PaLM 2 등에 도전하게 될 것이다.
 
소규모 모델은 특정 사용 사례에 맞게 학습시키기도 더 쉽다.
 
크기를 불문하고 모든 LLM은 모델에 질의와 그에 대한 올바른 응답을 공급해서 알고리즘이 더 정확히 응답할 수 있도록 하는 프롬프트 엔지니어링이라는 과정을 통해 학습된다. 현재 ‘챗GPT용 최적의 프롬프트 100개’와 같이 프롬프트 목록을 사고파는 시장이 따로 있을 정도다.
 
그러나 LLM이 흡수하는 데이터가 많을수록 부정확한 결과가 나올 가능성도 높아진다. 생성형 AI 툴은 기본적으로 다음 단어 예측기다. 즉, 잘못된 정보가 입력되면 잘못된 결과를 도출할 수 있다. (LLM은 이미 여러 번 실수를 저질렀음이 널리 알려져 있고, 다음 단어 생성 엔진이 정상 궤도를 벗어나 전혀 엉뚱한 응답을 생성하는 이른바 '환각(hallucinations)'이 생기기도 한다.)
 
오픈AI의 GPT 4 또는 메타 AI의 LLaMA와 같은 초대형 범용 LLM은 수십억 또는 수조 개의 매개변수를 포함하지만, 수직 산업 또는 전문적 용도에서는 부정확하고 비전문적인 결과를 출력할 수 있다. 매개변수는 LLM이 질의에 대해 제공할 수 있는 다양한 답변 중에 적절한 항목을 결정하는 데 도움을 주는 기능을 한다.

리탄은 “거대 LLM”은 잘 이해된 기술을 사용하고 지속적으로 개선되지만, 이를 개발하고 유지할 수 있는 것은 충분한 리소스와 자금력, 기술을 보유한 거대 기술 기업밖에 없다고 말했다.
 
리탄은 “결과적으로 LLM의 힘이 소수의 지배적 기업에 몰리는 집중화는 그 자체가 중대한 위험”이라며 “막강한 기술 권력이 극소수 업체에 집중되는 것은 좋지 않다. 이들 기업에 대한 실질적인 견제와 균형이 작용하지 않는다. 또한, 칩 업계가 따라갈 수 없다. 모델 크기의 확장과 성장 속도에 비해 GPU 혁신 속도가 느리기 때문이다. 하드웨어의 변화 속도는 소프트웨어에 비해 항상 느리다"라고 말했다.
 

특정 용도에 맞게 LLM 학습시키기

GPT 4 같은 모델은 인터넷 및 기타 소스로부터 수집한 방대한 양의 정보로 사전에 입력 및 학습되지만, 프롬프트 엔지니어링은 생성형 AI 사용자가 독자적인 정보 또는 업종별 정보를 사용해서 응답을 조정할 수 있게 해준다. 예를 들어 사용 기업이 챗GPT를 네이티브 API로 자체 백엔드 애플리케이션과 데이터베이스에 연결하면, 생성형 AI 툴은 더 비즈니스에 특화된 용도에 기업의 이 사유 정보를 활용할 수 있다.

딜로이트가 115명의 CFO를 상대로 실시한 새로운 설문조사에서 응답자의 42%는 회사가 생성형 AI로 실험하고 있으며 15%는 회사 전략 수립에 반영하고 있다고 답했다. 설문에 참여한 CFO의 약 3분의 2는 내년 예산에서 생성형 AI가 차지하는 비중은 1% 미만이라고 답했고 약 3분의 1은 1~5%가 될 것으로 예상했다.

생성형 AI의 도입과 구축에 가장 큰 걸림돌로는 CFO의 63%가 인적 자원 및 역량 부족을 들었다. 기업이 내부 인력 부족에 직면한 상황에서 비즈니스 작업을 자동화하거나 사용자가 중복 또는 반복적 작업을 처리하는 데 도움을 줄 수 있는 LLM 기반 생성형 AI 툴을 출시하는 기술 업체가 증가하고 있다.
 
지난 3월 세일즈포스는 CRM 플랫폼과 연계 작동하는 GPT 기반 챗봇 출시 계획을 발표했다. 같은 달 마이크로소프트도 일부 CRM 및 ERP 작업을 자동화할 수 있는 GPT-4 기반 다이나믹스 365 코파일럿을 발표했다. 그 외에 코드 작성, 또는 입사 지원자 순위 매기기, 직원 승진 추천과 같은 HR 직무 수행에 도움이 되는 생성형 AI 플랫폼도 있다.
 
주요 LLM 개발사는 특정 산업 용도에 맞도록 모델을 맞춤화하는 작업에도 착수했다.
 
예를 들어 구글은 현재 2개의 분야별 모델을 제공한다. Med-PaLM 2는 PaLM 2를 의료용으로 튜닝한 버전으로, 의료 및 생명과학 업계의 더 많은 고객을 대상으로 다음 달에 프리뷰 형식으로 출시된다. Sec-Palm은 보안용으로 튜닝된 버전이다. 위협 환경에 대한 구글의 시야, 그리고 취약점, 맬웨어, 위협 지표, 행동 위협 행위자 프로파일에 대한 맨디언트(Mandiant)의 최전방 정보와 같은 보안 인텔리전스를 활용한다.
 
구글은 PaLM 2 LLM(구글이 주장하기로는 다른 모든 써드 파티나 오픈소스 모델도 가능)을 맞춤 설정하는 데 사용되는 튜닝 방법론 모음인 버텍스 AI(Vertex AI)도 제공한다.
 
구글 대변인은 Computerworld의 질문에 “구글 고객은 이러한 튜닝 방법을 사용해서 각자의 구체적인 비즈니스 사용 사례에 따라 맞춤 구성하고 자체 엔터프라이즈 데이터를 활용하는 동시에 사용 사례, 비즈니스 목표 및 예산에 가장 잘 맞는 접근 방식에 관한 가이드를 제공한다”라고 답했다.
 
이 대변인은 버텍스 AI는 프롬프트 튜닝 및 어댑터 튜닝과 같은 맞춤 구성 기능을 제공하며, 여기에는 더 큰 학습 데이터 집합(수백 개에서 수천 개에 이르는 예제)과 학습을 실행하기 위한 소량의 컴퓨팅 성능이 필요하다고 말했다.
 
버텍스 AI는 “인간의 피드백을 사용한 강화 학습”도 제공한다. 출력에 대한 인간의 피드백을 받아서 버텍스 AI 파이프라인을 사용해 모델을 튜닝하는 방식이다.
 
수직 산업별 LLM을 만들거나 고객을 위해 모델을 세부적으로 튜닝해주는 스타트업도 속속 등장하고 있다.
 
예를 들어 라이터(Writer)는 기업용 풀 스택 생성형 AI 플랫폼을 제공하는 신생업체인데, 비즈니스 운영, 제품, 판매, 인적 자원 운용 및 마케팅을 지원한다. 또한, 특정 산업에 맞는 다양한 언어 모델을 제공한다. 가장 작은 모델의 매개변수는 1억 2,800만 개, 가장 큰 모델인 팔마이라-X(Palmyra-X)의 매개변수는 400억 개다.
 
라이터 공동 창업자이며 CEO인 메이 하빕은 “기본 모델을 미세 튜닝해서 여러 산업 분야를 지원한다"라고 말했다.
 
예를 들어 의료용 모델인 팔마이라-메드(Palmyra-Med)의 경우 기본 모델인 팔마이라-40B에 명령어 미세 튜닝을 적용해 만들어졌다. 이 회사는 펍메드QA(PubMedQA)와 메드QA(MedQA), 두 곳의 공개 소스에서 선별한 의료 데이터 집합으로 이 과정을 통해 LLM을 학습시켰다.
 
리탄은 “현재 많은 연구원과 최종 사용자를 위해 소형 모델이 실용적인 옵션이 되고 있다. AI ‘부’의 확산은 제어 및 솔루션 관점에서 긍정적인 일이다. 많은 실험과 혁신에서 훨씬 더 많은(예를 들어 5~10배) 데이터 또는 선별된 데이터로 학습된 소형 모델이 거대 LLM의 성능에 근접할 수 있음을 보여주고 있다"라고 말했다.
 
페이스북 모회사 메타는 지난 2월 매개변수가 70억~650억 개로 이전 모델보다 훨씬 더 작은 LLaMa LLM 버전을 출시했다. 또한 메타는 대부분의 벤치마크에서 130억 매개변수 LLaMa 모델의 성능이 훨씬 더 큰 GPT-3 모델보다 앞섰다고 주장했다. 메타는 자사의 소형 LLM이 “더 적은 컴퓨팅 성능과 리소스로 새로운 접근 방식을 테스트하고 다른 사람의 작업을 검증하며 새로운 사용 사례를 탐색함으로써” 생성형 AI에 대한 접근성을 “민주화”할 수 있다고 말했다.
 
스탠포드, 엔비디아, 그리고 존스 홉킨스와 같은 연구소와 학술기관에서 진행 중인 혁신도 있다. 존스 홉킨스는 초대형 LLM과 대등한 성능을 내는 훨씬 더 작은 모델을 만들기 위한 베이비LM(BabyLM) 챌린지를 시작했다. 리탄은 “이러한 모든 활동은 연구실 밖에서 증명되어야 하지만 분명 진전하고 있다"라고 말했다.
 
또한 더 큰 모델 생태계의 일부로 특정 작업에 대한 작은 하위 모델을 학습시키는 기술 등 다른 기법도 테스트 중이다.
 
AI 보조 엔터프라이즈 검색 엔진 제공업체인 글린(Glean)의 CEO 아빈드 자인은 “GPT, PaLM과 같은 모델을 사용하는 데 대한 기업의 우려가 커지고 있다. 모델의 크기가 매우 커서 모델 제공업체에서 호스팅해야 하기 때문이다. 즉, 내 데이터가 제공업체의 손을 거치게 되는 것”이라고 말했다.
 
글린의 검색 엔진은 사용자 질의를 데이터 또는 내부 문서를 찾는 엔터프라이즈와 연결하기 위해 GPT-4, PaLM 2, LLaMa 2와 같은 LLM에 크게 의존한다.
 
클라우드 기반 LLM과 관련해서 보안, 개인정보 보호, 저작권 침해 문제에 대한 우려가 여전히 남아 있다. 구글 특별 엔지니어를 지낸 자인은 오픈AI와 구글이 LLM을 개선하기 위해 고객 데이터를 남용하지 않을 것을 보장하며, 기업이 이러한 보장을 받아들이고 있다고 말했다.
 
이러한 분위기에 따라 오픈AI도 암호화 및 SSO 기술을 통해 향상된 보안 및 개인정보 보호 기능을 제공하는 챗GPT 엔터프라이즈 애플리케이션을 출시했다.
 
AI를 사용하여 종단간 소프트웨어 개발 및 제공을 생산하는 Digital.ai의 CEO 데릭 홀트는 더 작고 맞춤화된 LLM이 프라이온(Pryon)과 같은 스타트업을 통해 부상하고 있다고 말했다. 이를 통해 기업은 신속하게 자체 LLM을 구축할 수 있다. 홀트는 “엔터프라이즈 데이터의 컨텍스트를 통해 구축하는 개념”이라고 설명했다.
 5223
시스템 통합 서비스 제공업체 인사이트 엔터프라이즈(Insight Enterprises)의 글로벌 CTO 맷 잭슨은 “초점이 명확한” LLM을 사용하는 경우 확실한 이점이 있다고 말했다. 예를 들어 의료 및 금융 서비스 업계는 특정 데이터 집합으로 학습된 소규모 모델을 실험 중이다.
 
아마존도 기업이 자체 엔터프라이즈 데이터를 사용하여 학습시킬 수 있는 작은 모델이 포함된 LLM 마켓플레이스를 출범했다.
 
잭슨은 “대부분의 경우 자체 모델을 학습시키는 것은 적절한 접근 방식이 아닐 수 있다. 인사이트 엔터프라이즈와 협력하는 기업 대부분은 챗GPT, 랭체인(Langchain) 또는 마이크로소프트의 인지 검색 엔진을 사용하는 편이 가장 적합하다. LLM은 사전 학습된 블랙박스다. 이 블랙박스가 내 데이터에 액세스하도록 허용할 수 있다"라고 말했다.
 

맞춤형 LLM 구축은 어렵고 많은 비용 들어

현재 깃허브와 같은 온라인 개발자 리포지토리에 포함된 개방 영역 LLM은 수백 개에 이른다. 그러나 이러한 모델은 대형 기술 벤더의 모델보다 대체로 훨씬 더 작고, 따라서 성능이나 적응성도 훨씬 더 떨어진다.
 
게다가 독자적인 LLM 구축은 몹시 고된 일이다. 자인은 여러 고객사가 계속해서 실험을 하고 있지만 독자적인 LLM을 성공적으로 구축한 기업은 지금까지 한 곳도 없다고 말했다.
 
자인은 “지금 현실을 보면, 개방 영역의 모델은 그다지 강력하지 않다. 자체 실험 결과 GPT 4 또는 PaLM에서 얻을 수 있는 품질이 개방 영역 모델에 비해 훨씬 더 높은 것으로 나타났다. 따라서 범용 애플리케이션의 경우 자체 모델을 구축하고 학습시키는 것은 지금으로서는 적절한 전략이 아니다”라고 말했다.
editor@itworld.co.kr 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2023 International Data Group. All rights reserved.