AIㆍML

챗GPT 경쟁 속 MS의 AI 하드웨어 전략은? 새 AI용 가상머신 공개

Andy Patrizio | Network World 2023.03.17
마이크로소프트의 ChatGPT 투자에는 오픈AI에 쏟아부은 비용뿐만 아니라 엄청난 데이터센터 하드웨어 투자 비용도 포함된다. 현재로서는 AI 솔루션이 막강한 자본을 가진 일부 빅테크 기업의 전유물이라는 평가가 나오는 이유다. 

마이크로소프트와 오픈AI의 파트너십은 지난 2019년으로 거슬러 올라가는데, 당시 마이크로소프트는 오픈AI에 10억 달러를 투자했다. 이어 지난 1월에는 100억 달러를 추가로 베팅했다. 
 
ⓒGetty Images Bank

여기서 잊지 말아야 할 것이 있다. ChatGPT가 마이크로소프트 데이터센터의 애저 하드웨어에서 실행된다는 점이다. 블룸버그에 따르면 구체적인 금액은 공개되지 않았지만, 마이크로소프트는 ChatGPT 학습에 사용되는 하드웨어에 이미 “수억 달러”를 지출했다. 

최근 마이크로소프트는 블로그를 통해 빙(Bing)에서 ChatGPT를 제공하기 위한 AI 인프라를 자세히 설명했다. 참고로 마이크로소프트는 엔비디아 A100 GPU 기반의 AI용 가상머신 ‘ND A100 v4’에 이어, 최신 하드웨어 기반의 ‘ND H100 v5’ 가상머신을 공개했다. 

애저 HPC+AI 부문의 수석 제품 관리자 매트 베가스는 “새로운 가상머신은 차세대 NV스위치 및 NV링크 4.0을 통해 상호연결된 엔비디아 H100 텐서 코어 GPU), 엔비디아의 400Gb/s 퀀텀-2 CX7 인피니밴드 네트워킹, 4세대 인텔 제온 스케일러블 프로세서(‘사파이어 래피드(Sapphire Rapids)’), PCle 5세대 상호연결 및 DDR5 메모리를 사용한다”라고 밝혔다. 아울러 베가스는 마이크로소프트가 전 세계 애저 고객에게 여러 엑사플롭급(ExaOP) 슈퍼컴퓨터를 제공한 경험을 바탕으로, 슈퍼컴퓨터 성능을 제공한다고 언급했다. 

또한 다른 블로그에서 마이크로소프트는 ChatGPT의 대규모 언어 모델(그리고 마이크로소프트의 빙 챗)에 필요한 슈퍼컴퓨터를 구축하기 위해 오픈AI와 어떻게 협력했는지도 이야기했다. 마이크로소프트의 애저 고성능 컴퓨팅 및 AI 부문 제품 책임자 니디 샤펠은 “엔비디아조차도 생각하지 못했던 새로운 방식으로 수천 개의 GPU를 연결해야 했다”라고 언급했다. 

이어 “GPU를 여러 개 사서 연결하기만 하면 되는 수준이 아니다. 최적의 성능을 얻으려면 여러 세대에 걸쳐 수많은 시스템 수준 최적화가 필요하다”라고 샤펠은 덧붙였다. 

샤펠에 의하면 대규모 언어 모델을 학습시키기 위해 워크로드는 클러스터의 수천 개 GPU로 분할된다. 아울러 프로세스의 특정 단계에서 GPU는 수행한 작업 정보를 교환하고, GPU가 다음 처리 단계를 시작하기 전에 유효성 검사 단계가 완료돼야 하기 때문에 인피니밴드 네트워크는 데이터를 고속으로 푸시한다고 설명했다. 

회사에 따르면 애저 인프라는 대규모 언어 모델 학습에 최적화돼 있지만, 여기에 도달하기까지 AI 플랫폼을 점진적으로 개선하는 데 수년이 걸렸다. 빙 AI를 제공하는 데 필요한 GPU, 네트워크 하드웨어, 가상화 소프트웨어의 조합은 방대하며, 전 세계 60개 애저 리전에 분산돼 있다. 

한편 ND H100 v5 인스턴스는 현재 프리뷰로 사용할 수 있다. 정확한 공식 출시 시점은 언급되지 않았다.
editor@itworld.co.kr
 

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.