AIㆍML

엔비디아, ‘차세대 AI 슈퍼컴퓨팅’ 블랙웰 기반 DGX 슈퍼팟 출시

편집부 | ITWorld 2024.03.19
엔비디아(www.nvidia.co.kr)가 차세대 AI 슈퍼컴퓨터인 엔비디아 GB200 블랙웰(NVIDIA GB200 Grace Blackwell) 슈퍼칩 기반의 엔비디아 DGX 슈퍼팟(DGX SuperPOD)을 발표했다. 초대형 생성형 AI 훈련과 추론 작업을 위해 일정한 가동 시간동안 수조 개의 파라미터 모델을 처리한다.
 

새로운 DGX 슈퍼팟은 고효율 수냉식 랙 스케일 아키텍처를 특징으로 하며, 엔비디아 DGX GB200 시스템으로 구축됐다. FP4 정밀도에서 11.5엑사플롭(exaflops)의 AI 슈퍼컴퓨팅과 240테라바이트의 고속 메모리를 제공하며, 랙을 추가해 확장할 수 있다. 

각 DGX GB200 시스템에는 36개의 엔비디아 그레이스 CPU(Grace CPU)와 72개의 엔비디아 블랙웰 GPU를 포함하는 36개의 엔비디아 GB200 슈퍼칩이 5세대 엔비디아 NV링크(NVLink)를 통해 하나의 슈퍼컴퓨터처럼 연결된다. GB200 슈퍼칩은 대규모 언어 모델(LLM) 추론 작업을 위한 엔비디아 H100 텐서 코어(H100 Tensor Core) GPU에 비해 최대 30배 향상된 성능을 제공한다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 8대 이상의 DGX GB200 시스템을 갖추고 있으며, 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand)를 통해 연결된 수만 개의 GB200 슈퍼칩으로 확장할 수 있다. 8개의 DGX GB200 시스템에 있는 576개의 블랙웰 GPU를 NV링크로 연결해 차세대 AI 모델에 필요한 대규모 공유 메모리 공간을 구성할 수 있다.

새로운 랙 스케일 DGX 슈퍼팟 아키텍처
DGX GB200 시스템으로 이루어진 새로운 DGX 슈퍼팟은 시스템들 간에 서로 통합된 컴퓨팅 패브릭을 갖추고 있다. 이 패브릭에는 5세대 엔비디아 NV링크 외 엔비디아 블루필드-3가 포함된다. 또한, 별도로 발표된 엔비디아 퀀텀-X800 인피니밴드 네트워킹을 지원할 예정이다. 이 아키텍처는 플랫폼에서 각 GPU에 초당 최대 1,800기가바이트의 대역폭을 제공한다.

또한 4세대 엔비디아 샤프(Scalable Hierarchical Aggregation and Reduction Protocol, SHARP) 기술은 차세대 DGX 슈퍼팟 아키텍처에서 이전 세대 대비 4배 증가한 14.4테라플롭의 인네트워크 컴퓨팅을 제공한다.

새로운 DGX 슈퍼팟은 데이터센터 규모의 AI 슈퍼컴퓨터로, 엔비디아 인증 파트너의 고성능 스토리지와 통합돼 생성형 AI 워크로드의 수요를 충족한다. 각 슈퍼컴퓨터는 공장에서 구축돼 케이블 연결과 테스트를 거쳐 기업 데이터센터에 배포하는 속도를 높인다.

그레이스 블랙웰 기반 DGX 슈퍼팟은 지능형 예측 관리 기능을 갖추고 있다. 이는 하드웨어와 소프트웨어 전반에 걸쳐 수천 개의 데이터 포인트를 지속적으로 모니터링해 다운타임과 비효율성의 원인을 예측하고 차단하는 기능으로 시간과 에너지, 컴퓨팅 비용 등을 절감할 수 있다.

이 소프트웨어는 시스템 관리자가 없는 상태에서도 우려되는 영역을 식별하고 유지보수 계획을 수립한다. 또한 컴퓨팅 리소스를 유연하게 조정하고, 작업을 자동으로 저장하고 재개해 다운타임을 방지한다.

아울러 소프트웨어에서 교체가 필요한 구성 요소가 감지되면 클러스터는 대기 용량을 활성화해 작업이 제시간에 완료되도록 한다. 필요한 하드웨어 교체를 미리 예정할 수 있어 예기치 않은 다운타임도 방지할 수 있다.

AI 슈퍼컴퓨팅 발전시키는 엔비디아 DGX B200 시스템
엔비디아는 AI 모델 훈련, 미세 조정, 추론을 위한 통합 AI 슈퍼컴퓨팅 플랫폼인 엔비디아 DGX B200 시스템을 공개했다.

DGX B200은 전 세계 산업에서 사용하는 6세대 공랭식 랙 마운트형 DGX 설계의 최신 버전이다. 새로운 블랙웰 아키텍처 DGX B200 시스템에는 8개의 엔비디아 블랙웰 GPU와 2개의 5세대 인텔 제온 프로세서가 포함된다. 또한 기업은 DGX B200 시스템으로 DGX 슈퍼팟을 구축해 다양한 작업을 수행하는 대규모 개발자 팀의 작업을 지원할 수 있는 AI 전문 센터(AI Centers of Excellence)를 만들 수 있다.

DGX B200 시스템에는 새로운 블랙웰 아키텍처의 FP4 정밀 기능이 탑재돼 최대 144페타플롭의 AI 성능, 1.4테라바이트의 대용량 GPU 메모리, 64TB/s의 메모리 대역폭을 제공한다. 이를 통해 이전 세대에 비해 1조 개 파라미터 모델에 대해 15배 빠른 실시간 추론이 가능하다.

DGX B200 시스템에는 8개의 엔비디아 커넥트X-7 NIC(ConnectX-7 NIC)와 2개의 블루필드-3 DPU를 갖춘 고급 네트워킹이 적용된다. 이는 연결당 최대 초당 400기가비트의 대역폭을 제공해 엔비디아 퀀텀-2 인피니밴드와 엔비디아 스펙트럼(Spectrum-X) 이더넷 네트워킹 플랫폼과 함께 빠른 AI 성능을 제공한다.

DGX GB200과 DGX B200 시스템이 갖춰진 엔비디아 DGX 슈퍼팟은 올해 말부터 엔비디아의 글로벌 파트너를 통해 제공될 예정이다.
editor@itworld.co.kr
 Tags 엔비디아
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.