미래기술

엔비디아, ‘블랙웰’ 사용례 공개… “호퍼보다 25배 적은 비용으로 생성형 AI 구현”

편집부 | ITWorld 2024.05.17
엔비디아가 고급 시뮬레이션, AI, 양자 컴퓨팅 성능 등이 강화된 엔비디아 블랙웰(NVIDIA Blackwell) 플랫폼을 통해 과학 컴퓨팅의 지평을 넓히겠다고 밝혔다.
 
ⓒ Nvidia

최근 가속 컴퓨팅과 AI의 발전이 전 세계 혁신을 주도하고 있다. 양자 컴퓨팅, 신약 개발, 핵융합 에너지 등 인류에 도움이 되는 여러 분야에서도 과학 컴퓨팅과 물리학 기반 시뮬레이션이 큰 진전을 이룰 것으로 기대되고 있다.

엔비디아는 지난 3월 GTC에서 엔비디아 블랙웰 플랫폼을 공개했다. 이는 엔비디아 호퍼(Hopper) 아키텍처보다 최대 25배 적은 비용과 에너지 소비로 수조 개 파라미터의 LLM에서 생성형 AI를 구현할 수 있는 플랫폼이다.

블랙웰은 AI 워크로드에 강력한 영향력을 발휘할 전망이다. 또한, 기존의 수치 시뮬레이션을 포함한 모든 유형의 과학 컴퓨팅 애플리케이션에서 새로운 발견을 이끌어낼 수 있는 기술력까지 갖추고 있다.

가속 컴퓨팅과 AI는 에너지 비용을 줄임으로써 지속 가능한 컴퓨팅을 실현한다. 이미 많은 과학 컴퓨팅 애플리케이션이 이러한 이점을 누리고 있다. 예를 들어, 날씨 시뮬레이션은 200배 낮은 비용과 300배 적은 에너지로 구현할 수 있다. 디지털 트윈 시뮬레이션의 경우, 기존 CPU 기반 시스템 대비 65배 낮은 비용과 58배 적은 에너지 소비로 구현이 가능하다.

과학 컴퓨팅과 물리학 기반 시뮬레이션은 문제를 해결하기 위해 배정밀도(double-precision) 또는 FP64(부동 소수점)로 알려진 방식에 의존하는 경우가 많다. 블랙웰 GPU는 호퍼보다 30% 더 뛰어난 FP64와 FP32 FMA(fused multiply-add) 성능을 제공한다.

물리학 기반 시뮬레이션은 제품 설계와 개발에 매우 중요하다. 비행기와 기차에서 교량, 실리콘 칩, 의약품에 이르기까지 시뮬레이션을 통해 제품을 테스트하고 개선하면 연구자와 개발자는 수십억 달러를 절약할 수 있다.

오늘날 응용 주문형 집적회로(ASICs)는 전압과 전류를 식별하기 위한 아날로그 분석을 포함해 길고 복잡한 워크플로우를 통해 거의 CPU에서만 설계된다고 알려져 있다. 하지만 상황이 바뀌고 있다. 케이던스 스펙터엑스(Cadence SpectreX) 시뮬레이터는 아날로그 회로 설계 솔버의 한 사례다. 스펙터엑스 회로 시뮬레이션은 블랙웰 GPU와 그레이스(Grace) CPU를 연결하는 GB200 그레이스 블랙웰 슈퍼칩에서 기존 CPU보다 13배 더 빠르게 실행될 것으로 예상되고 있다.

또한 핵심 도구로 자리 잡은 GPU 가속 전산유체역학(CFD)을 통해 엔지니어와 장비 설계자는 설계의 동작을 예측할 수 있다. 케이던스 피델리티(Fidelity)는 기존 CPU 기반 시스템보다 GB200 시스템에서 CFD 시뮬레이션을 최대 22배 더 빠르게 실행할 것으로 예상된다. 병렬 확장성과 GB200 NVL72 랙당 30TB의 메모리를 통해 이전과는 전혀 다른 방식으로 흐름을 세밀하게 파악할 수 있다.

또 다른 애플리케이션인 케이던스 리얼리티(Reality)의 디지털 트윈 소프트웨어로는 물리적 데이터센터의 가상 복제본을 생성할 수 있다. 여기에는 서버, 냉각 시스템, 전원 공급 장치 등 모든 구성 요소가 포함된다. 이러한 가상 모델을 통해 엔지니어는 다양한 구성과 시나리오를 실제 환경에 구현하기 전에 테스트함으로써 시간과 비용을 절약할 수 있다.

케이던스 리얼리티의 기능은 열, 공기 흐름, 전력 사용량이 데이터센터에 미치는 영향을 시뮬레이션할 수 있는 물리학 기반 알고리즘에서 비롯된다. 이를 통해 엔지니어와 데이터센터 운영자는 용량을 보다 효과적으로 관리한다. 또한 잠재적인 운영 문제를 예측하며, 정보에 입각한 결정을 내려 데이터센터의 레이아웃과 운영을 최적화해 효율성과 용량 활용도를 개선할 수 있다. 블랙웰 GPU를 사용하면 이러한 시뮬레이션이 CPU보다 최대 30배 빠르게 실행돼 타임라인이 단축되고 에너지 효율이 높아질 것으로 기대된다.
 
케이던스 시뮬레이션 성능 ⓒ Nvidia

또한 새로운 블랙웰 가속기와 네트워킹은 고급 시뮬레이션을 위한 비약적인 성능을 제공한다. 엔비디아 GB200은 고성능 컴퓨팅(HPC)의 새로운 시대를 열었다. 이 아키텍처는 LLM의 추론 워크로드를 가속화하는 데 최적화된 2세대 트랜스포머 엔진을 탑재하고 있다.

이를 통해 1.8조 개의 파라미터를 가진 GPT-MoE 모델과 같은 리소스 집약적인 애플리케이션의 속도가 H100 세대 대비 30배 향상돼 HPC의 새로운 가능성을 열어준다. LLM이 방대한 양의 과학 데이터를 처리하고 해독할 수 있도록 지원함으로써, HPC 애플리케이션은 과학적 발견을 가속화할 수 있는 유용한 인사이트에 더 빨리 도달할 수 있게 됐다.

샌디아 국립 연구소는 병렬 프로그래밍을 위한 LLM 코파일럿을 구축하고 있다. 기존 AI는 기본적인 직렬 컴퓨팅 코드를 효율적으로 생성할 수 있지만, HPC 애플리케이션을 위한 병렬 컴퓨팅 코드의 경우 LLM이 불안정할 수 있다. 샌디아 연구진들은 코코스(Kokkos)라는 프로그래밍 언어로 병렬 코드를 자동으로 생성하는 야심찬 프로젝트를 추진하며 이 문제를 정면으로 다루고 있다. 이 코코스는 세계에서 가장 강력한 슈퍼컴퓨터에서 수만 개의 프로세서 작업을 실행하기 위해 여러 국립 연구소에서 설계한 전문 프로그래밍 언어다.

샌디아 국립 연구소는 정보 검색 기능과 언어 생성 모델을 결합한 검색 증강 생성(RAG) 기술을 사용하고 있다. 연구소는 코코스 데이터베이스를 생성하고 RAG를 사용해 AI 모델과 통합하고 있다.

초기 연구 결과는 매우 유망하다. 샌디아 국립 연구소의 다양한 RAG 접근 방식은 병렬 컴퓨팅 애플리케이션을 위해 자율적으로 생성된 코코스 코드를 시연했다. 이들은 AI 기반 병렬 코드 생성의 장애물을 극복함으로써 전 세계 주요 슈퍼컴퓨팅 시설에서 HPC의 새로운 가능성을 여는 것을 목표로 하고 있다. 다른 사례로는 재생 에너지 연구, 기후 과학 그리고 신약 개발 등이 있다.

한편 양자 컴퓨팅은 핵융합 에너지, 기후 연구, 신약 개발 그리고 더 많은 분야에서 타임머신 여행을 가능하게 한다. 따라서 연구자들은 그 어느 때보다 빠르게 양자 알고리즘을 개발하고 테스트하기 위해 엔비디아 GPU 기반 시스템과 소프트웨어에서 미래의 양자 컴퓨터를 시뮬레이션하는 데 매진하고 있다.

엔비디아 쿠다-Q(CUDA-Q) 플랫폼은 CPU, GPU 그리고 양자 처리 장치(QPU)가 함께 작동하는 통합 프로그래밍 모델을 통해 양자 컴퓨터의 시뮬레이션과 하이브리드 애플리케이션 개발을 모두 지원한다. 쿠다-Q는 바스프(BASF)의 화학 워크플로우, 스토니 브룩(Stony Brook)의 고에너지와 핵 물리학, 미 국립에너지연구소 과학컴퓨팅센터(NERSC)의 양자 화학 시뮬레이션의 속도를 높이고 있다.

엔비디아 블랙웰 아키텍처는 양자 시뮬레이션을 새로운 차원으로 끌어올리는 데 도움이 될 것으로 기대된다. 최신 엔비디아 NV링크(NVLink) 멀티노드 인터커넥트 기술을 활용하면 데이터를 더 빠르게 전송해 양자 시뮬레이션의 속도를 높일 수 있다.

래피즈(RAPIDS)를 사용한 데이터 처리는 과학 컴퓨팅에 널리 사용된다. 블랙웰은 하드웨어 압축 해제 엔진을 도입해 압축된 데이터를 압축 해제하고 래피즈의 분석 속도를 높인다.

이 압축 해제 엔진은 최대 800GB/s의 성능 향상을 제공한다. 또한, 사파이어 래피즈(Sapphire Rapids)에서는 CPU보다 18배, 쿼리 벤치마크에서는 엔비디아 H100 텐서 코어(H100 Tensor Core) GPU보다 6배 더 빠른 성능을 발휘할 수 있도록 지원한다.

이 엔진은 8TB/s의 고용량 메모리 대역폭과 그레이스 CPU 고속 NV링크 칩투칩(Chip-to-Chip, C2C) 인터커넥트로 데이터 전송을 가속화한다. 이로써 데이터베이스 쿼리의 전체 프로세스 속도를 높인다. 데이터 분석과 데이터 과학 사용 사례 전반에서 최고 수준의 성능을 제공하는 블랙웰은 데이터 인사이트의 속도를 높이고 비용을 절감한다.

엔비디아 퀀텀-X800 인피니밴드(Quantum-X800 InfiniBand) 네트워킹 플랫폼의 경우 과학 컴퓨팅 인프라를 위한 최고의 처리량을 제공한다. 여기에는 이전 세대보다 두 배의 대역폭을 제공하는 엔비디아 퀀텀 Q3400, Q3200 스위치(Switch), 그리고 엔비디아 커넥트X-8 슈퍼NIC(ConnectX-8 SuperNIC)가 포함된다. Q3400 플랫폼은 이전 세대 대비 5배 높은 대역폭 용량과 14.4T플롭의 네트워크 내 컴퓨팅을 제공한다. 아울러 엔비디아 샤프v4(SHARPv4)를 통해 이전 세대 대비 9배 증가된 성능을 제공할 수 있다.
editor@itworld.co.kr
Sponsored
IDG 설문조사

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.