2018.05.31

엔비디아, HGX-2 서버 플랫폼에서 AI와 HPC 컴퓨팅 통합 노려

Marc Ferranti | Network World
엔비디아가 새 서버 플랫폼인 HGX-2를 중심으로 데이터센터 성능과 효율성 홍보에 박차를 가하고 있다. HGX-2는 16개의 테슬라 V100 텐서 코어 GPU의 성능을 활용해 AI와 고성능 컴퓨팅(HPC) 워크로드 요구 사항을 충족한다.

데이터센터 서버 제조업체 레노버, 슈퍼마이크로(Supermicro), 위윈(Wiwynn), QCT는 올해 말까지 HGX-2 시스템을 출하할 예정이라고 밝혔다. HGX-2 시스템의 가장 큰 고객이 하이퍼스케일 제공업체가 될 가능성이 높은 만큼 폭스콘(Foxconn), 인벤텍(Inventec), 콴타(Quanta), 위스트론(Wistron) 역시 클라우드 데이터센터용으로 HGX-2 플랫폼을 사용하는 서버를 만들 것으로 보인다.

HGX-2는 NV스위치(NVSwitch) 연결 패브릭을 통해 테슬라 GPU를 연결하는 두 개의 GPU 베이스보드를 사용한다. HGX-2 베이스보드에는 각각 8개의 프로세서가 장착되므로 GPU는 총 16개다. 1년 전에 발표된 HGX-1에는 GPU가 8개였다.

엔비디아는 HGX-2를 “빌딩 블록”이라고 설명한다. 이 빌딩 블록을 중심으로 서버 제조사가 다양한 작업에 맞게 튜닝 가능한 시스템을 구축할 수 있다는 뜻이다. 향후 엔비디아가 발표할 DGX-2 역시 이 시스템을 기반으로 한다. 엔비디아는 올해 말까지 시스템 출하가 가능하도록 서버 제조사에 레퍼런스 아키텍처와 함께 플랫폼을 제공하고 있다.

엔비디아 CEO 젠슨 황은 지난 수요일 대만에서 열린 엔비디아 GPU 기술 컨퍼런스에서 소식을 발표했다.


엔비디아는 두 달 전 산호세 기술 컨퍼런스에서 첫 HGX-2 기반 시스템이 될 것으로 예상되는 DGX-2가 2페타플롭의 컴퓨팅 성능을 제공할 수 있다고 밝혔다. 보통 수백 대의 서버로 구성된 클러스터에서나 가능한 성능이다. DGX-2 시스템의 기본 가격은 399,000달러다.

엔비디아 측은 HGX-2 테스트 시스템이 ResNet-50 학습 벤치마크에서 초당 1만 5,500개의 이미지로 AI 학습 속도 신기록을 세웠으며 CPU만 사용하는 서버 300대를 대체할 수 있다고 말했다. 서버 300대의 비용은 수백만 달러에 이른다.

GPU는 머신러닝 애플리케이션의 데이터 집합 학습 부문, 특히 신경망 모델 생성에서 틈새 시장을 발견했다. GPU의 대량 병렬 아키텍처가 AI 학습에 적합하기 때문이다.

HGX-2의 판매 포인트는 AI 학습과 추론, 두 가지 모두에 맞게 구성이 가능하므로 신경망을 실제 상황에 사용할 수 있게 해준다는 점이다. 그 외에 과학 컴퓨팅, 이미지 및 비디오 렌더링, 시뮬레이션용 HPC 애플리케이션도 HGX-2가 노리는 시장이다.

엔비디아 AI 및 가속 컴퓨팅 분야 그룹 제품 마케팅 관리자인 파레시 카리야는 “미래 컴퓨팅에는 통합 플랫폼이 필요할 것이다. HGX-2의 고유한 특징은 다중 정밀도(multiprecision) 컴퓨팅 기능에 있다”고 말했다.

카리야는 HGX-2 플랫폼이 과학 컴퓨팅과 시뮬레이션에서 최대 FP64를 사용해 고정밀 계산(64비트 배정밀도 계산)을 할 수 있을 뿐만 아니라 AI 워크로드를 위한FP16(16비트 부동소수점 연산)과 Int8(추론 지도의 한 유형)도 제공한다고 말했다.

각 HGX-2 베이스보드에는 6개의 NV스위치가 탑재된다. 엔비디아에 따르면 NV스위치는 18개의 각 포트가 최대 NV링크(NVLink) 속도로 다른 포트와 통신할 수 있는 비차단 스위치다. NV링크는 엔비디아의 자체 연결 기술로, IBM가 라이선스해서 사용하고 있다.


각 HGX-2 플랫폼의 두 베이스보드는 48개의 NV링크 포트를 통해 통신한다. 엔비디아는 이 토폴로지에서 16개 GPU(각 베이스보드별로 8개) 모두 다른 GPU와 동시에, 최대 NV링크 속도(초당 300GB)로 통신할 수 있다고 밝혔다.

카리야는 “이 시스템은 기존의 많은 경계를 허문다. 단일 시스템이 10KW 전력으로 할 수 있는 작업의 한계를 높이고 있다”고 말했다.

엔비디아는 8개 클래스로 분류되는 GPU 가속 서버 플랫폼도 발표했다. 플랫폼은 모두 듀얼 제온 프로세서를 CPU로 사용하지만 클래스에 따라 GPU 코어 수가 다르고 다양한 AI 및 HPC 요구에 맞게 달리 구성된다. 최고 사양인 HGX-T2는 HGX-2를 기반으로 하며 16개의 테슬라 V100 GPU를 탑재하고 대규모 멀티 레벨 머신 러닝 신경망 학습에 맞게 튜닝된다. 최저 사양의 SCX-E1은 2개의 테슬라 V100 GPU를 탑재하고 PCIE 연결 기술을 사용한다. 전력 소비량은 1,200W이며 초급 HPC 컴퓨팅을 대상으로 한다.

엔비디아의 명명법에 따라 HGX-T 시스템은 AI 학습용, HGX-I 시스템은 AI 추론용, SCX 시스템은 HPC 및 과학 컴퓨팅용이다.

엔비디아는 AI 워크로드용 GPU 시장에서 확고한 우위를 점하고 있지만, 경쟁은 점차 치열해질 전망이다. 인텔은 2016년 딥 러닝 신생 업체인 너바나 시스템(Nervana Systems)을 인수했고 현재 인텔 너바나 신경망 프로세서(NNP)를 완성하는 단계다. 또한, 자일링스(Xylinx)와 같은 FPGA 제조업체가 제공하는 더욱 강력해진 FPGA(필드 프로그래머블 게이트 어레이)도 AI 추론 분야에서 도약하는 중이다.

FPGA는 AI 학습 분야에서 GPU와 경쟁할 만한 강력한 성능은 아니지만, 각 계층에 가장 적합한 최저 정밀도로 신경망의 각 레벨을 처리하도록 프로그래밍을 할 수 있다는 장점이 있다. 이와 같은 유연성은 추론에 적합하다. editor@itworld.co.kr  

2018.05.31

엔비디아, HGX-2 서버 플랫폼에서 AI와 HPC 컴퓨팅 통합 노려

Marc Ferranti | Network World
엔비디아가 새 서버 플랫폼인 HGX-2를 중심으로 데이터센터 성능과 효율성 홍보에 박차를 가하고 있다. HGX-2는 16개의 테슬라 V100 텐서 코어 GPU의 성능을 활용해 AI와 고성능 컴퓨팅(HPC) 워크로드 요구 사항을 충족한다.

데이터센터 서버 제조업체 레노버, 슈퍼마이크로(Supermicro), 위윈(Wiwynn), QCT는 올해 말까지 HGX-2 시스템을 출하할 예정이라고 밝혔다. HGX-2 시스템의 가장 큰 고객이 하이퍼스케일 제공업체가 될 가능성이 높은 만큼 폭스콘(Foxconn), 인벤텍(Inventec), 콴타(Quanta), 위스트론(Wistron) 역시 클라우드 데이터센터용으로 HGX-2 플랫폼을 사용하는 서버를 만들 것으로 보인다.

HGX-2는 NV스위치(NVSwitch) 연결 패브릭을 통해 테슬라 GPU를 연결하는 두 개의 GPU 베이스보드를 사용한다. HGX-2 베이스보드에는 각각 8개의 프로세서가 장착되므로 GPU는 총 16개다. 1년 전에 발표된 HGX-1에는 GPU가 8개였다.

엔비디아는 HGX-2를 “빌딩 블록”이라고 설명한다. 이 빌딩 블록을 중심으로 서버 제조사가 다양한 작업에 맞게 튜닝 가능한 시스템을 구축할 수 있다는 뜻이다. 향후 엔비디아가 발표할 DGX-2 역시 이 시스템을 기반으로 한다. 엔비디아는 올해 말까지 시스템 출하가 가능하도록 서버 제조사에 레퍼런스 아키텍처와 함께 플랫폼을 제공하고 있다.

엔비디아 CEO 젠슨 황은 지난 수요일 대만에서 열린 엔비디아 GPU 기술 컨퍼런스에서 소식을 발표했다.


엔비디아는 두 달 전 산호세 기술 컨퍼런스에서 첫 HGX-2 기반 시스템이 될 것으로 예상되는 DGX-2가 2페타플롭의 컴퓨팅 성능을 제공할 수 있다고 밝혔다. 보통 수백 대의 서버로 구성된 클러스터에서나 가능한 성능이다. DGX-2 시스템의 기본 가격은 399,000달러다.

엔비디아 측은 HGX-2 테스트 시스템이 ResNet-50 학습 벤치마크에서 초당 1만 5,500개의 이미지로 AI 학습 속도 신기록을 세웠으며 CPU만 사용하는 서버 300대를 대체할 수 있다고 말했다. 서버 300대의 비용은 수백만 달러에 이른다.

GPU는 머신러닝 애플리케이션의 데이터 집합 학습 부문, 특히 신경망 모델 생성에서 틈새 시장을 발견했다. GPU의 대량 병렬 아키텍처가 AI 학습에 적합하기 때문이다.

HGX-2의 판매 포인트는 AI 학습과 추론, 두 가지 모두에 맞게 구성이 가능하므로 신경망을 실제 상황에 사용할 수 있게 해준다는 점이다. 그 외에 과학 컴퓨팅, 이미지 및 비디오 렌더링, 시뮬레이션용 HPC 애플리케이션도 HGX-2가 노리는 시장이다.

엔비디아 AI 및 가속 컴퓨팅 분야 그룹 제품 마케팅 관리자인 파레시 카리야는 “미래 컴퓨팅에는 통합 플랫폼이 필요할 것이다. HGX-2의 고유한 특징은 다중 정밀도(multiprecision) 컴퓨팅 기능에 있다”고 말했다.

카리야는 HGX-2 플랫폼이 과학 컴퓨팅과 시뮬레이션에서 최대 FP64를 사용해 고정밀 계산(64비트 배정밀도 계산)을 할 수 있을 뿐만 아니라 AI 워크로드를 위한FP16(16비트 부동소수점 연산)과 Int8(추론 지도의 한 유형)도 제공한다고 말했다.

각 HGX-2 베이스보드에는 6개의 NV스위치가 탑재된다. 엔비디아에 따르면 NV스위치는 18개의 각 포트가 최대 NV링크(NVLink) 속도로 다른 포트와 통신할 수 있는 비차단 스위치다. NV링크는 엔비디아의 자체 연결 기술로, IBM가 라이선스해서 사용하고 있다.


각 HGX-2 플랫폼의 두 베이스보드는 48개의 NV링크 포트를 통해 통신한다. 엔비디아는 이 토폴로지에서 16개 GPU(각 베이스보드별로 8개) 모두 다른 GPU와 동시에, 최대 NV링크 속도(초당 300GB)로 통신할 수 있다고 밝혔다.

카리야는 “이 시스템은 기존의 많은 경계를 허문다. 단일 시스템이 10KW 전력으로 할 수 있는 작업의 한계를 높이고 있다”고 말했다.

엔비디아는 8개 클래스로 분류되는 GPU 가속 서버 플랫폼도 발표했다. 플랫폼은 모두 듀얼 제온 프로세서를 CPU로 사용하지만 클래스에 따라 GPU 코어 수가 다르고 다양한 AI 및 HPC 요구에 맞게 달리 구성된다. 최고 사양인 HGX-T2는 HGX-2를 기반으로 하며 16개의 테슬라 V100 GPU를 탑재하고 대규모 멀티 레벨 머신 러닝 신경망 학습에 맞게 튜닝된다. 최저 사양의 SCX-E1은 2개의 테슬라 V100 GPU를 탑재하고 PCIE 연결 기술을 사용한다. 전력 소비량은 1,200W이며 초급 HPC 컴퓨팅을 대상으로 한다.

엔비디아의 명명법에 따라 HGX-T 시스템은 AI 학습용, HGX-I 시스템은 AI 추론용, SCX 시스템은 HPC 및 과학 컴퓨팅용이다.

엔비디아는 AI 워크로드용 GPU 시장에서 확고한 우위를 점하고 있지만, 경쟁은 점차 치열해질 전망이다. 인텔은 2016년 딥 러닝 신생 업체인 너바나 시스템(Nervana Systems)을 인수했고 현재 인텔 너바나 신경망 프로세서(NNP)를 완성하는 단계다. 또한, 자일링스(Xylinx)와 같은 FPGA 제조업체가 제공하는 더욱 강력해진 FPGA(필드 프로그래머블 게이트 어레이)도 AI 추론 분야에서 도약하는 중이다.

FPGA는 AI 학습 분야에서 GPU와 경쟁할 만한 강력한 성능은 아니지만, 각 계층에 가장 적합한 최저 정밀도로 신경망의 각 레벨을 처리하도록 프로그래밍을 할 수 있다는 장점이 있다. 이와 같은 유연성은 추론에 적합하다. editor@itworld.co.kr  

X