AIㆍML / 데이터센터 / 서버

엔비디아, AI 추론 플랫폼 공개

편집부 | ITWorld 2018.09.14
엔비디아(www.nvidia.co.kr)는 음성, 비디오, 이미지 및 추천 서비스를 위한 추론 가속화 기능을 제공하는 인공지능(AI) 데이터센터 플랫폼을 출시했다.

엔비디아 텐서RT(TensorRT) 하이퍼스케일 추론 플랫폼은 엔비디아 튜링(Turing) 아키텍처와 일련의 새로운 추론 소프트웨어를 기반으로 하는 엔비디아 테슬라(NVIDIA Tesla) T4 GPU로 구성된다. 



엔드-투-엔드 애플리케이션 위한 낮은 레이턴시와 빠른 성능을 제공하는 이 플랫폼을 통해 하이퍼스케일 데이터센터 내에서 향상된 자연어 상호작용은 물론, 검색 시 관련 결과를 나열하기 보다는 직접 답변을 제공하는 등 새로운 서비스가 가능하다고 업체 측은 설명했다.

엔비디아의 가속 컴퓨팅 담당 부사장 겸 총괄인 이안 벅은 “고객들은 모든 제품과 서비스가 AI를 통해 향상되고 진화될 미래를 마주하고 있다”며, “엔비디아 텐서RT 하이퍼스케일 플랫폼은 이를 보다 효율적이고 빠른 속도로 구현하기 위해 탄생한 것”이라고 설명했다.

대규모 데이터센터는 매일 수십억 건의 음성 쿼리, 번역, 이미지, 비디오, 추천 및 소셜 미디어 상호작용을 처리한다. 각 애플리케이션은 이러한 처리가 실행되는 서버에 위치한 서로 다른 유형의 신경 네트워크를 필요로 한다. 엔비디아 텐서RT 하이퍼스케일 플랫폼은 실시간 추론 소프트웨어와 CPU보다 최대 40배 빠른 속도로 쿼리를 처리하는 테슬라 T4 GPU를 통해 데이터 처리량(throughput)과 서버 활용도를 극대화한다.

엔비디아 텐서RT 하이퍼스케일 플랫폼은 효율적인 추론에 최적화된 하드웨어 및 소프트웨어의 조합으로, 주요 구성요소는 ▲엔비디아 테슬라 T4 GPU ▲엔비디아 텐서RT 5 ▲엔비디아 텐서RT 추론 서버이다.

320개의 튜링 텐서 코어와 2,560개의 쿠다(CUDA) 코어를 갖춘 엔비디아 테슬라 T4 GPU는 FP32부터 FP16까지의 연산성능 뿐 아니라, INT8 및 INT4의 다중 정밀도까지 지원해 높은 성능을 제공한다고 업체 측은 설명했다. 대부분의 서버에 쉽게 장착되는 에너지 효율적인 75와트 소형 PCle 폼팩터로 제공되는 이 GPU는 FP16에서 65 테라플롭(teraflop) 피크성능을 내며, INT8에서 130 테라플롭, INT4에서 260 테라플롭의 성능을 구현한다.

엔비디아 텐서RT 5는 추론 옵티마이저 및 런타임 엔진으로, 튜링 텐서 코어를 지원하며 다중 정밀도 워크로드를 위해 신경 네트워크 최적화를 확장한다.

엔비디아 텐서RT 추론 서버는 컨테이너형 마이크로 서비스 소프트웨어로, 데이터센터 구성 시 애플리케이션이 AI 모델을 사용할 수 있도록 돕는다. 엔비디아 GPU 클라우드 컨테이너 레지스트리에서 자유롭게 사용할 수 있으며, 데이터센터 처리량 및 GPU 활용을 극대화한다. 또한, 널리 이용되고 있는 모든 AI 모델 및 프레임워크를 지원하며, 쿠버네티스(Kubernetes) 및 도커(Docker)와 통합된다. editor@itworld.co.kr
 Tags 엔비디아

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.