2021.06.24

테슬라, 엔비디아 A100 GPU 탑재한 자율주행용 슈퍼컴퓨터 공개

편집부 | ITWorld
테슬라는 오토파일럿 및 자율주행 기능을 위해 엔비디아 GPU를 활용하고 있다고 엔비디아(www.nvidia.co.kr)가 밝혔다.

테슬라의 AI 담당 수석 디렉터 안드레아 카르파티는 미 현지시간 6월 19일부터 25일까지 온라인으로 진행되는 ‘컴퓨터 비전 컨퍼런스 CVPR 2021’에서 오토파일럿 및 자율주행 기능을 위한 심층 신경망(DNN) 훈련에 사용하는 자사 슈퍼컴퓨터를 공개했다. 이 클러스터는 8개의 엔비디아 A100 텐서(Tensor) 코어 GPU(총 5,760 GPU)의 720개 노드를 활용해 1.8 엑사플롭(exaflops) 성능을 구현한다.



엔비디아 A100 GPU는 규모에 상관없이 가속화를 제공해 고성능을 구현하는 전세계 데이터센터를 지원하고 있다. 엔비디아 암페어(Ampere) 아키텍처를 기반으로 하는 A100 GPU는 이전 세대보다 최대 20배 향상된 성능을 제공하며, 요구에 따라 최대 7개의 독립된 GPU 인스턴스로 분할 가능하다.

해당 슈퍼컴퓨터는 테슬라의 자율주행에 대한 수직적 통합 접근방식의 일환으로, 이미 도로에서 주행중인 100만 대 이상의 자동차를 사용해 지속적으로 기능을 개선하고 새로운 기능을 구축하고 있다.

‘그림자 모드’로 구동되는 테슬라의 DNN은 실제로 차량을 제어하지 않아도 주행하는 동안 조용히 감지 및 예측을 수행한다. 이러한 예측과 모든 실수 또는 잘못된 식별은 기록된다. 테슬라의 엔지니어들은 이 같은 인스턴스를 활용해 복잡하고 다양한 시나리오의 훈련 데이터세트를 생성하여 DNN을 개선한다.

초당 36 프레임으로 녹화된 약 10초 길이의 100만 개의 클립이 수집되어 총 1.5 페타바이트(PB)에 이르는 엄청난 양의 데이터가 쌓이면, DNN이 오류 없이 작동할 때까지 데이터센터에서 시나리오를 반복해서 실행한다. 이는 차량으로 다시 전송되고 프로세스가 다시 시작되는 과정을 거친다.

안드레아 카르파티 디렉터는 “이 같은 방식으로 DNN을 훈련하고 이렇게 많은 양의 데이터를 저장하기 위해서는 엄청난 양의 컴퓨팅이 필요하다”며, “따라서, 테슬라는 고성능 A100 GPU를 갖춘 최첨단 슈퍼컴퓨터를 구축하게 됐다”라고 말했다. editor@itworld.co.kr


2021.06.24

테슬라, 엔비디아 A100 GPU 탑재한 자율주행용 슈퍼컴퓨터 공개

편집부 | ITWorld
테슬라는 오토파일럿 및 자율주행 기능을 위해 엔비디아 GPU를 활용하고 있다고 엔비디아(www.nvidia.co.kr)가 밝혔다.

테슬라의 AI 담당 수석 디렉터 안드레아 카르파티는 미 현지시간 6월 19일부터 25일까지 온라인으로 진행되는 ‘컴퓨터 비전 컨퍼런스 CVPR 2021’에서 오토파일럿 및 자율주행 기능을 위한 심층 신경망(DNN) 훈련에 사용하는 자사 슈퍼컴퓨터를 공개했다. 이 클러스터는 8개의 엔비디아 A100 텐서(Tensor) 코어 GPU(총 5,760 GPU)의 720개 노드를 활용해 1.8 엑사플롭(exaflops) 성능을 구현한다.



엔비디아 A100 GPU는 규모에 상관없이 가속화를 제공해 고성능을 구현하는 전세계 데이터센터를 지원하고 있다. 엔비디아 암페어(Ampere) 아키텍처를 기반으로 하는 A100 GPU는 이전 세대보다 최대 20배 향상된 성능을 제공하며, 요구에 따라 최대 7개의 독립된 GPU 인스턴스로 분할 가능하다.

해당 슈퍼컴퓨터는 테슬라의 자율주행에 대한 수직적 통합 접근방식의 일환으로, 이미 도로에서 주행중인 100만 대 이상의 자동차를 사용해 지속적으로 기능을 개선하고 새로운 기능을 구축하고 있다.

‘그림자 모드’로 구동되는 테슬라의 DNN은 실제로 차량을 제어하지 않아도 주행하는 동안 조용히 감지 및 예측을 수행한다. 이러한 예측과 모든 실수 또는 잘못된 식별은 기록된다. 테슬라의 엔지니어들은 이 같은 인스턴스를 활용해 복잡하고 다양한 시나리오의 훈련 데이터세트를 생성하여 DNN을 개선한다.

초당 36 프레임으로 녹화된 약 10초 길이의 100만 개의 클립이 수집되어 총 1.5 페타바이트(PB)에 이르는 엄청난 양의 데이터가 쌓이면, DNN이 오류 없이 작동할 때까지 데이터센터에서 시나리오를 반복해서 실행한다. 이는 차량으로 다시 전송되고 프로세스가 다시 시작되는 과정을 거친다.

안드레아 카르파티 디렉터는 “이 같은 방식으로 DNN을 훈련하고 이렇게 많은 양의 데이터를 저장하기 위해서는 엄청난 양의 컴퓨팅이 필요하다”며, “따라서, 테슬라는 고성능 A100 GPU를 갖춘 최첨단 슈퍼컴퓨터를 구축하게 됐다”라고 말했다. editor@itworld.co.kr


X