2017.04.06

구글 AI 칩 성능 보고서 발표…소비전력당 성능 최대 80배

Blair Hanley Frank | IDG News Service
4년 전 구글은 난제에 부딪혔다. 만약 모든 사용자가 구글 음성 인식 서비스를 하루에 3분씩 접속한다면, 구글은 이들 서비스의 기반이 되는 머신러닝 시스템에 쏟아지는 요청을 처리하는 데만 두 배의 데이터센터가 필요했다.

구글은 이를 위해 새로운 데이터센터 부지와 서버를 구매하는 대신 음성 인식과 같은 머신러닝 애플리케이션을 구동할 전용 하드웨어를 만드는 긴 여정에 올랐다.

결과물이 바로 TPU(Tensor Processing Unit)로, 딥러닝 신경망 네트워크의 추론 단계를 가속화하도록 만들어졌다. 5일 구글은 TPU의 성능을 가늠할 수 있는 보고서를 공개했는데, 다른 CPU 및 GPU와 비교, 그리고 기본 성능은 물론 소비전략당 성능도 공개했다.



TPU는 동급의 서버용 인텔 하스웰 CPU나 엔비디아 K80 GPU보다 평균 15~30배 빠른 성능을 보였는데, 특히 와트당 성능은 25~80배 이상 빨랐다.

이런 성능 향상은 머신러닝 애플리케이션 구축에 중점을 두고 있는 구글에는 매우 중요하다. 전통적인 CPU로는 필요한 만큼의 성능 극대화가 어렵다고 판단해 머신러닝 하드웨어에 중점을 둔 전략이 주효한 것으로 입증되기 때문이다.

물론 이런 결과치는 단지 연구 단계에서 나온 것만은 아니다. 구글은 2015년부터 TPU를 자사 데이터센터에서 사용해 왔으며, 번역이나 이미지 인식 애플리케이션의 성능을 높이는 데 일조했다. 특히 TPU는 에너지 효율성 측면에서 매우 유용한데, 이 정도 대규모 하드웨어 환경에서는 중요한 평가 기준이다.

구글의 목적에 부합하기 위한 또 다른 주요 지표 중 하나는 지연시간인데, TPU는 다른 프로세서를 가볍게 추월했다. 구글의 저명한 하드웨어 엔지니어 놈 조피는 머신러닝 시스템은 좋은 사용자 경험을 제공하기 위해 즉각적으로 반응해야 한다고 말했다.

주피는 “문제는 인터넷이 시간을 잡아먹는다는 것이다. 따라서 만약 인터넷 기반의 서버를 사용한다면, 사용자의 디바이스에서 클라우드까지 시간이 걸리고, 다시 사용자 디바이스로 돌아가는 데도 시간이 걸린다”라며, “네트워킹과 클라우드, 그리고 데이터센터의 다양한 요소가 시간을 소비한다. 따라서 거의 즉각적인 응답이 필요하다면, 시간이 별로 없다”라고 설명했다.

구글은 TPU를 6개의 서로 다른 신경망 추론 애플리케이션에서 테스트했는데, 이는 구글 데이터센터의 동종 애플리케이션 95%에 해당한다. 여기에는 지난 해 이세돌 기사와의 대국으로 관심을 받았던 딥마인드 알파고도 포함되어 있다.

TPU의 성능을 더 높일 여지도 있다. GDDR5를 사용하면, 구글이 테스트한 기존 설정에서도 성능이 향상될 것으로 보인데, 구글에 따르면 몇몇 애플리케이션의 성능은 메모리 대역폭에 제한을 받았다. 또한 구글은 소프트웨어 최적화를 통해서도 추가적인 성능 향상을 얻을 수 있다고 주장했다. 하지만 TPU를 사용해 얻은 성능으로 고려할 때 이런 최적화가 진행될지는 확실하지 않다.

TPU는 ASIC(Application-Specific Integrated Circuit)의 일종으로, 특정 작업에 맞춰 만들어졌고 명령어 세트도 칩 자체에 하드코딩되어 있다. 하지만 주피는 이 부분을 크게 걱정하지 않는다며, TPU는 머신러닝 모델의 변화를 처리할 만큼 충분히 유연하다고 강조했다.

이처럼 머신러닝용 전용 하드웨어를 개발하고 있는 곳이 구글만은 아니다. 주피는 이미 이 분야에서 개발을 진행하고 있는 신생업체를 여럿 알고 있다고 말했다. 마이크로소프트 역시 머신러닝 애플리케이션을 가속화하기 위해 자사 데이터센터에 FPGA(Field-Programmable Gate Array)를 대거 배치했다.  editor@itworld.co.kr


2017.04.06

구글 AI 칩 성능 보고서 발표…소비전력당 성능 최대 80배

Blair Hanley Frank | IDG News Service
4년 전 구글은 난제에 부딪혔다. 만약 모든 사용자가 구글 음성 인식 서비스를 하루에 3분씩 접속한다면, 구글은 이들 서비스의 기반이 되는 머신러닝 시스템에 쏟아지는 요청을 처리하는 데만 두 배의 데이터센터가 필요했다.

구글은 이를 위해 새로운 데이터센터 부지와 서버를 구매하는 대신 음성 인식과 같은 머신러닝 애플리케이션을 구동할 전용 하드웨어를 만드는 긴 여정에 올랐다.

결과물이 바로 TPU(Tensor Processing Unit)로, 딥러닝 신경망 네트워크의 추론 단계를 가속화하도록 만들어졌다. 5일 구글은 TPU의 성능을 가늠할 수 있는 보고서를 공개했는데, 다른 CPU 및 GPU와 비교, 그리고 기본 성능은 물론 소비전략당 성능도 공개했다.



TPU는 동급의 서버용 인텔 하스웰 CPU나 엔비디아 K80 GPU보다 평균 15~30배 빠른 성능을 보였는데, 특히 와트당 성능은 25~80배 이상 빨랐다.

이런 성능 향상은 머신러닝 애플리케이션 구축에 중점을 두고 있는 구글에는 매우 중요하다. 전통적인 CPU로는 필요한 만큼의 성능 극대화가 어렵다고 판단해 머신러닝 하드웨어에 중점을 둔 전략이 주효한 것으로 입증되기 때문이다.

물론 이런 결과치는 단지 연구 단계에서 나온 것만은 아니다. 구글은 2015년부터 TPU를 자사 데이터센터에서 사용해 왔으며, 번역이나 이미지 인식 애플리케이션의 성능을 높이는 데 일조했다. 특히 TPU는 에너지 효율성 측면에서 매우 유용한데, 이 정도 대규모 하드웨어 환경에서는 중요한 평가 기준이다.

구글의 목적에 부합하기 위한 또 다른 주요 지표 중 하나는 지연시간인데, TPU는 다른 프로세서를 가볍게 추월했다. 구글의 저명한 하드웨어 엔지니어 놈 조피는 머신러닝 시스템은 좋은 사용자 경험을 제공하기 위해 즉각적으로 반응해야 한다고 말했다.

주피는 “문제는 인터넷이 시간을 잡아먹는다는 것이다. 따라서 만약 인터넷 기반의 서버를 사용한다면, 사용자의 디바이스에서 클라우드까지 시간이 걸리고, 다시 사용자 디바이스로 돌아가는 데도 시간이 걸린다”라며, “네트워킹과 클라우드, 그리고 데이터센터의 다양한 요소가 시간을 소비한다. 따라서 거의 즉각적인 응답이 필요하다면, 시간이 별로 없다”라고 설명했다.

구글은 TPU를 6개의 서로 다른 신경망 추론 애플리케이션에서 테스트했는데, 이는 구글 데이터센터의 동종 애플리케이션 95%에 해당한다. 여기에는 지난 해 이세돌 기사와의 대국으로 관심을 받았던 딥마인드 알파고도 포함되어 있다.

TPU의 성능을 더 높일 여지도 있다. GDDR5를 사용하면, 구글이 테스트한 기존 설정에서도 성능이 향상될 것으로 보인데, 구글에 따르면 몇몇 애플리케이션의 성능은 메모리 대역폭에 제한을 받았다. 또한 구글은 소프트웨어 최적화를 통해서도 추가적인 성능 향상을 얻을 수 있다고 주장했다. 하지만 TPU를 사용해 얻은 성능으로 고려할 때 이런 최적화가 진행될지는 확실하지 않다.

TPU는 ASIC(Application-Specific Integrated Circuit)의 일종으로, 특정 작업에 맞춰 만들어졌고 명령어 세트도 칩 자체에 하드코딩되어 있다. 하지만 주피는 이 부분을 크게 걱정하지 않는다며, TPU는 머신러닝 모델의 변화를 처리할 만큼 충분히 유연하다고 강조했다.

이처럼 머신러닝용 전용 하드웨어를 개발하고 있는 곳이 구글만은 아니다. 주피는 이미 이 분야에서 개발을 진행하고 있는 신생업체를 여럿 알고 있다고 말했다. 마이크로소프트 역시 머신러닝 애플리케이션을 가속화하기 위해 자사 데이터센터에 FPGA(Field-Programmable Gate Array)를 대거 배치했다.  editor@itworld.co.kr


X