2019.08.26

신생 반도체 업체 세레브라스, 거대한 AI 칩 탑재한 머신러닝 서버 출시

Andy Patrizio | Network World
현재 데이터센터에는 다양한 AI 솔루션이 사용되고 있다. 애드인 카드도 있고 엔비디아 DGX-2와 같은 전용 서버도 있다. 고성능 시스템이 필요한 AI 작업의 특성상 여러 대의 시스템을 연결한 클러스터 환경이 일반적이다. 하지만 신생업체인 세레브라스 시스템(Cerebras Syatems)은 단 하나의 거대한 프로세서만으로 동작하는 자체 개발 서버를 출시했다.
 
ⓒ Cerebras

세레브라스의 AI 칩인 WSE(Wafer Scale Engine)는 가로세로 각각 약 21cm(8.46인치)로, 거의 아이패드 크기이다. 우표 크기의 일반 CPU나 GPU보다 50배 이상 크다.
 
세레브라스는 이 칩을 ODM 업체에 판매하지는 않는데, 이렇게 거대한 칩으로 시스템을 구성하고 냉각하는 것이 쉽지 않기 때문이다. 대신 데이터센터에 바로 설치할 수 있는 완성된 서버 형태로 판매하는데, 오는 10월 정식 출시될 예정이다.

WSE 설계 이면의 논리는 AI가 단지 테스트하는 데만도 엄청난 양의 데이터를 필요로 하는데, 현재의 기술, 심지어 GPU조차도 충분히 빠르거나 강력하지 못하다는 것이다. 따라서 세레브라스는 칩을 초대형으로 만들었다.

수치만 보면 믿을 수 없을 정도이다. 세레브라스의 WSE 칩은 1.2조 개의 트랜지스터를 집적했으며, 40만 개의 코어와 18GB의 캐시 메모리를 갖추었다. 전형적인 PC 프로세서는 약 20억 개의 트랜지스터에 4개 정도의 코어, 수 MB의 캐시 메모리가 있다. 고성능 GPU라도 210억 개의 트랜지스터와 수천 개의 코어에 불과하다.

WSE 상의 40만 개 코어는 스웜(Swarm)이란 커뮤니케이션 패브릭을 통해 연결되는데, 평면 메시 구조의 이 기술은 100PB/s의 대역폭을 자랑한다. WSE의 자체 메모리인 18GB는 모두 한 번의 클럭 주기 내에 액세스할 수 있으며, 9PB/s의 메모리 대역폭을 제공한다. 엔비디아의 최상급 GPU보다 3,000배 많은 용량이자 1만 배 더 큰 대역폭이다. 덕분에 WSE는 데이터를 메모리에서 꺼내 CPU로 보내고 받을 필요가 없다.

세레브라스는 블로그 포스트를 통해 “방대한 프로그래머블 코어의 어레이가 단일 칩 상에서 클러스터 규모의 컴퓨팅 성능을 제공한다. 각 코어 가까이 있는 고속 메모리는 코어가 언제나 연산을 수행할 수 있도록 보장한다. 그리고 모든 것을 칩 상에서 연결함으로써 커뮤니케이션은 기존 기술보다 수천 배 빠르다”라고 강조했다.

코어는 SLA(Sparse Linear Algebra Cores)라고 부르는데, 신경망 연산의 기초가 되는 희소선형대수에 최적화되어 있다. AI 작업 전용으로 설계된 코어이다. 각 코어는 작고 빠르며 캐시도 없으며, 범용 코어에 필요한 다른 기능은 제거했다.

세레브라스의 CEO는 10여 년 전 시마이크로(SeaMicro)로 주목을 받았던 앤드류 펠드먼이다. 시마이크로는 당시 전력 소비가 많은 제온 대신 아톰 기반의 고집적 서버를 만들었다. 펠드먼은 2012년 시마이크로를 AMD에 매각했으며, 이후 1억 달러의 벤처 자금을 받았다.  editor@itworld.co.kr


2019.08.26

신생 반도체 업체 세레브라스, 거대한 AI 칩 탑재한 머신러닝 서버 출시

Andy Patrizio | Network World
현재 데이터센터에는 다양한 AI 솔루션이 사용되고 있다. 애드인 카드도 있고 엔비디아 DGX-2와 같은 전용 서버도 있다. 고성능 시스템이 필요한 AI 작업의 특성상 여러 대의 시스템을 연결한 클러스터 환경이 일반적이다. 하지만 신생업체인 세레브라스 시스템(Cerebras Syatems)은 단 하나의 거대한 프로세서만으로 동작하는 자체 개발 서버를 출시했다.
 
ⓒ Cerebras

세레브라스의 AI 칩인 WSE(Wafer Scale Engine)는 가로세로 각각 약 21cm(8.46인치)로, 거의 아이패드 크기이다. 우표 크기의 일반 CPU나 GPU보다 50배 이상 크다.
 
세레브라스는 이 칩을 ODM 업체에 판매하지는 않는데, 이렇게 거대한 칩으로 시스템을 구성하고 냉각하는 것이 쉽지 않기 때문이다. 대신 데이터센터에 바로 설치할 수 있는 완성된 서버 형태로 판매하는데, 오는 10월 정식 출시될 예정이다.

WSE 설계 이면의 논리는 AI가 단지 테스트하는 데만도 엄청난 양의 데이터를 필요로 하는데, 현재의 기술, 심지어 GPU조차도 충분히 빠르거나 강력하지 못하다는 것이다. 따라서 세레브라스는 칩을 초대형으로 만들었다.

수치만 보면 믿을 수 없을 정도이다. 세레브라스의 WSE 칩은 1.2조 개의 트랜지스터를 집적했으며, 40만 개의 코어와 18GB의 캐시 메모리를 갖추었다. 전형적인 PC 프로세서는 약 20억 개의 트랜지스터에 4개 정도의 코어, 수 MB의 캐시 메모리가 있다. 고성능 GPU라도 210억 개의 트랜지스터와 수천 개의 코어에 불과하다.

WSE 상의 40만 개 코어는 스웜(Swarm)이란 커뮤니케이션 패브릭을 통해 연결되는데, 평면 메시 구조의 이 기술은 100PB/s의 대역폭을 자랑한다. WSE의 자체 메모리인 18GB는 모두 한 번의 클럭 주기 내에 액세스할 수 있으며, 9PB/s의 메모리 대역폭을 제공한다. 엔비디아의 최상급 GPU보다 3,000배 많은 용량이자 1만 배 더 큰 대역폭이다. 덕분에 WSE는 데이터를 메모리에서 꺼내 CPU로 보내고 받을 필요가 없다.

세레브라스는 블로그 포스트를 통해 “방대한 프로그래머블 코어의 어레이가 단일 칩 상에서 클러스터 규모의 컴퓨팅 성능을 제공한다. 각 코어 가까이 있는 고속 메모리는 코어가 언제나 연산을 수행할 수 있도록 보장한다. 그리고 모든 것을 칩 상에서 연결함으로써 커뮤니케이션은 기존 기술보다 수천 배 빠르다”라고 강조했다.

코어는 SLA(Sparse Linear Algebra Cores)라고 부르는데, 신경망 연산의 기초가 되는 희소선형대수에 최적화되어 있다. AI 작업 전용으로 설계된 코어이다. 각 코어는 작고 빠르며 캐시도 없으며, 범용 코어에 필요한 다른 기능은 제거했다.

세레브라스의 CEO는 10여 년 전 시마이크로(SeaMicro)로 주목을 받았던 앤드류 펠드먼이다. 시마이크로는 당시 전력 소비가 많은 제온 대신 아톰 기반의 고집적 서버를 만들었다. 펠드먼은 2012년 시마이크로를 AMD에 매각했으며, 이후 1억 달러의 벤처 자금을 받았다.  editor@itworld.co.kr


X