2020.07.20

그래프코어, 신형 MK2 IPU로 엔비디아 암페어 AI 칩에 도전

Andy Patrizio | PC Advisor
영국의 AI 칩 전문업체 그래프코어(Graphcore)가 신제품 콜로서스 MK2 GC200 IPU((Intelligence Processing Unit)를 출시했다. 그래프코어는 신형 MK2를 엔비디아의 AI용 프로세서 암페어 A100 GPU의 경쟁제품으로 내세웠다.

MK2와 전작인 MK1은 대규모 머신러닝 모델에 특화된 프로세서이다. MK2는 1,472개의 독립된 코어를 탑재하고, 8,832개의 개별 병렬 쓰레드를 제공한다. 프로세서 내에 탑재된 RAM만 와 900MB이다.

그래프코어는 MK2가 MK1보다 BERT-Large 학습 성능은 9.3배, BERT-3Layer 추론 성능은 8.5배, EfficientNet-B3 학습 성능은 7.4배 뛰어나다고 밝혔다. BERT(Bidirectional Encoder Representations from Transformers)은 구글이 자연어 기반 검색용으로 개발한 자연어 처리 사전 학습 기법이다.

그래프코어는 칩에 그치지 않고, 주목할 만한 칩 관련 생태계도 구축했다. 대부분의 신생 칩 업체가 칩 자체에 집중하는 데 반해, 2016년 설립된 비교적 신생업체임에도 그래프코어는 그 이상을 제시한다.
 
MK2를 탑재한 IPU 머신 M2000 ⓒ Graphcore 

그래프코어는 MK2를 신형 IPU 머신인 M2000으로 판매하는데, 이 시스템은 1U 크기에 4개의 MK2 칩을 탑재하고 1페타플롭의 성능을 제공한다는 것이 그래프코어의 설명이다. M2000 한 대를 기존 x86 서버에 직접 연결하는 것으로 시작해 최대 8대까지 연결할 수 있다. 대용량 시스템으로 IPU-POD64도 제공하는데, 16대의 M2000을 표준 19인치 랙에 집적한 제품이다.
M2000과 IPU-POD을 규모에 맞춰 연결하는 데는 그래프코어의 새로운 IPU 패브릭 기술을 사용하는데, 머신러닝 전용으로 새로 설계해 데이터센터 전반에 걸쳐 IPU를 극히 낮은 지연으로 연결할 수 있다.

그래프코어의 가상 IPU 소프트웨어는 워크로드 관리와 오케스트레이션 소프트웨어를 통합해 다수의 서로 다른 사용자가 학습과 추론 작업을 할 수 있도록 하며, 가용 자원을 작업에 따라 조정하고 재구성할 수 있다.

그래프코어는 자사의 신형 하드웨어는 완전한 플러그 앤 플레이 시스템으로, 최대 6만 4,000개의 IPU를 연결해 총 16엑사플롭의 성능을 얻을 수 있다고 설명했다. 이 부분이 중요한데, 인텔과 ARM, AMD는 아직도 1엑사플롭을 목표로 하고 있기 때문이다.

그래프코어의 핵심 요소 중 또 하나는 폴라(Polar) 소프트웨어 스택이다. 역시 IPU에 맞춰 완전히 새로 설계한 것으로 표준 머신러닝 프레임워크와 온전히 통합할 수 있다. 개발자는 기존 모델을 쉽게 이식할 수 있으며, 친숙한 환경에서 작업을 신속하게 이어갈 수 있다. IPU의 성능 최대치를 끌어내려는 개발자는 폴라를 이용해 파이썬이나 C++로 직접 IPU 프로그래밍을 할 수 있다.

MK2 시스템의 중요 얼리어댑터도 소개했는데, 옥스퍼드 대학교, 미 에너지부 로렌스 버클리 연구소, JP 모건 등이다. JP 모건은 자연어 처리와 대화 인식에 중점을 두고 있다.

예약 주문에 들어간 M200과 IPU-POD64 시스템은 2020년 4분기에 본격 출하되며, 그래프코어의 클라우드 협력업체인 시라스케일(Cirrascale)을 통해 평가해 볼 수도 있다. OEM 및 채널 협력업체는 조만간 발표할 예정이다. editor@itworld.co.kr


2020.07.20

그래프코어, 신형 MK2 IPU로 엔비디아 암페어 AI 칩에 도전

Andy Patrizio | PC Advisor
영국의 AI 칩 전문업체 그래프코어(Graphcore)가 신제품 콜로서스 MK2 GC200 IPU((Intelligence Processing Unit)를 출시했다. 그래프코어는 신형 MK2를 엔비디아의 AI용 프로세서 암페어 A100 GPU의 경쟁제품으로 내세웠다.

MK2와 전작인 MK1은 대규모 머신러닝 모델에 특화된 프로세서이다. MK2는 1,472개의 독립된 코어를 탑재하고, 8,832개의 개별 병렬 쓰레드를 제공한다. 프로세서 내에 탑재된 RAM만 와 900MB이다.

그래프코어는 MK2가 MK1보다 BERT-Large 학습 성능은 9.3배, BERT-3Layer 추론 성능은 8.5배, EfficientNet-B3 학습 성능은 7.4배 뛰어나다고 밝혔다. BERT(Bidirectional Encoder Representations from Transformers)은 구글이 자연어 기반 검색용으로 개발한 자연어 처리 사전 학습 기법이다.

그래프코어는 칩에 그치지 않고, 주목할 만한 칩 관련 생태계도 구축했다. 대부분의 신생 칩 업체가 칩 자체에 집중하는 데 반해, 2016년 설립된 비교적 신생업체임에도 그래프코어는 그 이상을 제시한다.
 
MK2를 탑재한 IPU 머신 M2000 ⓒ Graphcore 

그래프코어는 MK2를 신형 IPU 머신인 M2000으로 판매하는데, 이 시스템은 1U 크기에 4개의 MK2 칩을 탑재하고 1페타플롭의 성능을 제공한다는 것이 그래프코어의 설명이다. M2000 한 대를 기존 x86 서버에 직접 연결하는 것으로 시작해 최대 8대까지 연결할 수 있다. 대용량 시스템으로 IPU-POD64도 제공하는데, 16대의 M2000을 표준 19인치 랙에 집적한 제품이다.
M2000과 IPU-POD을 규모에 맞춰 연결하는 데는 그래프코어의 새로운 IPU 패브릭 기술을 사용하는데, 머신러닝 전용으로 새로 설계해 데이터센터 전반에 걸쳐 IPU를 극히 낮은 지연으로 연결할 수 있다.

그래프코어의 가상 IPU 소프트웨어는 워크로드 관리와 오케스트레이션 소프트웨어를 통합해 다수의 서로 다른 사용자가 학습과 추론 작업을 할 수 있도록 하며, 가용 자원을 작업에 따라 조정하고 재구성할 수 있다.

그래프코어는 자사의 신형 하드웨어는 완전한 플러그 앤 플레이 시스템으로, 최대 6만 4,000개의 IPU를 연결해 총 16엑사플롭의 성능을 얻을 수 있다고 설명했다. 이 부분이 중요한데, 인텔과 ARM, AMD는 아직도 1엑사플롭을 목표로 하고 있기 때문이다.

그래프코어의 핵심 요소 중 또 하나는 폴라(Polar) 소프트웨어 스택이다. 역시 IPU에 맞춰 완전히 새로 설계한 것으로 표준 머신러닝 프레임워크와 온전히 통합할 수 있다. 개발자는 기존 모델을 쉽게 이식할 수 있으며, 친숙한 환경에서 작업을 신속하게 이어갈 수 있다. IPU의 성능 최대치를 끌어내려는 개발자는 폴라를 이용해 파이썬이나 C++로 직접 IPU 프로그래밍을 할 수 있다.

MK2 시스템의 중요 얼리어댑터도 소개했는데, 옥스퍼드 대학교, 미 에너지부 로렌스 버클리 연구소, JP 모건 등이다. JP 모건은 자연어 처리와 대화 인식에 중점을 두고 있다.

예약 주문에 들어간 M200과 IPU-POD64 시스템은 2020년 4분기에 본격 출하되며, 그래프코어의 클라우드 협력업체인 시라스케일(Cirrascale)을 통해 평가해 볼 수도 있다. OEM 및 채널 협력업체는 조만간 발표할 예정이다. editor@itworld.co.kr


X