MK2와 전작인 MK1은 대규모 머신러닝 모델에 특화된 프로세서이다. MK2는 1,472개의 독립된 코어를 탑재하고, 8,832개의 개별 병렬 쓰레드를 제공한다. 프로세서 내에 탑재된 RAM만 와 900MB이다.
그래프코어는 MK2가 MK1보다 BERT-Large 학습 성능은 9.3배, BERT-3Layer 추론 성능은 8.5배, EfficientNet-B3 학습 성능은 7.4배 뛰어나다고 밝혔다. BERT(Bidirectional Encoder Representations from Transformers)은 구글이 자연어 기반 검색용으로 개발한 자연어 처리 사전 학습 기법이다.
그래프코어는 칩에 그치지 않고, 주목할 만한 칩 관련 생태계도 구축했다. 대부분의 신생 칩 업체가 칩 자체에 집중하는 데 반해, 2016년 설립된 비교적 신생업체임에도 그래프코어는 그 이상을 제시한다.
그래프코어는 MK2를 신형 IPU 머신인 M2000으로 판매하는데, 이 시스템은 1U 크기에 4개의 MK2 칩을 탑재하고 1페타플롭의 성능을 제공한다는 것이 그래프코어의 설명이다. M2000 한 대를 기존 x86 서버에 직접 연결하는 것으로 시작해 최대 8대까지 연결할 수 있다. 대용량 시스템으로 IPU-POD64도 제공하는데, 16대의 M2000을 표준 19인치 랙에 집적한 제품이다.
M2000과 IPU-POD을 규모에 맞춰 연결하는 데는 그래프코어의 새로운 IPU 패브릭 기술을 사용하는데, 머신러닝 전용으로 새로 설계해 데이터센터 전반에 걸쳐 IPU를 극히 낮은 지연으로 연결할 수 있다.
그래프코어의 가상 IPU 소프트웨어는 워크로드 관리와 오케스트레이션 소프트웨어를 통합해 다수의 서로 다른 사용자가 학습과 추론 작업을 할 수 있도록 하며, 가용 자원을 작업에 따라 조정하고 재구성할 수 있다.
그래프코어는 자사의 신형 하드웨어는 완전한 플러그 앤 플레이 시스템으로, 최대 6만 4,000개의 IPU를 연결해 총 16엑사플롭의 성능을 얻을 수 있다고 설명했다. 이 부분이 중요한데, 인텔과 ARM, AMD는 아직도 1엑사플롭을 목표로 하고 있기 때문이다.
그래프코어의 핵심 요소 중 또 하나는 폴라(Polar) 소프트웨어 스택이다. 역시 IPU에 맞춰 완전히 새로 설계한 것으로 표준 머신러닝 프레임워크와 온전히 통합할 수 있다. 개발자는 기존 모델을 쉽게 이식할 수 있으며, 친숙한 환경에서 작업을 신속하게 이어갈 수 있다. IPU의 성능 최대치를 끌어내려는 개발자는 폴라를 이용해 파이썬이나 C++로 직접 IPU 프로그래밍을 할 수 있다.
MK2 시스템의 중요 얼리어댑터도 소개했는데, 옥스퍼드 대학교, 미 에너지부 로렌스 버클리 연구소, JP 모건 등이다. JP 모건은 자연어 처리와 대화 인식에 중점을 두고 있다.
예약 주문에 들어간 M200과 IPU-POD64 시스템은 2020년 4분기에 본격 출하되며, 그래프코어의 클라우드 협력업체인 시라스케일(Cirrascale)을 통해 평가해 볼 수도 있다. OEM 및 채널 협력업체는 조만간 발표할 예정이다. editor@itworld.co.kr