“모습 드러낸 라데온 베가” AMD의 최신 그래픽 카드에 관해 알아야 할 5가지

PCWorld
 “베가(Vega)를 기다리라.” 

AMD의 RX 400 시리즈를 능가하는 엔비디아의 지포스 GTX 1070과 GTX 1080가 나온 후 지난 6개월간 AMD가 라데온 지지자들에게 한 말이다.

엔비디아의 강력한 새로운 16nm 파스칼(Pascal) GPU 아키텍처는 저렴한 120달러짜리 GTX 1050부터 강력한 1,200달러짜리 GTX 타이탄(Titan) X까지 광범위하게 적용된 반면에 AMD의 14nm 폴라리스(Polaris) 그래픽은 주력 비디오 카드를 위해 개발되었고ㅡ 플래그십 라데온 RX 480은 엔비디아의 고급 제품에 상대가 되지 않는다. 그래서 “베가를 기다리라”가 황홀한 게임플레이에 목마른 AMD지지자들에게 강령이 되었다. 베가는 2017년 초 예정된 AMD 로드맵에서 유출된 새로운 매니아용 14nm 라데온 그래픽 아키텍처의 코드명이다.

안타깝게도 2017년 전반기까지 새로운 아키텍처가 출고될 계획이 없기 때문에 기다림은 계속될 것이다. 하지만 CES에서 베가는 단순한 코드명 이상이었다. AMD가 드디어 엔비디아의 타이탄에 대항할 라데온의 성능 지향적 제품에 대하여 새 GPU가 그래픽 성능에 끼치는 영향과 혁신적인 메모리 아키텍처 등에 관한 기술 정보를 공개했다.



좀 더 자세히 알아보기에 앞서 베가의 기술적 아키텍처에 대한 수준 높은 개요를 살펴보기로 하자.

1. 빠르다.
정말이다.

12월 기자와 분석가들을 상대로 진행한 프리뷰에서 AMD는 초기 라데온 베가 10 그래픽 카드로 둠(Doom)을 4K 해상도에서 울트라(Ultra)라로 시연했다. 둠이 멋있긴 하지만 그래픽 카드에는 지옥과도 같다. 심지어 GTX 1080도 이런 설정으로 초당 평균 60 프레임을 기록하지 못했다고 테크스팟(Techspot)이 밝혔다. 한편, 라데온 베가는 60~70fps를 기록했다. 불론 다이렉트X(DirectX) 11 대신에 둠에서 라데온 카드에 유리한 그래픽 API인 불칸(Vulkan)을 실행했다. 어쨌든 시연은 인상적이었다.

최근 베가의 속도를 확인하는 목격담이 있었다. 세상에 AMD의 라이젠(Ryzen) CPU를 공개한 뉴호라이즌(New Horizon) 라이브스트림에서 라이젠과 베가를 장착한 PC로 구동하는 스타워즈: 배틀프론트(Star Wars: Battlefront)를 선보였다. 해당 시연은 모든 것을 울트라로 설정한 상태에서 4K 모니터의 60Hz 속도로 진행했다. 한편, 테크스팟의 테스트 결과 GTX 1080은 50fps 남짓을 기록한 것으로 나타났다.


한편, 12월 초 AoS(Ashes of the Singularity) 데이터베이스에서 유출되었다가 삭제된 자료에 따르면 장치 ID가 “687F:C1”인 GPU가 벤치마크 결과에서 상당수의 GTX 1080 제품들을 능가한 것으로 나타났다. 여기에 힌트가 있다. 최근 둠을 이용한 AMD의 베가 프리뷰에서 프레임률에 표시된 장치 ID가 실제로 687F:C1였다.

이를 통해 많은 것을 알 수 있다. 베가 10은 아직 최종적인 형태가 아니며 AMD가 공개한 그래픽 카드가 베가의 최종 형태인지는 알 수 없고 벤치마크에 활용한 3종의 게임은 모두 라데온에 유리하다 등을 알 수 있다.

하지만 베가는 분명 그래픽 성능 측면에서 경쟁력이 있는 것으로 보이며 그 이유 중 하나는 AMD가 베가를 단순히 더 열심히 작동할 뿐 아니라 더욱 스마트하게 작동하도록 설계했기 때문이기도 한다. "적절한 시점에 적절한 데이터를 이동하고 적절하게 처리하는 것"이 해당 팀의 주된 목표였다고 그래픽 및 병렬 연산 아키텍처에 집중하는 AMD의 기업 연구원 마이크 맨토(Mike Mantor)가 말했다. 그리고 이는 베가의 급진적인 메모리 디자인을 통한 더욱 긴밀한 그래픽 처리 덕분이다.

2. 중요한 것은 메모리
온보드 메모리의 경우 베가는 전작들과 마찬가지로 혁신적이다.

AMD의 최신 고급 그래픽 카드인 라데온 퓨리(Radeon Fury) 시리즈는 최신 고대역폭 메모리를 실현했다. 베가는 그 뒤를 이어 AMD가 공개한 "고대역폭 캐시 컨트롤러"로 강화한 차세대 HBM2를 탑재했다.

기술적인 한계로 인해 HBM 1세대는 4GB 용량으로 제한되었고 이로 인해 퓨리 시리즈의 온보드 RAM은 4GB로 제한되었다. 다행이도 HBM의 순 속도 때문에 대부분의 게임에서 이 결함이 나타나지 않았지만 이제 HBM2는 이런 족쇄에서 벗어났다. AMD가 베가의 용량을 공식적으로 확인한 것은 아니지만 둠 시연 중 화면을 통해 특정 그래픽 카드에 8GB RAM이 탑재되었음이 드러났다. 그리고 이런 고속 RAM은 더욱 빨라지고 있으며 AMD의 조 마크리는 HBM2가 HBM1보다 핀당 2배의 대역폭을 제공한다고 밝혔다.


베가의 고대역폭 캐시와 캐시 컨트롤러는 메모리의 한계를 극복한다.

하지만 HBM은 시작에 불과했다. "시간이 지나면서 취하여 강화하고 개선할 수 있는 혁신적인 기술이다"고 HBM 개발에 참여한 마크리가 말했다. 베가는 새로운 고대역폭 캐시와 고대역폭 캐시 컨트롤러를 라데온 책임자 라자 코두리가 말하는 "세계에서 가장 확장성이 뛰어난 GPU 메모리 아키텍처"를 완성함으로써 HBM을 개선했다.

AMD는 순수한 그래픽 성능이 급속도로 향상되지만 메모리 용량과 능력이 상대적으로 정체된 시점에 메모리 설계를 발전시키기 위해 베가의 고대역폭 메모리 아키텍처를 개발했다. HB 캐시는 해당 그래픽 카드의 전통적인 프레임 버퍼(Frame Buffer)를 대체하지만, HB 캐시 컨트롤러는 데이터를 미묘하게 제어할 수 있으며 512 ‘테라바이트’의 가상 주소 공간을 지원한다. 베가의 HBM 디자인은 그래픽 메모리를 온보드 RAM을 넘어 한 번에 여러 개의 메모리 소스를 관리할 수 있는 좀 더 이질적인 메모리 시스템으로 확장할 수 있다.



이를 통해 고용량 NAND 메모리를 그래픽 프로세서에 직접 접목한 새로운 라데온 인스팅트(Radeon Instinct) 제품군 또는 최신 라데온 프로(Pro) SSG 카드 등의 전문가용 제품에 가장 큰 영향을 끼칠 가능성이 높다. “우리는 이를 통해 GPU에 테라바이트 단위의 메모리를 연결할 수 있다"고 AMD의 IA(Industry Alliances) 책임자 데이비드 워터스가 라데온 프로 SSG가 공개되었을 때 밝혔으며, HBM의 빠른 속도를 위해 개발된 이 새로운 캐시와 컨트롤러 아키텍처로 이런 능력이 더욱 향상될 것이다.

잠재적인 이점을 실현하기 위해 AMD는 마크리의 거실을 사진으로 재현하여 공개했다. 이 600GB 용량의 사진을 렌더링(Rendering)하려면 통상 몇 시간이 소요되지만 베가의 성능과 새로운 HBM2 아키텍처를 합쳐 수 분 만에 완성했다. 심지어 AMD는 기자들이 방 안에서 카메라를 실시간으로 움직여 볼 수 있도록 허용했다. 단, 약간의 지연은 발생했다. 정말 놀라운 시연이었다.



코두리는 고대역폭 캐시 컨트롤러의 미세 동적 데이터 관리가 게임에도 유리할 수 있다고 강조하면서 위처 3(Witcher 3)와 폴아웃 4(Fallout 4)를 언급했다. 두 게임 모두 실제로 4K 해상도로 실행할 때 게임이 할당한 메모리의 절반도 사용하지 못한다. 고성능 게임의 메모리 요건이 증가하고 있으며 해상도도 마찬가지이다. 본 기사의 뒷부분에서 HBM의 순 속도와 HB 캐시의 미세한 제어 능력에 기타 개선사항을 더해 논의할 수 있기를 바란다.

또한 AMD는 미래 세대의 게임이 고대역폭 메모리 디자인을 활용하여 지금의 좀 더 직접적인 접근방식 대신에 대용량 데이터를 그래픽 프로세서에 직접 업로드할 수 있을 것이라고 밝혔다.


3. 효율적인 파이프라인 관리
그래픽 카드가 게임을 렌더링하는 방식은 그다지 효율적이지 않다. 한 예로, 아래는 데우스 EX: 맨카인드 디바이디드(Deus Ex: Mankind Divided)의 한 장면이다. 코두리에 따르면 2억 2천만 개의 폴리곤(Polygon)으로 구성되어 있지만 플레이어는 실제로 2백만 개 남짓만 볼 수 있다고 한다. 베가의 새로운 프로그램 가능한 지오메트리 파이프라인을 적용해 보자.





장면 렌더링은 다단계 프로세스이며 그래픽 카드는 정점 셰이더(Vertex Shader)를 처리한 후 추가 작업을 위해 지오메트리 엔진에 정보를 전달한다. 베가는 플레이어에게 보이지 않는 폴리곤을 빠르게 식별함으로써 지오메트리 엔진이 시간을 낭비하지 않도록 하여 초기의 셰이더가 시간을 낭비하지 않도록 돕는다. 그렇다. 효율성이다!

또한 베가는 정보를 전작들의 첨두 처리량보다 2배나 빠르게 처리하며 새로운 "IWD(Intelligent Workgroup Distributor"가 포함되어 있어 파이프라인의 초기부터 워크로드 균형을 개선한다.



이런 개선사항 덕분에 AMD의 게임기 시장 진출이 PC게이머들에게도 도움이 되는 것이다. 부하 균형 개선에 대한 영감은 PC 개발자들보다 이를 AMD의 잠재적인 개선 영역으로 강조했으며 "더욱 긴밀히 협력한" 게임기 개발자들에게서 얻었다고 라자 코두리가 말했다.

4. 적절한 작업과 적절한 시간
AMD는 "할 필요가 없는 작업을 스마트하게 생략하도록" 베가를 설계했다고 마이크 맨토가 말했다. 해당 기업의 마지막 한 소식이 대미를 장식했다.

베가는 AMD가 수 년 동안 노력한 메모리 대역폭 소모량 감소 노력(엔비디아도 진행 중)의 연장선이다. 차세대 픽셀 엔진에는 장면을 더욱 효율적으로 처리하기 위해 고대역폭 캐시 컨트롤러와 함께 성능을 높이고 전력을 절약하는 "DSBR(Draw Stream Binning Rasterizer)"가 포함되어 있다. 지오메트리 엔진이 (이미 감소한 양의) 작업을 처리한 후 베가는 사용자가 보지 못하기 때문에 표시할 필요가 없는 중복된 픽셀을 확인한다. 그러면 GPU는 렌더링에 시간을 낭비하는 대신에 이런 픽셀을 버린다. DSBR의 디자인을 통해 "한 번만 렌더링하는 픽셀을 찾을 수 있다"고 맨토가 말했다.



또한 개선된 베가 아키텍처는 픽셀 엔진의 렌더 백엔드(Render Backend)를 직접 메모리 컨트롤러로 보내는 대신에 더 큰 공유 L2 캐시로 보낸다. AMD는 이를 통해 지연 셰이딩(Deferred Shading)에 의존하는 GPU 연산 애플리케이션의 성능 개선에 도움이 될 것이라고 밝혔다.

5. 차세대 연산 엔진



마지막으로 AMD는 클럭당 512개의 8비트 연산, 클럭당 256개의 16비트 연산 또는 클럭당 128개의 32비트 연산이 가능한 베가의 "차세대 연산 엔진"을 공개했다. 8비트와 16비트 연산이 대부분의 기계 학습, 컴퓨터 비전, 기타 GPU 컴퓨터 작업에 중요하지만 코두리는 16비트 연산이 덜 엄격한 정밀도를 요구하는 특정 게이밍 작업에 유용할 수 있다고 말했다. (AMD로 구동하는 플레이스테이션 4 프로(PlayStation 4 Pro) 또한 클럭당 256개의 16비트 연산을 지원한다).
.
베가 NCU는 함께 이중으로 계획한 2개의 16비트 연산을 동시에 수행할 수 있다. 이전의 AMD GPU에서는 불가능했던 것이라고 코두리가 말했다. 베가의 차세대 연산 장치는 해당 GPU의 더 높은 클럭 속도와 더 높은 사이클당 명령 수에 최적화되었지만 AMD는 아직 베가의 코어 클럭 속도를 공개하지 않았다.

베가를 기다리며
베가에 대한 기다림이 계속되지만 우리는 RTG(Radeon Technologies Group)의 소매에 숨겨져 있는 에이스에 대한 정보를 알게 되었다. 이런 기술 공개를 통해 그래픽 매니아들이 좋아할 만한 것들에 관해 알 수 있을 뿐 아니라 소비자 지향적인 베가 그래픽 카드와 관련된 소식을 감질나게 공개했다. (AMD는 어쨌든 엔비디아에 대항할 무기에 관해 과도한 공개를 꺼린다). AMD는 분명 게임 및 전문가 용도에 있어서 베가의 효율성과 잠재성을 높이기 위해 새로운 것을 시도하고 있다. 앞으로 자세한 내용이 공개될 것이다.

하지만 베가가 너무 늦기 전에 출시되었으면 하는 바람이다. AMD는 2016년 CES에서 14nm 폴라리스 GPU 아키텍처를 공개했지만 라데온 RX 480을 6월 말에서야 출시했다. 베가는 2017년 전반기에 공개되기 어려울 것으로 예상되기 때문에 AMD가 3분기에 가서야 이 차세대 매니아용 그래픽 카드를 출시하는 경우 GTX 1080이 출시된 지 만 1년이 지난 시점에 출시하게 된다.

베가가 매우 매력적이긴 하지만 아무리 라데온에 충성스러운 고객이라도 새 컴퓨터를 조립할 때까지만 기다릴 수 있으며, AMD의 소문이 무성했던 라이젠 프로세서가 출시를 앞둔 현 시점에서는 더욱 그렇다. editor@itworld.co.kr