2020.12.01

"AMD 라데온 RX 6000 GPU의 심장" RDNA 2 집중 탐구

Brad Chacos | PCWorld
RDNA 2. AMD의 강력한 신제품 라데온 RX 6000 그래픽 카드는 이전에 출시된 오리지널 ‘RDNA’ GPU와 다르지 않은 것 같지만, 차세대 엑스박스 시리즈 X와 플레이스테이션 5 콘솔에도 적용되는 RDNA 2는 단순하게 조정된 버전이 아니다. 상당한 개선을 통해 전 세대 라데온 RX 5000 GPU와 비교하여 와트당 성능이 54%나 높아졌다. 게다가 라데온 RX에는 그래픽 카드의 메모리 작동 방식을 바꾼 혁신적인 인피니티 캐시 기술도 도입되었다. 오, 그리고 이제 AMD도 레이트레이싱을 지원한다.

이제 라데온 RX 6800 시리즈 그래픽은 오랜만에 엔비디아의 매니아용 게이밍 그래픽 카드와 경쟁할 수 있게 되었다. 실제 성능은 라데온 RX 6800 및 RX 6800 XT 리뷰를 확인하자. 이번 기사에서는 RDNA 2 아키텍처의 개요를 다루면서 AMD가 달성한 기술 수준 이해를 도울 것이다.
 

RDNA 2 아키텍처의 변화

ⓒ AMD

AMD 엔지니어는 높은 효율성을 목표로 RDNA 2에 접근했다. 오리지널 RDNA 아키텍처는 ‘GCN’ 기반 전 세대보다 와트당 성능비가 50%나 높아져, 드디어 높은 평가를 받는 엔비디아의 전력 효율성에 필적하게 되었고, AMD도 RDNA 2에서 전력 효율을 유지하기를 원했다. 결말을 미리 알려주자면, 성공했다. RDNA 2는 RDNA 1과 같은 TSMC 7나노 제조 공정을 사용하기 때문에 많은 노력이 필요했고, 라이젠 CPU 아키텍처팀과도 협력해야 했다. 오리지널 RDNA의 효율성 향상의 상당 부분이 14나노에서 7나노에서 노드를 변경한 덕분이었지만 RDNA 2의 개선은 더 큰 조정이 필요했다.
 
ⓒ AMD
 
ⓒ AMD

대대적인 개선에도 불구하고 기본적인 RDNA 2 구성은 전반적으로 RDNA 1과 유사하며, 전용 레이 액셀러레이터 하드웨어가 추가되면서(이 부분은 나중에 자세히 다루도록 하겠다.) 훨씬 강력해졌다.
 
ⓒ AMD

AMD는 지난 세대의 RDNA 1 제품에서 온건함을 유지할 수 있었다. 대표 고급 제품인 라데온 RX 5700 XT는 251mm² 다이에 40개의 연산 유닛과 103억 개의 트랜지스터를 넣었다. AMD의 이전 GCN 아키텍처의 연산 유닛이 최대 64개였던 것을 생각하면 놀라운 일이었다. (그 이유도 나중에 살펴볼 것이다.) RDNA 2는 이 수준을 가뿐히 능가한다. 579달러의 라데온 RX 6800에는 60개의 연산 유닛이 있고, 649달러의 라데온 RX 6800 XT에서는 72개로 늘었다. 최고 제품인 999달러 라데온 RX 6900 XT는 지난 세대 RX 5700 XT보다 2배 많은 80개의 연산 유닛을 거대한 519mm² 다이에 내장하고 260억 개의 트랜지스터를 집적했다. 반면에 엔비디아의 1,500달러짜리 지포스RTX 3090에 내장된 암페어 GPU 다이에는 훨씬 큰 628mm² 다이에 80억 개의 트랜지스터가 집적되어 있다.

AMD의 환상적인 라이젠 5000 CPU의 계보를 이은 RDNA 2도 미세한 클럭 게이팅(Clock Gating)을 통해 GPU의 일부가 사용되지 않을 때는 작동 속도를 낮춰 전력 효율성을 높인다. 또한 RDNA 2에는 같은 이유로 (서버용 CPU처럼) 더 탄탄한 클럭 트리 스플리팅과 게이팅이 적용되었지만 GPU로 더 높은 대역폭을 달성했다. 엔지니어도 ‘공격적으로’ 데이터 파이프라인의 균형을 조정하고 데이터 데이터 경로를 재설계하여 아키텍처의 효율성을 극대화했다. 최적화는 라데온 RX 6800 및 6800 XT의 최대 54% 높아진(그리고 12월 8일에 출시되는 플래그십 라데온 RX 6900 XT에서는 65% 높아진) 와트당 성능의 약 1/3 정도 기여했다.
 
ⓒ AMD

와트당 성능이 전력 효율성을 보장하지는 않는다. 그래서 ‘성능’이라는 말을 쓰는 것이다. RDNA 2의 와트당 성능 개선의 또 다른 1/3은 페달을 더 깊게 밟으면서 달성했다. 이번에도 AMD의 엔지니어는 속도에 중점을 두고 마이크로아키텍처, 로직, 성능 라이브러리를 최적화했다. 가장 가시적인 결과로는 라데온 RX 6000 GPU의 미친 것 같은 클럭 속도를 들 수 있다. AMD의 CPU 엔지니어는 오랜 시간에 걸쳐 7나노 프로세스 노드의 속도를 다듬었으며, 라데온 팀과 전문지식을 공유하여 효과를 배가시켰다.

라데온 RX 6000 시리즈 그래픽 카드는 2GHz 장벽을 훌쩍 뛰어넘는다. AMD 대변인은 언론과의 대화에서 전례 없이 빠른 속도를 자랑하고 싶어한다. 그리고 그래야만 한다. 라데온 RX 6800, 6800 XT, 6900 XT 등 3개 하이엔드 옵션 모두 2.1GHz에 육박하는 부스트 클럭 속도를 낼 수 있다. 2개의 XT 모델은 최대 2,250MHz까지 올라간다. 이상적인 조건이 갖춰져야 하지만 AMD는 XT 카드가 게이밍 작업이라는 부하에서도 2,015MHz에 도달하여 게임 플레이 중 약 2GHz까지 부스팅하는 엔비디아의 강력한 암페어 GPU와 어깨를 나란히 한다.

RDNA 2의 혁신적인 인피니티 캐시가 없었다면 이런 빠른 속도나 전력 효율성 목표를 달성할 수 없었을 것이다.
 

RDNA 2 인피니티 캐시 설명

ⓒ AMD

RDNA 2의 눈에 띄는 특징은 에픽(Epyc) 서버 프로세서의 설계에서 차용했다. 전통적인 GPU에는 다양한 크기의 L1 및 L2 캐시가 포함되어 있다. 라데온 RX 6000 그래픽 카드는 최신 라이젠 프로세서 성능 개선의 주역인 ‘게임 캐시(Game Cache)’처럼 작동하는 ‘인피니티 캐시’를 추가했다. 에픽 서버 CPU에서 영감을 얻은 인피니티 캐시는 기본적으로 게이밍 작업 부하에 최적화된 거대한 128MB L3 캐시이다. 에픽 프로세서의 L3 SRAM보다 4배나 집적도가 높아 전력 효율성 개선에도 도움이 된다.
 
ⓒ AMD

GPU에 이런 거대한 고속 캐시를 탑재하면 특정 프레임의 작업 데이터의 대부분을 다이에 보관할 수 있다. GPU는 패키지를 통해 16GB의 온보드 GDDR6 메모리까지 신호를 보낼 필요가 없으며, 특히 캐시는 이후의 프레임에서도 재사용할 수 있는 많은 시공간 데이터를 보존한다. 그 덕분에 인피니티 캐시는 메모리 모듈의 버스 대역폭을 늘리는 것보다 훨씬 빠르고 전력 효율적이다.

AMD의 제품 기술 설계자 샘 나프지거는 라데온 RX 6000 GPU가 일반적인 256비트 버스를 고수하지만 인피니티 캐시 덕분에 거대한 512비트 버스를 갖춘 전통적인 GDDR6보다 훨씬 큰 와트당 대역폭을 제공할 수 있다고 말했다. 반면에 엔비디아의 경쟁자인 하이엔드 RTX 3080 및 3090 그래픽 카드는 각각 더 넓은 320비트 및 384비트 버스를 사용하며 ‘PAM4’ 신호 기술을 사용하는 첨단 GDDR6X 메모리를 갖춰 사이클당 최대 4개의 값을 전송할 수 있다(기존에는 2개였다). 그 덕분에 GDDR6X가 GDDR6보다 2배 빠른 속도를 데이터를 이동할 수 있지만 지연 속도와 전력 소모량이 더 크다.
 
ⓒ AMD

인피니티 캐시는 RDNA 2의 높은 클럭 속도에도 도움이 된다. 나프지거는 AMD가 RDNA 2에 오리지널 RDNA 메모리 서브 시스템을 강제로 적용했다면 GPU의 대역폭 부족을 해결하기 위해 훨씬 메모리 구성이 필요했을 것이라고 말했다. 그랬다면 거대한 512비트 버스와 더 빠른 메모리로 업그레이드해야 했을 것이며, 전력 소모량이 치솟았을 것이다. 이것은 RDNA 2의 설계 목표에 반하는 것이다.

인피니티 캐시를 통한 압도적인 대역폭 덕분에 RDNA 2의 CU는 위의 차트처럼 충분히 활용된다. AMD 연구진이 인피니티 캐시를 비활성화하고 256비트 버스의 16GB GDDR6 메모리를 갖춘 표준 캐시 설계로 되돌리자 GPU 클럭 주파수도 크게 낮아졌다.
 
ⓒ AMD

인피니티 캐시는 다이에 많은 프레임 데이터를 보존하므로 라데온 RX 6800이 구형 라데온 RX 5700 XT보다 평균 34% 낮은 지연 속도 달성에 유리하다. 인피니티 캐시를 제대로 활용하게 되면 지연 속도가 더 낮아진다. 나프지거는 AMD의 인피니티 패브릭 통신 기술이 속도를 조절하여 효율성을 최적화할 수 있으며, 인피니티 캐시가 스트레스를 받을 때 최대 550GB/s까지 높일 수 있다고 말했다. 하지만 GPU가 카드의 실제 VRAM에 액세스해야 하는 경우에도 인피니티 패브릭의 전체적인 속도 증가 덕분에 지난 세대 라데온 카드와 비교하여 지연 속도가 개선된다. 

AMD는 초기 3개 매니아용 카드의 인피니티 캐시를 4K 게이밍에 맞춰 조율했기 때문에 인상적인 128MB로 구성했다. 나프지거는 큰 크기 덕분에 인피니티 캐시가 광범위한 타이틀에서 4K 해상도로 56% 적중률을 기록할 수 있으며 해상도가 낮아지면 적중률이 더 높아진다. AMD의 로라 스미스는 AMD 신제품이 1440p 게이밍에서 엔비디아의 경쟁자보다 성능이 더 나은 이유 중 하나는 높은 인피니티 캐시 적중률 덕분이라고 말했다.
 
ⓒ AMD

하지만 나프지거는 인피니티 캐시의 성능은 해상도가 낮아지면서 선형적으로 증가하지 않는다고 경고했다. 1080P로 낮추면 게임이 메모리보다는 CPU나 엔진의 제약을 더 크게 받게 된다. (이 때문에 추후 출시될 저렴한 라데온 RX 6000 제품의 인피니티 캐시 크기가 줄어들 가능성이 있다.)

마찬가지로 인피니티 캐시는 메모리 제약이 큰 대부분의 애플리케이션에서 효과를 발휘한다. 하지만 게임이 전통적인 VRAM에 더 자주 액세스해야 하는 경우에도 이점이 느껴질 수 있다. 나프지거는 이런 경우 RDNA 1의 전체적인 메모리 시스템이 이 카드들에 512비트 버스를 탑재한 것과 유사하게 동작한다고 설명했다.

인피니티 캐시는 레이트레이싱에도 큰 도움이 된다.
 

RDNA 2의 레이트레이싱

그렇다. AMD의 라데온 GPU는 이제 실시간 레이 트레이닝을 처리할 수 있다. 엔비디아는 구형 RTX 20 시리즈 GPU에 레이트레이싱 처리를 위한 전용 RT 코어를 추가하면서 레이트레이싱 경쟁에 불을 당겼다. 이제 AMD가 각 RDNA 2 연산 유닛에 1개의 전용 레이 액셀러레이터를 추가하여 경쟁에 뛰어들었다. 즉, 라데온 RX 6000 스택에서 위로 올라가면 연산 유닛이 많은 강력한 그래픽 카드에 전용 하드웨어가 더 많기 때문에 레이트레이싱을 더욱 잘 처리하게 된다.
 
ⓒ AMD

PCWorld 라데온 RX 6800 및 6800 XT 리뷰에서 보았듯이 RDNA 2는 엔비디아의 2세대 레이트레이싱 구현에 못 미친다. 하지만 놀랍도록 훌륭한 레이트레이싱 성능을 제공하며 1440p 및 1080p 해상도에서 적절한 프레임률을 달성한다. 하지만 게임을 집중적인 광원 기술이 적용된 4K로 플레이하지는 못할 것이며, AMD는 레이트레이싱이 적용된 1440p 게이밍을 목표로 삼았다고 밝혔다. 대체로 성공했다.

인피니티 캐시는 여기에서도 한 몫 한다. 이 기술이 처음 적용된 엔비디아의 튜링 아키텍처에 대한 분석에서 레이트레이싱이 어떻게 작동하는지 분석해 보았다. 기본적으로 BVH(Bounding Volume Hierarchy) 순회라는 기법을 사용하여 광선이 어떻게 동작하는지를 개선하는 전용 레이트레이싱 하드웨어를 통해 작동한다. 이 작업은 매우 메모리 집약적이기 때문에 게임에서 레이트레이싱을 활성화하면 VRAM 사용량이 크게 증가한다.
 
ⓒ NVIDIA

AMD는 인피니티 캐시 안에서 ‘설정된 매우 높은 BVH 백분율이 작동하도록’ 유지할 수 있기 때문에 지연 속도를 낮추고 전체적인 성능을 높일 수 있다고 밝혔다. 레이 액셀러레이터는 BVH의 교차 지점을 처리하는 반면에 RDNA 2는 광선 순회를 위해 연산 유닛의 표준 셰이더 코드를 사용하여 실제 장면을 셰이딩 한다.  

즉, AMD는 엔비디아의 DLSS(Deep Learning Super Sampling) 기술에 대한 대안이 없다. 레이트레이싱은 놀랍도록 컴퓨팅 집약적이며 이를 활성화하면 성능에 영향을 받는다. 프레임률 손상을 보정하기 위해 DLSS는 더 낮은 해상도로 레임을 렌더링한 후 머신 러닝을 사용하여 최종 이미지를 게임 해상도로 업스케일링한다. 이 모든 것이 엔비디아의 AI 전용 텐서 코어를 통해 이루어진다.

초기 버전의 DLSS는 화면에 바셀린이 스며든 것처럼 보였지만 새로운 게임에 적용된 DLSS 2.0 기술은 흑마법 같다. 놀라운 성능으로 레이트레이싱을 원활하게 구현한다. 또한 텐서 코어는 레이트레이싱이 켜져 있을 때 ‘노이즈 제거’를 처리하여 이전의 덜 발달한 레이트레이싱 구현의 불쾌한 느낌을 없앤다.
 
ⓒ AMD

AMD는 RDNA 1에 전용 AI 업스케일링 하드웨어를 포함하지 않았다. 노이즈 제거는 일반 연산 유닛으로 처리되고 필자가 보기에는 잘 작동했지만 손실된 프레임을 보정하기 위한 DLSS 같은 기능은 없다. 라데온 RX 6000 공개 중 AMD는 피델리티FX 오픈소스 도구의 일부인 ‘슈퍼 레졸루션(Super Resolution)’이라는 일종의 DLSS의 대안 기술을 언급했지만, 자세한 내용은 밝히지 않았다. 대변인도 슈퍼 레졸루션이 바로 제공되는 않을 것이라는 것 외에는 아무런 설명도 하지 않았다. 즉, AMD의 RDNA 2는 차세대 콘솔에도 사용되기 때문에 AMD는 오픈소스 대안 기술이 개발되었을 때 개발자들의 관심을 끌기를 바라고 있다. AMD의 FidelityFX 툴킷에는 개발자들이 구현할 수 있는 노이즈 제거 솔루션도 포함되어 있다.
 

다이렉트X 12 얼티밋 적용 후 커지는 기대

아직, 몇 가지가 더 있다. 엔비디아의 최신 RTX 브랜드 GPU처럼 RDNA 2는 다이렉트X 12 얼티밋과 완벽히 호환된다. 마이크로소프트는 DX12가 모든 최신 PC와 차세대 엑스박스 시리즈 엑스 하드웨어의 엔비디아의 튜링 기반 RTX 20 시리즈에서 도입되었지만 개발자가 대부분 무시했던 일련의 새로운 기능을 통합하여 ‘게임 생태계 전체의 전력 증강자’라고 밝혔다.
 
ⓒ AMD

즉, 라데온 RX 6000 시리즈 그래픽 카드는 메시 셰이딩, 가변 레이트 셰이딩, 샘플러 피드백 등의 기능도 처리할 수 있으며, 이 부분은 다이렉트X 12 얼티밋 살펴보기에서 이미 다루었다. 이 모든 기능은 성능과 시각적인 충실도를 개선할 가능성이 크다. AMD는 이를 중심으로 색상 압축 동작 개선과 전용 샘플러 피드백 로직 추가 등 RDNA 2의 많은 부분을 최적화했다.
AMD의 라데온 GPU는 2021년에 공개될 마이크로소프트의 다이렉트스토리지(DirectStorage) API도 지원할 것이다(엔비디아의 RTX 30 시리즈도 마찬가지다). 다이렉트스토리지는 NVMe SSD가 그래픽 카드의 메모리와 직접 통신하여 로딩 및 자산 스트리밍 성능이 크게 향상된다. 다이렉트스토리지가 PC에서 게임 로딩 시간을 어떻게 없애는지는 여기에서 확인할 수 있다. 진정한 혁신이 될 가능성이 있다.
 
ⓒ AMD

다른 측면도 업그레이드되었다. 예를 들어, 디스플레이 엔진은 이제 HDM1 2.1을 지원한다. 멀티미디어 엔진은 8K 비디오를 위한 AV1 디코딩을 지원하며 엔비디아의 암페어 GPU에 필적하는 고화질 8K HEVC 인코딩 가속기가 포함되어 있다. 하지만 여기에서 8K는 틈새 중의 틈새이며, 아직 한참 멀었다.

이 모든 개선이 사용자가 구입할 그래픽 카드에서 실제로 어떻게 적용되는지는 라데온 RX 6800 및 RX 6800 XT 리뷰에서 확인할 수 있다. 라데온 신제품은 가히 환상적이다. 2013년 라데온 R9 290X 이후 드디어 처음으로 엔비디아의 고급 게이밍 제품과 제대로 경쟁하고 있다. 2020년은 게이머에게 환상적인 해가 될 것이다. editor@itworld.co.kr 


2020.12.01

"AMD 라데온 RX 6000 GPU의 심장" RDNA 2 집중 탐구

Brad Chacos | PCWorld
RDNA 2. AMD의 강력한 신제품 라데온 RX 6000 그래픽 카드는 이전에 출시된 오리지널 ‘RDNA’ GPU와 다르지 않은 것 같지만, 차세대 엑스박스 시리즈 X와 플레이스테이션 5 콘솔에도 적용되는 RDNA 2는 단순하게 조정된 버전이 아니다. 상당한 개선을 통해 전 세대 라데온 RX 5000 GPU와 비교하여 와트당 성능이 54%나 높아졌다. 게다가 라데온 RX에는 그래픽 카드의 메모리 작동 방식을 바꾼 혁신적인 인피니티 캐시 기술도 도입되었다. 오, 그리고 이제 AMD도 레이트레이싱을 지원한다.

이제 라데온 RX 6800 시리즈 그래픽은 오랜만에 엔비디아의 매니아용 게이밍 그래픽 카드와 경쟁할 수 있게 되었다. 실제 성능은 라데온 RX 6800 및 RX 6800 XT 리뷰를 확인하자. 이번 기사에서는 RDNA 2 아키텍처의 개요를 다루면서 AMD가 달성한 기술 수준 이해를 도울 것이다.
 

RDNA 2 아키텍처의 변화

ⓒ AMD

AMD 엔지니어는 높은 효율성을 목표로 RDNA 2에 접근했다. 오리지널 RDNA 아키텍처는 ‘GCN’ 기반 전 세대보다 와트당 성능비가 50%나 높아져, 드디어 높은 평가를 받는 엔비디아의 전력 효율성에 필적하게 되었고, AMD도 RDNA 2에서 전력 효율을 유지하기를 원했다. 결말을 미리 알려주자면, 성공했다. RDNA 2는 RDNA 1과 같은 TSMC 7나노 제조 공정을 사용하기 때문에 많은 노력이 필요했고, 라이젠 CPU 아키텍처팀과도 협력해야 했다. 오리지널 RDNA의 효율성 향상의 상당 부분이 14나노에서 7나노에서 노드를 변경한 덕분이었지만 RDNA 2의 개선은 더 큰 조정이 필요했다.
 
ⓒ AMD
 
ⓒ AMD

대대적인 개선에도 불구하고 기본적인 RDNA 2 구성은 전반적으로 RDNA 1과 유사하며, 전용 레이 액셀러레이터 하드웨어가 추가되면서(이 부분은 나중에 자세히 다루도록 하겠다.) 훨씬 강력해졌다.
 
ⓒ AMD

AMD는 지난 세대의 RDNA 1 제품에서 온건함을 유지할 수 있었다. 대표 고급 제품인 라데온 RX 5700 XT는 251mm² 다이에 40개의 연산 유닛과 103억 개의 트랜지스터를 넣었다. AMD의 이전 GCN 아키텍처의 연산 유닛이 최대 64개였던 것을 생각하면 놀라운 일이었다. (그 이유도 나중에 살펴볼 것이다.) RDNA 2는 이 수준을 가뿐히 능가한다. 579달러의 라데온 RX 6800에는 60개의 연산 유닛이 있고, 649달러의 라데온 RX 6800 XT에서는 72개로 늘었다. 최고 제품인 999달러 라데온 RX 6900 XT는 지난 세대 RX 5700 XT보다 2배 많은 80개의 연산 유닛을 거대한 519mm² 다이에 내장하고 260억 개의 트랜지스터를 집적했다. 반면에 엔비디아의 1,500달러짜리 지포스RTX 3090에 내장된 암페어 GPU 다이에는 훨씬 큰 628mm² 다이에 80억 개의 트랜지스터가 집적되어 있다.

AMD의 환상적인 라이젠 5000 CPU의 계보를 이은 RDNA 2도 미세한 클럭 게이팅(Clock Gating)을 통해 GPU의 일부가 사용되지 않을 때는 작동 속도를 낮춰 전력 효율성을 높인다. 또한 RDNA 2에는 같은 이유로 (서버용 CPU처럼) 더 탄탄한 클럭 트리 스플리팅과 게이팅이 적용되었지만 GPU로 더 높은 대역폭을 달성했다. 엔지니어도 ‘공격적으로’ 데이터 파이프라인의 균형을 조정하고 데이터 데이터 경로를 재설계하여 아키텍처의 효율성을 극대화했다. 최적화는 라데온 RX 6800 및 6800 XT의 최대 54% 높아진(그리고 12월 8일에 출시되는 플래그십 라데온 RX 6900 XT에서는 65% 높아진) 와트당 성능의 약 1/3 정도 기여했다.
 
ⓒ AMD

와트당 성능이 전력 효율성을 보장하지는 않는다. 그래서 ‘성능’이라는 말을 쓰는 것이다. RDNA 2의 와트당 성능 개선의 또 다른 1/3은 페달을 더 깊게 밟으면서 달성했다. 이번에도 AMD의 엔지니어는 속도에 중점을 두고 마이크로아키텍처, 로직, 성능 라이브러리를 최적화했다. 가장 가시적인 결과로는 라데온 RX 6000 GPU의 미친 것 같은 클럭 속도를 들 수 있다. AMD의 CPU 엔지니어는 오랜 시간에 걸쳐 7나노 프로세스 노드의 속도를 다듬었으며, 라데온 팀과 전문지식을 공유하여 효과를 배가시켰다.

라데온 RX 6000 시리즈 그래픽 카드는 2GHz 장벽을 훌쩍 뛰어넘는다. AMD 대변인은 언론과의 대화에서 전례 없이 빠른 속도를 자랑하고 싶어한다. 그리고 그래야만 한다. 라데온 RX 6800, 6800 XT, 6900 XT 등 3개 하이엔드 옵션 모두 2.1GHz에 육박하는 부스트 클럭 속도를 낼 수 있다. 2개의 XT 모델은 최대 2,250MHz까지 올라간다. 이상적인 조건이 갖춰져야 하지만 AMD는 XT 카드가 게이밍 작업이라는 부하에서도 2,015MHz에 도달하여 게임 플레이 중 약 2GHz까지 부스팅하는 엔비디아의 강력한 암페어 GPU와 어깨를 나란히 한다.

RDNA 2의 혁신적인 인피니티 캐시가 없었다면 이런 빠른 속도나 전력 효율성 목표를 달성할 수 없었을 것이다.
 

RDNA 2 인피니티 캐시 설명

ⓒ AMD

RDNA 2의 눈에 띄는 특징은 에픽(Epyc) 서버 프로세서의 설계에서 차용했다. 전통적인 GPU에는 다양한 크기의 L1 및 L2 캐시가 포함되어 있다. 라데온 RX 6000 그래픽 카드는 최신 라이젠 프로세서 성능 개선의 주역인 ‘게임 캐시(Game Cache)’처럼 작동하는 ‘인피니티 캐시’를 추가했다. 에픽 서버 CPU에서 영감을 얻은 인피니티 캐시는 기본적으로 게이밍 작업 부하에 최적화된 거대한 128MB L3 캐시이다. 에픽 프로세서의 L3 SRAM보다 4배나 집적도가 높아 전력 효율성 개선에도 도움이 된다.
 
ⓒ AMD

GPU에 이런 거대한 고속 캐시를 탑재하면 특정 프레임의 작업 데이터의 대부분을 다이에 보관할 수 있다. GPU는 패키지를 통해 16GB의 온보드 GDDR6 메모리까지 신호를 보낼 필요가 없으며, 특히 캐시는 이후의 프레임에서도 재사용할 수 있는 많은 시공간 데이터를 보존한다. 그 덕분에 인피니티 캐시는 메모리 모듈의 버스 대역폭을 늘리는 것보다 훨씬 빠르고 전력 효율적이다.

AMD의 제품 기술 설계자 샘 나프지거는 라데온 RX 6000 GPU가 일반적인 256비트 버스를 고수하지만 인피니티 캐시 덕분에 거대한 512비트 버스를 갖춘 전통적인 GDDR6보다 훨씬 큰 와트당 대역폭을 제공할 수 있다고 말했다. 반면에 엔비디아의 경쟁자인 하이엔드 RTX 3080 및 3090 그래픽 카드는 각각 더 넓은 320비트 및 384비트 버스를 사용하며 ‘PAM4’ 신호 기술을 사용하는 첨단 GDDR6X 메모리를 갖춰 사이클당 최대 4개의 값을 전송할 수 있다(기존에는 2개였다). 그 덕분에 GDDR6X가 GDDR6보다 2배 빠른 속도를 데이터를 이동할 수 있지만 지연 속도와 전력 소모량이 더 크다.
 
ⓒ AMD

인피니티 캐시는 RDNA 2의 높은 클럭 속도에도 도움이 된다. 나프지거는 AMD가 RDNA 2에 오리지널 RDNA 메모리 서브 시스템을 강제로 적용했다면 GPU의 대역폭 부족을 해결하기 위해 훨씬 메모리 구성이 필요했을 것이라고 말했다. 그랬다면 거대한 512비트 버스와 더 빠른 메모리로 업그레이드해야 했을 것이며, 전력 소모량이 치솟았을 것이다. 이것은 RDNA 2의 설계 목표에 반하는 것이다.

인피니티 캐시를 통한 압도적인 대역폭 덕분에 RDNA 2의 CU는 위의 차트처럼 충분히 활용된다. AMD 연구진이 인피니티 캐시를 비활성화하고 256비트 버스의 16GB GDDR6 메모리를 갖춘 표준 캐시 설계로 되돌리자 GPU 클럭 주파수도 크게 낮아졌다.
 
ⓒ AMD

인피니티 캐시는 다이에 많은 프레임 데이터를 보존하므로 라데온 RX 6800이 구형 라데온 RX 5700 XT보다 평균 34% 낮은 지연 속도 달성에 유리하다. 인피니티 캐시를 제대로 활용하게 되면 지연 속도가 더 낮아진다. 나프지거는 AMD의 인피니티 패브릭 통신 기술이 속도를 조절하여 효율성을 최적화할 수 있으며, 인피니티 캐시가 스트레스를 받을 때 최대 550GB/s까지 높일 수 있다고 말했다. 하지만 GPU가 카드의 실제 VRAM에 액세스해야 하는 경우에도 인피니티 패브릭의 전체적인 속도 증가 덕분에 지난 세대 라데온 카드와 비교하여 지연 속도가 개선된다. 

AMD는 초기 3개 매니아용 카드의 인피니티 캐시를 4K 게이밍에 맞춰 조율했기 때문에 인상적인 128MB로 구성했다. 나프지거는 큰 크기 덕분에 인피니티 캐시가 광범위한 타이틀에서 4K 해상도로 56% 적중률을 기록할 수 있으며 해상도가 낮아지면 적중률이 더 높아진다. AMD의 로라 스미스는 AMD 신제품이 1440p 게이밍에서 엔비디아의 경쟁자보다 성능이 더 나은 이유 중 하나는 높은 인피니티 캐시 적중률 덕분이라고 말했다.
 
ⓒ AMD

하지만 나프지거는 인피니티 캐시의 성능은 해상도가 낮아지면서 선형적으로 증가하지 않는다고 경고했다. 1080P로 낮추면 게임이 메모리보다는 CPU나 엔진의 제약을 더 크게 받게 된다. (이 때문에 추후 출시될 저렴한 라데온 RX 6000 제품의 인피니티 캐시 크기가 줄어들 가능성이 있다.)

마찬가지로 인피니티 캐시는 메모리 제약이 큰 대부분의 애플리케이션에서 효과를 발휘한다. 하지만 게임이 전통적인 VRAM에 더 자주 액세스해야 하는 경우에도 이점이 느껴질 수 있다. 나프지거는 이런 경우 RDNA 1의 전체적인 메모리 시스템이 이 카드들에 512비트 버스를 탑재한 것과 유사하게 동작한다고 설명했다.

인피니티 캐시는 레이트레이싱에도 큰 도움이 된다.
 

RDNA 2의 레이트레이싱

그렇다. AMD의 라데온 GPU는 이제 실시간 레이 트레이닝을 처리할 수 있다. 엔비디아는 구형 RTX 20 시리즈 GPU에 레이트레이싱 처리를 위한 전용 RT 코어를 추가하면서 레이트레이싱 경쟁에 불을 당겼다. 이제 AMD가 각 RDNA 2 연산 유닛에 1개의 전용 레이 액셀러레이터를 추가하여 경쟁에 뛰어들었다. 즉, 라데온 RX 6000 스택에서 위로 올라가면 연산 유닛이 많은 강력한 그래픽 카드에 전용 하드웨어가 더 많기 때문에 레이트레이싱을 더욱 잘 처리하게 된다.
 
ⓒ AMD

PCWorld 라데온 RX 6800 및 6800 XT 리뷰에서 보았듯이 RDNA 2는 엔비디아의 2세대 레이트레이싱 구현에 못 미친다. 하지만 놀랍도록 훌륭한 레이트레이싱 성능을 제공하며 1440p 및 1080p 해상도에서 적절한 프레임률을 달성한다. 하지만 게임을 집중적인 광원 기술이 적용된 4K로 플레이하지는 못할 것이며, AMD는 레이트레이싱이 적용된 1440p 게이밍을 목표로 삼았다고 밝혔다. 대체로 성공했다.

인피니티 캐시는 여기에서도 한 몫 한다. 이 기술이 처음 적용된 엔비디아의 튜링 아키텍처에 대한 분석에서 레이트레이싱이 어떻게 작동하는지 분석해 보았다. 기본적으로 BVH(Bounding Volume Hierarchy) 순회라는 기법을 사용하여 광선이 어떻게 동작하는지를 개선하는 전용 레이트레이싱 하드웨어를 통해 작동한다. 이 작업은 매우 메모리 집약적이기 때문에 게임에서 레이트레이싱을 활성화하면 VRAM 사용량이 크게 증가한다.
 
ⓒ NVIDIA

AMD는 인피니티 캐시 안에서 ‘설정된 매우 높은 BVH 백분율이 작동하도록’ 유지할 수 있기 때문에 지연 속도를 낮추고 전체적인 성능을 높일 수 있다고 밝혔다. 레이 액셀러레이터는 BVH의 교차 지점을 처리하는 반면에 RDNA 2는 광선 순회를 위해 연산 유닛의 표준 셰이더 코드를 사용하여 실제 장면을 셰이딩 한다.  

즉, AMD는 엔비디아의 DLSS(Deep Learning Super Sampling) 기술에 대한 대안이 없다. 레이트레이싱은 놀랍도록 컴퓨팅 집약적이며 이를 활성화하면 성능에 영향을 받는다. 프레임률 손상을 보정하기 위해 DLSS는 더 낮은 해상도로 레임을 렌더링한 후 머신 러닝을 사용하여 최종 이미지를 게임 해상도로 업스케일링한다. 이 모든 것이 엔비디아의 AI 전용 텐서 코어를 통해 이루어진다.

초기 버전의 DLSS는 화면에 바셀린이 스며든 것처럼 보였지만 새로운 게임에 적용된 DLSS 2.0 기술은 흑마법 같다. 놀라운 성능으로 레이트레이싱을 원활하게 구현한다. 또한 텐서 코어는 레이트레이싱이 켜져 있을 때 ‘노이즈 제거’를 처리하여 이전의 덜 발달한 레이트레이싱 구현의 불쾌한 느낌을 없앤다.
 
ⓒ AMD

AMD는 RDNA 1에 전용 AI 업스케일링 하드웨어를 포함하지 않았다. 노이즈 제거는 일반 연산 유닛으로 처리되고 필자가 보기에는 잘 작동했지만 손실된 프레임을 보정하기 위한 DLSS 같은 기능은 없다. 라데온 RX 6000 공개 중 AMD는 피델리티FX 오픈소스 도구의 일부인 ‘슈퍼 레졸루션(Super Resolution)’이라는 일종의 DLSS의 대안 기술을 언급했지만, 자세한 내용은 밝히지 않았다. 대변인도 슈퍼 레졸루션이 바로 제공되는 않을 것이라는 것 외에는 아무런 설명도 하지 않았다. 즉, AMD의 RDNA 2는 차세대 콘솔에도 사용되기 때문에 AMD는 오픈소스 대안 기술이 개발되었을 때 개발자들의 관심을 끌기를 바라고 있다. AMD의 FidelityFX 툴킷에는 개발자들이 구현할 수 있는 노이즈 제거 솔루션도 포함되어 있다.
 

다이렉트X 12 얼티밋 적용 후 커지는 기대

아직, 몇 가지가 더 있다. 엔비디아의 최신 RTX 브랜드 GPU처럼 RDNA 2는 다이렉트X 12 얼티밋과 완벽히 호환된다. 마이크로소프트는 DX12가 모든 최신 PC와 차세대 엑스박스 시리즈 엑스 하드웨어의 엔비디아의 튜링 기반 RTX 20 시리즈에서 도입되었지만 개발자가 대부분 무시했던 일련의 새로운 기능을 통합하여 ‘게임 생태계 전체의 전력 증강자’라고 밝혔다.
 
ⓒ AMD

즉, 라데온 RX 6000 시리즈 그래픽 카드는 메시 셰이딩, 가변 레이트 셰이딩, 샘플러 피드백 등의 기능도 처리할 수 있으며, 이 부분은 다이렉트X 12 얼티밋 살펴보기에서 이미 다루었다. 이 모든 기능은 성능과 시각적인 충실도를 개선할 가능성이 크다. AMD는 이를 중심으로 색상 압축 동작 개선과 전용 샘플러 피드백 로직 추가 등 RDNA 2의 많은 부분을 최적화했다.
AMD의 라데온 GPU는 2021년에 공개될 마이크로소프트의 다이렉트스토리지(DirectStorage) API도 지원할 것이다(엔비디아의 RTX 30 시리즈도 마찬가지다). 다이렉트스토리지는 NVMe SSD가 그래픽 카드의 메모리와 직접 통신하여 로딩 및 자산 스트리밍 성능이 크게 향상된다. 다이렉트스토리지가 PC에서 게임 로딩 시간을 어떻게 없애는지는 여기에서 확인할 수 있다. 진정한 혁신이 될 가능성이 있다.
 
ⓒ AMD

다른 측면도 업그레이드되었다. 예를 들어, 디스플레이 엔진은 이제 HDM1 2.1을 지원한다. 멀티미디어 엔진은 8K 비디오를 위한 AV1 디코딩을 지원하며 엔비디아의 암페어 GPU에 필적하는 고화질 8K HEVC 인코딩 가속기가 포함되어 있다. 하지만 여기에서 8K는 틈새 중의 틈새이며, 아직 한참 멀었다.

이 모든 개선이 사용자가 구입할 그래픽 카드에서 실제로 어떻게 적용되는지는 라데온 RX 6800 및 RX 6800 XT 리뷰에서 확인할 수 있다. 라데온 신제품은 가히 환상적이다. 2013년 라데온 R9 290X 이후 드디어 처음으로 엔비디아의 고급 게이밍 제품과 제대로 경쟁하고 있다. 2020년은 게이머에게 환상적인 해가 될 것이다. editor@itworld.co.kr 


X