GCN架构：重新定义图形及计算 - 图形计算双冠王，Radeon HD 7970同步评测

全文浏览

◆ GCN架构：重新定义图形及计算

　　AMD HD 7970显卡使用的是全新GCN架构，有关GCN架构的解析文章我们之前已经详细分析过，不过现在AMD又更新了一些资料，内容没有之前的技术PDF那么枯燥，可以更加直观地对比新架构的变化。

图形运算经历了TL光照、顶点/像素渲染、VLIW 5再到VLIW 4指令的变化

　　了解一点显卡技术发展历史的读者应该知道，早期的显卡结构很简单，只是几何变换以及光照渲染，后来发展到顶点渲染和像素渲染。DX10时代开始统称为流处理器，AMD就在原来的基础上发展处VLIW 5超长指令架构，使用4D+1D的变通方式实现了统一渲染的要求，VLIW 5从HD 2900开始一直用到HD 3800、HD 4800、HD 5800以及HD 6800，历经五朝而不衰。

　　2010年的时候AMD发布了HD 6900系列显卡，其架构有所调整，从4D+1D的VLIW 5指令变为4D的VLIW 4指令，增强了流处理器单元的通用性，不过整体范畴还是未能脱离VLIW超长指令体系。

GCN架构旨在解决原有VLIW体系的一系列弊端，提高性能，降低功耗

　　VLIW体系的优点是电路设计比较简单，流处理器单元数量扩展起来很方便，缺点就是效率低，极度依赖指令组合，需要强大的调度体系与之配合，实际应用远不如理论那么高效，特别是在GPU计算性能上，AMD的显卡已被对手撇下很远，是时候改变了。

　　AMD推出了GCN架构，目标不仅是提升GPU图形性能和能效，而且要提高GPU的多线程处理能力，优化高性能计算，提高扩展能力和弹性，并与Fusion架构融合。

GCN架构中基本组成单元成为CU

　　GCN架构中基本的组成单元为“Compute Unit”（简称CU），完整的GCN核心有32个CU单元，每个CU单元又下辖64个ALU单元和4个TF纹理单元，总计有2048个ALU计算单元，128个纹理单元，相比之下HD 6970的流处理器单元只有1536个，纹理单元也只有96个。

　　前端部分延续了HD 6970显卡所用的“Dual Graphic Engines”双图形引擎结构，有两个ACE（Asynchronous Compute Engines异步计算引擎）和两个Geometry Engines（几何引擎，第9代曲面细分单元）引擎。

　　HD 7970还有8个后端渲染单元，每周期可以实现32个ROP光栅渲染和128个Z/stencil渲染，这一点与HD 6970倒是没有分别，不过显存位宽加大了，后端处理性能还是有提升的。

　　32个CU单元之外是6组GDDR5显存控制器，每组64bit，显存位宽为384bit，这也是AMD首次使用384bit显存位宽，再结合1375MHz的高速度，HD 7970的显存带宽达到了264GB/s，显存容量也再上一个台阶，达到了3GB。

CU单元是由4组16-way SIMD阵列组成

　　AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+Vector Unint”---使用标量&矢量单元的非VLIW体系，它与之前的VLIW架构形似而神不同，显卡的组成单元不再是SIMD阵列而是CU单元，那CU单元具体又是如何构造的？

　　上图是CU单元的组成示意图，每个CU中有1个标量单元和4个矢量单元，每个矢量单元又是由一组SIMD-16阵列组成，这4组SIMD-16阵列各有64KB寄存器（Registers），并且是独立运算，这样一个CU单元同时就可以执行多条指令，这就是AMD所说的“GCN是基于SIMD阵列的MIMD架构”（Southern Islands is a MIMD architecture with a SIMD array）的含义。

GCN指令体系与VLIW 4比较

　　与VLIW 4体系的一组SIMD阵列相比，二者的ALU单元总数是相同的，每个CU以及SIMD阵列单元都能执行64个单精度混合乘加运算，好比16*4和4*16都等于64一样，但是区别在于，VLIW 4每次虽然可以执行4个ALU运算，但是每个ALU单元不能独立运算，需要组合成VLIW 4才可以，效率和调度是个问题，而GCN的4 SIMD阵列每周期可以执行1个ALU运算，但是四组SIMD可以互不依赖，只要有进程就一直是100%效率。

　　GCN架构的这个转变看起来很简单，就像是换个算法而已，但就是这个简单的变换极大地提升了HD 7970的计算效率，不需要在调度和优化下大费周章，创建、分析以及debug过程也更简单，提高了计算的扩展性以及弹性。