GPU遭遇存储器瓶颈，流处理架构诞生 - 重新定义超频解读NVIDIA的Shader频率

全文浏览

GPU遭遇存储器瓶颈，流处理架构诞生

　　在摩尔定律的推动下，CPU的速度差不多每隔两年就提升一倍，但是这仅仅是针对PC的运算部件的定律，基本上，由于种种原因限制，内存访问速度每隔六年才提升一倍。因此，这两者差距越拉越大，计算单元空算等待存储器的情况越来越严重。

　　对于GPU来说也是如此，一个工作频率在500MHz的GPU，内部每个时钟周期的长度在2ns左右，而我们可怜的显存还在以200～300MHz（2.0GHz GDDR4）的速度工作（GDDR4使用8位预取结构[Octal Data Rate]设计，数据频率是核心频率的8倍）。更加糟糕的是，GPU对显存的存取动作指令也会有延迟周期（CAS，RAS），这样，从GPU开始存取放在芯片外面的DRAM，到第一个Data送出的时间差最小也有几十个ns，以GPU内部的时钟频率而言可能会有几十到上百个周期的损失。如果将GPU比作一个工厂的流水线，那么这就意味着，整个流水线大部分的时间都是空闲着，因为不能获取需要处理的原材料。

　　为了解决这种状况，NVIDIA和ATI很早就开始尝试深化流水线或者引入多线程机制来隐藏这些延迟。伴随着DX10的发布，NVIDIA发布全新一代G8X产品更是对显卡核心的架构进行翻天覆地的改变。这里面最重要的变化就是抛弃了近六年来一直使用的Pixel Shader（像素着色器，简称PS单元）和Vertex Shader（顶点着色器，简称VS单元）分而治之的方案，将两者进行了结合，也就是我们常说的统一架构。

　　传统的图形芯片架构中，生成图像时先由顶点渲染管线中的Vertex Shader（顶点着色器）生成几何图形的骨架（由三角形构成），然后再由像素渲染管线中的Pixel Shader（像素着色器）进行填色，最后才是像素渲染管线中的纹理单元进行贴图。而新的统一架构，Pixel Shader和Vertex Shader被合二为一，称为流处理器（Shader Processor，简称SP），它将同时负责顶点着色和像素着色，还充当新增加的Geometry Shader（几何着色器）。也就是说现在每条渲染管线都由流处理器和纹理贴图单元组成，其中流处理器身兼顶点着色、像素着色和几何着色三职，这样解决了以往因顶点着色和像素着色任务不均造成的资源浪费。

　　从G80显卡开始的，到目前主流的G84、G86系列产品上也全部采用了这种统一架构的方式，如下图所示：

　　与之前所有的GPU不同的是，G8X系列首次提供了一种更接近纯数学运算的架构，称之为流处理架构。流处理架构包括以下几个主要部分：指令派发和仲裁机构（Thread Dispatch）、片内缓存（Cache）、运算簇（TPC）以及TMU、Crossbar总线和光栅操作处理器（ROP，Raster Operation Processor）。G8X流处理架构分为流级与核心级。流级硬件主要负责访存，主要由流控制器（Thread Manager）、纹理拾取单元（TMU）、流存储系统（Constatne Reg File/On Chip Shared Memory）、数据总线（Crossbar Switch）、光栅操作处理器（ROP，Raster Operation Processor）组成。而核心级硬件负责计算，包括运算簇（TPC）和运算簇内的控制单元（Thread/Instruction Dispatch）以及TPC内部的Cache和寄存器资源等。

　　G8X流处理的核心思想就是将计算和访存两种互相干扰的特性分开来，通过多线程（Multi-Threading）和各种分级的片缓存将带宽和延迟需求分解消耗掉。G8X通过Gigathread多执行诸技术（Multi-threading）将计算分割成一个个的步骤（Kernel），GigaThread线程处理器根据工作负荷分配流处理器完成各种指令，配合标量架构设计，达到面对不同的图形接口，都能够以更高的工作效率运作。

　　G8X将核心部件分为数学运算和固定功能单元两种规格，并且两种功能部件都有自己独立的时钟频率。而对性能影响最为关键的部分，如运算簇中的流处理器将以超过核心时钟频率两倍以上的速度运行。整个设计都基于这样一种思想：GPU的算术运算指令延迟都很小，因此核心运算部件不会有涉及显存的操作。几乎所有的访存动作（读写显存的动作）都是由TMU这个部件产生的。如果将访存部件的操控运作独立出来，两种部件都能独立运作，期间通过一种缓冲体系与核心部件沟通，核心运算部件就能够不受干扰的非常有效率的运作，频率也可以脱离GPU主频（时钟发生器频率）定得更高。