E X P
  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 全文浏览

    GPU遭遇存储器瓶颈,流处理架构诞生

      在摩尔定律的推动下,CPU的速度差不多每隔两年就提升一倍,但是这仅仅是针对PC的运算部件的定律,基本上,由于种种原因限制,内存访问速度每隔六年才提升一倍。因此,这两者差距越拉越大,计算单元空算等待存储器的情况越来越严重。

      对于GPU来说也是如此,一个工作频率在500MHz的GPU,内部每个时钟周期的长度在2ns左右,而我们可怜的显存还在以200~300MHz(2.0GHz GDDR4)的速度工作(GDDR4使用8位预取结构[Octal Data Rate]设计,数据频率是核心频率的8倍)。更加糟糕的是,GPU对显存的存取动作指令也会有延迟周期(CAS,RAS),这样,从GPU开始存取放在芯片外面的DRAM,到第一个Data送出的时间差最小也有几十个ns,以GPU内部的时钟频率而言可能会有几十到上百个周期的损失。如果将GPU比作一个工厂的流水线,那么这就意味着,整个流水线大部分的时间都是空闲着,因为不能获取需要处理的原材料。

      为了解决这种状况,NVIDIA和ATI很早就开始尝试深化流水线或者引入多线程机制来隐藏这些延迟。伴随着DX10的发布,NVIDIA发布全新一代G8X产品更是对显卡核心的架构进行翻天覆地的改变。这里面最重要的变化就是抛弃了近六年来一直使用的Pixel Shader(像素着色器,简称PS单元)和Vertex Shader(顶点着色器,简称VS单元)分而治之的方案,将两者进行了结合,也就是我们常说的统一架构。

      传统的图形芯片架构中,生成图像时先由顶点渲染管线中的Vertex Shader(顶点着色器)生成几何图形的骨架(由三角形构成),然后再由像素渲染管线中的Pixel Shader(像素着色器)进行填色,最后才是像素渲染管线中的纹理单元进行贴图。而新的统一架构,Pixel Shader和Vertex Shader被合二为一,称为流处理器(Shader Processor,简称SP),它将同时负责顶点着色和像素着色,还充当新增加的Geometry Shader(几何着色器)。也就是说现在每条渲染管线都由流处理器和纹理贴图单元组成,其中流处理器身兼顶点着色、像素着色和几何着色三职,这样解决了以往因顶点着色和像素着色任务不均造成的资源浪费。

      从G80显卡开始的,到目前主流的G84、G86系列产品上也全部采用了这种统一架构的方式,如下图所示:

      与之前所有的GPU不同的是,G8X系列首次提供了一种更接近纯数学运算的架构,称之为流处理架构。流处理架构包括以下几个主要部分:指令派发和仲裁机构(Thread Dispatch)、片内缓存(Cache)、运算簇(TPC)以及TMU、Crossbar总线和光栅操作处理器(ROP,Raster Operation Processor)。G8X流处理架构分为流级与核心级。流级硬件主要负责访存,主要由流控制器(Thread Manager)、纹理拾取单元(TMU)、流存储系统(Constatne Reg File/On Chip Shared Memory)、数据总线(Crossbar Switch)、光栅操作处理器(ROP,Raster Operation Processor)组成。而核心级硬件负责计算,包括运算簇(TPC)和运算簇内的控制单元(Thread/Instruction Dispatch)以及TPC内部的Cache和寄存器资源等。

      G8X流处理的核心思想就是将计算和访存两种互相干扰的特性分开来,通过多线程(Multi-Threading)和各种分级的片缓存将带宽和延迟需求分解消耗掉。G8X通过Gigathread多执行诸技术(Multi-threading)将计算分割成一个个的步骤(Kernel),GigaThread线程处理器根据工作负荷分配流处理器完成各种指令,配合标量架构设计,达到面对不同的图形接口,都能够以更高的工作效率运作。

      G8X将核心部件分为数学运算和固定功能单元两种规格,并且两种功能部件都有自己独立的时钟频率。而对性能影响最为关键的部分,如运算簇中的流处理器将以超过核心时钟频率两倍以上的速度运行。整个设计都基于这样一种思想:GPU的算术运算指令延迟都很小,因此核心运算部件不会有涉及显存的操作。几乎所有的访存动作(读写显存的动作)都是由TMU这个部件产生的。如果将访存部件的操控运作独立出来,两种部件都能独立运作,期间通过一种缓冲体系与核心部件沟通,核心运算部件就能够不受干扰的非常有效率的运作,频率也可以脱离GPU主频(时钟发生器频率)定得更高。

      G8X的这种设计非常适合于数据并行性好、全局数据重用较少的计算密集型应用(图形渲染)。在处理器和存储器之间速度差距越来越大的情况下,G8X的流处理架构实际上硬件级对访存进行优化,较有效地实现延迟隐藏,使计算与大部分访存的执行相重叠。

    ×
    热门文章
    1Thermaltake钢影透EX机箱开售:支持360水冷,10风扇位,299元
    2IGN对横尾太郎与金亨泰进行访谈,横尾太郎表示日本厂商不习惯使用西方技术
    3Win11 AI资源管理器或只支持骁龙X Elite,Intel和AMD处理器可能无法启用
    4英特尔宣布完成业界首台High-NA EUV光刻机组装工作,目前正在进行校准步骤
    5消息称一加 Ace 3 Pro将采用全新的家族式外观设计,且定位不低
    62024Q1中国显示器市场报告出炉:AOC排名第一,整体均价下行
    7优派VX2758-2K-PRO显示器上市:2K@185Hz满血小金刚,首发849元
    8安耐美PlatiGemini 1200W电源评测:全球首款ATX 3.1&12VO双模电源
    9机构预计华为Pura 70系列年内出货量超千万,力助其重夺中国市场榜首位置
    欢迎参与评论,每一条合规评论都是对我们的褒奖。
    登录快速注册 后发表评论
    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明