图形与计算的融合,AMD GCN架构解析

2011-12-22 14:52  |  作者:bolvar   |  关键字:HD7900,GCN

  自从进入DX10的统一架构以来,AMD的显卡架构一直是SIMD体系的VLIW架构,从HD 2900系列一直沿用到HD 6800系列。<br><br>  随着时间的推移,VLIW架构的弊端也日益明显,而且GPU通用计算技术发展迅猛,为此AMD拿出了代号Graphic Core Next的新一代GPU架构,开始向3D渲染以及GPU计算两个方向同时发力。

本文约8426字,需14分钟阅读
  在使用GPU这个通用性的称呼之前,显卡其实还有另一个名字---3D加速卡。顾名思义,当时的显卡主要是加速3D运算的,虽然现在的显卡主要用途也是3D渲染,做的也是差不多相同的工作,但是这其中的含义和复杂程度就大不一样了。

GPU渲染图形的进化史

  早期的渲染过程很简单,主要是几何变换以及光照渲染,当时评价显卡性能的指标主要就是T&L(Transform & Lighting)单元的多少,这个时期大约是十年前的事了。再往后显卡的结构也越来越复杂,开始大规模应用三角形生成模型,建模需要vertex顶点坐标和pixel像素填充,VS顶点渲染器和PS像素渲染器就成了显卡的主要运算单元了,运算流程就大概如上图所示,一直到5年前的DX9时代都是如此。

  之后的事就更热闹了,微软的DX10规范取消了VS和PS渲染单元,变为“统一处理器”,也叫做流处理器(Stream Processor),现在我们看到显卡的基础构成都是基于流处理器的,只是AMD和NVIDIA两家的设计方式不同,叫法也不一样。

  NVIDIA从G80开始走的是MIMD(多指令多数据)的1D标量体系,架构变化很大,而AMD从第一款DX10显卡HD 2900系列开始一直都是改良型4D+1D架构,也就是俗称的VLIW 5体系,好处是电路设计没那么复杂,SP数量容易扩展,这个体系一直用到HD 6800系列显卡上。

  HD 6900显卡发布时,AMD将VLIW 5架构做了一些改进,变为VLIW 4架构,减少了那个4D+1D中的1D超标量单元,同时增强了剩下的4D矢量单元的性能,因此HD 6900系列在SP总数减少的同时性能其实是提升的,有关VLIW 4架构的详细内容可以参考超能的HD 6970显卡评测

  VLIW架构对图形计算来说是好的,但是随着流处理器数量的不断增多,其效率低下的问题也日益严重,长指令拼接很依赖调度管理,而实际运算不一定就是最优组合。再者说,如今DX游戏的画质很难再有质的突破(除非光线追踪技术成熟),显卡的单纯3D渲染提升乏力,反倒是GPU通用计算增长迅猛,AMD的VLIW架构的理论运算性能要强于对手产品,但是实际表现以及推广应用上都是要远远落后于对手的。

  在这样的背景下,AMD于今年中公布了下一代HD 7000显卡的架构,代号为“Graphic Core Next”(简称GCN),GCN架构将不再沿用SIMD的VLIW体系,而是全新的革命性架构,除了传统的3D运算之外,它还在GPU通用计算上洗心革面,是AMD首次针对3D渲染/GPU计算双重使命而设计的。

使用GCN架构的HD 7970显卡将成为一个分水冷

  经过半年多的准备,本文发布的时候实际HD 7970已经正式发布了,它的性能、功耗以及技术介绍已经不是秘密了。由于坑爹的发布策略,国内媒体是没得测,没得发,甚至没有卡,本文只能介绍一下GCN的架构设计特点,看看AMD引以为傲的GCN架构到底有什么过人之处。

◆ VLIW 5、VLIW 4再到non-VLIW的进化

  有关AMD以及NVIDIA的GPU架构的讨论文章有过很多,以致于架构设计的不同也成为双方以及双方大军互相攻讦之处,技术上的细节先不去管他(包括笔者在内的大部分人也不懂这么多),我们只需要知道NVIDIA自从DX10统一渲染架构改走是1D标量、MIMD(多指令多数据)体系,而AMD从HD 2900开始的R600架构开始就是不断改良原先的4D矢量、SIMD(单指令多数据)体系。

VLIW 5:AMD图形架构的根基

  即便流处理器单元数量翻了几番,目前AMD显卡的微观架构还是没有什么太大变化的。DX9及之前的显卡渲染要分为顶点渲染(vertex shader)和像素渲染(pixel shader),分别计算像素的位置参数XYZW以及色彩参数RGBA,正好都是4次运算,这就是图形计算的4D矢量运算,在DX10以前双方显卡比拼的就是vs单元和ps单元的数量,或许还有人记得评价显卡运算能力的一个重要参数---三角形生成能力。

  到了DX10时代,微软的DX API取消了顶点渲染器和像素渲染器之分,改成统一处理器(Unitied Processor),图形渲染中标量运算越来越多,单纯的矢量运算分成在减少,为此NVIDIA推倒重来设计了G80这样的1D标量处理器,而AMD并未完全放弃4D矢量架构,而是在此基础上做了一些改良,增加了一个标量运算单元,AMD称之为Superscalar超标量单元,形成了4D+1D的矢量标量混合架构,这便是VLIW 5架构的由来。

AMD显卡的主流架构依然是VLIW 5体系

  所谓VLIW是Very Long Instruction Word(超长指令口令)的简称,它可以把需要的计算指令组合成适合4D+1D架构的长指令,这样理论上每个统一处理器秒周期可以执行5次计算,而这5个运算单元(ALU)只需要一个发射端口,电路设计简单多了,功耗和发热也容易控制,缺点就是依赖指令组合,一旦非最优指令组合,运算效率就低多了。

VLIW 5架构由4个矢量单元外加1个标量单元组成,运算需要适当的指令组合

VLIW 4:HD 6900首次改变

  虽说VLIW 5架构电路相对简单,增加数量也容易些,但是受限于工艺和晶体管规模,从HD 5870的1600个流处理器单元继续增加一倍进而生产下一代显卡也不可能了,而且流处理器数量越多,效率问题愈发严重,AMD必须要改革了。

  在HD 6900系列显卡架构上,AMD就改进了VLIW 5架构,去掉了4D+1D中的1D单元,VLIW 5变成了VLIW 4,所以显卡的流处理器单元数量也不再是是5的整数倍,而是4的整数倍了。

HD 6900系列显卡上开始使用VLIW 4架构,每个ALU单元的功能有所增强

  准确来说,VLIW 4架构中的4个ALU单元不是前面所说的那个4D单元,而是4个1D单元,功能更强了,都可以执行原本只有VLIW 5架构的那个1D超标量单元才能执行的特殊函数操作,所以流处理器单元数量虽然少了,实际上性能更强了。

  据AMD称,VLIW 5架构的运算效率实际只有70%左右,VLIW 4可以提高到80%,同样的核心面积下能带来10%的性能提升,简化了指令调度和寄存器管理,提升了逻辑电路利用率。

  VLIW 4只是VLIW 5架构的一小步改变,但是代价也是高昂的,5到4的减少意味着每组流处理器所需的发射端、分支预测以及寄存器单元都要增加四分之一,以HD 6970为例,其晶体管数量以及核心面积从HD 5870的21.5亿/334平方毫米增加到26.4亿/389平方毫米,而TDP功耗也从188W增加到250W,成本和售价升高了。

  VLIW 4架构只在三款HD 6900显卡上使用,并没有推广到中低端市场来,这主要是市场竞争因素所致,因为AMD的显卡在功耗和发热上同比NVIDIA的Fermi家族显卡还是要好一些,性能、价格则是各有所长,AMD并不需要急着推新架构显卡,HD 5770换个名字照样卖的很好。

  VLIW 4架构未能普及,但是它注定要成为过渡架构了,因为使用AMD下一代显卡架构Graphic Core Next(简称GCN)的显卡即将上市了,相比VLIW 5/4只有70-80%的效率,GCN抛弃了VLIW体系,运算效率接近100%,走的也是MIMD体系了。

◆ GCN:SIMD还是MIMD,标量还是矢量?

  在GCN架构首次披露之时,大部分人都认为AMD已经彻底抛弃了SIMD(单指令多数据)的VLIW 5/4架构,将GCN转向MIMD(多指令多数据)的纯标量架构,像当初NVIDIA设计G80架构一样来个大革命,不过随着更多消息的发布,GCN架构的变化不是大革命,或者说革命不彻底,还留着前代的尾巴。

  作出这个判断并非笔者手头有什么一手资料,而是一个简单的常识推理。HD 7970有45亿个晶体管,核心面积大约在380平方毫米,流处理器数量为2048个,使用28nm工艺生产,对比之下HD 6970是26.4亿晶体管,核心面积389平方毫米,流处理器数量1536个,为40nm工艺制造,这是双方的基本参数。

  我们来简单推算一下,4D架构的HD 6970实际相当于1536/4=384个(类似NVIDIA的)统一处理器,如果HD 7970的2048个流处理器是1D标量的统一处理器,那么就是说HD 7970在核心面积相近的情况下,在只用了不到2倍的晶体管数量情况下其规格提升了4.3倍之多,即便是考虑到制程工艺进步,如此大幅度的提升也是不可能的,AMD从HD 3850以来流处理器提升也只是320(5D)-800(5D)-1600(5D)-1536(4D)这样的顺序,最高提升也不过是1.5倍。

  这样推论一番之后,再看看AMD自己是怎么说的。据BSN泄露的消息,AMD公司也只是将GCN称为“基于SIMD阵列的MIMD架构”(Southern Islands is a MIMD architecture with a SIMD array.),这番话表明GCN确实是MIMD架构,但是它与之前所用的SIMD架构藕断丝连,并没有完全脱离关系。

  AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+Vector Unint”---使用标量&矢量单元的非VLIW体系,它与之前的VLIW架构形似而神不同,显卡的组成单元不再是SIMD阵列,而是被称为“Compute Unit”的计算单元(简称CU)。

采用GCN架构的"南岛"家族显卡中HD 7970的典型组成

  上图中每个“GCN”代表的就是一个CU单元(相当于NVIDIA Fermi架构中的一个Streaming Multiprocessors单元),每个CU单元中又下辖64个ALU单元,这2048个ALU就是HD 7970显卡的核心运算单元。

◆ CU单元:矢量与标量运算的混合体

  既然基本组成是CU单元了,那么每个CU单元又是什么样的设计呢?

一个CU单元除了相应的缓存、预测以及控制部分,核心运算单元主要还是大大的红色矢量单元

  一个CU单元主要是由指令预读中断、控制/解码、预测、标量单元、矢量单元以及相应的缓存组成,核心运算单元就是其中的Scalar标量和Vector Units矢量单元了。

矢量单元实际是四组SIMD阵列,它们并行运作组成了GCN的MIMD体系

  说GCN的基础还是SIMD体系是因为其中每组SIMD每周期执行的依然是64个FMAD(乘加指令)矢量运算,但是四组SIMD阵列同步运行使得每个CU单元每周期可以执行4线程,具备了MIMD体系的特点。只是需要注意的是,GCN架构中的SIMD阵列所指的是CU中矢量单元的组成部分,而在HD 6970架构中,其SIMD阵列地位相当于GCN的CU,弄清这两个SIMD所指代的含义之后就好理解多了。

这张图看上去更好理解CU单元的四组SIMD阵列都是由16个矢量SIMD单元组成的(图片来源:Aanandtech)

  Aanandtech网站的这张CU结构图可以更好地理解每个CU单元的具体构成,其中每组SIMD阵列实际上是由16个ALU矢量单元组成,这样一个CU单元就有64个ALU单元,32个CU组成了GCN架构的2048个计算单元。

AMD在另一份文档上展示的CU单元详细结构图

  每个CU单元还有1个标量ALU,并有独立的标量解码器,不过寄存器只有8KB大小,ALU也只支持整数(Integer)计算,这表明GCN架构革命并不彻底。

VLIW 4架构与4 SIMD non-VLIW架构的比较

  与VLIW 4架构相比,non-VLIW架构最大的变化是执行方式,VLIW 4虽然每周期执行4次操作(ops),实际上还是1条指令,而且非常依赖指令组合,需要极强的调度管理,而non-VLIW架构虽然每次只能执行1个ALU操作,但是4组SIMD依然能保证执行4条线程,而且每项操作都是占用(occupancy)式的,利用率接近100%(close to 100%)。看AMD自己的描述,VLIW 4架构大都是用“特殊的、困难的、复杂的、较少的”这样的字眼来形容,而non-VLIW架构就是“简单的、标准的”,评价态度就证明了两种架构的高下之分。

◆ 缓存设计:迈向通用计算的重要一步

  这里打算将GCN架构中的缓存设计单独拿出来,因为以前做AMD显卡架构分析/评测的时候,在官方PDF中很少看到缓存设计的部分,甚至提都很少提到的,而看NVIDIA Fermi架构的官方PDF的时候,发现其中有很大篇幅在讨论Fermi架构的缓存设计,它对图形计算或许影响并不大,但是对通用计算来说,缓存设计相当重要。

GCN将采用类似CPU那样的多级缓存机制,只是还没到L3级别而已

  由于CU单元中既有矢量ALU单元也有标量ALU单元,GCN的缓存要比CPU缓存更复杂。每个矢量单元有16KB的数据缓存,每四个CU单元再共享16KB标量L1数据缓存和32KB L1指令缓存,所有L1缓存是都可读写的,不像前代那样只支持读取操作。

  L2缓存通过64bit界面与L1相连,它与存储控制器通道数相关联,每通道L2缓存大小为64-128KB,而HD 7970是6条64bit GDDR5控制器,因此其L2缓存大小为384KB-768KB,而且所有L2缓存的数据都是同步相关的,所有CU都可以读取相同的缓存数据。

GCN的缓存设计专为数据同步/共享有优化

  在GCN架构的缓存设计中,AMD非常注重数据共享与同步,每个CU中的64KB LDS本地缓存都能与L2缓存直接相连,L2缓存虽然与MC控制器相连,但是所有数据都是CU单元共享,并且可与CPU内存数据同步,提高了CPU与GPU的数据交换能力,这对CPU+GPU组成的异构计算大有裨益。

GCN支持X86虚拟内存

  GCN还有一个重要设计不能不提,那就是支持X86 Virtual Memory(X86虚拟内存)功能,可以将GPU的显存映射为X86处理器可识别的内存,要知道GDDR5的带宽在上百GB/s量级,HD 7970的带宽大约在264GB/s,远高于目前四通道DDR3内存的理论带宽。

  这个功能相当于打通了GPU和CPU数据共享的高速通道,受益的并非只是通用计算,即便是3D游戏也是获益良多。在这方面最明显的一个例子是超大纹理数据的处理,ID的卡马克大神设计的《RAGE》游戏内容并不多,但是游戏的容量达到了20GB以上,这就要“归功”于ID Tech 5引擎的“Megatexture”技术了,超大容量纹理是提高游戏画质立竿见影的方式,但是对硬件来说是个极大的负担。

有了X86虚拟内存,类似《RAGE》这样超大纹理数据的游戏更方便了

  卡神用自己的软件技术解决了这个问题,但是其他厂商不一定有这个技术,现在有了X86虚拟内存技术,CPU可以直接读取GPU中的数据,减少了速度较慢的系统内存读写过程,超大纹理素材也不再是问题了。

◆ 双重使命:图形就是计算,计算就是图形

  在公布GCN架构时,AMD喊出了“Graphic is Compute,Compute is Graphic”的新目标,表达了图形就是计算,计算就是图形的宏达理想,在保证GPU的图形渲染能力的同时也在GPU通用计算上发力,这一点可与AMD之前的形象大有不同。

  虽然AMD显卡的前身ATI在GPU通用计算领域发力很早,但是一直没有太大动静,无论是媒体宣传还是实际应用都被NVIDIA的CUDA比了下去。待ATI被收购之后,拥有CPU业务的AMD也不会太热心GPU通用计算,以致于提到GPU通用计算就想到NVIDIA,而后者也刚刚在北京举办了GTC Asia 2011大会,重点就是GPU通用计算。

  个人认为,AMD的转变主要还是基于APU考虑,GCN不止要用在独立显卡上,以后也会用在APU上。提高GPU的通用计算能力,并且加强GPU与CPU的互通性将会帮助APU的中GPU成为真正的“一极”,不再是常规的显示/游戏之用。本来GPU的运算能力就大大超过CPU,只是通用性和任务调配能力不如CPU,如果AMD的目标得以实现,那么就可以用GPU弥补AMD的CPU短板了,而且用APU建造异构HPC也要比GPU+CPU更简单,这是一举多得的好事。

除了看家的图形渲染能力,GCN架构也将在GPU通用计算上发力

  为此AMD在GCN架构上大动干戈,选择了性能更强的MIMD体系,改进了缓存设计以方便CPU与GPU互联互通,这些改进从硬件上增强了GPU的性能,但是在通用计算上这还只是一部分,软件平台的支持也很重要。

提高GPU的可编程性

作为Fusion家族的一份子,GCN架构将会支持C/C++等高级编辑语言,提高可编程性

  GPU计算能否成功,开发者的认可与接受是关键,这就要求GPU具备相当的可编程性,至少也要支持主流的编程语言。GCN架构将会支持C、C++以及其他高级编程语言,这点与Fermi架构看齐了。

  除了高级编程语言外,GCN还支持GPU和CPU之间的统一虚拟寻址、支持GPU读取内存数据/内存页面除错、CPU与GPU之间的内存数据同步等功能,提高了GPU编程的便利性。

增强的纠错能力

  另一个门槛就是运算的稳定性和除错能力,GCN之前的架构只支持EDC(Error Detection & Correction)纠错,GCN首次支持ECC纠错,在显存与内存之间的数据交换过程ECC纠错将能将能确保数据的完整性。

FP64浮点运算

  FP64双精度运算对GPU通用计算有重要意义,支持与否往往成为判断显卡通用性能的指标之一,不过FP64的运算要求高,峰值性能比FP32要低很多。NVIDIA自GT200架构开始支持FP64,但是效能只有FP32的1/8。AMD从HD 5870开始支持FP64,不过峰值性能可以达到到1/5 FP32,HD 6800系列则没有FP64,HD 6900的FP64继续提高到1/4 FP32,GCN将会继承这个特性,虽然没有具体的数据支撑,不过至少也会有1/4 FP32的性能。

  以上只是显卡上的数据,如果放到专业级显卡如Tesla上又不一样了,Fermi架构的Tesla C2050的FP64性能就提高到了FP32的1/2,如果GCN要想在通用计算上有所建树,FP64性能也要达到这个水准。

  以上只是GCN架构针对通用计算所做的改进的一角,更多的改进还要等待AMD更详细的资料。在强化计算能力的同时,AMD也没忘记GCN的图形性能改进,毕竟这还是GCN架构最主要的战地。

3D性能也是GCN架构的重点内容

  除了支持PCI-E 3.0DX11.1这样的标准之外,GCN架构针对3D运算也有一些改进,增加Partially Resident Textures(局部贮存纹理-暂译),这个技术是支持介绍过的类似Megatexture巨型纹理技术的基础,卡马克是用软件方式实现的,AMD的PRT技术算是硬件支持。

PRT技术最高可以支持32TB的纹理数据

  新的3D技术并不算多,此外更多的是原有功能的改进,比如光栅操作与Z缓冲单元继续独立运作、所有纹理操作全部支持缓存读/写操作等,具体效果如何等等看今天的评测就知道了。

Fermi追随者?与GF100架构的对比

  GCN架构一经公布,很多人的第一想法就是AMD要走Fermi路线了。表面上看,GCN抛弃了熟悉的VLIW架构,加强通用计算能力,支持C/C++编程和ECC纠错,这些特点都与2年前的Fermi何其相似,尖酸刻薄的人肯定又要对AMD吐槽了,不过它与Fermi架构以及未来的Kepler架构迟早都要交手,架构上的比拼是免不了的。

GF100/110架构是由SM单元组成,AMD GCN相对应的就是CU单元

  Fermi家族有两大衍生架构,GTX 480/470的GF100与580/570使用的GF110架构是一条路线,GTX 560及以下的显卡使用的是GF104架构,二者略有不同,这里只以完整版的GF100/110架构为例。

  GF100拥有512个CUDA核心,这512个核心实际上分为16组SM单元(Streaming Multiprocessors),每个SM单元有32个CUDA核心,每个CUDA内核实际又是由1个整数ALU和一个浮点ALU组成,架构类似于现在的CPU内核了。此外,每个SM单元还有4个SFC(Special Function Unit)单元可以执行sin、cos、exp以及rcp等特殊函数。

GCN架构的设计要点

  Fermi每组SM单元一个周期内可以执行32条指令,而GCN每个CU单元每周期是40 waves,四组SIMD阵列并行运算,每周期就是四线程。

  缓存设计上,每组SM单元有64KB L1缓存,所有SM单元共享768KB L2缓存,而GCN的缓存设计更为复杂,每个CU单元本地缓存也是64KB,但是还有共享的32KB L1指令缓存,标量单元还有额外共享的16KB L1缓存,L2缓存也是768KB大小,而且与所有L1缓存都是互通的,并且可以与内存同步数据,这些设计都是要领先Fermi架构的。

NVIDIA称Fermi的灵魂是缓存设计、FP64、C++以及ECC等

  当然更多的指标还是相似的,比如都支持C/C++高级语言编程、支持ECC纠错、强化FP64运算。

  看了官方PDF和许多资料之后,还是不能对AMD和NVIDIA架构做个直接判断,因为架构设计只是手段,反映的是双方的设计思路,很难通过某个指标就能判断孰优孰劣,前后代对比还好,这样的纵向对比更难下手。

  个人的感觉是,AMD的GCN架构虽然抛弃了VLIW体系,但是GCN中的CU单元还留着前代的影子,四组SIMD阵列的设计与HD 6970似曾相似,核心运算能力依然是来自64个矢量单元,而Fermi架构看上去精简、高效的多

  GCN的缓存设计比Fermi要复杂,而且非常注重数据的互通以及共享特性,L1与L2、L2与显存、L2与内存都可以同步数据,虚拟X86内存技术对高速数据传输理论会有奇效。

  GCN与Fermi更多的还是相似点,二者的设计方向都是相同的,除了3D渲染还针对通用计算做了强化,C/C++编程语言以及ECC纠错的功能都是为计算准备的。

◆ 新功能:Eyefinity 2.0、ZeroCore、VCE编码引擎

  架构上的改变只是基础,使用GCN架构的HD 7000系列显卡也不乏亮点功能。

夺得多个第一

  最先使用28nm工艺的显卡

  第一个支持PCI-E 3.0标准的显卡

  最早支持DX11.1规范的显卡

  拜提早发布所赐,HD 7970显卡顺利地在2011年夺得这三项第一成就,当然明年发布的话这三个成就也是AMD的,NVIDIA的Kepler架构还没这么快发布,速度还要比AMD慢一拍。

  HD 7970将使用TSMC台积电的28nm工艺生产,它也是第一款支持PCI-E 3.0标准的显卡,目前已有LGA2011平台是CPU+主板支持PCI-E 3.0的,已入手的用户选择HD 7970就可以体验PCI-E 3.0的风驰电掣了。

  DX规范从09年Win7发布之后就没有变化过,目前也只是会小幅升级到DX11.1,没什么大的技术变化,不过聊胜于无。

超低待机功耗

HD 7970的待机功耗还不到3W

  HD 7970最惊人的表现是在晶体管规模暴增的情况下,待机功耗还不到3W,比上代40nm工艺最低24W的待机功耗低得多,虽然这只是个最优值,但是新一代工艺的AMD显卡在功耗上还是有上佳表现,这都是AMD的新功耗管理技术ZeroCore技术的功劳

Eyefinity宽域2.0:更多配置,更高分辨率

  AMD的Eyefinity多屏技术一直比NVIDIA领先,如今HD 7970在上一层楼,Eyefinity 2.0技术进一步增强,支持更灵活的多屏配置以更高的分辨率。

Eyefinity 2.0支持新的配置方案,并支持16K x 16K超高分辨率

支持自定义分辨率、桌面图表自定义等功能

支持HDMI 1.4a 3GHz及DP1.2 HDR2,4K分辨率只需一条线缆即可

独立多路音频输出

  之前的多显方案只能输出一路音频信号,HD 7970显卡已经可以实现独立多路音频输出了,这样看电影或者玩游戏都可以享受到独立的音画输出了。

独立多路音频输出

新的媒体处理指令

HD 7970支持新的SAD媒体处理指令

VCE视频编码引擎

HD 7970在视频编码性能上又有了新的提升

GPU加速

通过显卡加速可以大幅降低WinZip解压缩文件所需时间

  以上是HD 7970的一些新功能介绍,现在HD 7970显卡已经正式发布了,国外的评测已经有了,里面会有更多的详细介绍,这里也不赘述了。

◆ GCN与Fusion:AMD在下一盘很大的棋

  AMD原先的VLIW体系从2007年发布的HD 2900显卡上就开始用,直到去年发布的HD 6900系列才有所改变,可谓新三年旧三年,缝缝补补又三年,现在GCN架构终于来了,这才是AMD显卡4年多来真正意义上的变革之作。

  GCN采用了被AMD称为“Non-VLIW ISA with Scalar and Vector”的架构体系,明确抛弃了效率低下的VLIW长指令架构,改为使用矢量单元和标量单元混合的MIMD体系,不过严格说来它还留着AMD SIMD体系的影子,因为原来的4D架构对图形计算来说是好的,只不过现在的情况不同了。

  这不同的地方在于AMD也需要在GPU计算上发力了,他们的目标是“图形就是计算,计算就是图形”,从偏向图形渲染到二者兼顾,GCN也顺理担负起AMD面向3D以及计算双重使命的重担。

  从GCN的架构上来看,其多线程能力得以增强,每个CU单元可以执行4条线程,40条wave,而在缓存设计上,AMD也不再那么保守,每个CU单元都有自己的L1缓存、共享的L1指令缓存,所有CU也会共享768KB的L2缓存,后者还将联通显存以及CPU内存,做到数据实时同步与共享,因此GPU和CPU交换数据更容易。

  外部支持上,GCN也支持C/C++等高级编程语言,简化开发者迁移平台的难度,另外支持ECC纠错也提高了数据运算的可靠性,这两点改进对GPU计算来说都是关键性的提升。

HD 7970曲面细分经过重点改进,据称性能相比HD 6970有大跃进

  当然,3D图形方面也没有放松,以DX11中的曲面细分为例,GCN也做了针对性改进,从之前泄露的PDF图表上看其性能会比HD 6970有很大提升。此外,GCN的PRT技术使得巨型纹理数据成为可能,可以更简单直接地提升游戏画质了。

GCN会如AMD所宣称的那样再度成为视觉革命吗?

  GCN对AMD的意义不止于此,GCN首次公开是在AMD的Fusion开发者大会上,之后AMD又在多个APU会议上讨论过它,而且从PDF上看,GCN的资料很多都是跟Fusion连在一起的,它不仅会用在独立显卡上,还要用在APU上,CPU与GPU的联系会更紧密,而GCN上L2缓存与内存的同步/共享以及X86虚拟内存之类的设计就更容易理解了,融合依然是AMD的重心,即便是GCN架构也要服从这个大方向。

  最后吐槽一下,AMD的新CEO看来也喜欢“面子工程”,赶在年内将HD 7970发布,虽然夺得了诸多第一成就,只是国内好像没什么实卡可测,即便有也不能发布,还得等到明年,现在只有老外媒体放出评测,所以这里只能过过嘴瘾,实卡以及性能评测还得等等了。

 


  • 游客  2017-06-11 14:31

    coffeeshop 高中生 :

    没拿到卡也犯不着每篇文都要吐炒,有失专业性. Chiphell不是拿到了7970了. 说实话,现在很少来这里,总是拥着N卡,纸上专业分析之后不忘有失实事求事技术本位说些乱七八糟的,连卡都没拿到就能开始唱衰AMD不敢苟同. 可说已经沦为INTEL, NVIDIA的枪站了. 痛心一个沉沦的网站.
    2011-12-29 06:26 已有2次举报
  • 支持(7)  |   反对(5)  |   举报  |   回复
  • 游客:

    结果GCN的2B SIMD最小粒度的执行效率简直惨淡无比··
    2017-06-05 09:51 已有5次举报
  • 支持(0)  |   反对(3)  |   举报  |   回复
  • 不要使用2B一类的侮辱性词汇 你可以说慢 效率低 但请你尊重别人五年多以前的劳动成果

    已有2次举报

    支持(3)  |   反对(0)  |   举报  |   回复

    22#

  • 游客  2017-06-05 09:51

    coffeeshop 高中生 :

    没拿到卡也犯不着每篇文都要吐炒,有失专业性. Chiphell不是拿到了7970了. 说实话,现在很少来这里,总是拥着N卡,纸上专业分析之后不忘有失实事求事技术本位说些乱七八糟的,连卡都没拿到就能开始唱衰AMD不敢苟同. 可说已经沦为INTEL, NVIDIA的枪站了. 痛心一个沉沦的网站.
    2011-12-29 06:26 已有2次举报
  • 支持(7)  |   反对(5)  |   举报  |   回复
  • 结果GCN的2B SIMD最小粒度的执行效率简直惨淡无比··

    已有5次举报

    支持(0)  |   反对(3)  |   举报  |   回复

    21#

  • 游客  2012-11-26 07:41

    每四个CU共享的16KB标量缓存应该是只读的

    已有2次举报

    支持(0)  |   反对(17)  |   举报  |   回复

    20#

  • 游客  2012-11-26 02:46

    好文章,很专业也比较全面。 再有一个小问题,AMD官网上写的是Graphics Core Next,有个s的,嘿嘿。

    已有2次举报

    支持(1)  |   反对(3)  |   举报  |   回复

    19#

  • luningdq版主 2012-01-09 00:21

    这次文章真给力,不但大开了眼界学习到知识还能得奖,OH my超能,铁杆儿支持啊

    已有3次举报

    支持(0)  |   反对(3)  |   举报  |   回复

    18#

  • bolvar终极杀人王 2011-12-30 13:49

    网友 [npolor] 的原贴:1楼
    Gprahic这个单词打错了,在介绍GCN简称的时候
    抱歉,现在才看到这个评论,已经更正了。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    17#

  • 游客  2011-12-29 11:28

    2x%的提升,算是不错了

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    16#

  • 游客  2011-12-29 11:28

    网友 [thesea] 的原贴:1楼
    在通用计算方面,NV似乎领先了两年
    至少在ECC C++这些方面,确实领先了两年

    已有2次举报

    支持(0)  |   反对(16)  |   举报  |   回复

    15#

  • npolor学前班 2011-12-29 09:31

    Gprahic这个单词打错了,在介绍GCN简称的时候

    已有1次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    14#

  • coffeeshop高中生 2011-12-29 06:26

    没拿到卡也犯不着每篇文都要吐炒,有失专业性. Chiphell不是拿到了7970了. 说实话,现在很少来这里,总是拥着N卡,纸上专业分析之后不忘有失实事求事技术本位说些乱七八糟的,连卡都没拿到就能开始唱衰AMD不敢苟同. 可说已经沦为INTEL, NVIDIA的枪站了. 痛心一个沉沦的网站.

    已有2次举报

    支持(7)  |   反对(5)  |   举报  |   回复

    13#

  • 游客  2011-12-25 12:38

    【最后吐槽一下,】支持吐槽!

    已有1次举报

    支持(1)  |   反对(0)  |   举报  |   回复

    12#

  • 游客  2011-12-24 23:40

    老外那儿有评测你翻译过来不久行了么 等你妹啊

    已有2次举报

    支持(1)  |   反对(0)  |   举报  |   回复

    11#

  • 游客  2011-12-24 19:37

    新代GCN架构确实够强,期待主流级别显卡面市

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    10#

  • 游客  2011-12-24 01:54

    太专业,看不懂啊

    已有2次举报

    支持(1)  |   反对(0)  |   举报  |   回复

    9#

  • 游客  2011-12-24 01:54

    原文由网友 [Guest] 于2011-12-23 21:23:29发表 看过下外网的结论,普遍认为这代游戏,以目前的技术画面已经到顶了(真实级数还远着呢。。。),除非光线追踪这些真的 
    杯具啊

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    8#

  • 游客  2011-12-23 21:23

    看过下外网的结论,普遍认为这代游戏,以目前的技术画面已经到顶了(真实级数还远着呢。。。),除非光线追踪这些真的得到应用,但短期内这仍很难在个人级的硬件上实现。 所以未来一段时期内,显卡会主要向通用计算方向发展(提高运算性能,也是7900设计要做的),至于游戏画面这些的提升相对则会较慢。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    7#

  • 游客  2011-12-23 10:03

    不错,这次AMD的改动还是很大的,好象性能也很NB,国外测试7970比580要快20%

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    6#

  • 游客  2011-12-22 18:05

    Tom's hardware 谈论一些改进 用了容易理解的图形.

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    5#

  • 游客  2011-12-22 16:43

    饿,等产品出来了再说吧,悲剧的AMD,终于醒了,不过两年了···

    已有2次举报

    支持(1)  |   反对(1)  |   举报  |   回复

    4#

  • thesea管理员 2011-12-22 16:39

    在通用计算方面,NV似乎领先了两年

    已有2次举报

    支持(0)  |   反对(15)  |   举报  |   回复

    3#

查看全部评论(22)

回复