E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...   在使用GPU这个通用性的称呼之前,显卡其实还有另一个名字---3D加速卡。顾名思义,当时的显卡主要是加速3D运算的,虽然现在的显卡主要用途也是3D渲染,做的也是差不多相同的工作,但是这其中的含义和复杂程度就大不一样了。

    GPU渲染图形的进化史

      早期的渲染过程很简单,主要是几何变换以及光照渲染,当时评价显卡性能的指标主要就是T&L(Transform & Lighting)单元的多少,这个时期大约是十年前的事了。再往后显卡的结构也越来越复杂,开始大规模应用三角形生成模型,建模需要vertex顶点坐标和pixel像素填充,VS顶点渲染器和PS像素渲染器就成了显卡的主要运算单元了,运算流程就大概如上图所示,一直到5年前的DX9时代都是如此。

      之后的事就更热闹了,微软的DX10规范取消了VS和PS渲染单元,变为“统一处理器”,也叫做流处理器(Stream Processor),现在我们看到显卡的基础构成都是基于流处理器的,只是AMD和NVIDIA两家的设计方式不同,叫法也不一样。

      NVIDIA从G80开始走的是MIMD(多指令多数据)的1D标量体系,架构变化很大,而AMD从第一款DX10显卡HD 2900系列开始一直都是改良型4D+1D架构,也就是俗称的VLIW 5体系,好处是电路设计没那么复杂,SP数量容易扩展,这个体系一直用到HD 6800系列显卡上。

      HD 6900显卡发布时,AMD将VLIW 5架构做了一些改进,变为VLIW 4架构,减少了那个4D+1D中的1D超标量单元,同时增强了剩下的4D矢量单元的性能,因此HD 6900系列在SP总数减少的同时性能其实是提升的,有关VLIW 4架构的详细内容可以参考超能的HD 6970显卡评测

      VLIW架构对图形计算来说是好的,但是随着流处理器数量的不断增多,其效率低下的问题也日益严重,长指令拼接很依赖调度管理,而实际运算不一定就是最优组合。再者说,如今DX游戏的画质很难再有质的突破(除非光线追踪技术成熟),显卡的单纯3D渲染提升乏力,反倒是GPU通用计算增长迅猛,AMD的VLIW架构的理论运算性能要强于对手产品,但是实际表现以及推广应用上都是要远远落后于对手的。

      在这样的背景下,AMD于今年中公布了下一代HD 7000显卡的架构,代号为“Graphic Core Next”(简称GCN),GCN架构将不再沿用SIMD的VLIW体系,而是全新的革命性架构,除了传统的3D运算之外,它还在GPU通用计算上洗心革面,是AMD首次针对3D渲染/GPU计算双重使命而设计的。

    使用GCN架构的HD 7970显卡将成为一个分水冷

      经过半年多的准备,本文发布的时候实际HD 7970已经正式发布了,它的性能、功耗以及技术介绍已经不是秘密了。由于坑爹的发布策略,国内媒体是没得测,没得发,甚至没有卡,本文只能介绍一下GCN的架构设计特点,看看AMD引以为傲的GCN架构到底有什么过人之处。

    ◆ VLIW 5、VLIW 4再到non-VLIW的进化

      有关AMD以及NVIDIA的GPU架构的讨论文章有过很多,以致于架构设计的不同也成为双方以及双方大军互相攻讦之处,技术上的细节先不去管他(包括笔者在内的大部分人也不懂这么多),我们只需要知道NVIDIA自从DX10统一渲染架构改走是1D标量、MIMD(多指令多数据)体系,而AMD从HD 2900开始的R600架构开始就是不断改良原先的4D矢量、SIMD(单指令多数据)体系。

    VLIW 5:AMD图形架构的根基

      即便流处理器单元数量翻了几番,目前AMD显卡的微观架构还是没有什么太大变化的。DX9及之前的显卡渲染要分为顶点渲染(vertex shader)和像素渲染(pixel shader),分别计算像素的位置参数XYZW以及色彩参数RGBA,正好都是4次运算,这就是图形计算的4D矢量运算,在DX10以前双方显卡比拼的就是vs单元和ps单元的数量,或许还有人记得评价显卡运算能力的一个重要参数---三角形生成能力。

      到了DX10时代,微软的DX API取消了顶点渲染器和像素渲染器之分,改成统一处理器(Unitied Processor),图形渲染中标量运算越来越多,单纯的矢量运算分成在减少,为此NVIDIA推倒重来设计了G80这样的1D标量处理器,而AMD并未完全放弃4D矢量架构,而是在此基础上做了一些改良,增加了一个标量运算单元,AMD称之为Superscalar超标量单元,形成了4D+1D的矢量标量混合架构,这便是VLIW 5架构的由来。

    AMD显卡的主流架构依然是VLIW 5体系

      所谓VLIW是Very Long Instruction Word(超长指令口令)的简称,它可以把需要的计算指令组合成适合4D+1D架构的长指令,这样理论上每个统一处理器秒周期可以执行5次计算,而这5个运算单元(ALU)只需要一个发射端口,电路设计简单多了,功耗和发热也容易控制,缺点就是依赖指令组合,一旦非最优指令组合,运算效率就低多了。

    VLIW 5架构由4个矢量单元外加1个标量单元组成,运算需要适当的指令组合

    VLIW 4:HD 6900首次改变

      虽说VLIW 5架构电路相对简单,增加数量也容易些,但是受限于工艺和晶体管规模,从HD 5870的1600个流处理器单元继续增加一倍进而生产下一代显卡也不可能了,而且流处理器数量越多,效率问题愈发严重,AMD必须要改革了。

      在HD 6900系列显卡架构上,AMD就改进了VLIW 5架构,去掉了4D+1D中的1D单元,VLIW 5变成了VLIW 4,所以显卡的流处理器单元数量也不再是是5的整数倍,而是4的整数倍了。

    HD 6900系列显卡上开始使用VLIW 4架构,每个ALU单元的功能有所增强

      准确来说,VLIW 4架构中的4个ALU单元不是前面所说的那个4D单元,而是4个1D单元,功能更强了,都可以执行原本只有VLIW 5架构的那个1D超标量单元才能执行的特殊函数操作,所以流处理器单元数量虽然少了,实际上性能更强了。

      据AMD称,VLIW 5架构的运算效率实际只有70%左右,VLIW 4可以提高到80%,同样的核心面积下能带来10%的性能提升,简化了指令调度和寄存器管理,提升了逻辑电路利用率。

      VLIW 4只是VLIW 5架构的一小步改变,但是代价也是高昂的,5到4的减少意味着每组流处理器所需的发射端、分支预测以及寄存器单元都要增加四分之一,以HD 6970为例,其晶体管数量以及核心面积从HD 5870的21.5亿/334平方毫米增加到26.4亿/389平方毫米,而TDP功耗也从188W增加到250W,成本和售价升高了。

      VLIW 4架构只在三款HD 6900显卡上使用,并没有推广到中低端市场来,这主要是市场竞争因素所致,因为AMD的显卡在功耗和发热上同比NVIDIA的Fermi家族显卡还是要好一些,性能、价格则是各有所长,AMD并不需要急着推新架构显卡,HD 5770换个名字照样卖的很好。

      VLIW 4架构未能普及,但是它注定要成为过渡架构了,因为使用AMD下一代显卡架构Graphic Core Next(简称GCN)的显卡即将上市了,相比VLIW 5/4只有70-80%的效率,GCN抛弃了VLIW体系,运算效率接近100%,走的也是MIMD体系了。

    ◆ GCN:SIMD还是MIMD,标量还是矢量?

      在GCN架构首次披露之时,大部分人都认为AMD已经彻底抛弃了SIMD(单指令多数据)的VLIW 5/4架构,将GCN转向MIMD(多指令多数据)的纯标量架构,像当初NVIDIA设计G80架构一样来个大革命,不过随着更多消息的发布,GCN架构的变化不是大革命,或者说革命不彻底,还留着前代的尾巴。

      作出这个判断并非笔者手头有什么一手资料,而是一个简单的常识推理。HD 7970有45亿个晶体管,核心面积大约在380平方毫米,流处理器数量为2048个,使用28nm工艺生产,对比之下HD 6970是26.4亿晶体管,核心面积389平方毫米,流处理器数量1536个,为40nm工艺制造,这是双方的基本参数。

      我们来简单推算一下,4D架构的HD 6970实际相当于1536/4=384个(类似NVIDIA的)统一处理器,如果HD 7970的2048个流处理器是1D标量的统一处理器,那么就是说HD 7970在核心面积相近的情况下,在只用了不到2倍的晶体管数量情况下其规格提升了4.3倍之多,即便是考虑到制程工艺进步,如此大幅度的提升也是不可能的,AMD从HD 3850以来流处理器提升也只是320(5D)-800(5D)-1600(5D)-1536(4D)这样的顺序,最高提升也不过是1.5倍。

      这样推论一番之后,再看看AMD自己是怎么说的。据BSN泄露的消息,AMD公司也只是将GCN称为“基于SIMD阵列的MIMD架构”(Southern Islands is a MIMD architecture with a SIMD array.),这番话表明GCN确实是MIMD架构,但是它与之前所用的SIMD架构藕断丝连,并没有完全脱离关系。

      AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+Vector Unint”---使用标量&矢量单元的非VLIW体系,它与之前的VLIW架构形似而神不同,显卡的组成单元不再是SIMD阵列,而是被称为“Compute Unit”的计算单元(简称CU)。

    采用GCN架构的"南岛"家族显卡中HD 7970的典型组成

      上图中每个“GCN”代表的就是一个CU单元(相当于NVIDIA Fermi架构中的一个Streaming Multiprocessors单元),每个CU单元中又下辖64个ALU单元,这2048个ALU就是HD 7970显卡的核心运算单元。

    ◆ CU单元:矢量与标量运算的混合体

      既然基本组成是CU单元了,那么每个CU单元又是什么样的设计呢?

    一个CU单元除了相应的缓存、预测以及控制部分,核心运算单元主要还是大大的红色矢量单元

      一个CU单元主要是由指令预读中断、控制/解码、预测、标量单元、矢量单元以及相应的缓存组成,核心运算单元就是其中的Scalar标量和Vector Units矢量单元了。

    矢量单元实际是四组SIMD阵列,它们并行运作组成了GCN的MIMD体系

      说GCN的基础还是SIMD体系是因为其中每组SIMD每周期执行的依然是64个FMAD(乘加指令)矢量运算,但是四组SIMD阵列同步运行使得每个CU单元每周期可以执行4线程,具备了MIMD体系的特点。只是需要注意的是,GCN架构中的SIMD阵列所指的是CU中矢量单元的组成部分,而在HD 6970架构中,其SIMD阵列地位相当于GCN的CU,弄清这两个SIMD所指代的含义之后就好理解多了。

    这张图看上去更好理解CU单元的四组SIMD阵列都是由16个矢量SIMD单元组成的(图片来源:Aanandtech)

      Aanandtech网站的这张CU结构图可以更好地理解每个CU单元的具体构成,其中每组SIMD阵列实际上是由16个ALU矢量单元组成,这样一个CU单元就有64个ALU单元,32个CU组成了GCN架构的2048个计算单元。

    AMD在另一份文档上展示的CU单元详细结构图

      每个CU单元还有1个标量ALU,并有独立的标量解码器,不过寄存器只有8KB大小,ALU也只支持整数(Integer)计算,这表明GCN架构革命并不彻底。

    VLIW 4架构与4 SIMD non-VLIW架构的比较

      与VLIW 4架构相比,non-VLIW架构最大的变化是执行方式,VLIW 4虽然每周期执行4次操作(ops),实际上还是1条指令,而且非常依赖指令组合,需要极强的调度管理,而non-VLIW架构虽然每次只能执行1个ALU操作,但是4组SIMD依然能保证执行4条线程,而且每项操作都是占用(occupancy)式的,利用率接近100%(close to 100%)。看AMD自己的描述,VLIW 4架构大都是用“特殊的、困难的、复杂的、较少的”这样的字眼来形容,而non-VLIW架构就是“简单的、标准的”,评价态度就证明了两种架构的高下之分。

    ◆ 缓存设计:迈向通用计算的重要一步

      这里打算将GCN架构中的缓存设计单独拿出来,因为以前做AMD显卡架构分析/评测的时候,在官方PDF中很少看到缓存设计的部分,甚至提都很少提到的,而看NVIDIA Fermi架构的官方PDF的时候,发现其中有很大篇幅在讨论Fermi架构的缓存设计,它对图形计算或许影响并不大,但是对通用计算来说,缓存设计相当重要。

    GCN将采用类似CPU那样的多级缓存机制,只是还没到L3级别而已

      由于CU单元中既有矢量ALU单元也有标量ALU单元,GCN的缓存要比CPU缓存更复杂。每个矢量单元有16KB的数据缓存,每四个CU单元再共享16KB标量L1数据缓存和32KB L1指令缓存,所有L1缓存是都可读写的,不像前代那样只支持读取操作。

      L2缓存通过64bit界面与L1相连,它与存储控制器通道数相关联,每通道L2缓存大小为64-128KB,而HD 7970是6条64bit GDDR5控制器,因此其L2缓存大小为384KB-768KB,而且所有L2缓存的数据都是同步相关的,所有CU都可以读取相同的缓存数据。

    GCN的缓存设计专为数据同步/共享有优化

      在GCN架构的缓存设计中,AMD非常注重数据共享与同步,每个CU中的64KB LDS本地缓存都能与L2缓存直接相连,L2缓存虽然与MC控制器相连,但是所有数据都是CU单元共享,并且可与CPU内存数据同步,提高了CPU与GPU的数据交换能力,这对CPU+GPU组成的异构计算大有裨益。

    GCN支持X86虚拟内存

      GCN还有一个重要设计不能不提,那就是支持X86 Virtual Memory(X86虚拟内存)功能,可以将GPU的显存映射为X86处理器可识别的内存,要知道GDDR5的带宽在上百GB/s量级,HD 7970的带宽大约在264GB/s,远高于目前四通道DDR3内存的理论带宽。

      这个功能相当于打通了GPU和CPU数据共享的高速通道,受益的并非只是通用计算,即便是3D游戏也是获益良多。在这方面最明显的一个例子是超大纹理数据的处理,ID的卡马克大神设计的《RAGE》游戏内容并不多,但是游戏的容量达到了20GB以上,这就要“归功”于ID Tech 5引擎的“Megatexture”技术了,超大容量纹理是提高游戏画质立竿见影的方式,但是对硬件来说是个极大的负担。

    有了X86虚拟内存,类似《RAGE》这样超大纹理数据的游戏更方便了

      卡神用自己的软件技术解决了这个问题,但是其他厂商不一定有这个技术,现在有了X86虚拟内存技术,CPU可以直接读取GPU中的数据,减少了速度较慢的系统内存读写过程,超大纹理素材也不再是问题了。

    ◆ 双重使命:图形就是计算,计算就是图形

      在公布GCN架构时,AMD喊出了“Graphic is Compute,Compute is Graphic”的新目标,表达了图形就是计算,计算就是图形的宏达理想,在保证GPU的图形渲染能力的同时也在GPU通用计算上发力,这一点可与AMD之前的形象大有不同。

      虽然AMD显卡的前身ATI在GPU通用计算领域发力很早,但是一直没有太大动静,无论是媒体宣传还是实际应用都被NVIDIA的CUDA比了下去。待ATI被收购之后,拥有CPU业务的AMD也不会太热心GPU通用计算,以致于提到GPU通用计算就想到NVIDIA,而后者也刚刚在北京举办了GTC Asia 2011大会,重点就是GPU通用计算。

      个人认为,AMD的转变主要还是基于APU考虑,GCN不止要用在独立显卡上,以后也会用在APU上。提高GPU的通用计算能力,并且加强GPU与CPU的互通性将会帮助APU的中GPU成为真正的“一极”,不再是常规的显示/游戏之用。本来GPU的运算能力就大大超过CPU,只是通用性和任务调配能力不如CPU,如果AMD的目标得以实现,那么就可以用GPU弥补AMD的CPU短板了,而且用APU建造异构HPC也要比GPU+CPU更简单,这是一举多得的好事。

    除了看家的图形渲染能力,GCN架构也将在GPU通用计算上发力

      为此AMD在GCN架构上大动干戈,选择了性能更强的MIMD体系,改进了缓存设计以方便CPU与GPU互联互通,这些改进从硬件上增强了GPU的性能,但是在通用计算上这还只是一部分,软件平台的支持也很重要。

    提高GPU的可编程性

    作为Fusion家族的一份子,GCN架构将会支持C/C++等高级编辑语言,提高可编程性

      GPU计算能否成功,开发者的认可与接受是关键,这就要求GPU具备相当的可编程性,至少也要支持主流的编程语言。GCN架构将会支持C、C++以及其他高级编程语言,这点与Fermi架构看齐了。

      除了高级编程语言外,GCN还支持GPU和CPU之间的统一虚拟寻址、支持GPU读取内存数据/内存页面除错、CPU与GPU之间的内存数据同步等功能,提高了GPU编程的便利性。

    增强的纠错能力

      另一个门槛就是运算的稳定性和除错能力,GCN之前的架构只支持EDC(Error Detection & Correction)纠错,GCN首次支持ECC纠错,在显存与内存之间的数据交换过程ECC纠错将能将能确保数据的完整性。

    FP64浮点运算

      FP64双精度运算对GPU通用计算有重要意义,支持与否往往成为判断显卡通用性能的指标之一,不过FP64的运算要求高,峰值性能比FP32要低很多。NVIDIA自GT200架构开始支持FP64,但是效能只有FP32的1/8。AMD从HD 5870开始支持FP64,不过峰值性能可以达到到1/5 FP32,HD 6800系列则没有FP64,HD 6900的FP64继续提高到1/4 FP32,GCN将会继承这个特性,虽然没有具体的数据支撑,不过至少也会有1/4 FP32的性能。

      以上只是显卡上的数据,如果放到专业级显卡如Tesla上又不一样了,Fermi架构的Tesla C2050的FP64性能就提高到了FP32的1/2,如果GCN要想在通用计算上有所建树,FP64性能也要达到这个水准。

      以上只是GCN架构针对通用计算所做的改进的一角,更多的改进还要等待AMD更详细的资料。在强化计算能力的同时,AMD也没忘记GCN的图形性能改进,毕竟这还是GCN架构最主要的战地。

    3D性能也是GCN架构的重点内容

      除了支持PCI-E 3.0DX11.1这样的标准之外,GCN架构针对3D运算也有一些改进,增加Partially Resident Textures(局部贮存纹理-暂译),这个技术是支持介绍过的类似Megatexture巨型纹理技术的基础,卡马克是用软件方式实现的,AMD的PRT技术算是硬件支持。

    PRT技术最高可以支持32TB的纹理数据

      新的3D技术并不算多,此外更多的是原有功能的改进,比如光栅操作与Z缓冲单元继续独立运作、所有纹理操作全部支持缓存读/写操作等,具体效果如何等等看今天的评测就知道了。

    Fermi追随者?与GF100架构的对比

      GCN架构一经公布,很多人的第一想法就是AMD要走Fermi路线了。表面上看,GCN抛弃了熟悉的VLIW架构,加强通用计算能力,支持C/C++编程和ECC纠错,这些特点都与2年前的Fermi何其相似,尖酸刻薄的人肯定又要对AMD吐槽了,不过它与Fermi架构以及未来的Kepler架构迟早都要交手,架构上的比拼是免不了的。

    GF100/110架构是由SM单元组成,AMD GCN相对应的就是CU单元

      Fermi家族有两大衍生架构,GTX 480/470的GF100与580/570使用的GF110架构是一条路线,GTX 560及以下的显卡使用的是GF104架构,二者略有不同,这里只以完整版的GF100/110架构为例。

      GF100拥有512个CUDA核心,这512个核心实际上分为16组SM单元(Streaming Multiprocessors),每个SM单元有32个CUDA核心,每个CUDA内核实际又是由1个整数ALU和一个浮点ALU组成,架构类似于现在的CPU内核了。此外,每个SM单元还有4个SFC(Special Function Unit)单元可以执行sin、cos、exp以及rcp等特殊函数。

    GCN架构的设计要点

      Fermi每组SM单元一个周期内可以执行32条指令,而GCN每个CU单元每周期是40 waves,四组SIMD阵列并行运算,每周期就是四线程。

      缓存设计上,每组SM单元有64KB L1缓存,所有SM单元共享768KB L2缓存,而GCN的缓存设计更为复杂,每个CU单元本地缓存也是64KB,但是还有共享的32KB L1指令缓存,标量单元还有额外共享的16KB L1缓存,L2缓存也是768KB大小,而且与所有L1缓存都是互通的,并且可以与内存同步数据,这些设计都是要领先Fermi架构的。

    NVIDIA称Fermi的灵魂是缓存设计、FP64、C++以及ECC等

      当然更多的指标还是相似的,比如都支持C/C++高级语言编程、支持ECC纠错、强化FP64运算。

      看了官方PDF和许多资料之后,还是不能对AMD和NVIDIA架构做个直接判断,因为架构设计只是手段,反映的是双方的设计思路,很难通过某个指标就能判断孰优孰劣,前后代对比还好,这样的纵向对比更难下手。

      个人的感觉是,AMD的GCN架构虽然抛弃了VLIW体系,但是GCN中的CU单元还留着前代的影子,四组SIMD阵列的设计与HD 6970似曾相似,核心运算能力依然是来自64个矢量单元,而Fermi架构看上去精简、高效的多

      GCN的缓存设计比Fermi要复杂,而且非常注重数据的互通以及共享特性,L1与L2、L2与显存、L2与内存都可以同步数据,虚拟X86内存技术对高速数据传输理论会有奇效。

      GCN与Fermi更多的还是相似点,二者的设计方向都是相同的,除了3D渲染还针对通用计算做了强化,C/C++编程语言以及ECC纠错的功能都是为计算准备的。

    ◆ 新功能:Eyefinity 2.0、ZeroCore、VCE编码引擎

      架构上的改变只是基础,使用GCN架构的HD 7000系列显卡也不乏亮点功能。

    夺得多个第一

      最先使用28nm工艺的显卡

      第一个支持PCI-E 3.0标准的显卡

      最早支持DX11.1规范的显卡

      拜提早发布所赐,HD 7970显卡顺利地在2011年夺得这三项第一成就,当然明年发布的话这三个成就也是AMD的,NVIDIA的Kepler架构还没这么快发布,速度还要比AMD慢一拍。

      HD 7970将使用TSMC台积电的28nm工艺生产,它也是第一款支持PCI-E 3.0标准的显卡,目前已有LGA2011平台是CPU+主板支持PCI-E 3.0的,已入手的用户选择HD 7970就可以体验PCI-E 3.0的风驰电掣了。

      DX规范从09年Win7发布之后就没有变化过,目前也只是会小幅升级到DX11.1,没什么大的技术变化,不过聊胜于无。

    超低待机功耗

    HD 7970的待机功耗还不到3W

      HD 7970最惊人的表现是在晶体管规模暴增的情况下,待机功耗还不到3W,比上代40nm工艺最低24W的待机功耗低得多,虽然这只是个最优值,但是新一代工艺的AMD显卡在功耗上还是有上佳表现,这都是AMD的新功耗管理技术ZeroCore技术的功劳

    Eyefinity宽域2.0:更多配置,更高分辨率

      AMD的Eyefinity多屏技术一直比NVIDIA领先,如今HD 7970在上一层楼,Eyefinity 2.0技术进一步增强,支持更灵活的多屏配置以更高的分辨率。

    Eyefinity 2.0支持新的配置方案,并支持16K x 16K超高分辨率

    支持自定义分辨率、桌面图表自定义等功能

    支持HDMI 1.4a 3GHz及DP1.2 HDR2,4K分辨率只需一条线缆即可

    独立多路音频输出

      之前的多显方案只能输出一路音频信号,HD 7970显卡已经可以实现独立多路音频输出了,这样看电影或者玩游戏都可以享受到独立的音画输出了。

    独立多路音频输出

    新的媒体处理指令

    HD 7970支持新的SAD媒体处理指令

    VCE视频编码引擎

    HD 7970在视频编码性能上又有了新的提升

    GPU加速

    通过显卡加速可以大幅降低WinZip解压缩文件所需时间

      以上是HD 7970的一些新功能介绍,现在HD 7970显卡已经正式发布了,国外的评测已经有了,里面会有更多的详细介绍,这里也不赘述了。

    ◆ GCN与Fusion:AMD在下一盘很大的棋

      AMD原先的VLIW体系从2007年发布的HD 2900显卡上就开始用,直到去年发布的HD 6900系列才有所改变,可谓新三年旧三年,缝缝补补又三年,现在GCN架构终于来了,这才是AMD显卡4年多来真正意义上的变革之作。

      GCN采用了被AMD称为“Non-VLIW ISA with Scalar and Vector”的架构体系,明确抛弃了效率低下的VLIW长指令架构,改为使用矢量单元和标量单元混合的MIMD体系,不过严格说来它还留着AMD SIMD体系的影子,因为原来的4D架构对图形计算来说是好的,只不过现在的情况不同了。

      这不同的地方在于AMD也需要在GPU计算上发力了,他们的目标是“图形就是计算,计算就是图形”,从偏向图形渲染到二者兼顾,GCN也顺理担负起AMD面向3D以及计算双重使命的重担。

      从GCN的架构上来看,其多线程能力得以增强,每个CU单元可以执行4条线程,40条wave,而在缓存设计上,AMD也不再那么保守,每个CU单元都有自己的L1缓存、共享的L1指令缓存,所有CU也会共享768KB的L2缓存,后者还将联通显存以及CPU内存,做到数据实时同步与共享,因此GPU和CPU交换数据更容易。

      外部支持上,GCN也支持C/C++等高级编程语言,简化开发者迁移平台的难度,另外支持ECC纠错也提高了数据运算的可靠性,这两点改进对GPU计算来说都是关键性的提升。

    HD 7970曲面细分经过重点改进,据称性能相比HD 6970有大跃进

      当然,3D图形方面也没有放松,以DX11中的曲面细分为例,GCN也做了针对性改进,从之前泄露的PDF图表上看其性能会比HD 6970有很大提升。此外,GCN的PRT技术使得巨型纹理数据成为可能,可以更简单直接地提升游戏画质了。

    GCN会如AMD所宣称的那样再度成为视觉革命吗?

      GCN对AMD的意义不止于此,GCN首次公开是在AMD的Fusion开发者大会上,之后AMD又在多个APU会议上讨论过它,而且从PDF上看,GCN的资料很多都是跟Fusion连在一起的,它不仅会用在独立显卡上,还要用在APU上,CPU与GPU的联系会更紧密,而GCN上L2缓存与内存的同步/共享以及X86虚拟内存之类的设计就更容易理解了,融合依然是AMD的重心,即便是GCN架构也要服从这个大方向。

      最后吐槽一下,AMD的新CEO看来也喜欢“面子工程”,赶在年内将HD 7970发布,虽然夺得了诸多第一成就,只是国内好像没什么实卡可测,即便有也不能发布,还得等到明年,现在只有老外媒体放出评测,所以这里只能过过嘴瘾,实卡以及性能评测还得等等了。

     

    ×
    热门文章
    1小米SU7正式发布,售价21.59万元起
    2TRYX创氪星系品牌发布会:推出AMOLED屏水冷及海景房机箱
    3小米SU7卖21.59万元只是交个朋友,配件才是真赚钱?
    4AMD Granite Ridge ES发货清单被发现:Zen 5架构6/8核心,TDP为150/170W
    5Xbox Series X白色数字版现身,微软打算在今年内发售
    6英特尔下代GPU进一步曝光:两款芯片,对标RTX 4070/4060
    7微星发布SPATIUM M580 FROZR:带有塔式散热器的PCIe 5.0 SSD
    8乔思伯推出新款HP-600下压式风冷散热器:12CM薄扇+回流焊6热管,售价179元起
    9技嘉发布Z790/B760主板新版BIOS:支持14代酷睿CPU关闭CEP功能
    已有 23 条评论,共 164 人参与。
    登录快速注册 后发表评论
    • 游客  2019-01-24 12:10

      该评论年代久远,荒废失修,暂不可见。

      支持(2)  |   反对(1)  |   举报  |   回复

      23#

    • 游客  2017-06-11 14:31

      游客

      该评论因举报过多,自动进入审核状态。

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(10)  |   反对(0)  |   举报  |   回复

      22#

    • 游客  2017-06-05 09:51

      本评论正在审核中,马上就好……

      21#

    • 游客  2012-11-26 07:41

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(17)  |   举报  |   回复

      20#

    • 游客  2012-11-26 02:46

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(1)  |   反对(3)  |   举报  |   回复

      19#

    • 超能网友终极杀人王 2012-01-09 00:21    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(0)  |   反对(3)  |   举报  |   回复

      18#

    • 超能网友终极杀人王 2011-12-30 13:49    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      17#

    • 游客  2011-12-29 11:28

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      16#

    • 游客  2011-12-29 11:28

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(0)  |   反对(16)  |   举报  |   回复

      15#

    • 超能网友学前班 2011-12-29 09:31    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有1次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      14#

    • 超能网友高中生 2011-12-29 06:26    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(9)  |   反对(5)  |   举报  |   回复

      13#

    • 游客  2011-12-25 12:38

      该评论年代久远,荒废失修,暂不可见。

      已有1次举报

      支持(1)  |   反对(0)  |   举报  |   回复

      12#

    • 游客  2011-12-24 23:40

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(1)  |   反对(0)  |   举报  |   回复

      11#

    • 游客  2011-12-24 19:37

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      10#

    • 游客  2011-12-24 01:54

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(1)  |   反对(0)  |   举报  |   回复

      9#

    • 游客  2011-12-24 01:54

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      8#

    • 游客  2011-12-23 21:23

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      7#

    • 我匿名了  2011-12-23 10:03

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      6#

    • 游客  2011-12-22 18:05

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(0)  |   反对(0)  |   举报  |   回复

      5#

    • 游客  2011-12-22 16:43

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(1)  |   反对(1)  |   举报  |   回复

      4#

    • 超能网友管理员 2011-12-22 16:39    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(0)  |   反对(15)  |   举报  |   回复

      3#

    • 超能网友研究生 2011-12-22 16:26    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(0)  |   举报  |   回复

      2#

    • 超能网友终极杀人王 2011-12-22 16:09    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      1#

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明