图形计算双冠王,Radeon HD 7970同步评测

2012-1-9 13:00  |  作者:bolvar   |  关键字:HD7900,GCN

全文浏览

GCN架构:重新定义图形及计算

  AMD HD 7970显卡使用的是全新GCN架构,有关GCN架构的解析文章我们之前已经详细分析过,不过现在AMD又更新了一些资料,内容没有之前的技术PDF那么枯燥,可以更加直观地对比新架构的变化。

图形运算经历了TL光照、顶点/像素渲染、VLIW 5再到VLIW 4指令的变化

  了解一点显卡技术发展历史的读者应该知道,早期的显卡结构很简单,只是几何变换以及光照渲染,后来发展到顶点渲染和像素渲染。DX10时代开始统称为流处理器,AMD就在原来的基础上发展处VLIW 5超长指令架构,使用4D+1D的变通方式实现了统一渲染的要求,VLIW 5从HD 2900开始一直用到HD 3800、HD 4800、HD 5800以及HD 6800,历经五朝而不衰。

  2010年的时候AMD发布了HD 6900系列显卡,其架构有所调整,从4D+1D的VLIW 5指令变为4D的VLIW 4指令,增强了流处理器单元的通用性,不过整体范畴还是未能脱离VLIW超长指令体系。

GCN架构旨在解决原有VLIW体系的一系列弊端,提高性能,降低功耗

  VLIW体系的优点是电路设计比较简单,流处理器单元数量扩展起来很方便,缺点就是效率低,极度依赖指令组合,需要强大的调度体系与之配合,实际应用远不如理论那么高效,特别是在GPU计算性能上,AMD的显卡已被对手撇下很远,是时候改变了。

  AMD推出了GCN架构,目标不仅是提升GPU图形性能和能效,而且要提高GPU的多线程处理能力,优化高性能计算,提高扩展能力和弹性,并与Fusion架构融合。

GCN架构中基本组成单元成为CU

  GCN架构中基本的组成单元为“Compute Unit”(简称CU),完整的GCN核心有32个CU单元,每个CU单元又下辖64个ALU单元和4个TF纹理单元,总计有2048个ALU计算单元,128个纹理单元,相比之下HD 6970的流处理器单元只有1536个,纹理单元也只有96个。

  前端部分延续了HD 6970显卡所用的“Dual Graphic Engines”双图形引擎结构,有两个ACE(Asynchronous Compute Engines异步计算引擎)和两个Geometry Engines(几何引擎,第9代曲面细分单元)引擎。

  HD 7970还有8个后端渲染单元,每周期可以实现32个ROP光栅渲染和128个Z/stencil渲染,这一点与HD 6970倒是没有分别,不过显存位宽加大了,后端处理性能还是有提升的。

  32个CU单元之外是6组GDDR5显存控制器,每组64bit,显存位宽为384bit,这也是AMD首次使用384bit显存位宽,再结合1375MHz的高速度,HD 7970的显存带宽达到了264GB/s,显存容量也再上一个台阶,达到了3GB。

CU单元是由4组16-way SIMD阵列组成

  AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+Vector Unint”---使用标量&矢量单元的非VLIW体系,它与之前的VLIW架构形似而神不同,显卡的组成单元不再是SIMD阵列而是CU单元,那CU单元具体又是如何构造的?

  上图是CU单元的组成示意图,每个CU中有1个标量单元和4个矢量单元,每个矢量单元又是由一组SIMD-16阵列组成,这4组SIMD-16阵列各有64KB寄存器(Registers),并且是独立运算,这样一个CU单元同时就可以执行多条指令,这就是AMD所说的“GCN是基于SIMD阵列的MIMD架构”(Southern Islands is a MIMD architecture with a SIMD array)的含义。

GCN指令体系与VLIW 4比较

  与VLIW 4体系的一组SIMD阵列相比,二者的ALU单元总数是相同的,每个CU以及SIMD阵列单元都能执行64个单精度混合乘加运算,好比16*4和4*16都等于64一样,但是区别在于,VLIW 4每次虽然可以执行4个ALU运算,但是每个ALU单元不能独立运算,需要组合成VLIW 4才可以,效率和调度是个问题,而GCN的4 SIMD阵列每周期可以执行1个ALU运算,但是四组SIMD可以互不依赖,只要有进程就一直是100%效率。

  GCN架构的这个转变看起来很简单,就像是换个算法而已,但就是这个简单的变换极大地提升了HD 7970的计算效率,不需要在调度和优化下大费周章,创建、分析以及debug过程也更简单,提高了计算的扩展性以及弹性。

上一页:AMD正式发布HD 7970
  1. 1.AMD正式发布HD 7970
  2. 14.蓝宝HD 7970显卡赏析
  3. 2.GCN架构:重新定义图形及计算
  4. 15.迪兰HD 7970 3G显卡赏析
  5. 3.缓存设计:天堑变通途
  6. 16.HD 7970显卡图赏之XFX、微星、华硕、HIS
  7. 4.曲面细分:一直在努力
  8. 17.HD 7970显卡图赏之镭风、昂达、铭瑄、祺祥
  9. 5.DX11.1、PCI-E 3.0、PRT以及24xAA
  10. 18.测试平台及说明
  11. 6.宽域2.0与HD3D:看的更多,听得更清
  12. 19.双路、三路交火平台赏析
  13. 7.视频处理及软件加速:GPU加速走进生活
  14. 20.Radeon HD 7970 vs.HD 6970
  15. 8.ZeroCore:性能与功耗的博弈
  16. 21.Radeon HD 7970 vs.GeForce GTX 580
  17. 9.28nm工艺:军功章的另一半
  18. 22.Radeon HD 7970 vs.GeForce GTX 590
  19. 10.公版HD 7970显卡外观及拆解
  20. 23.超频测试:1.2GHz刚起步
  21. 11.公版HD 7970显卡的PCB布局及用料
  22. 24.温度与噪音:满载82°C
  23. 12.盈通R7970-3072GD豪华版赏析
  24. 25.功耗测试:ZeroCore技压群雄
  25. 13.非公版散热,XFX FX-797A-TDB酷魂黑卡赏析
  26. 26.图形的一小步,计算的一大步

  • 游客  2012-10-19 12:17

    网友 [Guest] 的原贴:1楼
    原文由网友 [Guest] 于2012-02-26 20:47:24发表 AMD的通用计算能力有多强? 开始是做OEM的~不是所谓的专业卡~ 看看超级计算机采用GPU为主的有几台是A卡的~ 
    远的不说,咱们国家的天河一号就是用至强+A卡。
    早就换成tesla了,不信自己去top500上看

    已有2次举报

    支持(3)  |   反对(1)  |   举报  |   回复

    48#

  • 游客  2012-05-29 22:44

    原文由网友 [Guest] 于2012-02-26 20:47:24发表 AMD的通用计算能力有多强? 开始是做OEM的~不是所谓的专业卡~ 看看超级计算机采用GPU为主的有几台是A卡的~ 
    远的不说,咱们国家的天河一号就是用至强+A卡。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    47#

  • 游客  2012-02-26 20:47

    网友 [Guest] 的原贴:1楼
    通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。
    网友 [Guest] 的原贴:2楼
    原文由网友 [Guest] 于2012-01-10 04:44:59发表 通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。 
    關於樓上大大對通用計算的評論!!斯特拉屬於專業計算機級,不應該拿來和HD的遊戲卡比較,你也許應該和AMD的FirePro™比才對!!首先AMD本來就是專業卡起家的,在這點上N牌算是後輩,暫雙精度上A牌也比N牌早達到2/1,過去是因為A牌為了讓通用卡也可以快速進行超長指令及運算而讓精度降低,現在GCN架構出了,也解決了這部分問題! 至於專業計算,N牌現在雖然追的很快,但在標量轉向量這點上AMD還是有很大的優勢,因為這是他們的設計宗旨,所以....世界上的超級電腦用的運算圖形轉換還是多使用AMD的FirePro™,所以在專業運算上AMD才比較有優勢.....((軟體上對AMD有利的軟體一般人都不太可能用到...那比斯特拉的距離還遠,這是AMD要加強的。 在這裡舉個實例:想想為何專業繪圖家都用AMD的顯卡就知道了.....((尤其是蘋果電腦...HD4以後都用AMD的了
    AMD的通用计算能力有多强? 开始是做OEM的~不是所谓的专业卡~ 看看超级计算机采用GPU为主的有几台是A卡的~

    已有2次举报

    支持(1)  |   反对(0)  |   举报  |   回复

    46#

  • 游客  2012-02-26 20:45

    网友 [Guest] 的原贴:1楼
    通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。
    网友 [Guest] 的原贴:2楼
    原文由网友 [Guest] 于2012-01-10 04:44:59发表 通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。 
    關於樓上大大對通用計算的評論!!斯特拉屬於專業計算機級,不應該拿來和HD的遊戲卡比較,你也許應該和AMD的FirePro™比才對!!首先AMD本來就是專業卡起家的,在這點上N牌算是後輩,暫雙精度上A牌也比N牌早達到2/1,過去是因為A牌為了讓通用卡也可以快速進行超長指令及運算而讓精度降低,現在GCN架構出了,也解決了這部分問題! 至於專業計算,N牌現在雖然追的很快,但在標量轉向量這點上AMD還是有很大的優勢,因為這是他們的設計宗旨,所以....世界上的超級電腦用的運算圖形轉換還是多使用AMD的FirePro™,所以在專業運算上AMD才比較有優勢.....((軟體上對AMD有利的軟體一般人都不太可能用到...那比斯特拉的距離還遠,這是AMD要加強的。 在這裡舉個實例:想想為何專業繪圖家都用AMD的顯卡就知道了.....((尤其是蘋果電腦...HD4以後都用AMD的了
    是么?

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    45#

  • 游客  2012-01-20 16:12

    网友 [Guest] 的原贴:1楼
    通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。
    原文由网友 [Guest] 于2012-01-10 04:44:59发表 通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。 
    關於樓上大大對通用計算的評論!!斯特拉屬於專業計算機級,不應該拿來和HD的遊戲卡比較,你也許應該和AMD的FirePro™比才對!!首先AMD本來就是專業卡起家的,在這點上N牌算是後輩,暫雙精度上A牌也比N牌早達到2/1,過去是因為A牌為了讓通用卡也可以快速進行超長指令及運算而讓精度降低,現在GCN架構出了,也解決了這部分問題! 至於專業計算,N牌現在雖然追的很快,但在標量轉向量這點上AMD還是有很大的優勢,因為這是他們的設計宗旨,所以....世界上的超級電腦用的運算圖形轉換還是多使用AMD的FirePro™,所以在專業運算上AMD才比較有優勢.....((軟體上對AMD有利的軟體一般人都不太可能用到...那比斯特拉的距離還遠,這是AMD要加強的。 在這裡舉個實例:想想為何專業繪圖家都用AMD的顯卡就知道了.....((尤其是蘋果電腦...HD4以後都用AMD的了

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    44#

  • bolvar终极杀人王 2012-01-17 21:12

    网友 [zzjunyi] 的原贴:1楼
    谈笑间,"强虏"灰飞烟灭----是墙橹才对
    樯橹是原文,这个强虏是另一个意思,借指amd的对手而已

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    43#

  • zzjunyi高中生 2012-01-12 13:47

    AMD这次的确比较厚道,让我想起来了当年的4850

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    42#

  • zzjunyi高中生 2012-01-12 12:56

    谈笑间,"强虏"灰飞烟灭----是墙橹才对

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    41#

  • 游客  2012-01-10 19:51

    4系后A一直压着N,老黄看来无力了

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    40#

  • 游客  2012-01-10 16:22

    顶级卡也用ULR的电容了。。非日系越来越多了。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    39#

  • 游客  2012-01-10 12:08

    AMD非常给力!超能网文章也很给力!支持啊!

    已有2次举报

    支持(0)  |   反对(2)  |   举报  |   回复

    38#

  • hotneca博士 2012-01-10 10:10

    网友 [kasatka] 的原贴:1楼
    HAWX这种在DX9基础上强加DX10特效的低效率游戏不要老是拿出来测了…………
    H.A.W.X其实还是有意义的,因为是DX10.1,DX10.1游戏很少。。 不过这个确实有点影响整体了

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    37#

  • bolvar终极杀人王 2012-01-10 09:22

    网友 [Guest] 的原贴:1楼
    关于通用计算“从G80开始已经发展了三代,现在AMD只用了一代架构就轻易将对手掀翻在地。”这点不认同,恐怕是以点盖面了。首先,硬件只是最终表现的一部分,关键还是软件,NV花了5年的时间一步一步经营起CUDA平台,以目前来看AMD在这方面远远落后NV,且不说没有自己的计算平台,光是周边的软件也是缺乏啊,想要真正发挥GNC的通用计算效能AMD还有很长路要走,理论测试虽然好看,但是终究不是实际使用。。。另外NV的通用计算只有在特斯拉上才能体现出来,580是做了限制的。。。只是。。特斯拉对平民老百姓来说实在是过于遥远了。。价格也不是一个数量级上的。。。7970和580对比也是很正常的。
    当然,这里只是测试的显卡上的通用计算性能,各家网站采用的测试方法和软件不一,HD 7970相比GTX 580高多少也没有统一的百分比,不过总体来看显卡计算性能上HD 7970确实反超GTX 580。 如你所说,NVIDIA强的是tesla计算卡,其双精度浮点性能可以达到单精度的1/2,比GTX 580的1/8高得多,而且在软件环境支持上更有优势,毕竟耕耘了5年多了,在这一点上AMD还要加油。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    36#

  • 游客  2012-01-10 04:57

    关于通用计算“从G80开始已经发展了三代,现在AMD只用了一代架构就轻易将对手掀翻在地。”这点不认同,恐怕是以点盖面了。首先,硬件只是最终表现的一部分,关键还是软件,NV花了5年的时间一步一步经营起CUDA平台,以目前来看AMD在这方面远远落后NV,且不说没有自己的计算平台,光是周边的软件也是缺乏啊,想要真正发挥GNC的通用计算效能AMD还有很长路要走,理论测试虽然好看,但是终究不是实际使用。。。另外NV的通用计算只有在特斯拉上才能体现出来,580是做了限制的。。。只是。。特斯拉对平民老百姓来说实在是过于遥远了。。价格也不是一个数量级上的。。。7970和580对比也是很正常的。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    35#

  • 游客  2012-01-10 04:44

    通用计算就不用说了,580本来就是阉割货。。。当然费力特斯拉价格也是贵的离谱。。

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    34#

  • 游客  2012-01-09 22:47

    GCN,这次终于可以有了

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    33#

  • 斑驳的阴影大学生 2012-01-09 22:30

    农企这次表现很不错啊!看黄老板的开普勒怎么对付了!

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    32#

  • 游客  2012-01-09 22:18

    坐等开普勒~~~~~

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    31#

  • 游客  2012-01-09 19:46

    nbility

    已有2次举报

    支持(1)  |   反对(1)  |   举报  |   回复

    30#

  • 游客  2012-01-09 18:47

    网友 [Guest] 的原贴:1楼
    超能的哥们...人家是6+1相啊
    怎么来的6+1相,我看也是5+1+1

    已有3次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    29#

查看全部评论(48)

回复