E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

      10月,翘首期待Barts核心的Radeon HD 6800的到来,期待那是新架构的产品。

      我们失望了,它承载的还是过去。

      11月,翘首期待Cayman核心的Radeon HD 6900的到来,期待那是新架构的产品。

      我们失望了,它在漫天迷雾中失去了方向。

      12月,无尽的流言蛮语托起我们对Cayman的无限相思……它该是我们期待中的显卡吧。

      今天,Cayman核心的Radeon HD 6970/6950终于来了!

      作为三年来AMD首次对GPU架构作出重要调整的产品,Cayman还能延续AMD在Radeon HD 5800的辉煌吗?抑或它只是新架构的试金石?

    Cayman核心的改进

    Cayman架构示意图

      Cayman核心的Radeon HD 6900系列显卡在设计上主要有以下几方面改进:

      1、更高效的图形与计算架构

        ·VLIW4架构更有效率
        ·双图形引擎提升图元和曲面细分处理能力
        ·加强RBE单元
        ·异步派遣机制增强GPU计算能力

      2、更优秀的图像质量

        ·EQAA模式能提供更好的质量和性能

      3、更杰出的功耗与电源管理

        ·AMD PowerTune技术实时监控GPU功耗

    更高效的图形与计算架构:VLIW4

      说到VLIW(Very long instruction word,超长指令字),不得不要多费些笔墨。一直以来,传统的GPU均是基于SIMD(Single Instruction Multiple Data,单指令多数据)架构的,这种架构的好处在于一个指令发射端可以对应多个数据通道。

      ·SIMD架构

      我们知道,一个像素颜色可以由RGB三原色和半透明通道(Alpha)一共是RGBA四个通道来描述,同样,对于一个像素的位置可以用XYZW齐次坐标精准的进行定位,也是需要四个数据,3D图形渲染本质上就是改变RGBA或XYZW的数值。一个像素渲染或几何转换,需要进行四次运算,这也是为什么最初像素着色器和顶点着色器被设计为具备四次运算能力的ALU(Arithmetic Logic Unit,算术逻辑单元)。

      传统GPU的ALU在一个时钟周期内进行四次并行运算,我们称之为4D矢量(Vector)操作,和矢量对应的是标量(Scalar),标量指一个单独的值,N个标量在一起就组成了矢量。在GPU中像顶点着色器这样的ALU,只有一个指令发射端,却可以同时运行四个数据,这就是SIMD架构。

      SIMD架构能够有效提升GPU的矢量处理性能,但是4D SIMD架构一旦遇到1D标量指令时,利用率只有1/4。ATI和NVIDIA在进入DX9时代后相继采用混合型设计,允许Co-issue操作(矢量和标量指令并行执行),比如支持2D+2D和3D+1D模式,很大程度上缓解了标量指令执行效率低下的问题,但是随着API和游戏越来越复杂,4D指令比重变得越来越小,ALU的效率始终不能令人满意。

      GPU演变到了统一渲染架构时代后,NVIDIA开始“背离”SIMD架构,在G80时代开始采用MIMD(Multiple Instruction Multiple Data,多指令多数据)架构,而AMD的R600继承了SIMD的设计,并且一直延用到了Cayman核心。

      ·VLIW5处理器

      R600的核心里,设计有多个VLIW处理器(也叫流处理单元或线程处理器),每个VLIW处理器中拥有有5个1D ALU(亦即常说的流处理器)和1个分支执行单元,为了避免和其它规格搭配的VLIW冲突,称R600中的这种处理器为VLIW5处理器。

      5个ALU能以1+1+1+1+1或1+4或2+3等方式搭配,理想状态下,采用特定安排的指令组合,在一个时钟周期内可以完成5个指令运算。shader指令经过驱动JIT编译器编译优化后,变成能识别的机器码并捆绑成非常长的VLIW指令串,这些指令串会被序列器重新安排,把不相依的指令捆绑在一起交给VLIW处理器去执行。

      实际上在VLIW处理器中的5个ALU并非对等的,它们被分为两种ALU[X, Y, Z, W]和ALU.trans两种,也就是4D+1D的组合形式,在上图中的T-Stream那个胖一点的就是ALU.trans,除了MAD外,它还能够进行一些特殊(SIN、COS、LOG、EXP等)函数的运算,但CUBE、Dot4、MOVA等指令不能在ALU.trans上执行。

      NVIDIA的G80走的是彻底的标量化路线,将ALU拆分为了最基本的1D标量,传统GPU中一个周期完成的4D矢量操作,在MIMD架构中需4个周期或4个ALU并行处理完成。它的最大好处是灵活,不论是1D/2D/3D/4D指令,都能将其拆成1D指令来处理。

      AMD所使用的SIMD架构非常明显的优势就是执行全4D指令时简洁高效,1个指令发射端可以对应5个ALU,晶体管的需求量小,规模扩展的难度比起MIMD架构要小很多。而NVIDIA的MIMD设计,每个ALU都需要指令发射端,需要消耗非常多的晶体管,庞大的线程仲裁机制、端口、缓存和寄存器等周边资源的消耗也很大,功耗和成本上处于劣势。

      R600的SIMD架构的缺陷也很明显,还是效率问题,VLIW本身会存在若干约束,一般情况下指令吞吐率可能只有1/5,AMD提供的数据是,VLIW5处理器只有3-4个ALU的利用率。AMD通过大幅增加流处理器单元的数量并增加分支执行单元改善指令分配问题,如何优化好VLEW指令组合,在驱动设计上要付出更多努力,这或许是AMD的催化剂驱动一直备受诟病的原因之一。

      对于VLIW处理器,因为存在指令相依性的问题,所以没有哪个指令序列器、编译器能保证其100%超标量执行能力(VLIW内部其实是一种超标量处理器)。

        所谓相依性,是指B指令对A指令的依赖,比如A指令为a=b+c,B指令为d=a*e,
        显然B指令必须等待A指令完成后才能执行,A和B不能实现超标量执行。

      ·Cayman:从VLIW5演变到VLIW4

      从三年前的R600开始,一直到今天,AMD的GPU一直坚守着VLIW5处理器的SIMD架构,产品经历了Radeon HD 2900、HD 3000系列、HD 4000系列、HD 5000系列和HD 6800系列,核心换了一代又一代,不变的是它基本架构,都是在R600架构上进行工艺升级、规模扩张、算法优化等等改良。

      流处理器的规模不可能无限的扩张,AMD必须在架构效率上下更多功夫,单纯从软件驱动优化上着手似乎已没有太多上升空间,AMD开始着眼于硬件架构上的优化。在Cayman核心中,VLIW处理器中的ALU数量被精简到了4个,抛弃了VLIW5处理器中的ALU.trans,我们称Cayman的这种VLIW为VLIW4处理器。

      应该说Cayman核心是自R600以来,在硬件架构上变动最大的一个。VLIW4回归到了传统ALU的4D模式,只是变成了更灵活的4个1D。对于一个部门来说,显然管理4个人比管理5个人更简单高效,或许AMD也是这么想的。

      和VLIW5不同的是,VLIW4中的四个ALU功能都是对等的,可以实现4-way Co-issue操作,原来由ALU.trans完成的特殊函数操作现在也可以交给这四个ALU来完成了,不过一个特殊函数操作需要占据四个指令发射中的3个。

      虽然VLIW4减少了ALU.trans,但性能上并没有下降,每个时钟周期内每个ALU完成的操作与Cypress核心(Radeon HD 5800系列)的VLIW5处理器一样,另外,VLIW4处理器在一个周期内可以完成一次双精度操作,VLIW5也是一个周期内完成一次双精度操作,比例从5:1提高到了4:1。

      AMD声称,VLIW处理器结构的改变(VLIW5->VLIW4),同样核心面积的条件下能带来10%的性能提升,简化了指令调度和寄存器管理,提升逻辑电路利用率。

      从VLIW5改变到VLIW4,随之而来的是晶体管和功耗的大幅增加,假设一共有1600个流处理器,如果采用VLIW5,那么就是320组,只需要320个指令发射端,如果采用VLIW4,就是400组,需要400个指令发射端,而且VLIW处理器的分支执行单独和通用寄存器都相应的增加了,也就是说增加了80个指令发射端、80个分支执行单元和80个通用寄存器,这些新增的单元需要消耗大量的晶体管。

      以Radeon HD 6970为例,它一共有1536个流处理器,但晶体管数达到了26.4亿,核心面积达到389mm2,而采用VLIW5的Radeon HD 5870,有着更多的1600个流处理器,晶体管数却只有21.5亿,核心面积也只有334mm2。功耗更是从HD 5870的188W激增到了HD 6970的250W。虽然这些增长并不全是VLIW结构变化引起的,但也占有绝大部分。

    更高效的图形与计算架构:双图形引擎

      位于架构前端的图形引擎(Graphics Engines)也就是以前的Setup Engines,从Radeon HD 5000系列开始改称为Graphics Engines。

    Barts核心的单图形引擎

      图形引擎部分由Tessellator(曲面细分单元)、Geometry Assembler(几何装配器)、Vertex Assembler(顶点装配器)、Rasterizer(光栅器)以及Hierarchical Z(多级Z缓冲器)组成。Radeon HD 5000和Radeon HD 6800系列中,这部分都开始配备了双Rasterizer和双Hierarchical Z,并对Tessellator单元作了逐步升级。

    Cayman核心的双图形引擎

      在Cayman核心中,图形引擎得到进一步加强,Geometry Assembler、Vertex Assembler和Tessellator都配备了双份,组成了名符其实的双图形引擎。

      双图形引擎最直接的好处是每周期可以处理两个图元(primitive ),像坐标转换与隐面消隐等速率都达到2倍,Tile-based渲染负载更平衡。而且双Rasterizer的能力进一步提升,可以每个时钟周期处理32个像素。

      可能我们更关注Cayman核心中Tessellator单元的改进,AMD终于增加了一个Tessellator单元,并且将Tessellation升级到了第8代,支持片外缓存,在Tessellation高等级时性能明显提升,AMD称,相比Radeon HD 5870,Tessellation性能最多可以达到3倍。

      和对手GeForce GTX 580/GTX 570多达10多个Tessellation单元相比,AMD还是保守很多,坚持认为Tessellation适可而止,过高的细节无助于画质的表现,性能损失太大。

    更高效的图形与计算架构:RBE加强

      AMD对Cayman核心的Render Back-Ends(渲染器后端)也作了加强,比如实现了合并写入操作,16bit操作速度提升2倍,32bit浮点(单/双组元)操作速度提升了2到4倍。

    更高效的图形与计算架构:异步派遣

    Cayman GPU计算架构

      Cayman同时加强了GPU通用计算能力,主要是采用了异步派遣机制,具备同时执行多个Kernel内核的能力,这些Kernel内核都有自己的命令队列和受保护的虚拟地址。另外还采用了双DMA(Direct Memory Access)引擎,可以实现更快的系统内存读写。

      其它改进还包括:

      · 实现Shader合并读操作

      · 实现直接从LDS(Local Data Share)拾取数据

      · 改进流控制

      · 更快的双精度操作,Cayman的双精度操作性能是单精度操作性能的1/4,而Cypress的双精度性能是单精度的1/5,这主要是因为VLIW结构变化引起的。

    Cypress GPU计算架构

    更优秀的图像质量:EQAA

      基于MSAA,AMD和NVIDIA都发展了自己的抗锯齿技术,同在2007年,AMD发布了CFAA(Customer Filter AA),NVIDIA发布了CSAA(Coverage Sampling AA),但是几年下来两种AA技术却是不同状况,CFAA被玩家戏称为“糨糊AA”而不受待见,CSAA却渐被游戏厂商和玩家接受。

      在不久前发布的Radeon HD 6870/6850中,AMD加入了MLAA形态抗锯齿技术,但是MLAA在性能和画质上的表现都不尽如人意。

      在Cayman核心中,AMD除了继承MLAA外,又引入了EQAA(Enhanced Quality Anti-Aliasing)抗锯齿模式。新的EQAA同样是基于MSAA,但增加了覆盖采样,在8xEQAA下,可以达到8个色彩采样和16个覆盖采样,也就是比8xMSAA多出了16个覆盖采样,能得到更好的图像质量,性能损失却很小。

      EQAA目前一共提供了2x/4x/8x三种模式,分别在相应模式的MSAA下增加了与色彩采样两倍数量的覆盖采样:

        2xEQAA = 2xMSAA + 4 coverage sample
        4xEQAA = 4xMSAA + 8 coverage sample
        8xEQAA = 8xMSAA + 16coverage sample

      EQAA从技术上同NVIDIA的CSAA是非常相似的,只是在采样样本的数量配置上有所区别,比如说8xCSAA = 4xMSAA + 8个覆盖采样,16xQ CSAA才与8xEQAA比较接近,目前CSAA最高可以达到32x。

      AMD称,EQAA能在相同内存占用的情况下获得更好的质量,还能与Adaptive AA、Super-Sample AA和MLAA等模式组合使用。另外,在CCC控制面板中可以方便的对EQAA进行控制,不过在最新的10.12版本催化剂驱动中还没有发现相关选项。

    更杰出的功耗与电源管理:PowerTune

      目前无论是针对桌面领域还是移动平台的AMD显卡均可支持PowerPlay节能技术,支持动态电源管理机制(DPM),可根据GPU负载情况自动调整频率和核心电压。

      不过PowerPlay还是存在一定的局限,仅可支持3级电源状态,分别为空闲、中等负载以及高负载三种状态。按照传统习惯,最高性能模式一般是固定的,也即在该状态下,无论运行什么程序,显卡的核心电压、频率都会是一个固定值。

      AMD在Cayman核心中应用了新的电源管理技术PowerTune,在功耗与电源管理上更加灵活多变,PowerTune可以说是AMD PowerPlay技术的延伸和发展。

      与PowerPlay仅具备3档状态调节不同,PowerTune在Intermediate P-State与Highest P-State之间拥有N档频率调节值,这样的频率调节档如上图所示是环环相扣的,GPU可自动根据所运行程序负载程度而在不同的频率间切换,逐级调节频率,从而起到“因地制宜”最大限度节省功耗的作用。

      通过PowerTune技术,功耗被限制在一个定值以内,对于一些比较变态的测试软件,如Furmark、OCCT,PowerTune将会保护显卡不会过热损坏,这一点上和NVIDIA在GTX 580/570上的功耗保护机制有些类似,当然PowerTune的功能并不止于此。

      如上图所示,Radeon HD 6950的默认核心频率为800MHz,3DMark Vantage测试中,在PowerTune作用下核心频率在600-800MHz之间频繁切换,而性能则并未出现较大幅度的波动,帧数是非常平稳的,而功耗上因为频率的下降也有所减少,也就是说,在保证稳定性能的前提下,尽可能的降低功耗。

      此外,在AMD驱动控制中心(CCC)的OverDrive选项中增加了电源控制设置,用户可在正负20%的范围内对GPU的最大功耗限制进行调节。这样的设计,可以满足不同用户的需求,对性能要求高的玩家,可以将功耗上限调高,对功耗敏感的用户,可以将功耗上限调到负值。

      通过驱动面板中的调节项,不同的上限,显卡核心频率变化的幅度也有所改变,而当+10% Power时,Radeon HD 6950的核心频率将会被恒定在800MHz下,不再自动调节,看来这时功耗已经达到最大值了。

      PowerTune通过整合的控制器实时监控GPU状态,在GPU内包含有所有元件的计数器,通过一定的算法规则去推断其功耗,并动态调节核心频率去适应TDP的要求。这和NVIDIA在GTX 580/570上采用的外部监控有所不同,灵活性上更胜一筹。

    Radeon HD 6970/6950规格简介

      首批上市的Cayman核心显卡为Radeon HD 6970和Radeon HD 6950,分别对应的核心为Cayman XT和Cayman Pro,两者主要区别在于流处理器数量和频率上。

      由于架构上的变化,Cayman核心的晶体管增加到了26.4亿个,核心面积也达到了389mm2,比起Cypress核心(HD 5800系列)都有很明显的增长,相应的功耗也有所增长。当然最可观的是,配备有2GB大容量GDDR5显存,在高分辨率高画质下将会有不错的表现。

      Radeon HD 6970的流处理器数达到1536个,每64个SP为一组SIMD,每组SIMD里有16个VLIW4处理器,一共有24组SIMD,由于每给SIMD配备有4个纹理单元,所以一共有96个纹理单元,相比于Radeon HD 5870的80个有不少提高。HD 6970的核心频率为880MHz,显存频率为1375MHz,其数据速率高达5.5GHz。另外由于最高整卡功耗达到了250W,需要8pin+6pin的PEG供电才可。

      相对而言,Radeon HD 6950的规格稍弱些,流处理器数为1408个,共有22组SIMD,88个纹理单元,HD 6950的核心频率为800MHz,显存频率为1250MHz(data rate为5GHz)。HD 6950最高整卡功耗为200W,6pin+6pin的PEG供电就足以。

      总的来说,架构的改变让Radeon HD 6970/6950的晶体管数变多核心普大,同时流处理器数也有所下降,关键是新架构下的性能会有什么样的表现。

    Radeon HD 6970显卡赏析

    公版设计的XFX Radeon HD 6970

      讯景Radeon HD 6970显卡采用公版设计,PCB长度为26.5cm,和Radeon HD 5870相同。显卡基于40nm工艺Cayman XT核心,拥有1536个流处理单元,搭载Hynix GDDR5显存颗粒,构成2GB/256bit的规格,核心/显存频率为880/1375MHz(data rate 5500MHz)。

    Radeon HD 6970正面

    Radeon HD 6970背面

      Radeon HD 6970采用双插槽式设计,配备一个涡轮风扇散热器,显卡装有背板,既可以加固PCB又可以帮助显卡散热。

    Radeon HD 6970显卡末端

      Radeon HD 6970显卡依然采用了一体式涡轮散热器,与Radeon HD 5800的“鼻孔”式设计不同,采用的是HD 6870显卡的末端封闭式设计。

    Radeon HD 6970采用6pin+8pin辅助供电

    显卡上的双BIOS切换开关

      显卡上有一个双BIOS切换开关,这是第一次在公版显卡上看到这样的设计,一个BIOS是默认设置的BIOS,用户无法修改, 另一个BIOS可以供给用户自由刷写,用户可以通过BIOS对显卡进行超频和调节电压等。

    Radeon HD 6970包装以及赠送配件

    Radeon HD 6970显卡拆解

    Radeon HD 6970显卡PCB正面(点击放大)

    Radeon HD 6970显卡PCB反面(点击放大)

      拆除显卡散热器后,显卡PCB展现在大家眼前,可以看到显卡采用了数字供电设计,这在AMD的高端显卡中是常常可以见到的。

    Cayman XT核心

      Cayman XT核心依然采用了45°倾斜设计,基于40nm工艺制程,其核心面积为389mm2,比Radeon HD 5800系列的Cypress核心的334mm2要大16.5%。当然了,Cayman核心容纳的晶体管数量为26.4亿,而Cypress的晶体管数量则为21.5亿个。

    Hynix  GDDR5显存颗粒

      显存颗粒和以前Radeon HD 6800/5800/5700系列显卡上使用的“H5GQ1H24AFR-T2C”不同,这次使用的是“H5GQ2H24MFR-ROC”,这是全球首款单颗容量达到了2Gb的GDDR5闪存颗粒,仅用8颗就能够组成256-bit/2GB的规格。这种显存颗粒采用FBGA 170-Ball封装,54nm工艺制作,在1.5V的电压下其最高数据频率可达6000MHz。

    显卡供电部分

      供电方面,HD 6970沿用HD 5800/5900等高端产品中的Volterra的数字供电方案,采用6+2+1相当供电设计,其中GPU核心6相,显存2相,核心I/O供电1相。

    供电部分特写

      核心供电部分采用“CLA1108-4-50TR”4相并联贴片电感+“CLA1108-2-50TR”2相并联贴片电感,MOS型号为VT1636SF,该MOS整合了驱动IC与MOSFET,滤波电容方面采用了众多的MLCC陶瓷电容。

      2相显存供电位于核心供电上方,每相配有两个全封闭电感和1个VT243WF芯片组成,VF243WF的整合度很高,它将主控芯片、驱动芯片和MOSFET全部整合在一块芯片之中。

    供电主控芯片

      主控芯片采用的是Volterra VT1556MF,这款芯片是第一次见到,暂时还找不到相关的资料。

    位于显卡左侧的I/O供电模块

    ◆ Radeon HD 6970显卡散热器赏析

    Radeon HD 6970显卡散热器

      Radeon HD 6970所用的散热器看上去和HD 6870的有点相似,但是实际上却有很大的差别。

    Radeon HD 6970显卡散热器

      显卡散热器采用的是均热版加铝质鳍片的组合,散热器主体和基座是焊接在一起的,这样是为了加强整体的散热能力。

    散热器基座和均热版

    铝质鳍片加均热板底座设计

    显卡搭配的涡轮风扇

      Radeon HD 6970搭配的风扇额定电流为2A,看来是比较暴力,HD 6950搭配的风扇额定电流为1.2A。

    ◆ Radeon HD 6950显卡外观赏析

    公版设计的Radeon HD 6950

      讯景Radeon HD 6950显卡采用公版设计,外形上和Radeon HD 6970一模一样,显卡基于40nm工艺Cayman Pro核心,拥有1408个流处理单元,搭载Hynix GDDR5显存颗粒,构成2GB/256bit的规格;核心/显存频率为800/1250MHz(data rate 5000MHz)。

    Radeon HD 6950正面

    Radeon HD 6950背面

      Radeon HD 6950从外观上和HD 6970没太大差别,所用的散热器也完全相同,PCB长度均为26.5cm,不过HD 6950采用双6pin辅助供电,而HD 6970采用6pin+8pin辅助供电。

    视频输出接口

      HD 6970提供了两个DVI、两个mini DisplayPort以及1个HDMI输出接口。

    Radeon HD 6950采用双6pin辅助供电

    Radeon HD 6950显卡末端和HD 6870设计相同

    讯景Radeon HD 6950包装以及赠送配件

    Radeon HD 6950显卡拆解

    Radeon HD 6950显卡PCB正面(点击放大)

    Radeon HD 6950显卡PCB反面(点击放大)

      从上图可以看到,HD 6950和HD 6970的PCB设计完全相同,所以上面的布局和器件用料两卡都是一样的,要说两者间的差别的话就是辅助供电接口来,HD 6950使用的是双6pin的辅助供电设计,而HD 6970所用的6pin+8pin。

    Cayman Pro核心

      Cayman Pro核心依然采用了45°倾斜设计,基于40nm工艺制程,其核心面积同样为389mm2

    Hynix 0.4ns GDDR5显存颗粒

      显存颗粒和Radeon HD 6970显卡上使用的“H5GQ2H24MFR-ROC”不同,这次使用的是“H5GQ2H24MFR-T2C”,单颗容量也达到了2Gb,8颗就能够组成256-bit/2GB的规格, 只是频率要稍低一些,最高数据频率可达5000MHz。

    显卡供电部分

      供电方面也和HD 6970差不多,也是使用Volterra的数字供电方案,采用6+2+1相当供电设计,其中GPU核心6相,显存2相,核心I/O供电1相。

    供电部分特写

      用料上面也和HD 6970相同,核心供电部分采用“CLA1108-4-50TR”4相并联贴片电感+“CLA1108-2-50TR”2相并联贴片电感,MOS型号为VT1636SF,该MOS整合了驱动IC与MOSFET,滤波电容方面采用了众多的MLCC陶瓷电容。

      2相显存供电位于核心供电上方,每相配有两个全封闭电感和1个VT243WF芯片组成,VF243WF的整合度很高,它将主控芯片、驱动芯片和MOSFET全部整合在一块芯片之中。

    供电主控芯片

      主控芯片采用的是Volterra VT1586MF和HD 6970所用的Volterra VT1556MF并不相同,不过同样的找不到相关的资料。

    显卡上的双BIOS切换开关

      另外,Radeon HD 6950配备的散热器与HD 6970完全一样,只是搭配的涡轮风扇规格有差异,HD 6950搭配的风扇额定电流为1.2A,比HD 6970的2A要小。

    测试平台及说明

      我们选用了公版Radeon HD 6970/6950进行测试,并与Radeon HD 5870以及NVIDIA GeForce GTX 580/570/480/470进行对比

      共选用了9个图形测试项目,包括3DMark Vantage(关闭PPU)、3DMark 11、DX9、DX10以及DX11游戏。

      Radeon显卡使用最新的Catalyst 10.12驱动(手动添加HD6900系列硬件信息);GeForce显卡则安装GeForce/ION 263.09 WHQL驱动,每次更换显卡时均使用DriverSweeper进行驱动残留信息清理。 

    功耗测试

      我们使用Seasonic PowerAngle功耗测试仪记录显卡功耗值:启动计算机进入Windows 7系统界面自然待机5分钟,记录功耗仪上的功耗显示最低值作为待机整机功耗。

      使用3DMark Vantage程序测试负载功耗,选取Extreme模式图形测试2的场景让GPU负载,记录出现的功耗峰值数据作为显卡负载整机功耗。

      以下测试成绩均为整机功耗,而不是独立的显卡功耗,由于平台一致,所以数据是具有实际比较价值的。

      Radeon HD 6970/6950在待机情况下,核心电压均下降至0.9V,核心/显存频率均为250/150MHz。待机情况下几款显卡功耗差别并不大。

      使用Heaven v2.1让GPU负载运行,Radeon HD 6970以及Radeon hD 6950的核心电压均上升至1.17V。两款产品的满载功耗均控制出色,Radeon HD 6970整机功耗为368W,比GTX 570足足低了26W低了;而Radeon HD 6950则为320W,比Radeon HD 5870还要低了7W。

    温度测试

      温度环节采用了裸机测试,室温维持在24℃。测试过程中使用MSI Afterburner作为温度曲线的记录软件。

      待机温度为启动电脑进入Windows 7界面待机5分钟的数值;而满载温度则使用了Heaven v2.1让GPU负载,用Afterburner记录温度曲线。

    Radeon HD 6950待机温度

      在待机情况下,Radeon HD 6950核心电压下降为0.9V,核心/显存频率为250/150MHz。核心温度恒定在48℃,风扇转速26%,噪音并不明显。

    Radeon HD 6950满载温度

      使用Heaven让Radeon HD 6950负载运行,此时核心电压为1.175V,核心/显存频率为800/1250MHz。核心温度最高达到了78℃,风扇转速约为35%,噪音略为增加,但尚在可接受范围内。

    Radeon HD 6970待机温度

      在待机情况下,Radeon HD 6970核心电压下降为0.9V,核心/显存频率为250/150MHz。核心温度恒定在49℃,风扇转速25%,噪音并不明显。

    Radeon HD 6970满载温度

      使用Heaven让Radeon HD 6970负载运行,此时核心电压为1.175V,核心/显存频率为880/1375MHz。核心温度最高达到了80℃,此时风扇转速约为35%,噪音明显增大,而且噪音明显要比HD 6950的大,对于追求宁静工作环境的玩家而言绝对是一场噩梦。

    超频测试

      本环节我们采用驱动自带的OverDrive进行超频测试,并运行3DMark 11进行稳定检测。

      超频测试均为默认核心电压1.17V下完成,PowerControl setting设置为20%。测试采用显卡自带原装散热器,超频过程中风扇转速均为自动调节。

    使用Overdrive提升显卡频率

    Radeon HD 6950核心/显存频率可稳定提升至840/1325MHz

      Radeon HD 6950核心/显存频率提升至840/1325MHz水平下,这已经是OverDrive的上限值了。此时通过3DMark 11测试得分为X1676,比默认频率得分X1598提升了4.88%。

    Radeon HD 6970超频情况

      Radeon HD 6970核心/显存频率提升至950/1420MHz的水平下,此时核心频率已达到了OverDrive的上限值了。通过3DMark 11测试得分为X1898,比默认下X1826的得分提升了3.9%。

      目前没有能够支持Radeon HD 6900系列的超频软件,到底有多大超频空间,还不太好说。

    Radeon HD 6970 vs. GeForce GTX 570

      Radeon HD 6970与GeForce GTX 570相比,在各测试项目中胜负参半,不过综合来看,HD 6970平均性能还是落后GTX 570 2.23%的幅度。

      从测试数据分析,HD 6970主要在DX9和DX10游戏方面领先GTX 570,而在DX11项目中依然存在一定的差距。

    Radeon HD 6970 vs. GeForce GTX 580

      AMD Radeon HD 6970在各项测试中均大幅度落后于NVIDIA GeForce GTX 580,平均性能落后幅度达到了16.01%。

      HD 6970和GTX 580之间存在着巨大的性能差距,当然两者价格也足足相差了1000大元。

    Radeon HD 6970 vs. Radeon HD 6950

      Radeon HD 6970和Radeon HD 6950之间存在着流处理器数量、频率等方面的差距,综合来看两者性能差距达到了11.44%。

      在DX9、DX10及DX11项目中两者的差距都相当平均,幅度基本达到10%以上。

    Radeon HD 6950 vs. Radeon HD 5870

      Radeon HD 6950与AMD上代单卡旗舰Radeon HD 5870相比,在Crysis和FarCry 2以及Lost Planet 2中优势较为明显。综合来看其平均性能领先HD 5870的幅度为4.66%。

    Radeon HD 6950 vs. GeForce GTX 470

      Radeon HD 6950的售价为2299元,而GeForce GTX 470目前也调价至1999元。就性能而言,HD 6950平均性能领先GTX 470达到了15.33%。由此来看,HD 6950的定位是相当准确的。

    DX11 SDK Test: Sub D11

      Cayman采用了双图形引擎,Tessellation单元数量也比Barts翻倍,下面我们通过微软SDK Sub D11测试不同Tessellation Factor下的性能差距。

      从对比情况来看,Radeon HD 6970相比Radeon HD 6870而言,其Tessellation性能提升是非常明显的,尤其是在低程度的Tessellation下差距甚大,最大可达到幅度70%的提升。

      随着Tessellation Factor的提升两者的差距虽然被逐渐缩小,不过Radeon HD 6970依然可保证对Radeon HD 6870有40%的领先。

    总结:新架构的试金石

      在本文开头,我们用了漫天迷雾和无尽的流言蛮语来描述Radeon HD 6900到来前的景象,真实情况确实如此,在无数小道消息袭击下,很多人对新架构的Radeon HD 6970充满了期待,期待新的卡皇就此诞生,期待Radeon HD 6970能够与NVIDIA最强单卡GeForce GTX 580上演一出龙争虎斗,然而现实总是残酷的,铁一般的事实粉碎了无数A Fan的梦想。 

      从测试结果来看,Radeon HD 6970的真正对手是NVIDIA的次旗舰GeForce GTX 570,在DX9和DX10游戏中前者稍占上风(领先2%),不过在DX11游戏中就要逊色多了(落后6%),好在凭借2GB的大容量显存在高分辨率下能找回些颜面。如果和顶级的GTX 580相比平均差距被拉大到了16%。

      Radeon HD 6950定位于对手的一个空档,没有太好的参照对象,比起价格低一档次的GTX 470的优势很明显,平均性能领先11%左右,其中在DX9/DX10游戏中领先近20%。比上一代的Radeon HD 5870也有近5%的性能提升,和同门HD 6970相比,要落后10%左右。

      Radeon HD 6970/6950在功耗上的表现比我们想象中要好,不知道是不是PowerTune的原因。HD 6970的满载功耗虽然比HD 5870要高出40W,但还是比GTX 570要低近30W。另外GPU温度满载时也只有80度,还能接受,但是噪音非常明显。Radeon HD 6950在这些方面的表现相对来说更理想。在超频上,目前还缺乏软件的支持,不太好下定论。

      和对手的顶级旗舰相比,AMD的新旗舰Radeon HD 6970在性能上确实辜负了很多人的希望,但是也要看到它非常明显的进步,在流处理器数略少频率略高的情况下,HD 6970比HD 5870的性能增长了15%左右,这是一个很可喜的数字,尤其是在中低等级的Tessellation测试中,Radeon HD 6970的优势非常巨大。

      这表明AMD在Cayman架构上的改进是卓有成效的,VLIW4处理器和双图形引擎是今后AMD GPU的主要架构,Cayman目前还只是新架构的第一块试金石,随着驱动及工艺等的优化,新架构的优势将进一步扩大。

      Radeon HD 6970的定价在2999-3099元,与GTX 570形成正面竞争,两者间的价格几乎相当,性能也很相近,各有优劣,确实算得上棋逢对手。Radeon HD 6950的定价为2299-2399元,在这个价格段目前还没有显卡与之竞争,它的性能比HD 6970低10%,但价格要低20%以上,性价比非常突出,倒是在2000-3000元的价格区间脱颖而出,不过下个月GTX 560出世时,这个局面或将改变。

      我们对Radeon HD 6970/6950持肯定的态度,辩证地看,任何新生事物在迈向成熟的道路上都要付出代价,而这一次的Radeon HD 6970/6950为新架构探石问路,奠定了良好的开端。

    ×
    热门文章
    1华为 P70系列上架官方商城:全系搭载超聚光影像系统,5499元起售
    2西风 RTX 4080 VK联名版一体式水冷显卡上架:240水冷散热,售价8099元
    3《恶意不息》PC配置要求公布:1080P@60FPS需要RTX 3070TI
    4《对马岛之魂 : 导演剪辑版》PC配置要求公布:4K@60FPS需要RTX 4080
    5AMD减少RDNA 2架构GPU供应:高端RX 6800/6900系显卡列进入最后阶段
    6《家园3》PC版将降低配置要求,并公布了首年更新计划
    7ROG MAXIMUS Z790 HERO BTF背插主板图赏:旗舰美感再进化
    8Delta游戏机模拟器合集登陆App Store,用iPhone可玩GBA、NDS
    92024年3月中国大陆主板出货量:各个品牌厂商涨幅明显,华硕绝对优势
    已有 39 条评论,共 262 人参与。
    登录快速注册 后发表评论
    • 游客  2020-11-12 16:53

      该评论年代久远,荒废失修,暂不可见。

      已有5次举报

      支持(11)  |   反对(0)  |   举报  |   回复

      39#

    • 游客  2011-02-11 13:26

      该评论年代久远,荒废失修,暂不可见。

      已有4次举报

      支持(4)  |   反对(0)  |   举报  |   回复

      38#

    • 游客  2011-01-30 19:47

      该评论年代久远,荒废失修,暂不可见。

      已有4次举报

      支持(5)  |   反对(1)  |   举报  |   回复

      37#

    • 游客  2011-01-28 17:33

      该评论年代久远,荒废失修,暂不可见。

      已有4次举报

      支持(5)  |   反对(1)  |   举报  |   回复

      36#

    • 游客  2011-01-24 02:56

      该评论年代久远,荒废失修,暂不可见。

      已有4次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      35#

    • 游客  2010-12-30 02:52

      该评论年代久远,荒废失修,暂不可见。

      已有4次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      34#

    • 超能网友大学生 2010-12-23 10:56    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有4次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      33#

    • 超能网友管理员 2010-12-17 19:26    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      32#

    • 游客  2010-12-17 14:03

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      31#

    • 游客  2010-12-17 13:47

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      30#

    • 游客  2010-12-17 13:40

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      29#

    • 游客  2010-12-17 12:04

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      28#

    • 游客  2010-12-17 10:53

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      27#

    • 游客  2010-12-16 22:02

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      26#

    • 游客  2010-12-16 21:23

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      25#

    • 超能网友研究生 2010-12-16 19:30    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      24#

    • 超能网友小黑屋 2010-12-16 17:59    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      23#

    • 超能网友大学生 2010-12-16 17:43    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      22#

    • 游客  2010-12-16 17:34

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      21#

    • 游客  2010-12-16 17:20

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      20#

    • 超能网友小学生 2010-12-16 17:10    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      19#

    • 超能网友研究生 2010-12-16 14:59    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有3次举报

      支持(3)  |   反对(0)  |   举报  |   回复

      18#

    • 游客  2010-12-16 12:29

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      17#

    • 超能网友高中生 2010-12-16 12:18    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      16#

    • 游客  2010-12-16 11:50

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      15#

    • 超能网友管理员 2010-12-16 11:18    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      14#

    • 游客  2010-12-16 10:12

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      13#

    • 超能网友博士 2010-12-16 08:13    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      12#

    • 游客  2010-12-16 07:48

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      11#

    • 超能网友教授 2010-12-16 02:27    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      已有2次举报

      支持(2)  |   反对(0)  |   举报  |   回复

      10#

    加载更多评论

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明