推土机的长征路,AMD FX-8120处理器评测

2011-10-26 18:50  |  作者:bolvar   |  关键字:AMD,Bulldozer,FX-8120,2500k,1090T

  被寄予厚望的推土机有着革命性的架构设计,但是在测试中却没有展示出惊人的实力,几乎完败于Intel的i5-2500K,推土机的长征之路更加艰难了。

本文约12782字,需21分钟阅读(体验新版
  对AMD来说,这是最坏的时代。

  2011年伊始AMD的CEO德克梅尔就被炒了鱿鱼,之后不断有高管离职,管理层动荡不安,大半年之后才找到新任CEO;分家出去的GlobalFounderies工艺进展缓慢,严重拖累AMD处理器的升级换代,产量不足继而导致新产品价格高居不下,导致玩家不满,销量和口碑双输。

  这也是AMD最好的时代。

  收购ATI多年之后融合处理器终成正果,APU的问世为AMD开辟了另一片天地,GPU性能遥遥领先击中了对手的要害;下一代GPU“HD 7000”系列进展顺利,蹒跚而行的拳头产品“Bulldozer(推土机)”最终也驶上大道,青黄不接的局面即将成为过去,对急需新鲜血液刺激市场的AMD来说,推土机的发布比任何事情都要重要。

  推土机来的确实太迟了,从06年发布K10架构的Phenom算起,AMD只在09年初升级过Phenom的制程工艺,核心架构做了微调,也就是说5年来AMD没有升级过CPU架构了,而这段时间内,Intel相继从Core、NehalemSandy Bridge一路走来,性能稳步提升,功耗逐渐降低,明年初甚至还会升级到使用3D晶体管的22nm Ivy Bridge架构,双方的代沟差距越来越大了,推土机担负着重振AMD声威的重任。

官网列出的首发的四款推土机处理型号

  迟到总比不到好,推土机最终在本月的12日正式发布,首发的有四款,8核的FX-8150/FX-8120、6核的FX-6100以及4核的FX-4100,同时归来的还有FX品牌。FX的历史可以追溯到K8大战P4的时代,FX在当时就是顶级CPU的象征,品质恒久远,一旦拥有,别无所求,那段时光也是AMD最荣光的见证。(追忆光荣历史似乎是潮流啊,NVIDIA年初的时候把Ti拉回来了,AMD则把FX重新包装了)

不仅FX品牌归来,CPU的包装也全面换新

  首发评测时恐怕AMD手头也没多少U可用,再加上测试中的意外,国内出评测的只有寥寥几家,相关评测相信大家也看过了,对推土机也有了初步认识。这次我们借到一颗FX-8120处理器,并做了深入评测,虽然文章跟推土机一样晚到了一些,但是迟到总比不到好。

  推土机,我们来了。

◆ X86要革命,推土机架构简介

  有关推土机的架构介绍, 我们之前已经有文章做了解析,虽然成文于半年前,但是架构介绍和分析还是很详细的,这里我们再介绍一些重点部分。

  推土机的设计思想源于物理多核心(CMP)与超线程(SMT)之争,前者性能提升大,但是代价高昂,设计复杂,超线程技术不需要太多核心上的改变,但是效能不如物理多核,AMD在推土机上实践了第三种思路CMT(Cluster Multithreading)。

整数单元:一分为二

  推土机的基本结构不同于以往一个整数+一个浮点单元的组成,而是一个模块(Module),每个模块内有2个整数单元和1个高度共享的浮点单元,而且每个整数单元都有自己的调度器,任务分配互不干扰,可同时执行。

  因为AMD认为目前80%的应用都是整数型,浮点运算只占20%,通过这种设计推土机的每个模块可以同时进行两个整数计算,效率大大提高,而这种设计的代价也很小,整数单元的核心面积只占模块的12%,占整个核心的面积不过5%,也就是说用5%的总面积即可实现80%的性能提升。

整数单元的设计是对传统X86设计的一大改革

  从推土机的命名来看,AMD不再提模块这个称呼,而是将每个整数单元都视为一个核心,所以FX-8100系列也成为世界上首款原生8核桌面CPU,看上去很美吧,实际上不然。

  与K10的三发射指令架构相比,推土机有四个解码单元,变成了四发射指令系统,理论性能会有提升。但是这个四发射能力是在两个内核之间共享的,除非推土机只出单核产品,否则的话每个内核实际上只有双发射能力,单核心性能上比K10却是有下降的,后面的测试也证明了这一点。

浮点单元:弹性共享

  AMD认为浮点运算在CPU中只占20%的分量,利用率不如整数单元那么充足,因此每个模块只有一个浮点单元,也就每两个内核共享一个浮点单元,为此AMD将其设计成“Flex FP”弹性浮点单元。

  AMD的Flex FP单元实际上是由两个128bit FMAC(浮点累积乘)浮点单元组成,它可以执行1条256bit AVX指令或者1条128bit AVX指令或者2条128bit AVX指令,同时还能执行Intel不支持的FMA4(Fused Multiply Add,融合乘加,一条指令里同时含有乘法和加法,如A=B+C*D)和XOP指令(eXtended Operations,AMD利用AVX规范重写的SSE5指令)。

推土机的Flex FP弹性浮点单元理论上有很强的适应性

  AMD宣称弹性浮点单元具有很高的灵活性,1条256bit或者2条128bit指令自然可以充分利用整个浮点单元,如果执行的是1条128bit指令,还可以降低功耗,因为闲置功耗只有峰值功耗的2%。

  AMD的弹性浮点理念还是很新奇,但是结合后面的测试来看,推土机的浮点性能根本无法与SNB相匹敌,部分非AVX/AES指令测试中甚至不如自家的K10,再次画了一个大饼。这个问题还要回到架构设计上来,推土机的浮点单元是两个内核共享的,如果是多线程应用,每个内核能分配到到浮点单元依然只有128bit,同时执行256bit AVX指令的话就得有排队等待的,结果吞吐量跟K10一样,而SNB在同样状况下依然是256bit位宽,孰优孰劣立马就显示出来了。

核心架构:8核庞然巨物

  桌面版的推土机代号为Zambezi(赞比西河),最多有四个模块八个核心。

推土机的核心架构一览

  推土机的多核CPU就跟搭积木一样,通过调整模块数量即可组合成双核、4核、6核、8核,服务器市场甚至会有12核和16核CPU。(不过奇数核心的奇葩产品可能就要退出市场了,没必要了)

  推土机的缓存依然是三级,但是设计与前代K10稍有不同。推土机每个微内核中有16KB L1数据缓存,4-Way并联,每个模块共享64KB 2-Way L1指令缓存,单模块共计96KB L1缓存,而K10架构中每个内核都是64KB数据+64KB指令缓存,总计128KB L1缓存。

推土机的缓存设计是精简L1,扩大L3

  L2缓存是每个模块共享2MB,16-Way并联,划分到每个内核则是1MB,与K10四核的512KB相比增加了一倍,与无L3缓存的Athlon II持平。此外,所有模块共享8MB 64-Way L3缓存,比K10的最多6MB L3缓存也有所增加。

  从架构设计上来看,推土机不乏创新之处,颇具新意的模块化思路,独立的双整数单元、共享式弹性浮点单元等设计都是对传统X86设计的改革,但是革命能否成功,光有理念是不行的,具体的性能测试才是最终的关键,这一点还要留待测试来证明了。

◆ 新指令新工艺,推土机大升级

  除了架构革新之外,推土机的外围技术也很有价值,例如比AVX指令更丰富的XOP指令集、更加灵活的二代Turbo Core动态加速技术、32nm SOI工艺与功耗管理等等。

SSE5不死,推土机支持更多指令集

  推土机的问世不仅补全了AMD在SSE4、AES以及AVX指令集上的缺失,还带来了更多的非Intel指令集。由于抢先推出的SSE5指令被Intel无视,AMD在无奈支持AVX指令之后依然没有放弃SSE5,利用AVX规范重写了SSE5指令,并命名为XOP指令。

XOP指令是推土机独家支持,在一些支持此指令的测试中会有一定的性能提升

  XOP指令最有代表性的是FMA4-操作指令,Intel的AVX最初是支持FMA4指令的,但是最终版本AVX规范还是停留在FMA3,而AMD坚持认为FMA4更有利,因此在支持FMA3指令的的同时独家支持FMA4指令。

  指令集本身的好坏不谈,最关键的是看软件和应用是否支持,不然指令集再优秀也空无一用,目前AVX指令优化的软件尚且不多,XOP指令就更难说了,还得AMD自己针对性地出优化补丁。

Torbo Core 2.0:多核同时加速不是梦

  Intel和AMD都有自己的CPU动态加速技术,Itnel的Turbo Boost发展到了第二代,不仅可以加速CPU还可以加速GPU。随着推土机的发布,AMD的Turbo Core加速也进化到2.0,调整范围更大,而且可以支持所有内核同步加速,比前代6核CPU更为智能。

FX-8120为例,基础频率为3.1GHz,8个核心可以同步加速到3.4GHz

HT 3.1不见了?内存规格新高

  在之前的消息中,AMD表示推土机的HT总线将升级为HT 3.1标准,最高频率从2.6GHz提高到3.2GHz,速率提升至6.4GGT/s,不过手头的这颗FX-8120的HT总线速度依然是2.6GHz,与Phenom II相同,好在HT总线速度并非推土机的性能瓶颈,更高频率的HT总线对多路服务器才有意义,不是HT 3.1标准也没什么实质影响。

  内存规格上倒是没有变动,推土机如约支持DRR3-1866MHz,CPU内集成两条72bit DDR控制器,支持双通道DDR3-1866/1600/1333/1066MHz等多种规格。

32nm SOI制程和功耗管理

  虽然AMD已将晶圆工厂剥离,但是制程工艺问题一直是AMD的软肋,APU就是前车之鉴。推土机使用的也是GF的32nm SOI工艺,并首次应用了HKMG技术。

推土机的制程工艺也追上来了,使用了GF 32nm SOI工艺

  推土机集成的晶体管数量达到了20亿个,与Phenom II X4的7.58亿、SNB的10亿相比绝对是庞然大物,核心面积也从K10的258mm2增加到315mm2,规模暴增的同时TDP功耗却没有同比增加,除了工艺更先进之外,功耗控制技术也功不可没。

  推土机身上应用了PowerGate电源门控、Digital APM数字APM监控、De-Populated Clock Grid频率晶格等功耗管理技术,再加上SOI工艺的漏电流更小,因此整体功耗依然控制在主流水准内。

◆ 规格大比拼,FX-8120登场亮相

  本次测试中用于对比的CPU是AMD Phenom II X6 1090T以及Intel Core i5-2500K,选择前者是要对比推土机与AMD当前顶级CPU性能是否有提升,选择2500K则是因为二者定价相近,FX-8120官方价为205美元,2500K为216-224美元。

FX-8120与X6 1090T、i5-2500K规格对比

  上图中价格分为两部分,*星号标注的是官方定价,不过地球人都知道AMD的官方售价在国内没什么意义,盒装FX-8120网上商城的售价在1899-2018元,盒装X6 1090T在1225-1379元左右,而盒装活i5-2500K在1500-1600元之间。

Core i5-2500K(左)、FX-8120(中)以及X6 1090T(右)的正面对比(点击放大)

Core i5-2500K(左)、FX-8120(中)以及X6 1090T(右)的针脚对比(点击放大)

CPU-Z 1.58.7显示的FX-8120参数

  这里要说一下,CPU-Z的TDP识别是不准的,FX-8120的TDP是125W,这个参数在不同CPU-Z版本里变化很大,显示为174W的也有,280多W的也出现过。

AMD AOD 4.04显示的CPU信息

◆ 推土机的新座驾,技嘉990FXA-UD5主板简介

  推土机御用的主板是AMD 900系列,有关990FX芯片组的详细介绍我们也有相关文章。测试使用的是技嘉GA-990FXA-UD5,以往技嘉的A系主板后缀大都只到UD3级别,这次破格升级到UD5,看来对AMD推土机的支持力度要上升了。

AMD 990FX芯片组架构图示

技嘉990FXA-UD5主板(点击放大)

  技嘉990FXA-UD5主板采用标准ATX板型(30.5*24.4cm),配以高端主板百看不厌的黑色PCB,豪华不失大气。

主板配备了5条PCI-E显卡插槽,支持三路CF、三路SLI

  990FX芯片组获得了NVIDIA SLI授权,技嘉这款UD5主板就提供了5条PCI-E插槽,支持三路CF、三路SLI,游戏玩家也不用羡慕Intel平台的SLI多卡互联了,现在990FX主板一样可以组建SLI。

四条DDR3内存插槽

  主板提供了四条DDR3内存插槽,支持双通道DDR3 2000(OC)/1866/1600/1333MHz内存模式,最大容量32GB,内存独立2相供电。此外,技嘉称首次在AMD主板上实现了XMP内存支持,其BIOS中有个DRAM E.O.C.P选项,开启之后凡是符合XMP规范的内存即可实现自动超频,与Intel平台一样方便。

SATA接口有8个,黑色的6个为SB950南桥原生支持,灰色的为Marvel 88SE9172提供

技嘉990FXA-UD5的接口非常丰富,USB 2.0接口就有10个之多

技嘉990FXA-UD5主板采用了8+2相供电

  AM3+的插槽供电能力从AM3的110A提高到145A,相应地供电电路也要有所增强。技嘉这款主板的供电就设计了8+2相,8相核心,2相内存控制器。主板的用料与做工也是上乘的,全日系固态电容、整合型Driver MOSFET、封闭式铁素体电感的配件相比竞相缩水的主板来说强太多了。

声卡虽然是集成的ALC889 7.1声道芯片,但是信噪比高达108dB,播放高清音视频效果更好

  除了上面介绍的一些特点外,技嘉990FXA-UD5还支持2倍铜、On Charge快速充电、USB 3倍电力等实用技术。这款主板的市场售价多在1699元,在高端990FX主板中价格还很有优势,打算入手推土机平台的用户不妨看看。

◆ 测试平台及说明

  测试平台为Windows 7 X64 SP1,安装了催化剂11.9显示驱动和相应的南桥驱动。

  测试主体可以分为两大部分,CPU性能和游戏性能,前者主要是侧重CPU理论运算、图形处理、音视频转码、3D渲染以及文件解压缩等等,游戏性能更佳侧重平台性能,搭配的是HD 6950 2GB显卡。

  除了对比默认频率下的CPU性能之外,还比较了这三款CPU的同频率性能,后者更侧重于同频率同核心下的性能对比,只是目前的990FX主板似乎不能手动设置启用的核心数量了,只能比较同频率下的性能了,好在还有一些程序可以自主设置线程数量,因此单核同频性能还是可以比较出来的。

  测试数据比较多,下面按照不同分类排列,首先是默认频率下的性能对比。

◆ 核心运算性能测试:推土机喜忧参半

  SiSoftware出品的Sandra软件涵盖的测试内容非常全面,在CPU一项中就有算术性能测试、多媒体指令性能测试、多核效能等等,2011版又增加了Cryptography密码加密解密测试,支持AES、AVX等新指令。

处理器算术性能测试

  这部分测试中,Dhrystone使用的是SSE 4.2指令,而1090T不支持SSE 4.2指令,性能偏低不足为奇。2500K以103.9GIPS领先于FX-8120,而在Weststone中FX-8120反超,综合下来二者运算能力相近。

处理器多媒体性能测试

  多媒体性能测试支持AVX指令,先天不足的1090T再次垫底,FX-8120每个模块有两个整数核心,比2500K多出一倍,因此243MPix/s整数性能比2500K的166.6MPix高出46%,但是在AVX浮点以及双精度测试中就大幅落后与2500K了。

处理器密码性能测试

  加密性能测试中主要为AES和AVX优化,,因此1090T的性能低的可怜,对比2500K和FX-8120来说,由于这部分测试偏重于浮点性能,前者仍然以大比分领先,FX-8120只有2500K 三分之二的性能水平。

多核效能测试

  多核效能考验的是内核之间的带宽和延迟,FX-8120的核间带宽以9.23GB/s居首,但是延迟高达205.2ns,不仅大幅落后于2500K的39.1ns,比1090T的76.7ns也高出甚多,或许这是架构设计的差异而导致的,但是这么高的延迟对推土机的性能肯定是有不利影响的。

◆ AES及AVX指令集测试:SNB依然强悍

  K10的指令集只支持到SSE 4a(SSE 4.1的4条子集外加AMD自创的2条),遇到新指令时性能有很大缺陷,推土机终于补全了SSE 4、AES以及AVX全部指令集,这部分测试主要侧重于AES指令和AVX指令,实际上前面的Sandra 2011软件中就已经反映出二者在指令集上的性能差异了。

TrueCrypt 7.1 AES加密性能测试

  TrueCrpt是一款加密软件,支持AES-128加速,软件自带benchmark工具,可以测出不同CPU对AES加速的区别,测试结果以GB/s显示。

FX-8120的AES加速性能比2500K稍好,不支持AES指令的1090T杯具了

AIDA64 CPU AES测试

  AIDA64的CPU测试里也支持AES加速测试,同时对多核心、多线程支持良好。

本节测试中2500K领先FX-8120三分之一强

AVX指令性能测试

  AES加速指令主要用于加密,通用性和全面性不如AVX指令,因此下面这一项测试的是CPU AVX指令性能,AIDA64的CPU Hash、CPU Julia以及CPU Mandel都对AVX、XOP指令有过优化,同时也对多核心多线程支持良好。有关AVX指令的详细介绍可以参考这篇文章

除了CPU Hash一项,FX-8120在Julia和Mandel两项中再次败北

KribiBench测试

  Kribi 3D也是一个3D渲染软件,最新版专为AVX指令优化过,官方宣称其在支持AVX指令集的CPU上性能可以提高20-30%,这里也用它做了一番AVX指令的实际性能测试,毕竟AIDA64的测试太过理论化。

Kribi Bench测试中2500K依然大幅领先

  有关指令集的测试主要是想做个验证,因为指令集性能很难单独剥离出来,它跟核心架构和核心数息息相关,比如1090T不支持AES和AVX,但是并非所有测试都是垫底的,频率和核心对测试结果依然有影响。

  就目前的几个样本测试来看,趋势还是明显的,虽然推土机的指令集也补全了(个别如XOP指令甚至比SNB还要全),但是具体指令性能上还是比SNB要差的,在整数型AVX指令上还可以凭借多一倍的整数单元领先,但是在浮点性能上就差远了,AMD的弹性浮点单元并没有他们说的那么美好。

◆ 内存带宽及延迟测试:推土机延迟升高

  这部分测试主要使用了Sandra 2011和AIDA64两个软件,分为内存带宽和内存延迟两个部分。

无论那个软件的结果,推土机的内存带宽依然落后于2500K

  推土机的内存可以支持到双通道DDR3-1866,规格比Intel平台要高。测试时运行在DDR3 1600 9-9-9-24模式,双通道理论带宽为25.6GB/s。

  Sandra 2011测出的FX-8120带宽为18GB/s,AIDA64测出的内存读取速度为13.16GB/s,都要比2500K的21.54、18.84GB/s低20%以上。当然,相比于1090T,推土机的内存性能还是有进步的,从9GB/s大幅提高到了13GB/s。

内存延迟上自然也是推土机居首

  在延迟上,FX-8120依然落后与2500K,比自家1090T的74.7ns也要高。

  在内存性能上推土机架构相比AMD前代CPU还是有进步的,内存带宽提高了50%左右,不过与对手相比,同内存类型下其带宽和延迟依然要大幅落后。

◆ 多线程还是单线程,让应用来证明

  多线程vs.单线程的话题已经纠结了好多年了,自从CPU进入多核时代开始,如何提高CPU性能就有了不同发展方向,由于CPU性能不给力,AMD走的是物理多核路线,而Intel处理器的单核效能强,只推超线程,对6核以上的桌面CPU并不热心。

  这部分性能测试将讨论这个问题,测试有单线程,也有多线程。

考验单核性能的SuperPi测试中推土机的差距巨大

  SuperPi也许是目前AMD最不喜欢的测试项目,他们的理由肯定是单核心性能没有代表意义,但是这个测试依然是简单直接反应CPU单核性能优劣的指标之一。在这里,推土机不仅与2500K有质的差距,甚至比自家的1090T都要差5秒之多,简直就是P4时代,让人恍如隔世,。

对多线程优化较好的wPrime中与2500K持平

Fritz Chess 测试中1090T发威,2500K与FX-8120还是平手

  wPrime和Fritz是常见的多线程测试软件,在这两项中推土机多少跟2500K打个平手,只是比1090T还差一些。

日常应用性能测试更有说服力

  无论是单线程的SuperPi还是wPrime、Fritz这样的多线程软件实际上都很空洞,结果看看就罢了,谁也不会整天拿CPU来跑这些测试,更有代表性的测试还模拟日常应用的PCMark 7

  推土机FX-8120综合得分只有2736分,低于2500K的3282分,也低于1090T的2913分,至少在日常应用中FX-8120是没什么优势了,这并不是说推土机性能不足以应付日常应用,只是横向对比,推土机在这方面与Intel处理器还是没得比的,没有多线程应用,推土机的劣势马上就显现出来了。

◆ 文件解压缩性能测试:多核有优势

  日常应用中文件解压缩是很平常的事,目前主流的解压缩软件是WinRAR和7-Zip,两款软件也自带benchmark测试,而且对多线程做了优化。

WinRAR测试中FX-8120的8核发挥了优势

7-zip中AMD的6核和8核也轻松碾压2500K

  在这两个测试软件中AMD核多力量大的优势得到充分展现,无论是WinRAR还是7-Zip中FX-8120都比2500K小有优势。

ISO文件解压缩测试

  这部分测试采用秒表计时,解压8GB大小的ISO文件,虽然压缩文件更考验CPU性能,但是从实际使用角度来看,普通用户还是解压大容量文件如游戏、大型软件之类的情况更多,解压测试不仅考验CPU,而且对内存性能也有一定要求,体现的是综合实力。

实际解压大容量ISO文件时2500K表现反超AMD多核

  解压这个ISO文件2500K用时289秒,比1090T快了32秒,比FX-8120快了45秒。

◆ 图像处理性能测试:2500K依然最快

  图像处理使用了PDN Benchmark和Photoshop Retouchartist's Speed,前者是Paint.net软件的一个性能测试插件,支持多线程,自动给出测试所用时间,后者是通过调用PS的动作处理一副图片,采用秒表计时。

PDN测试中2500K用时最短,不过三者差距并不大

PS测试中2500K只用了14.4秒,其次是1090T,FX-8120垫底

  图像处理测试中Intel的处理器表现还是最好的,两个测试都是用时最短,而FX-8120显得很尴尬,落后2500K不必说了,就连自家兄弟1090T也比不过。

◆ 音视频编码测试:SNB优势明显

dBpoweramp音频转码测试

  dBpoweramp是一个音频转码软件,测试中使用一个400多M的APE音频专为FLAC无损音乐,软件自带转码时间。

2500K用时只有36秒,FX-8120耗时50秒,甚至不敌1090T的45秒

MediaEsspresso 6.5转码测试

  MediaEsspresso 6.5是Cyberlink出品的转码软件,界面美观,使用简单。它的优势在于支持GPU加速和Intel Quick Sync加速,这里主要是用来考察CPU转码性能的,因此禁用所有硬件加速转码功能,测试将一段H.264 1080P视频转成480x320的MP4文件。

此处FX-8210终于胜过1090T了,不过还是大幅落后于2500K

X264 HD Benchmark 4.0测试

  X264 HD Benchmark 4.0是Techarp网站推出的编码性能测试软件,同样也对多核心多线程做了优化。

X264 HD的测试结果冰火两重天

  在较简单的1-pass测试中2500K对1090T和FX-8120再次碾压,不过在更复杂的2-pass测试中形势就反过来了,2500K垫底,1090T登顶,FX-8120居次,虽然三者的差距只有2-3帧。

Handbrake视频转码测试

  Handbrake转码软件在国内不算很常见,虽然是英文界面,但是使用起来还算简单,这个软件对多线程支持也很到位。测试选择了一段vc-1编码的1080p视频转成ip上通用的960x640分辨率,使用秒表记录转换时间。

2500K转码用时29秒,比FX-8120少了7.3秒

  结果跟前面类似,2500K用时最短,FX-8120用时最长,甚至不如1090T。

◆ 3D渲染性能测试:8核不敌4核

  3D渲染使用了Blender和CINEBench作为测试项目,Blender是一个开源、免费的3D渲染软件,有个专门的Blender benchmark,支持多线程。CINEBench更不用说了,大部分多线程测试都少不了这个软件。

2500K再次登顶,用时最短,FX-8120以0.5秒的优势终于赢了1090T

FX-8120在CINEBench R11.5中再次垫底

  CINEBench R11.5测试中FX-8120得分5.13分居末,2500K得分5.72居首,1090T得分也有5.45分,高于FX-8120。

  主流的3D渲染软件几乎都支持多核心多线程,这一节的测试中FX-8120虽然总体还是落后于2500K,但是差距比前面的测试要小多了,多多少少占了核心更多的便宜,不过更值得表扬的还是1090T,性能甚至要强于FX-8120。

◆ 3D基准性能:FX-8120险胜1090T

  PC玩家渴求CPU性能的一大用途就是玩3D游戏,现在新出的大型游戏对CPU性能要求也越来越高,《Crysis 2》这样的DX11游戏甚至都会推荐高端四核CPU才能玩的痛快。

3DMark 06中2500K在总分和CPU分数都是一骑绝尘

  3DMark 06是DX9性能测试软件,现在测试中出现的机会少了,但是其CPU性能测试还是很准确的,2500K得分达到6102分,FX-8120只有5077分,比1090T还低。

3DMark Vantage测试中1090T和FX-8120表现相近,2500K略微占优

3DMark 11中总分差距也不大,但是Physics分数2500K依然要比高20%左右

  在这三个3D基准性能测试中,基本上都是2500K>1090T≥FX-8120,单论到CPU性能上,2500K一枝独秀,性能比FX-8120要高出10-20%。

◆ DX9游戏:2500K完胜

  DX9游戏选择了三个常见的游戏,《街霸4》、《Left 4 Dead 2》和《星际2》,所有画质最大化设置。

《街霸4》中不开AA时2500K以243帧遥遥领先,开AA后略微低于FX-8120

《Left 4 Dead 2》中2500K在开/不开AA的情况下都是领先的,1090T次之

测试用的Demo涉及大量战斗场面,AMD处理器完败

  《星际2》中由于搭配的是A卡因此没有开AA,即便如此,测试demo中大量单位的战斗场面也让AMD处理器Hold不住,FX-8120只有43帧,1090T稍好点有46帧,大大低于2500K的64帧。

  DX9游戏对HD 6950这样的显卡来说毫无压力,测试差异主要体现在CPU性能上,不开AA的情况下2500K的帧数依然要明显强于FX-8120,甚至1090T都比FX-8120更强。

◆ DX10游戏:差距在缩小

  DX10游戏只选了两个,一个《FarCry 2》,另一个是《H.A.W.X》,所有画质最高,使用了游戏自带benchmark。

不开AA时2500K依然以20帧的领先大幅领先

2500K依然是NO.1,FX-8120也没拼得过1090T

  DX10游戏依然是一边倒,在轻负载下2500K依然领先,其次的则是1090T,FX-8120只能排第三。如果提高AA等级,负载开始向GPU性能偏移,三款CPU的性能差距逐渐缩小。

◆ DX11游戏:战成平局

  DX11是当前以及未来的主流,选择了四个,其中《Metro 2033》和《Crysis 2》对整机性能要求较高,《DiRT 2》和《Alien vs.Predator》对硬件要求就比较一般了。

Ultra画质的《DiRT 2》的成绩基本一致,可以忽略不计

High画质的《Metro 2033》中FX-8120翻身,65帧的速度终于比2500K快了一把

Very High设置的《Crysis 2》中三款CPU成绩也很接近,差异非常小

Very High设置的《AVP》中差距也很小

  DX11游戏对系统性能要求比DX9/DX10更甚,HD 6950也不能在《Crysis 2》和《Metro 2033》这样的BT游戏中开到最高画质,瓶颈主要在GPU上,因此CPU的性能差异对帧数影响比较小,FX-8120甚至还有机会翻盘,胜过2500K。

  在AMD官方展示过的推土机性能测试中,游戏性能是AMD发挥最多的,不比2600K差,有时还会拉上售价999美元的990X陪衬,它们的测试数据确实很相近,但是这是建立在这样一个前提下:游戏测试对GPU的依赖远大于对CPU的需求,测试帧数相近并非是CPU性能相同,而是因为GPU在起决定作用,CPU相对过剩,最终的结果自然就接近了。

  我们的游戏测试表现也是如此,开启最高画质、高倍率AA特效时2500K与FX-8120帧数很接近,但是在GPU负载较低的DX9游戏中,2500K依然大幅领先FX-8120,就连1090T都能在大部分游戏中领先推土机。

FX-8120 vs. 1090T:理论性能获胜,日常应用没优势

  FX-8120与1090T相比,在指令集支持、核心数量方面占优,因为橙色标明的部分测试使用的指令集不同,拥有先天优势的FX-812基本碾压X6 1090T,AVX Hash计算能力是1090T的459倍多,因此这部分差别排除在第一个平均领先成绩里。

  最终FX-8120比X6 1090T的实际性能只高了3.6%左右,算上指令集的差异则有42%的提升,核心数量更多、架构更新的情况下FX-8120并没有什么实质性能提升,这点实在让人失望,要知道推土机可谓AMD近几年的心血啊。

FX-8120 vs. X6 1090T:游戏性能平局收场

  游戏性能测试中推土机的数据好看了许多,由于目前的游戏整体上对CPU的要求并不苛刻,或者说CPU性能处于过剩状态,对帧数表现影响不如GPU那么严重,因此FX-8120与X6 1090T表现在伯仲之间,1.6%的差距可以无视,二者的游戏性能是基本相同的。

FX-8120 vs. i5-2500K:基本性能核多也被核少欺

  FX-8120的官方定价与Intel 2500K很接近,但是在性能上二者却不在一个量级上,除了AVX整数和多线程优化较好的测试如AVX Hash、wPrime、WinRAR、7-Zip这些测试中FX-8120有一定优势之外,其他测试中几乎全面败北,日常应用、视频编码、3D渲染以及图像处理都是大幅落后于2500K。

FX-8120 vs. i5-2500K:游戏性能差距有所缩小

  同样地,游戏性能再一次扮演了救世主的角色,FX-8120在游戏性能上虽然还是比2500K要弱,至少落后幅度没那么明显了,8%的差距对帧数影响并不大。

◆ 同频率下,推土机比K10进步了吗?

  这部分本来是打算在BIOS中仅启用一个核心比较同频率下推土机与K10、Sandy Bridge架构的效能的,不过测试用的990FX主板的BIOS中没有这项功能(Z68主板中倒是有),因此只能降至相同频率,核心数方面仍有差异,不过有些测试程序可以设置线程数或者只对单核优化,因此单核性能上还是能看出差异的。

  在这份表格上,橙色标注的测试成绩是没有计入最终的领先幅度中的,因为这几项测试中FX-8120与1090T使用的指令集有所不同,前者可以完整支持SSE 4.2、AES以及AVX,而1090T只能支持到SSE 4a,没有AES和AVX,测试中大比分落后与FX-8120不足为奇。

  当然,指令集部分也是推土机的优势,如果算上指令集的优化,其同频性能比1090T平均高出27.5%,日常应用性能平均领先就只有3.67%。

  从SuperPi、wPrime以及Blender等只使用单线程的程序来看,推土机的同频单核性能是要低于K10的,而且是大幅落后20%之多,这也很好解释,推土机的单个核心相比K10是要弱化的,解码单元、ALU运算单元都只有2个,而K10的单核各有3个。

  在同频率下,推土机的性能还是要胜过K10的,但是“胜之不武”,K10则是虽败犹荣,单核性能上新人比前辈还是要略逊一筹。

◆ 公平决斗,同频推土机直面Sandy Bridge

  前面比完了推土机与K10架构的同频性能,这里比的则是推土机与Sandy Bridge,二者在指令集支持方面更加平等(事实上推土机支持的指令比SNB还要多一些),推土机战胜自家的前代产品是必然,而与竞争对手的比拼才是最终的决斗。

  结果并没有悬念,同频率下推土机以25%之差完败于SNB,这还是核心数量更多的情况下,如果比拼的是同频单核,那么结局只能更惨。

  推土机也并非毫无机会,由于整数单元以及物理核心数量更多,FX-8120在整数AVX指令、AES加速等测试中还是很有优势的,但在浮点运算以及核心延迟上一败涂地,让AMD自信满满的弹性浮点单元在SNB面前并没有展现出什么优势。

  游戏性能上推土机的表现就好多了,差距都在3-10%左右,《Metro 2033》中甚至能扳回一局。

◆ 冰火两重天,功耗控制两极分化

  功耗对比或许不如性能对比那么直接,但是它也反应了厂商对CPU制程工艺、节能技术的控制,推土机的TDP在95-125W,支持电源门控、频率晶格等技术,32nm SOI制程也追上了Intel的32nm HKMG(高K金属门)工艺。

  由于侧重于CPU功耗,这部分主要测试了待机、9级Orths拷机以及《Crysis 2》游戏这三个负载,开启CPU的节能技术,包括AMD的C1E、CNQ以及Intel的C6、EIST等。

  此外还对比了同频率下三颗CPU的整机功耗,固定为3.1GHz,关闭了节能技术。

默认频率下整机功耗对比

相同频率下整机功耗对比

  FX-8120平台的待机功耗为119W,与1090T的118W持平,但是要比92W的i5-2500K平台高出27W之多,Orthos拷机下8120整机功耗比1090T低9W,但是远高于2500K整机的152W,在游戏负载差距更是达到59W,功耗高了四分之一到三分之一左右。

  相同频率下,由于推土机的核心数量比1090T多两个,待机高了2W,不过整体上二者的功耗差距逐渐拉低,《Crysis 2》中功耗只低4W。只是与Intel 2500K相比的话,推土机功耗上的劣势就非常明显了,待机上都能高上25W,游戏中也是高了60W左右。

  得益于32nm工艺,推土机在核心数量更多的同时功耗控制比K10还要优秀,但是与Intel相比依然很杯具,CPU满载以及游戏负载中同比高出50-60W左右,Intel在CPU功耗控制上非常强悍。

  CPU温度也做了简单测试,监控软件为AIDA64和AMD AOD,室内裸机,温度为23-24°左右,散热器为采融Super Mega,使用的是C版变形金刚的AMD扣具。

待机状态下CPU核心温度只有26°左右

拷机时温度也只有42°

  也许是散热器太强了,无论待机还是OR拷机,CPU温度都很清凉,而且AMD推土机零售版还会附送一套一体式水冷散热设备),CPU温度方面没有什么可担忧的。

ps:原本以为水冷是配套赠送的,实际上不是这样,水冷套装是给媒体送测的。超能网自己花2200多从香港购买一颗FX-8150处理器,只有铁盒包装,水冷是没有的。

◆ 推土机的唯一亮点,超频能力大幅攀升

  上一代K10架构中,AMD的CPU超频能力并不太让人满意,Phenom II X4/X6在1.4V或更高电压下风冷也只能超到4.0-4.2GHz,4.4GHz就很看RP了。相比之下,Intel自32nm工艺以来,默电4GHz、风冷4.5-5GHz都是常事。只是Intel的可恶之处在与处理器大都锁频,只有K系列能才能超频。

  推土机的工艺也升级到32nm SOI了,从之前AMD的宣传来看,其超频能力有很大提升,正式发布之前就有极限超频至8.4GHz的消息,还破了世界记录。本次我们也做了风冷超频,按惯例也分成了默认电压和加压超频。

默电超频可以上3.8GHz

  推土机的正常工作电压在0.86-1.1375V,Turbo时电压为1.264V。由于不锁倍频,在这个电压下我们只调节倍频,最高跑到了x19倍频,此时的频率为3.825GHz。

默认电压下倍频提高到x19,3.8GHz的频率运行1M SuperPi用时22.3秒

加压超频冲上4.88GHz

  技嘉990FX主板提供了丰富的电压选项,其中CPU核心电压最高可以增加0.6V(0.4V开始就有红线提示了),也就是说可以在正常工作电压1.1375V上达到1.7375V的最高电压。

  测试中电压增加了0.35V达到1.4875V,其他电压保持不变,CPU外频拉高到250MHz,倍频最高达到19.5x,NB和HT总线频率略降至2000MHz,最终超频至4.875G。

19.5x倍频、250MHz外频下达成4.875GHz,1M SuperPi用时17.7秒

  当然,这个时候长期稳定使用是没戏的,只能运行一些轻负载的测试,无论是OR还是AOD自带的稳定性测试都坚持不了几分钟,这里只是简单验证了一下推土机处理器的超频能力。

  无论如何,推土机的超频能力算是本次测试的最大亮点,这也是推土机唯一能与SNB相提并论的地方,默认1.13V比SNB的1.2V工作电压还要低,本次超频中可以在1.488V下达成4.88GHz的水准,SNB超频至4.5-5GHz需要的电压也不低于1.45V,二者的超频能力还是很接近的。

◆ 推土机长征再次败退,暂时不值得入手

  钱钟书有一句话,对于吃不到的葡萄,我们不一定把它想象成酸的,也可能把它想的分外甜。推土机未发布之前,想必很多人都会怀着美好的愿望期待推土机来个大爆发,性能强功耗低,价钱还是那么低廉,就算不买AMD的CPU也肯定希望AMD能逼Intel大降价吧。

  到手之后证实推土机的表现不过尔尔,用两个字评价就是“失望”。

对推土机架构设计的评价

  推土机的模块化设计很有新意,甚至可以说AMD的研究人员很有创新意识,在物理多核与超线程之间找到了第三条路。但是“心比天高,命比纸薄”,实际测试中推土机的革命性架构证明了它只是看上去很美,除了整数型运算尚可凭借更多的核心保持优势之外,大多数测试中完败于Intel SNB架构,同频性能甚至不如自家的1090T。

  事实上,要不是有指令集上的先天差异,8核的FX-8120在日常应用和游戏测试上真的不如X6 1090T,因为后者的单核规格要比推土机更强。AMD花费数年心血开发的新一代CPU竟然不如老态龙钟的K10,Intel都开上跑车了,AMD还在摆弄拖拉机,这多少让人匪夷所思。

  虽然不吐不快,但是也不用为AMD杞人忧天,推土机的架构更适合高负载的服务器应用,推土机首批出货的也是服务器级的Interlagos,CRay公司也早就宣布了会使用推土机打造未来的超级计算机,这说明服务器市场还是欢迎推土机处理器的。

对FX-8120处理器的印象

  测试用的是FX-8120,在它上面还有频率更高的FX-8150,性能表现能更优秀一点。单就FX-8120来说,它唯一让人高兴的是超频能力,普通风冷下接近5GHz的水准已经追上了2500K。除此之外,FX-8120就没什么亮点了,性能上只在个别项目中占优,日常应用和游戏中拼不过英特尔的Core i5-2500K,也打不过自家兄弟1090T。功耗上比1090T表现稍好,但是与2500K相差甚远,游戏功耗要高出60W之多,即使同为32nm工艺,FX-8120也要为其庞大的晶体管规模埋单。

  性能失利并非关键,反正目前的CPU性能过剩,水平差点也不会有什么致命影响,价格便宜就行了。FX-8120最大的麻烦就是完全丧失了性价比,官方205美元的标价还算公道,但是市面上开卖的价格大都在1900-2000的样子,这样的价格别说碾压2500K了,顶级的i7-2600K也不过如此。花更高价钱去买个性能差、功耗高的CPU,这完全不应该是一个智商正常的人所能作出的决定,这样的价格、如此的性能,AMD你如何让你的粉丝支持你?(被忽悠的和自愿献身的除外)。

  这样的杯具在APU身上已经上演过一次了,主要原因还是GF的产能跟不上,即使AMD卖掉晶圆厂,工艺和产能的问题一时间也解决不了,更惨的是Intel使用3D晶体管技术的22nm工艺就要来了,AMD只能再次看着Intel绝尘而去。

推土机还有翻盘的机会?

  推土机出师不利有人认为是软件优化的问题,因为架构变化太多,应用程序需要重新适应也是情有可原的,AMD给媒体送测时还有两个优化补丁,x264-XOPbranch-AVX以及x264-XOPbranch-XOP,这两个补丁针对X264 HD Benchmark,可以使用新的XOP指令集提高编码速度。本文不是官方评测,AMD自然没给我这个补丁,也不打算搜索了,看过有人做的对比,其性能确实有提高,但是提升幅度也就相当于一个安慰奖,不可能有质变。

  还有一个更玄乎的Win8多线程补丁,据说可以提高15%的性能,这个就算真有,微软也不会只照顾AMD一家,你有提升别人也有提升,还是姑且当作流言吧。

  AMD目前确实还在改进推土机,目前上市的推土机属于B2步进,AMD还在折腾B3步进的工作,从以往的经验来看,B2到B3这样的步进大都是一些Bug改进,即便是从B到C这样的步进也不可能带来性能上的大变化,B3步进的推土机很可能是降低功耗、改进内存时序、提升最高工作频率等问题修正,指望步进修正翻盘是不可能的。

增强型推土机架构将在明年亮相

  再远一点的就是增强型推土机架构Komodo了,目前的信息知之甚少,其CPU部分代号为Piledriver,最大核心数将提升为10个,使用GF的28nm工艺制造,至于具体性能则无从得知,既然名为增强架构,性能应该是有提升的,只是到时候又要面对Ivy Bridge的攻击了,胜负之数难料。

  姗姗来迟的推土机现在终于有个结果了,不论是“比Core i7-950还要快50%”还是SuperPi 1M只要7.8秒的流言都可以终结了,比Core i7快50%的情况在部分条件下还有可能达到,但是SuperPi 1M只要7.8秒是推土机无能为力的。虽然我尽力平抑自己的基调,但是此番推土机的失利是全方位的,性能、功耗、价格全面落后于Intel,AMD把FX品牌从K8时代带回来了,但是现在的竞争态势仿佛又回到了K8时代,不同的是AMD和Intel的位置对调了。

  Intel,你又赢了。



查看全部评论(159)

回复