SNB系列第八弹,Sandy Bridge处理器同步评测

2011-1-5 09:00  |  作者:meteor   |  关键字:Sandy Bridge评测,Core i7-2600,Core i5-2500k,Core i5-2300,核心显卡

  历史的钟声刚刚在2011年敲响,英特尔新一代微架构Sandy Bridge就正式发布了,在今后一段时间内, 它将是所有目光的聚焦点。<br><br>  Intel的“Tick-Tock”钟摆发展模式正紧跟着时间齿轮而有条不紊地前行,Sandy Bridge微架构的诞生为消费者们带来了新的惊喜。

本文约16855字,需28分钟阅读
  如果翻看几年前的资料,可以发现,在那时候,英特尔处理器32nm制程下的两个微架构分别是Nehalem-C和GESHER,尤其是后一个,对我们来说是相当陌生的。

  几年前的资料,今天的微架构代号为GESHER

  当然很多读者能猜得出,昔日的Nehalem-C就是今天的Westmere(Clarkdale核心Core  i5/i3的微架构),而GESHER无疑就是最火热的Sandy Bridge(SNB)。

  在希伯来文中,GESHER是桥梁的意思,对于Sandy  Bridge来说,这是一个恰如其分的比喻,它是英特尔三个分割世界的综合体:融合了P6(代表Pentium  Pro)、NetBurst(代表Pentium  4)的特性,并整合了新一代图形核心,这样的结果使得一个创新的微架构集成在32nm制程的单芯片上。

  英特尔的“Tick-Tock”战略众所周知,“制程技术-微架构”交替更新,偶数年带来新架构,而奇数年则带来工艺的进步。在2010年伊始,英特尔就将制程提升到了32nm, 而今年微架构将升级到新一代的Sandy  Bridge。

  历史的钟声刚刚在2011年敲响,英特尔新一代微架构Sandy Bridge就正式发布了,在今后一段时间内, 它将是所有目光的聚焦点。

Sandy Bridge微架构简介

  Sandy  Bridge是一个全新的基于昔日P6和NetBurst微架构某些元素的集合,虽然它比较相似于P6,但是还是存在着较大的不同,当然了,上一代Nehalem的上一代Core微架构也是脱胎于P6,Sandy  Bridge也深深烙下了P6的印记。而像uop缓存和physical register  file(物理寄存器文件),它们都是从NetBurst微架构上汲取过来的。总体上,Sandy  Bridge的每个方面都较上一代Nehalem有所提高。

  Sandy Bridge核心图

  虽然Sandy  Bridge还是采用的32nm制程,但相较于Westmere,它真正将GPU与CPU融合,从以前的双U各立山头到合二为一,就是非常大的突破。当然Sandy  Bridge的变化并不仅限于此,其主要特性还有:

   • 32nm工艺全新微架构,性能更高功耗更低
     –新的分支预测单元
     –新的Uop缓存
     –新的物理寄存器文件
     –有效执行256位指令
     –放弃QPI,改用环形总线
     –最末级缓存LLC机制
     –新鲜的系统助理

   • 32nm工艺新一代图形引擎,出色的媒体与视频性能

   • 高级矢量扩展指令集(Intel AVX),加快浮点运算密集型应用

   • Turbo Boost 2.0睿频技术,动态调控CPU和GPU频率

  从Nehalem开始,英特尔将处理器核心分为了核心(Core)与非核心(Uncore)两部分, 我们在讲述Sandy Bridge架构上改进的时候,也将分开Core和Uncore来叙述,不过需要先了解一下CPU内部的工作流程。

CPU工作流程

  P6是首个乱序执行(Out of Order Execute)的微架构,作为P6繁衍的产品,Sandy BridgeNehalem都是采用乱序执行超标量(Superscaler)x86指令的架构,其内部的工作流程基本如下:

  一套完整的计算机程序是由很多指令组成的。在执行前,程序首先被加载到内存中,程序执行时,处理器首先要从内存或高速缓存中获取指令,这个过程被成为取指 (Instruction Fetch)。在处理器取到指令后,需要判断这条指令是什么类型的指令,究竟要执行什么操作,这个过程被称为译码 (Decode)。在指令被译码后,需要为这条指令分配它计算所需要的资源,例如加法器等,这个过程被称为分派和发射 (Dispatch和Lauch);指令在计算单元中具体执行的过程被称为执行 (Exectue);执行结束后,需要将运行结果存回目标地址,这个过程被称为回写 (Write Back)

  如图上所示,在处理器内部的电路单元设计与上述过程是一一对应的。Sandy  Bridge对比Nehalem在核心部分就以上每方面都做了相应的改进。

  在深入了解Sandy Bridge微架构之前,首先我们先来了解一下Nehalem微架构处理器的核心功能区间划分:

  Nehalem核心微架构图

  Nehalem微架构中的任何一款处理器其核心(Core)部分的电路设计均如图上所示,只有非核心(Uncore)部分不同,以及是否遮蔽了超线程技术。Sandy Bridge微架构采用了同样的方法用以划分高、中、低端产品。

  从下文开始,将开始介绍Sandy Bridge在Core部分的具体改动部分。

取指:新的分支预测单元

  CPU前端的主要任务是从指令流传递足够Uops(微操作)来保持后端饱和状态,指令流的传递总是受到分支的干扰,Intel的微架构一个比较注重的地方就是分支预测,分支预测在每一代都有所提高。

  Sandy Bridge保留了Nehalem的四个分支预测器:分支目标缓存(the branch target buffer)、 间接分支目标阵列(indirect branch target array)、回环检测器(loop detector) 和命名返回堆积缓存(renamed return stack buffer)。不过Sandy Bridge将分支预测器(Branch Predictor)从取指单元( Instruction Fetch Unit )中分离出来并重新定义分支预测单元(Branch Prediction unit)。

 新的分支预测单元主要提升了CPU内部对嵌套语句预测的正确率与预测速度:

  1、支持多个不同的分支目标大小,能够跟踪更多分支目标;
  2、将分支按照长短不同历史进行划分;
  3、分支历史表中同样的位可以对应更多分支。

  当前的处理器大多是超标量流水线结构,因此流水线中一般都有几十条指令在同时运行。如果其中一条分支指令的预测产生错误,处理器将不得不清空流水线中分支指令后的所有指令,并且从正确的位置重新取指、译码、执行。这样即会导致处理器的效率严重降低。由于程序中分支指令往往较多,因此分支预测的正确率对处理器的性能有着至关重要的影响。

译码:新的Uop缓存

  在Nehalem微架构的CPU中,经过译码后生成Uop(微操作)储存在解码后指令缓冲中,当CPU执行指令时,循环流检测器会检测其中数据中的循环,只要满足小于等于Uop的限制,那么Nehalem就可以将这个循环保存起来,不再需要重新进行取指、分支预测、译码等操作,从而提升了对于循环处理的性能。

  不幸的是这28条Uop实在是太少,一旦发生高速缓冲未命中,特别是在SMT同步多线程之后,未命中率加倍的情况下,这时候CPU就不得不到从内存中查找数据,这将极大的降低CPU的运算效率。有鉴于此,在新的Sandy Bridge微架构中对该限制进行了大幅改善,相关的限制有28条大幅扩展至1500条,大幅降低了高速缓冲未命中发生的几率。

  Sandy Bridge在前端增加了译码Uop缓存(Decoded Uop Cache),总容量为1.5K uops,据Intel表示,Uop缓存像一个6KB执行指令缓存,拥有大约80%的命中率。相比之下,p4 12K Uop的追踪缓存的性能应该类似于8KB-16KB的。然而,Uop缓存命中可以跨越32B完整的指令窗口,这加倍了传统的前端带宽,它仅限于16B的指令提取。

  Sandy Bridge的Uop缓存和P4的追踪缓存关键差异之一是Uop缓存是为了从根本上增强传统的前端。相比之下,P4企图利用追踪缓存以取代前端。

  Uop缓存是Sandy Bridge最有前途的功能之一,它同时降低功耗和提高性能,它避免X86耗电的解码,横跨数个流水阶段,需要相当昂贵的硬件来支持不规则的指令集。一般来说,Uop缓存似乎避免了追踪缓存上的一些问题,同时提供了更节能的方式。

分派和发射:物理寄存器文件

  Sandy Bridge的乱序执行是P6和P4微架构的结合,Sandy Bridge的前端可从两个线程的其中一个提供4个Uop/每周期。Uop此时仍是按有序进行,并分配必要的资源来跟踪执行。每个Uop分配一个序列进入到ROB(Reorder Buffer),跟踪状态和完成情况,并维持正确的程序顺序。

  一旦Uop已分配和重新命名,它们可以自由地执行乱序工作。Sandy Bridge使用是一个统一的调度程序(Entry Unified Schedule)实现线程之间动态共享,但容量是Nehalem的1.5倍。这促就了更灵活的指令组合,以有效地执行指令任务。一旦Uop准备就绪,它会发去相应的执行单元。像Nehalem/Sandy Bridge可以发出6个Uop到不同的端口和每周期撤离4个Uop。

  重要的是,在Nehalem架构中,位于乱序执行调度阶段的退回寄存器文件(Retirement Register File)单元每时钟周期只可以执行4个Uop的寄存器文件写入。而在Sandy Bridge架构中,该单元被重新设计为物理寄存器文件(PRF,physical register file),其寄存器文件中存储的是Uop操作数,而微操作在乱序执行引擎中只会携带指向操作数的指针,而非数据本身。这就大大降低了乱序执行硬件的功耗(转移大量数据很费电的),同时也减小了流水线的核心面积,数据流窗口也增大了三分之一。

  实际上PRF早在NetBrust微架构的P4上就得到应用,这次再现于Sandy Bridge,RPF的使用加大了乱序执行缓冲,能够很好地满足更高吞吐量的浮点引擎,配合AVX(Advanced Vector Extensions,高级矢量扩展)指令集,让浮点性能更上一个台阶。

执行:有效处理256位指令

  Sandy Bridge执行单元经过修改,通过有效地执行256位AVX指令,可量化地增加了一倍的浮点性能,几乎所有的256位AVX指令解码成并执行一个单一的Uop。不过Sandy Bridge并没有将数据通道拓宽到256位,而是将SIMD整数堆栈归到不同的端口,而是巧妙地重新利用现有的128位SIMD和128位浮点数据路径共同执行256位Uop。

  在以往的Nehalem架构中,载入和存储地址的两个端口功能是固定的,在Sandy Bridge架构中,这两个端口同时具有载入和存储地址的功能,在执行单一操作的时候将得到成倍的性能增长。

  Sandy Bridge也提高了特定的安全性能,如AES(Advanced Encryption Standard),在上一代的Westmere微架构中其实已得到应用。Sandy Bridge还提高了SHLD性能,这应用于SHA-1散列,其它的像大量数字的微操作吞吐能力也进行了一定的增强。

◆ 放弃QPI,改用环形总线(Ring Bus)

  在Sandy Bridge中,我们可以认为核心部分只是一系列的改进,而在非核心(Uncore)部分的改动却是巨大的。英特尔在Sandy Bridge中加入了一系列新的技术,使得新老两款产品有了本质的区别。

Clarkdale核心图

  在Nehalem和Westmere微架构中,处理器核心与PCIE控制器、内存控制器、GPU图形核心之间是通过QPI总线相连的,而在Sandy Bridge中,CPU核心和GPU核心得以完全融合,英特尔也放弃了使用已久的QPI总线方式,改为采用在服务器处理器常用的环形总线(Ring Bus)。

  Sandy Bridge主要模块对应三个功率和频率域:核心和最末级缓存(LLC,Last Level Cache,即L3)、GPU和系统助理(System Agent),前两者的电压和频率是可变的,而系统助理则以固定频率运行,环形总线将这几部分互连起来。

  这条环形总线由四条独立的环组成,分别是数据环(DT)、请求环(QT)、响应环(RSP)、侦听环(SNP)。每条环的每个接入点在每个时钟周期内都能接受32字节数据,而且环的访问总会自动选择最短的路径,以缩短延迟。

  Sandy Bridge环形总线具备六个“站台”,四个核心和LLC的共享站台,还分别为图形和系统助理准备的两个站台。每一个站台通过每个连环进入到三级缓存(LLC)。它不再像Nehalem和Westmere一样是统一的实体,而是被分配更高带宽和关联性(类似于Nehalem-EX和Westmere-EX)分区。

◆ 最末级缓存LLC机制

  在Nehalem中,三级缓存作为处理器核心的附属品,只能被处理器核心访问。在Sandy Bridge中,传统的三级缓存除了处理器核心之外,系统助理(System Agent)和集成图新核心(Integrated Graphic)都通过环形总线都拥有属于自己的接入点,可以直读写问其中的数据,英特尔将这种全新的缓存机制命名为最末级存(LLC,Last Level Cache)。

  从英特尔公布的数据来看,最末级缓存具有路由分派机制,同时内部被划分成多个区块,分别对应一个处理器核心,每个处理器核心都在环形总线上有自己的接入点和完整缓存管线,单个处理器心带宽是96GB/s,每个处理器核心都可以访问全部最末层缓存,不过延迟不同。

  由于LLC机制的出现,将会带来更好的图形性能,更高的内存带宽(系统助理包括有内存控制器),以及更加省电。

◆ 新鲜的系统助理(System Agent)

  在Sandy Bridge中,系统助理(System Agent)被设计成了一个独立的部分,这部分从功能上来说相当于传统的北桥芯片,系统助手通过接入点与环形总线连接,以固定电压和频率运行,包括了以下几部分:

   ·PCI-E控制器,支持单条PCI-E x16或者两条PCI-E x8插槽
   ·重新设计的双通道DDR3内存控制器,
   ·DMI总线接口
   ·显示输出控制单元
   ·电源控制单元

  系统助理的最重要的部分之一是电源控制单元(PCU),PCU作为微控制器,它负责芯片级电源和热管理,包括“Turbo Boost”模式,对图形的核心和缓存进行动态调节,采用了更先进的模型芯片。

  此前,GPU是基于一个分散核心,由驱动程序进行管理,现在Sandy Bridge将图形和CPU集成到一个单一的芯片上,PCU可以灵活地管理功率和TDP。Sandy Bridge通过共享图形和CPU之间的电能等资源,能为大多数应用提供更高的性能,而不是静态分配功率和热预算。

  Sandy Bridge的每个核心可以进行电源控制,而缓存和环形总线并不能实现这个功能,因为它们所有组件共享。然而,英特尔的三级缓存会因待机而进入睡眠状态,目的是为了降低动态和待机功耗。当它们不被使用时,也同时降低了环形总线的待机功耗。当然,系统助理必须始终保持活跃的状态,因为它包括PCU,会收到来自DMI时钟发生器的信号。 

Turbo Boost 2.0技术

  Turbo Boost技术是跟着Nehalem架构出现的,新一代Turbo Boost 2.0在原有的基础上改进了算法,增强了自动提速的弹性,甚至可以动态调控集成的GPU的频率。

亮点一:Turbo Boost 2.0可以突破TDP硬上限

  Turbo Boost加速的智能性并不代表它是完美无缺的,TDP功耗成为频率提升的硬上限,一旦达到TDP功耗,CPU频率就会降至正常值,大部分桌面级CPU的提升只有1-2 bins左右,CPU实际性能提升只能说是聊胜于无,而在Turbo Boost 2.0技术的帮助下,CPU的提升会达到3-10 bins,在低功耗版本中,可提升幅度最大。

  Turbo Boost 2.0可以短时间突破TDP功耗限制

  在Turbo Boost 2.0中,TDP方面的限制有所放松,PCU单元可以控制active core在较短时间内突破TDP上限之后才会逐渐降至稳定状态,IDF会议上的资料显示最高峰阶段长达25秒,不要小看这一点时间,这只是一个加速周期循环,等到CPU的发热被带走之后,Turbo Boost 2.0也会进入下一个25秒的加速循环,这样累积下来的提速效果将比目前1-2 bins的提升更为明显。最重要的是,用户也不必担心这样做会损坏CPU,因为短时间超越TDP功耗依然处于安全设计内,Intel不会做这种亏本生意的。

亮点二:Turbo Boost 2.0联动加速CPU和内置GPU

  另一个值得注意的功能是Turbo Boost 2.0中不仅能调节CPU频率,也会对集成GPU同样也会起到加速作用,并随着系统负载的不同协调二者的频率升降。

  在今年发布的clarksfield核心的i5、i3处理器中,Intel已把GPU集成到CPU而非芯片组中,虽然当时只是将二者封装在一起,但是我们之前的测试中,已经揭示了GPU频率与BCLK频率存在联动关系

  CPU与GPU功耗的一体化管理

  到了SNB架构中,GPU将会与CPU真正集成在一个核心内,二者的关系会更密切,Turbo Boost 2.0也会一体化管理GPU和CPU的能耗,并在需要的时候动态提升GPU的频率。这种改变带来的影响也会更大,例如多数游戏中CPU性能都是过剩的,Turbo Boost 2.0可以根据系统负载而向GPU倾斜,大幅提升GPU的频率以改善性能,再加上SNB中GPU架构的革新带来的性能提升,Intel新一代CPU的图形性能有可能咸鱼翻身,进而颠覆整个低端CPU/主板市场。

  Turbo Boost 2.0将会带来更多收益

  等到Sandy Bridge架构的CPU正式上市之后,凭借先进的32nm High-K工艺所带来的低功耗、低发热优势,Turbo Boost 2.0加速无疑有了更大的发挥空间。SNB架构的CPU频率覆盖2.2-3.4GHz,像Core i7-2600默认为3.4GHz,在Turbo Boost 2.0的加速下四个核心可以达到3.8GHz,单核心甚至能达到4.2GHz的高频,可以藉此一圆P4时代未竟的4G梦想。

亮点三:新增Turbo Boost监控软件

  Turbo Boost 2.0新增有频率变化监控器

  Turbo Boost 2.0有相应的监控软件,可以即时显示CPU的频率变化,界面很美观,就是一CPU外形,像Core i5-2500的默认频率为3.3GHz,界面上根据频率的变化显示相应的数值和柱状图,如3.5GHz,超出部分的颜色会有所区别,非常直观和人性化,方便用户监控。

AVX指令集解析

  新增加AVX指令集是Sandy Bridge处理器的重要改进之一。AVX指令集是指CPU能执行的所有指令的集合,每一指令对应一种操作,任何程序最终要编译成一条条指令才能让CPU识别并执行。CPU依靠指令来计算和控制系统,所以指令强弱是衡量CPU性能的重要指标,指令集也成为提高CPU效率的有效工具。

  CPU都有一个基本的指令集,比如说目前Intel和AMD的绝大部分处理器都使用的是X86指令集,因为它们都源自于X86架构。但无论CPU有多快,X86指令也只能一次处理一个数据,这样效率就很低下,毕竟在很多应用中,数据都是成组出现的,比如一个点的坐标(XYZ)和颜色(RGB)、多声道音频等。为了提高CPU在某些方面的性能,就必须增加一些特殊的指令满足时代进步的需求,这些新增的指令就构成了扩展指令集

英特尔CPU扩展指令集演变

  英特尔在1996年率先引入了MMX(Multi Media eXtensions)多媒体扩展指令集,也开创了SIMD(Single Instruction Multiple Data,单指令多数据)指令集之先河,即在一个周期内一个指令可以完成多个数据操作,MMX指令集的出现让当时的MMX Pentium大出风头。

  英特尔处理器扩展指令集演变史(图片来源后藤弘茂)

  SSE(Streaming SIMD Extensions,流式单指令多数据扩展)指令集是1999年英特尔在Pentium III处理器中率先推出的,并将矢量处理能力从64位扩展到了128位。在Willamette核心的Pentium 4中英特尔又将扩展指令集升级到SSE2(2000年),而SSE3指令集(2004年)是从Prescott核心的Pentium 4开始出现。

  SSE4(2007年)指令集是自SSE以来最大的一次指令集扩展,它实际上分成Penryn中出现的SSE4.1和Nehalem中出现的SSE4.2,其中SSE4.1占据了大部分的指令,共有47条,Nehalem中的SSE4指令集更新很少,只有7条指令,这样一共有54条指令,称为SSE4.2

  Sandy Bridge支持AVX指令集

  当我们还在惯性的认为英特尔将推出SSE5时,不料半路杀出来个程咬金,2007年8月,AMD抢先宣布了SSE5指令集(SSE到SSE4均为英特尔出品),英特尔当即黑脸表示不支持SSE5,转而在2008年3月宣布Sandy Bridge微架构将引入全新的AVX指令集,同年4月英特尔公布AVX指令集规范,随后开始不断进行更新,业界普遍认为支持AVX指令集是Sandy Bridge最重要的进步,没有之一。

英特尔AVX指令集简介

  AVX(Advanced Vector Extensions,高级矢量扩展)指令集借鉴了一些AMD SSE5的设计思路,进行扩展和加强,形成一套新一代的完整SIMD指令集规范。

  IDF2010上演示AVX应用

  在今年4月的IDF2010上,英特尔演示了AVX的应用,在两个不同平台上动态跟踪刘翔运行服上的五星红旗,结果显示,支持AVX的系统视频跟踪的用时为14秒,比不支持AVX的系统快了21秒,性能提升了60%以上。

  有兴趣的读者可以点击观看AVX应用主题演讲视频,时间大概在第33分钟左右。

  英特尔AVX的新特性

  英特尔AVX指令集主要在以下几个方面得到扩充和加强:

   ·支持256位矢量计算,浮点性能最大提升2倍

   ·增强的数据重排,更有效存取数据

   ·支持3操作数和4操作数,在矢量和标量代码中能更好使用寄存器

   ·支持灵活的不对齐内存地址访问

   ·支持灵活的扩展性强的VEX编码方式,可减少代码


支持256位矢量计算

  自1999年SSE将矢量处理能力从64位提升到128位后,SSE系列指令都只能使用128位XMM寄存器,这次AVX将所有16个128位XMM寄存器扩充为256位的YMM寄存器,从而支持256位的矢量计算。

 

  128位的XMM寄存器扩展到256位的YMM寄存器

  这意味着可以同时处理8个32bit的浮点或是一个256bit的浮点,在写程序时可以忽略SSE 128bit的限制,直接写入一个可以进行多组操作,能够充分利用256bit数据位宽的代码,理想状态下,浮点性能最高能达到前代的2倍水平

  当然有时并不是能完全能利用这256位,在大多数情况下,这些寄存器的高128位是设为0或者是“left unchanged”,同时所有的SSE/SSE2/SSE3/SSSE3/SSE4指令是被AVX全面兼容的(AVX不兼容MMX),因此实际操作的是YMM寄存器的低128位,在这一点上与原来的SSE系列指令集无异。

  Sandy Bridge最突出的部分

  为了满足指令集带来的改进,Load载入单元也要适应一次载入256Bit的能力,所以增加了一组载入单元完成载入操作,并不是单纯的将带宽扩展一倍。这样可以在一个时钟周期内实现256位的乘、加和Shuffle运算。

  使用新的256位寄存器来提升数据I/O效率,更好的标记、传播载入的数据,动态的改变数据序列,以此来组织、访问和载入运算所需的数据,速度更快效率更高。

  AVX增加了很多新的浮点运算指令

  AVX还引入了很多新的浮点运算指令,浮点运算能力加强,不光提升了3D游戏,还可以更有效的支持如复杂的flash显示,更快的SVG(可伸缩矢量图形)支持,更好的HTML5效果等等,相比用GPU计算来讲功耗更小,体积更小,成本也小,对GPU计算是个不大不小的冲击。

支持3操作数和4操作数

  通常一条计算机指令包括有操作码和操作数(operands),操作码决定要完成的操作,操作数指参加运算的数据及其所在的单元地址。比如movaps xmm1, xmm0就是一个双操作数,SSE指令movaps为操作码,其功能是将xmm0寄存器的内容复制给xmm1。

  新的3操作数和4操作数格式

  AVX指令集改进和加强了原有的在3个操作数指令的编码和语法,使之更灵活。比如要实现 xmm10 = xmm9 + xmm1 的功能,以前需要两个指令执行:

    movapps xmm10, xmm9       将xmm9寄存器数据copy到xmm10
 
   addpd xmm10, xmm1        将xmm1和xmm10寄存器数据相加,并存放到xmm10

  应用AVX指令集新的3操作数方式,可以直接由一条指令就能完成:

    vaddpd xmm10, xmm9, xmm1

  显然AVX三操作数能带来更少的寄存器复制,并且代码也更精简

  4操作数虽然是AMD在SSE5中首先提出的,但英特尔的AVX也能支持这一方式,其最终收益是对AVX 128和AVX 256使用非破坏性语法,减少寄存器间的拷贝,精简代码,增加load/op fusion的机会。

    movaps xmm0, xmm4
    movaps xmm1, xmm2
    blendvps xmm1, m128

  比如上面的三条指令,利用4操作数,可以不需要使用隐含的xmm0,直接由下面一条指令完成:

    vblendvps xmm1, xmm2, m128, xmm4

支持灵活的不对齐内存地址访问

  CPU在工作时只能按照内部数据位宽长度(比如说32bit)的整倍数为边界进行内存操作,即只能从地址0、32、64、96...处进行存取,而不能从27、58、83等非边界地址处进行。如果一定要取这些非边界地址处的内容,则必须用若干个操作将其凑出来,因而大大影响存取效率。

  一个结构体的设计长度却并不一定是32的倍数,例如一个六个字符的结构其长度为48位,如果多个这样的结构在内存中顺着摆放,则许多结构的起始地址将不在边界处,因此编译程序总是会将每个结构的尾部都加入一些必要的空白,将其凑成32的整数倍,这就是边界对齐的基本道理。

  传统的指令中,当访问不对齐内存(unaligned memory access)时,需要相当大的访问周期,甚至会有惩罚性延时,极大地降低速度。

  而在AVX指令集中,以VEX前缀编码的算术指令和内存访问指令在访问内存时更灵活,既可访问对齐的内存地址,也可访问未对齐的数据。当然访问未对齐数据,多少都会有损失,但相对传统的指令来说,所承受的惩罚要小得多。

革新的VEX指令编码方式

  英特尔在2008年春天的IDF上介绍AVX的时候就表示AVX的重点在于采用了称为“VEX (Vector Extension)”革新的指令编码方式。

  VEX编码指令解决方案

  x86指令集容易扩张,但是每次对于新指令和新数据类型的增加,都会在操作码(opcode)之前增加了一个字节的前缀(prefix),从而实现对扩展的支持。这样的就带来指令集的复杂化和命令长度增加,从而导致二进制的冗余和增加CPU命令解码硬件的复杂性。

  VEX编码方式解决了这个问题,VEX的构想,就是压缩prefix中包含的信息,在1个字节的payload中全部包括了prefix的内容,这样缩短指令长度,从而极大地降低了无谓的code size浪费。并且在今后导入的新的寄存器中,128bits或更长的256bits的数据,也将在payload中压缩。

  Intel AVX vs. AMD XOP(图片来源后藤弘茂)

  VEX prefix分为2个字节和3个字节的版本,即前缀部分使用C4h和C5h。AMD的XOP指令集采用了类似的方式,XOP前缀字节改成了8Fh,虽然前缀不同,但是payload部分的格式与VEX是相同的。AVX的VEX的编码系统,也反应了英特尔处理器今后的进化趋势,它解决了x86系列CPU在解码能力上的不足。

AVX是Sandy Bridge最重要的改进

  AVX相对SSE带来的处理速度提升

  英特尔AVX指令集将矢量处理能力提升到256bit,理论上可以让CPU的浮点性能最大提升两倍,而且革新的VEX编码方式也突破x86在解码方面的瓶颈,非常值得期待。

  由于AMD的SSE5和AVX指令集功能类似,并且AVX包含更多的优秀特性,虽然SSE5是要早于AVX宣布的,但在去年AMD还是决定支持AVX,避免让开发者徒增开发难度。同时AMD改写SSE5,重定义为XOP、CVT16和FMA4指令集。AMD有关人员甚至暗示由于受到了AVX指令集影响,Bulldozer的计划从2010年延迟到了2011年。

  AVX作为Sandy Bridge处理器最重要的改进,在几天后将闪亮登场,除硬件支持外,软件上的支持也是必不可少的,所幸的是Windows 7 SP1已经开始支持英特尔AVX指令集了。

新一代图形核心架构

  Sandy Bridge核心架构

  与Clarkdale不同,Sandy Bridge架构中Core和GFX部分均统一采用了32nm工艺制程,并且集成双通道内存控制器和PCI Express 2.0控制器。

  Sadny Bridge的最大改进在于三级缓存(LLC)改用了环形总线设计,延迟缩小至25个周期,并且其核心、GFX以及显示/媒体控制器可共享L3高速缓存。这样优势是不言而喻的,处理器的各个Core、图形核心(Grapchis)、系统助理(System Agent)均可直接在L3缓存中进行通信。

  Graphics内部具备多个执行单元

  Sandy Bridge按照型号划分了标准版以及“K”系倍频解锁版本,标准版本GFX命名为HD Graphics 2000,而唯独K系列所拥有的GFX为等级更高的HD Graphics 3000。

  HD Graphics 2000与HD Graphics 3000的区别是前者拥有6个执行单元(Execution Units),而后者则达到了12个,在性能上将会得到大幅提升。

  内建图形核心解析

  Sandy Bridge的Graphics部分主要包含了指令流处理器(Command Streamers)、媒体处理器(Media Processing)、多格式媒体解码器(Multi-Foumat Codec)、执行单元(EU)、统一执行单元阵列(Array of Unified Execution Units)、媒体取样器(Media Sampler)、纹理采样器(Texture Sampler)以及指令缓冲等等。

  Intel HD Graphics 3000

  Intel HD Graphics 3000

多媒体处理器

  Sandy Bridge已超越了传统意义上处理器的理念,称之为多媒体处理器更加贴切。其中所整合的图形单元可高效执行视频解码功能。在Graphics部分包含了多格式媒体解码器(Multi-Format Codec),这是一款专用的并行引擎,可支持MPEG-2/VC-1/AVC编码格式视频解码,并且提供了对MVC格式立体3D视频播放的支持。

  需要强调的一点是,Sandy Bridge GFX的解码全部由多格式媒体解码器所完成,优化CPU性能,不会再动用到内部执行单元(EU)阵列。 

  在视频编码方面Sandy Bridge同样出色,主要通过可编程的执行单元阵列来操作,在运动估算以及执行模式方面更加灵活,可在媒体取样器(Media Sampler)中录入高输出量的VME(Video Motion Estimator),再递交给统一执行单元阵列处理。

  在编码/转码过程中,Sandy Bridge可实现AVC的完全硬件加速。

色彩处理加速(Color Processing Accelerators) 

  Sandy Bridge具备色彩的像素处理后台,主要功能包括:STE——增强皮肤色调;ACE——自适应对比度增强;TCC——全局色彩控制。(可在Intel CUI中开启及控制)

  STE增强皮肤色调原理

  STE增强皮肤色调应用实例

  ACE自适应对比度调节原理

  ACE自适应对比度调节应用实例

  TCC全局色彩控制原理

  TCC全局色彩控制应用实例

认识Sandy Bridge处理器

LGA 1155 & LGA1156接口辨识

  众所周知,Carkdale采用的是LGA 1156接口,而Sandy Bridge则改为了LGA 1155接口,两者虽然仅1个触点的差别,但是从上面的两幅实物图可以看到,LGA 1156与LGA 1155处理器两边的凹位是不一致的。如果以凹位到处理器中轴线(横)的垂直距离来算,LGA 1156的为9mm,而LGA 1155则为11.5mm,故两者是互不兼容的。

  此外,P67/H67与P65/H65主板所支持的散热器孔距是一致的,故Clarkdale与Sandy Bridge的散热器是通用的

Sandy Bridge新命名规则

  为了能够让消费者更容易区分新旧产品,Intel为Sandy Bridge处理器推出了新的Core ix-2000命名方式,其中Core i7系列为2600,Core i5系列为2500/2400/23x0,而Core i3系列为21x0,入门级的Pentium系列则为G8x0及G620几个型号。按这样的方式推算,应该还有i7-2700和i3-2200等后续产品出现。

  其实Core ix-2000的命名方式与Intel过往Core品牌的风格类似,拿上面的Core i7-2600K为例。

  "Intel Core"为品牌名称;"i7”则为所属系列("i7"定位桌面旗舰,“i5”定位中端领军人物。“i3”则定位Core家族入门级);“2600”表示产品的具体型号;“K”后缀则为版本标识(普通版不标注,K为倍频解锁版,S为节能版,T为超低功耗版)。

  Snady Bridge处理器几个系列的区别方法也相当简单,只要捉住以下几点即可加以区分:

  1、Core i7系列为8线程,拥有8MB L3缓存,支持Turbo Boost技术;

  2、Core i5系列为4线程,支持Turbo Boost技术,拥有6MB L3缓存;(唯一例外的是Core i5-2390T为双核4线程,3MB L3缓存)

  3、Core i3系列为2核心4线程,不支持Turbo Boost技术,拥有3MB L3缓存;

  4、Pentium系列则为2核2线程产品,不支持Turbo Boost技术,拥有3MB L3缓存。

Sandy Bridge处理器型号列表

  最后需要说说集成的显卡方面的区别:Sandy Bridge中的倍频解锁版本(K系列)的GFX命名为Intel HD Graphics 3000;其余Core i7/i5/i3系列标准版、节能版(S)及超低功耗版(T)的GFX均称为Intel HD Graphics 2000;而入门级的Pentium系列GFX则依旧为Intel HD Graphics

  Intel的几款HD Graphics在性能上是存在一定差距的,值得强调的是HD Graphics均可支持核心频率动态调节,例如最高型号的Core i7-2600K其核心频率可由850MHz提升至1350MHz。

认识6系列主板芯片组

  Intel Sandy Bridge处理器所配套的主板芯片一如既往地划分了诸多型号:在商用平台上会有Q67、Q65和B65,而消费级平台则为P67、H67和H61

  英特尔主板芯片组路线图

  P67和H67将代替现有的P55、H57和H55位置,而在第二季度将发布入门级产品H61,代替现有的G41,这代表着服役多年的LGA 775处理器将会被LGA 1155彻底淘汰。

  英特尔P67主板芯片平台结构图

  从上面的P67芯片组平台结构图可以看出,PCI-E总线和内存控制器继续被CPU所集成,处理器中的PCI-E通道能支持x16或x8+x8模式,P67芯片组已得到NVIDIA SLI的授权,可以组建双路x8模式的SLI和CrossFireX。

  P67 PCH芯片提供14个USB 2.0接口,很可惜依然不支持USB 3.0,值得高兴的是,在它提供的6个SATA接口中,有2个是SATA 6Gbps接口,这意味着英特尔在6系主板中开始原生支持新一代的SATA标准。P67还支持"Intel Extreme Tuning”内存优化技术。

  英特尔H67主板芯片平台结构图

  H67芯片组可以使用处理器的集成显示核心,支持HDMI和DisplayPort的输出,为了不至于让DMI总线过于拥挤,英特尔在H67上单独开辟了一条专用通道来传送显示数据,即FDI(Flexible Display Interface),这和H55上的做法是一样的。

  与P67相比,H67不允许CPU提供的PCI-E通道拆分,也就是只能是x16的单插槽模式,考虑到H67本身还提供有8条PCI-E 2.0通道,因此理论上至少还可以组建x16+x4模式的双卡互连(考虑到其它设备或许会占用一两条通道)。H67也提供了两个SATA 6Gbps接口,但是不支持内存优化技术。

  而入门级的H61可以说是P67的精简版本,不支持SATA 6Gbps,USB 2.0接口删减到10个,PCH芯片组内提供的PCI-E总线也仅有6条,不支持RAID。H61最多只有两个内存插槽,每个通道一条插槽。


英特尔6系列和5系列消费级芯片组的规格对比

  英特尔6系列与5系列主板最大的区别在于对SATA 6Gbps的原生支持,P67和H67都有两个原生的SATA 6Gbps接口。此外6系列芯片组PCH所提供的PCI-E总线速度由原来的2.5GT/s提升到了5GT/s,带宽提升了一倍(单向带宽达到500MB/s),这样的好处是不用再为带宽多虑了,对于第三方所提供的USB 3.0和SATA 6Gbps接口就有了足够的带宽,不需要再用PLX芯片来解决带宽瓶颈问题。

  另外,英特尔在6系列芯片组中放弃了对PCI总线的支持,目前P67、H67主板上的PCI插槽都是通过第三方芯片由PCI-E通道桥接而来的。

SNB处理器写真

英特尔Core i7-2600处理器

英特尔Core i7-2600

  英特尔Sandy Bridge处理器仍然采用蓝色基调的包装盒,体积上较前代产品的略小。

英特尔Core i7-2600处理器

英特尔Core i7-2600处理器CPU-Z截图

  英特尔Core i7-2600处理器采用32nm制程工艺,采用LGA 1155接口和4核心8线程设计,默认主频为3.4GHz,拥有8MB的L3缓存,集成双通道DDR3内存控制器和原生的Intel HD Graphics 2000显示核心,支持Turbo Boost 2.0睿频加速技术,TDP为95W。

英特尔Core i7-2600处理器散热器

  由于功耗较小,其仍然采用LGA 1156平台的原装散热器。由于散热器扣具孔距一致,LGA 1155和LGA 1156平台的散热器是通用的。

英特尔Core i7-2600处理器、包装、附件及散热器合照

英特尔Core i5-2300处理器

英特尔Core i5-2300处理器包装

  英特尔Core i5-2300的包装与Core i7-2600处理器的基本一致,同样采用蓝色基调的包装盒,唯一区别是上面的产品型号标签。

英特尔Core i5-2300处理器

英特尔Core i5-2300处理器CPU-Z截图

  英特尔Core i5-2300处理器采用32nm制程工艺,采用LGA 1155接口和4核心4线程设计,默认主频为2.8GHz,拥有6MB的L3缓存,集成双通道DDR3内存控制器和原生的Intel HD Graphics 2000显示核心,支持Turbo Boost 2.0睿频加速技术,TDP为95W。

英特尔Core i5-2300处理器散热器

  由于功耗较少,其仍然采用LGA 1156平台的原装散热器。由于散热器扣具孔距一致,LGA 1155和LGA 1156平台的散热器是通用的。

英特尔Core i5-2300处理器、包装、附件及散热器合照

华硕P8P67 Deluxe主板赏析

华硕P8P67 Deluxe主板包装

  华硕P8P67 Deluxe主板所采用的包装与过往风格大有不同,这次的是简约而不简单。

  我们可以看到在包装盒的前、后及内页位置都如数家珍般列出了主板的特色功能,包括了第二代EPU+TPU智能引擎、Digi+VRM设计、EFI BIOS、独家设计的USB 3.0前置面板、BT GO!蓝牙功能以及功能丰富的AI Suite II配套软件等等。

华硕P8P67 Deluxe主板及全部附件

  主板附件非常丰富,包括了CrossFire桥接器、I/O挡板、3组SATA数据线、两本说明书、1张驱动安装光碟以及前置USB 3.0接口扩展盒。值得注意的是该扩展盒尺寸为3.5英寸,为用户提供了2个前置USB 3.0接口,并通过电缆与主板相应的USB 3.0排针相连接。

华硕P8P67 Deluxe主板全貌

  华硕P8P67 Deluxe主板采用了黑褐色PCB打造,而蓝白黑三色的风格则给人耳目一新的感觉。

  该主板可支持LGA 1155接口的Sandy Bridge处理器,具备4根共两组DDR3内存插槽;在扩展方面提供了3根PCIe X16插槽、2根PCIe X1插槽以及2根PCI插槽,并可支持USB 3.0以及SATA 6Gbps接口。此外,该主板还采用了帅气的EFI  BIOS界面,让玩家操控更加便利。

 Mosfet上蓝色波浪形散热鳍片相当美观

  在供电部分,该主板采用了16+2相回路设计,搭配多颗日科能高出品的FP全固态电容,并且在Mosfet以及电感上还安装了独特的蓝色波浪形散热片,外形显得非常酷。

扩展插槽类似丰富

配备4根共2组DDR3内存插槽

在主板下方提供了电源开关、复位按钮以及EPU开关

I/O部分

  该主板I/O部分提供的接口也相当丰富,包括PS2键鼠接口、6个USB 2.0接口、2个USB 3.0接口、IEEE 1394接口、eSATA接口、同轴输出及光纤接口、网络接口和多声道音频接口等等。

SATA 3Gbps以及SATA 6Gbps接口

  该主板利用Intel P67芯片提供了2个SATA 6Gbps接口(白色)、4个SATA 3Gbps接口(浅蓝色),另外还搭载Marvell芯片提供额外的2个SATA 6Gbps接口(蓝色)。

采用了16+2相供电设计

搭载了Digi+VRM智能芯片

PLX PEX860B-BA50BC芯片,为SATA 6Gbps提供足够带宽

主板搭载了两颗NEC D720200F1芯片,可提多个USB 3.0接口

Intel P67芯片特写

微星P67A-GD65主板赏析

微星PA67A-GD65主板包装

  微星P67-GD65主板包装采用蓝加白色调,给人一种清爽的感觉。

  包装盒上印有主板的特色功能,包括采用微星专利的OC Genie II一键超频技术和Military Class II技术,主板加载了大量的钽电容,支持USB 3.0和SATA 6Gbps,支持NVIDAI SLI和AMD CrossFire多卡互连等技术。

微星PA67A-GD65实物照

  微星P67A-GD65主板采用Intel P67芯片,支持LGA 1155的Sandy Bridge处理器,它可谓是微星P67A-GD53的完整版本。主板采用褐色PCB板,插槽、按键和接口采用黑色、蓝色和白色主题色调。

  主板采用6+1+1相供电,每相由超级亚铁盐电感、mosfet和黑色坦电容组成。

超级亚铁盐电感

微星PA67A-GD65主板CPU插槽位特写

  主板提供两组DDR3-1333/1600(OC)/2000(OC)内存插槽,最多支持32GB海量内存容量。

  为方便超频玩家掌握主板各部分的即时电压,进行细微调试,主板还设置了电压测量点。

主板提供SATA 3Gbps和SATA 6Gbps接口各4个

微星PA67A-GD65主板P67芯片特写

微星提供OC Genie按钮

  除OC Genie一键超频按钮外,主板右下角还设置了开机/重启按钮,方便玩家裸机调试。

扩展槽

  扩展插槽方面,包括两条PCI-E x16、三条PCI-E x1和两条PCI插槽,可支持组建多显卡平台。

I/O接口

  I/O部分提供PS/2键鼠通用接口、6个USB 2.0接口、4个USB 3.0接口、1个eSATA接口、1个红外接口、千兆网卡接口和8声道高清音频输出。

技嘉P67A-UD4主板赏析

P67A-UD4的包装比技嘉过往包装更加炫酷

技嘉P67A-UD4主板全貌

  技嘉P67A-UD4,该主板采用Intel P67芯片,支持LGA 1155系列处理器。主板采用黑色PCB,14相CPU供电,供电模块Mos管上装有热管散热器。配备4根内存插槽最大支持双通道DDR3-2133,2条PCI-E x16插槽可支持SLI以及CrossFire技术,第一根为x16全速,而第二根仅为x8模式。另外还有3根PCI-E 2.0 x1插槽和2根PCI插槽。

技嘉P67A-UD4包装及产品附件一览

主板提供4根支持双通道的DDR3内存插槽,最高支持16GB

该主板延续了技嘉超耐久用料

技嘉P67A-UD4扩展槽

主板I/O部分配备2个USB 3.0接口

拆开散热器后里面的芯片一览无遗

Intel P67芯片

CPU插槽周边的采用了12+2相供电设计

ISL6322G芯片提供2路PWM脉宽控制,主要用于内存供电

6个SATA接口,其中2个SATA 6GBbps,4个SATA 3Gbps

前置USB 3.0排针

NEC USB3.0控制芯片

索泰H67ITX U3 WiFi主板赏析

索泰(ZOTAC)H67ITX U3 WiFi主板采用Mini-ITX板型设计

索泰H67ITX U3 WiFi主板全貌

供电

  主板采用4+1+1相供电设计,每相由日系固态电容、封闭式电感和mosfet组成,可为Sandy Bridge处理器长期稳定工作提供纯净的电流。

索泰H67ITX U3 WiFi主板mosfet特写

索泰H67ITX U3 WiFi主板H67芯片特写

VLI VL800-Q8芯片

为方便用户对主板进行调试,主板还提供了“CLEAR CMOS”按键。

主板提供两条DDR3-1333/1600(OC)/2000(OC)内存插槽,最大可支持16GB内存容量

索泰H67ITX U3 WiFi主板PCI-E插槽特写

4个SATA 3Gbps(红色)和2个SATA 6Gbps(蓝色)接口,支持组建多驱动器平台

装载AzureWave AW-NE766 802.11b/g/n迷你卡

I/O接口

  该主板I/O部分配备PS/2接口、两个蓝色USB 3.0接口、4个USB 2.0接口、1个eSATA接口、DVI/HDMI/DisplayPort接口、2个天线接口、千兆网卡接口和音频输出接口。

Sandy Bridge平台功耗测试

  功耗测试中,我们使用了P67主板,搭配Core i7-2600、Core i5-2300;P55主板搭配Core i5-750进行对比。

  由于两套平台的主板并不相同,因此最终结果的上的差异并不代表处理器功耗差异,而是整套平台的功耗差异。

  待机功耗是在开机并静置系统10分钟后记录,而满载功耗则由ORTHOS SP2004提供负载10分钟后进行记录,测量的仪器是Seasonic PowerAngel功耗仪。

  在待机情况下,搭载Core i5-750的P55平台以9-10W的幅度领先Core i7-2600和Core i5-2300的P67平台,不过主要原因是其待机频率相比更低;在满载后,由于开启了Turbo Boost技术,参测处理器的实际频率均比默认频率均有所提升。此时,Core i5-2300平台则以9W的优势战胜了Core i5-750平台,而Core i7-2600平台则由于处理器主频大幅领先另外两者,因此功耗也是最高的达到了148W。

  考虑到Sandy Bridge集成有GPU,在这种情况下Core i5-2300平台虽然频率更高,但功耗却更少,可以看出Sandy Bridge平台在功耗控制上是更加优秀,其中32nm制程的优势凸现无遗。

Sandy Bridge处理器温度测试

  在温度测试方面,我们同样对比了Core i7-2600、Core i5-2300以及Core i5-750三款处理器。

  由ORTHOS使CPU负载,使用AIDA64软件纪录各个核心在待机和满载情况下的平均温度,功耗测试则使用Seasonic的PowerAngel功耗仪进行检测,均装箱并进行封箱测试。

  测试过程中,两套平台的处理器将使用默认主频,并一直开启EIST节能技术和Turbo Boost睿频加速技术。而在散热器方面,除了选用风冷散热能力一流的Super Mega外,我们还加入了英特尔原装散热器的测试。

  待机温度是开机并静置系统10分钟后记录,满载温度则在ORTHOS SP2004提供负载并等待温度曲线平稳后进行记录。检测温度的软件是AIDA64 Ver 1.5软件,通过其记录各个处理器核心的温度并计算平均值作为最终成绩。

  首先在散热测试登场的是使用ProlimaTech Super Mega散热器,它是一个优秀的风冷散热器,对付这三款没有超频的处理器是绰绰有余的。在待机情况下,三个CPU的温度基本一致;而在满载情况下,功耗更低的Core i5-2300表现同样优秀,以2.6摄氏度的优势继续领先Core i5-750。当然,功耗最高的Core i7-2600的发热量也是最高的,温度达到了52度。

  相比于价格较高的ProlimaTech Super Mega,不少对散热要求不大的用户仍然在使用原装散热器,因此我们还加入了原装散热器的测试。由于LGA 1155与LGA 1156平台的散热器通用,因此测试中使用的是同一个原装散热器,来自于Core i7-2600。

  原装散热器的散热性能当然能无法与Super Mega相提并论,在待机情况下它们均在31摄氏度左右,差别最大仅0.5摄氏度,可看作检测误差所致;而满载的情况下仍然是Core i7-2600温度最高,已经达到了79摄氏度,其次是Core i5-750为74.1摄氏度,最低的仍然是Core i5-2300仅68.5摄氏度。在使用原装散热器的时候,Core i5-2300相比Core i5-750的温度优势得以体现,也确实地证明了Sandy Bridge平台在温度控制上的优秀。

  在满载时原装散热器下的CPU温度还是很高,对于热爱超频的玩家,我们推荐使用性能更好的第三方高端散热器

Sandy Bridge处理器超频测试

  Intel P67芯片有别于过往P55芯片对Base Clock Generate和DMICLK的设计方式,而是整合了全新的Clock Generate(时钟发生器),Base Clock不复存在,故超频玩家也只能对DMICLK频率作出调整。

  由此而引发的问题是,只要对DMICLK稍作调整,PCI-E、SATA频率亦会作出同步改变,可谓是“一发动全身”。如此一来,想通过以往那样靠增加外频来提升CPU主频的方法变得相当困难。Sandy Bridge处理器的默认DMICLK频率仅为100MHz,而要突破110MHz大关则显得相当渺茫,超倍频会是Sandy Bridge最主要的方式。

  为了迎合超频玩家的需求,Intel把Sandy Bridge处理器划分为完全解锁版(Full Unlocked)和部分解锁版(Partially Unlocked)。完全解锁版处理器就是大名鼎鼎的“K”系列处理器了,不设定倍频的最大上限值;而部分解锁版则对倍频最大值作出了限制,但依然会高于Turbo Boost所出现的最高倍频。

  在超频测试环节,我们使用了完全解锁版的Core i5-2500K处理器,在风冷情况下进行超频测试,搭配主板为技嘉的P67A-UD4,散热器为Prolimatech Super Mega,使用ORTHOS进行超频后的稳定性测试。

Core i5-2500K默认情况,开启Turbo Boost后最多可达到3.4GHz(100MHz×34)

探索Core i5-2500K最高外频

搭配技嘉P67A-UD4主板,Core i5-2500K最多可达到106.0MHz的外频

  前面已经说到,110MHz外频对于Sandy Bridge来说的一个关口,而且受到CPU体质以及主板品质的影响。我们手头上的这颗Core i5-2500K处理器在技嘉P67A-UD4主板上,CPU核心电压增加至1.36V下,其最大外频可达到106MHz。

Core i5-2500K轻取4.7GHz

Core i5-2500K风冷4.7GHz可以顺利通过ORTHOS拷机

  经过一番设置,我们在主板BIOS中把CPU核心电压提升至1.360V,其他电压选项均为自动,此时CPU频率可以提升至4.7GHz,外频为100MHz,倍频47,可以稳定地通过ORTHOS的烤机测试。

  此外,在BIOS中开启Turbo Boost后CPU最大倍频值调节范围可达到255无限大,而在关闭Turbo Boost情况下则最大调节值为57,但我们手头这款Core i5-2500K可进入系统的最大倍频为47。

  值得强调的是,P67主板已不再对DDR3内存分频作限制,内存频率就等于DMICLK频率乘以内存倍频。已技嘉P67A-UD4主板为例,在其BIOS内存参数一栏,我们可直接调节内存的倍频,范围由8.00到21.33,步进为2.66,这样一来DDR3内存在P67主板上的超频能力将会更上一层楼。

内存性能测试

  内存性能环节我们主要采用了AIDA64 Extreme Edition v1.5,使用该软件提供的“缓存和内存测试”子项目进行测试。

Core i5-750内存测试成绩

Core i5-2300内存测试成绩

  Core i5-750与Core i5-2300在内存频率同为666MHz的情况下,读、写和复制性能均有一定的提升,而内存延迟则大体相同。

  Core i5-2300在内存读、写、复制方面性能比Core i5-750分别提升了6.53%、26.31%以及7.63%。由此可见,在内存写入操作性能方面的提升是最为明显的。

  此外,在CPU L1/L2/L3缓存性能上,Core i5-2300相比Core i5-750在读取方面的提升比较大。

高清回放测试

  高清回放我们采用了最新的PowerDVD 10进行测试,使用任务管理器记录回放过程中的CPU占用率。

PowerDVD 10主界面

PowerDVD 10视频设置界面中可开启Intel ClearVideo硬件加速功能

  测试采用了Core i5-2300处理器搭配索泰H67主板,对比开启和关闭Intel ClearVideo硬件加速,以及开启NVIDIA PureVideo(GTX 460)后播放高清影片时的CPU占用率。

  通过测试可见,开启Intel ClearVideo加速后把解码完全交由内建图形核心完成,可大幅释放CPU压力,效果基本与NVIDIA PureVideo相当。

SNB基础性能测试平台及说明

  测试包括了4套平台,分别使用Core i5-750与Core i5-2300进行对比,两者价格相当,该2套平台均为默认设置下完成所有测试。而另有Core i7-920与Core i7-2600进行对比,两款处理器均超频至4GHz。

  游戏测试使用GeForce GTX 460 1GB显卡,系统为Windows 7旗舰版64位,并安装SP1补丁;所有驱动均为官方提供的最新版本。

基准应用测试(一)

默认对比:Core i5-2300 vs Core i5-750

  与Core i5-750相比,Core i5-2300在大部分测试中均占尽上风,基础性能平均领先约18.16%。特别是在浮点运算性能方面的提升更是非常明显,这与Sandy Bridge新增AVX指令集的支持是息息相关的。

  目前Core i5-750与Core i5-2300的售价均在1300-1400元人民币左右,在售价相当的情况下相信更多消费者将会选择新产品,LGA 1156接口产品在未来也将会逐渐被LGA 1155接口产品所取代。

基础应用测试(二)

同频对决:Core i7-2600 vs. Core i7-920(4GHz)

  通过测试可见,同频下的Sandy Bridge相比老迈的Bloomfield处理器在大部分测试中均占优势,特别是在浮点性能方面更是有翻倍的提升,平均领先约15.27%。

  当然,由于Sandy Bridge仅可支持DDR3双通道,带宽自然不及支持三通道的Bloomfield了,在SiSoftware Sandra的内存带宽测试中可见其落后幅度约在8-9%之间。

游戏性能测试

价格相近的比较:Core i5-2300 vs. Core i5-750

  Core i5-2300相比Core i5-750在游戏中的差距并不大,前者平均领先2%的幅度,而在WIC中达到了最大7.55%的领先。

同频率的比较:Core i7-2600 vs. Core i7-920

  Core i7-2600和Core i7-920两款处理器均超频至4GHz后,对游戏中的影响差别并不明显,波动均在2帧范围内,综合来看前者略胜1.57%。

SNB GPU 3D性能测试平台及说明

  本环节的测试旨在对比Intel几个系列GFX:HD Graphics(Core i3-530)、HD Graphics 2000(Core i5-2300)以及HD Graphics 3000(Core i5-2500K)图形性能的提升,并加入AMD 880G芯片组(Radeon HD 4250),另外从市面选取了两款最低端的独立显卡作对比。

  对比的低端独显选择了微星GeForce 210 24SP版本以及蓝宝石Radeon HD 5450,两款显卡均为DDR2版本,显存容量128MB。

测试方法:

  由于各平台CPU性能不一致,故图形性能不可直接比较,我们的测试方法是使用GeForce 210独显作为参照标准,把其性能标注为100%,最终结果以集显与该独显的性能比值作比较。

◆ SNB GPU 3D性能:3DMark Vantage

◆ SNB GPU 3D性能:Left 4 Dead 2

◆ SNB GPU 3D性能:Street Fighter IV

◆ SNB GPU 3D性能:StarCraft II: Wings of Liberty

◆ SNB GPU 3D性能:Warhammer 40K: Dawn of War II

◆ SNB GPU 3D性能:World of Warcraft: Lich King

SNB GPU 3D性能:World in Conflict:Soviet Assault

SNB GPU 3D性能:FarCry 2

◆ 全文总结:更好的性能更低的功耗

  英特尔的“Tick-Tock”钟摆发展模式正紧跟着时间齿轮而有条不紊地前行,Sandy Bridge微架构的诞生为消费者们带来了新的惊喜。“更好的性能更低的功耗”,这应当是Sandy Bridge处理器最贴切的写照。

  · AVX:Sandy Bridge最重要的改进

  无疑,AVX指令集的加入是Sandy Bridge最为重要的改进,AVX把处理器的矢量处理能力提升至256bit,浮点性能得以激增,速度相比SSE更上一个台阶。浮点运算能力一直是GPU的强项,而AVX指令集的加入则让CPU拥有了可冲击GPU浮点性能的可能。

  · 更智能的处理器

  新一代的Turbo Boost 2.0技术增强了Sandy Bridge自动提速的弹性,除CPU外还可对GFX进行加速,并随着系统负载的不同协调二者的频率升降,表现得更加智能化。

  · 真正的CPU/GPU融合

  如果说一年前发布的Clarkdale开创了CPU整合GPU的先河,那么Sandy Bridge则是整合的完美形态。Intel终于在Sandy Bridge中实现了Core和GFX的融汇贯通,采用相同的32nm工艺。

  Sandy Bridge采用了环形总线设计,Core与GFX还有系统助理共享L3缓存,新架构上的改进使得整合图形核心性能得到史无前例的飞跃,Intel HD Graphics 3000已拥有了超越低端独立显卡性能的筹码。

  当然,CPU和GPU融合的最早提出者应该为AMD,经过无数次的跳票之后,AMD的Fusion也将会在今年一展其抱负,表现几何还有待分晓。

  · 综合性能更出众

  定位相当的Sandy Bridge与Lynnfield处理器相比,在基础性能方面有着非常可观的性能提升(Core i5-2300比Core i5-750平均领先18%),而且在功耗和温度方面均有更佳的表现。另外,Sandy Bridge即使与Bloomfield处理器相比,同频性能也能够更胜一筹(4GHz的Core i7-2600比同频的Core i7-920平均性能领先15%)。

  · 市场展望

  当然了,Sandy Bridge相比Clarkdale乃至Bloomfield来说均有许许多多值得称赞的改进之处,而唯一为人所诟病的则是其在超频方面的表现。由于外频存在难以逾越的障碍,导致了标准版Sandy Bridge的超频性能低下,热爱超频的玩家们只能选择K系列解锁倍频版本了,相信这又是Intel细化市场的一种手法,对于更多的大众玩家来说,还有少量倍频可以提升,基本也可以得到满足。

  然而英特尔在2008年将桌面处理器接口改为LGA1366,又在2009年推出LGA1156接口处理器,今天,Sandy Bridge又改用LGA1155接口,步子无疑迈得有些大了,引得用户无数抱怨。

  前段时间有报道称,目前LGA775用户还占有大半壁江山,在如今看来,LGA775确实是“廉颇老矣”,在Sandy Brige及相应的6系列主板大批量上市后,如果不追求极致性能,LGA775用户“连跳三级”直接升级为LGA1155平台,无疑是非常聪明的选择。同时也折射出目前LGA1156平台的尴尬处境,必将沦为过渡的产物,成为英特尔CPU史上的匆匆过客。

  在英特尔的Roadmap中,至少在今年上半年,高端的产品还是由Core i7系列的Bloomfield和Lynnfield处理器担当,Clarkdale则被Sandy Bridge彻底淘汰掉,Sandy Bridge微架构产品在Q2之后继续向低端市场延伸。顶替X58+LGA1366的高端平台需要等到第四季度,代号为Patsburg的芯片组和LGA2011接口的Sandy Bridge-E处理器将是它们的接班人。

  英特尔已经布下局摆好阵,AMD的Bulldozer何时才能开动起来?



查看全部评论(114)

回复