全文浏览

温故知新Nehalem微架构

模组化设计的Nehalem微架构,可灵活组合

  Nehalem微架构采用可扩展的架构,主要是每个处理器单元均采用了Building Block模组化设计,组件包括有:核心数量、SMT功能、L3缓存容量、QPI连接数量、IMC数量、内存类型、内存通道数量、整合GPU、能耗和时钟频率等,这些组件均可自由组合,以满足多种性能需求,比如可以组合成双核心、四核心甚至八核心的处理器,而且组合多个QuickPath Interconnct(QPI)连接更可以满足多路服务器的需求。

  正因为这样的模组化设计,英特尔可以灵活的制造出各种差异化的核心,比如支持三通道DDR3的Bloomfield(研发代号)核心、支持双通道DDR3的Lynnfield和Clarkdale核心,而且这些核心间还存在是否支持超线程、Turbo Boost技术等区别,Clarkdale部分产品还会整合GPU图形单元。

  严格来说,Nehalem微架构仍是基于上一代Core微架构改进而来的,但它的改进是全方位的。我们可以把这些重要特性分为计算内核(Core)和非计算内核(Uncore)的上的特性。

  Nehalem在非计算内核的设计改动令人瞩目,主要的有三级包含式Cache设计、使用QPI总线和整合内存控制器等重要改进。计算内核的设计来源于之前的Core微架构,并对其进行了优化和加强,主要为 重拾超线程技术、支持内核加速模式Turbo Boost和支持SSE4.2(新增7条扩展指令)等方面。

  · 三级包含式Cache设计

Nehalem的三级缓存结构

  Nehalem在缓存结构上作了重要改进,采用了三层缓存模式的,其中L1高速缓存置于核心之内,具备64KB大小(32KB数据和32KB指令),在核心中还具备有256KB的L2高速缓存,L1和L2缓存都是每个处理核心所独占的,各个核心之间的L2高速缓存不会共享(和Core不同)。另外还有L3缓存,其容量高达8MB,L3缓存内的数据可以供各核心共享。

  · 放弃FSB使用QPI总线

  在Nehalem上英特尔抛弃了FSB,改而采用了高性能高动态可升级设计的QuickPath Interconnect(QPI)总线。QPI总线是基于封包传输,拥有高带宽、低延迟的特点的点对点互联技术,最高速度达到6.4GT/s。每一条连接(link)是20bit位宽,其中16bit是用于数据,其它用于CRC、流量控制等,因此每条连接可以一次传输2Byte的数据。由于QPI总线可以双向传输,那么一条QPI总线连接理论最大值就可以达到25.6GB/s的数据传送,单向则是12.8GB/s。QPI数据包是80bit的长度,发送需要用4个周期。

  显然QPI的带宽是远远高于FSB的,以目前最高规格的1600MHzFSB来计算,其带宽为12.8GB/s(64bit/8×1600),QPI的带宽轻易就达到了它的2倍 。

  · 整合内存控制器

  将内存控制器整合到CPU中是Nehalem又一创举,虽说AMD早就这么做了,但对Intel来说还是头一次。Nehalem的IMC(Integrated Memory Controller,整合内存控制器)可以支持3通道的DDR3内存,不再支持DDR2。3通道DDR3内存技术的出现,使得Nehalem拥有了足够大的内存带宽,这绝对有助于喂饱饥渴的处理核心,也使得SMT技术得以重归。 同时IMC能够很显著的降低内存延迟,这对整个系统性能的提升是非常有帮助的。

  因为内置了DDR3内存控制器,Nehalem需要更多的针脚,Bloomfield核心的Core i7-900系列支持三通道DDR3,需要的针脚最多,这也是为什么它要用LGA1366插槽的主要原因。而Lynnfield和Clarkdale核心只支持双通道DDR3,处理器需要的针脚也下降了,因此改用LGA1156接口。

  · 重拾超线程技术

  Nehalem拥有比Core体系更大的内存带宽和更大的高速缓存,因此到了Nehalem,Intel重拾超线程技术:Simulate Multi Threading(SMT,同步多线程技术),SMT是超线程技术的学术名称,Nehalem的超线程性能比起老前辈来要更为强大。

  Nehalem的同步多线程是2-way的,每核心可以同时执行2个线程。对于执行引擎来说,在多线程任务的情况下,就可以掩盖单个线程的延迟。SMT功能的好处是只需要消耗很小的核心面积代价,就可以在多任务的情况下提供显著的性能提升,比起完全再添加一个物理核心来说要划算得多。Nehalem的优势是有更大的缓存和更大的内存带宽,这样就更能够有效的发挥。

  · 内核加速模式Turbo Boost

  由于Nehalem的特殊设计,使得它有一个很重要的技术,也很有实用性,那就是Turbo Boost技术,它能让内核运行动态加速。可以根据需要开启、关闭以及加速单个或多个内核的运行。如在一个四核的Nehalem处理器中,如果一个任务只需要两个内核,则可以关闭另外两个内核的运行,同时把工作的两个内核的运行主频提高,这样动态的调整可以提高系统和CPU整体的能效比率。

  Turbo Mode安全可靠,最大限度的发挥了CPU的能力,而这一切都是自动实现的。它的出现,是给那些希望提高处理器性能,同时又不肯(不会)自己动手超频的用户的绝佳礼物。

  · SSE4.2

  Intel的SSE(Streaming SIMD Extensions, 流式单指令多数据扩展)技术有效增强了CPU的向量和矩阵运算能力,最初由Pentium MMX时代的SIMD技术引入,后来发展成SSE/SSE2/SSE3/SSSE3等。成熟的Penryn中集成的SSE4.1占据了大部分的指令,共有47条,新的Nehalem中的SSE4指令集更新很少,只有7条指令,这样一共有54条指令,称为SSE4.2。

  SSE4.2新增的7条指令集的用途各有不同,比如有面向CRC-32和POP Counts等特定应用的,有特别针对XML等的流式指令,新指令集可以将256条指令合并在一起执行,加速字符串和文本处理,从而让XML类工作的性能提高3倍。



加载更多评论

回复
热门文章
1英伟达推出新一代至尊G-Sync显示器:使用Mini LED技术,年底面市
2微星X570系列主板价格曝光:价格上涨,最低约人民币1550元
3巅峰之作再现江湖,ROG Matrix RTX 2080 Ti显卡正式开启预售
4酷冷至尊推出Silencio静音机箱:专业无声,极简设计,79.99欧元起售
5一键提升CPU性能,Intel自动超频工具Performance Maximizer开放下载
632核AMD EPYC Rome跑分曝光:大幅领先上代Naples,强于英特尔Xeon处理器
7PCI-SIG组织推出PCIe 6.0规范:采用PAM4编码,带宽达到256GB/s
8华为nova 5系列即将发布,将搭载麒麟第二款7nm SoC
9千元甜品显卡怎么选?RX 590 vs GTX 1060游戏测试