E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    两年前推出的Alder Lake处理器可以说是英特尔的一次重大的技术革新,这是混合架构x86处理器首次大规模推向消费市场,它和它的后继者Raptor Lake可以说是相当成功的产品,也为后续产品打下基础。年末推出的Meteor Lake架构酷睿Ultra是英特尔今年最重磅的产品,它采用分离式模块架构,由四个独立的模块组成,并通过Foveros 3D封装技术连接,其计算模块首次采用Intel 4制程工艺打造,使Meteor Lake成为英特尔史上能效最高的客户端平台。

    同时Meteor Lake是英特尔首款内置神经网络处理单元NPU的CPU,新一代处理器主打的就是AI人工智能,让PC进入AI时代,全新的处理器通过践行XPU战略,为高能效AI PC做出了进一步创新。

    接下来我们来快速的看下组成Meteor Lake的四个模块:

    计算模块采用最新的Intel 4制程工艺,包含6个P-Core与8个E-Core,性能核架构升级至Redwood Cove,能效核升级至Crestmont架构,依然使用环形总线。

    SOC模块里面包含了全新的低功耗岛E-Core,用与新型低功耗负载,进一步优化节能与性能间的平衡。NPU也整合在SOC模块内,还有包括一些常规的连接模块,Wi-Fi 6E和蓝牙模块是整合在SOC模块内的,如果想用Wi-Fi 7则需要外接,以往整合在核显里面的媒体处理计算单元现在也整合到了SOC模块内,还包含显示输出单元和内存控制器,支持8K HDR和AV1格式的视频编解码,支持HDMI 2.1与DP 2.1的视频输出,这个SOC模块就相当于一个迷你的小CPU。

    图形模块采用了Intel最新的ARC图形架构,Meteor Lake能够提供上一代两倍的图形性能,能够在核显中提供独显级别的性能,支持光线追踪,有更全面的DX12功能集。

    IO模块就如它的名字那样是用来提供IO扩展的,内部整合了Thunderbolt 4和PCIe 5.0控制器,还有视频输出的物理层也在IO模块里面,为IO扩展提供了非常好的灵活性。

    酷睿Ultra处理器最多拥有6P+8E+2LPE,共22线程,最高睿频5.1GHz,支持LPDDR5/5x-7467和DDR5-5600内存,前者最大容量64GB,后者则能到96GB。处理器提供8条PCIe 5.0和20条PCIe 4.0,当中IO模块提供了8条PCIe 5.0和8条PCIe 4.0,SOC模块则提供了12条PCIe 4.0。接口方面,支持DP 2.1和HDMI 2.1视频输出,提供多达4个Thunderbolt 4接口,2个USB 3和10个USB 2,还有两个SATA 3.0口,接口相当丰富。

    来看具体产品,首款酷睿Ultra处理器包括H和U后缀的产品各四款,其中H系列的最多6P+8E+2LPE,最顶级的型号是酷睿Ultra 7 165H,最大睿频5.0GHz,配备Intel Arc GPU,拥有8组完整的Xe核心,而酷睿Ultra 5的少两个P-Core,只有4P+8E+2LPE,核显也只有7组Xe核心。

    值得注意的是现在酷睿Ultra 7/5的H系列处理器基础功耗是28W,它的定位其实更接近上代的P系列,主要是针对轻薄本的,最大睿频功耗有64W和115W两档,具体看OEM厂家怎么设计产品,如果厂商是按28W基础功耗去设计产品的话,最大睿频功耗就是64W,如果按38W或40W去设计产品的话,最大睿频功耗则是115W。

    U系列的处理器应该是换了计算和图形模块,最多只有2P+8E+2LPE,GPU也只有4组Xe核心,四款产品全部都只有频率上的差别,最顶级型号是酷睿Ultra 165U,最大睿频4.9GHz,基础功耗15W,最大睿频功耗57W,需要指出的是,U系列不支持PCIe 5.0,但PCIe通道数量和H系列一样。

    2024年第一季度还会推出顶级的酷睿Ultra 9 185H,最大睿频提升至5.1GHz,为了提供更好的性能它的基础功耗直接被设置为45W,最大睿频功耗115W。另外还有两款U系列的产品,它们的最后一位数字从5变成了4,最大区别在内存支持上面,它们只支持LPDDR5/5x-6400内存,最大内存容量64GB。

    Intel 4和Foveros封装

    根据IDM 2.0战略,英特尔计划在四年内实现五个制程节点,而Intel 4处于计划中的第二个节点,Intel 4将采用了EUV(极紫外)光刻技术,可使用超短波长的光,改善良品率和面积微缩,从而实现高能效,而且可应用EMIB和Foveros封装技术,相比Intel 7可提供翻倍的晶体管密度,也为接下来的Intel 3奠定基础。目前正在开发过程中的Intel 3将带来密度更高的设计库,增加驱动电流的晶体管并降低通孔电阻,其将更多地使用EUV光刻技术。

    与Intel 7相比,Intel 4实现了两倍的面积微缩,带来了高性能逻辑库,并引入了多个创新,包括引入EUV光刻技术,大幅简化了互连架构的制程工艺,同时还支持微缩,使得Intel 4中的掩码减少了20%,工艺步骤减少了5%;针对高性能计算应用进行了优化,可支持低电压(<0.65V)和高电压(高于1.1V)运行,相比Intel 7,Intel 4的ios功率性能提高了20%以上;另外高密度(金属-绝缘体-金属)电容器实现了卓越的供电性能。

    Meteor Lake的各独立模块将通过Foveros先进封装技术连接,利用高密度、高带宽、低功耗互连,能够把多种制程工艺制造的诸多模块组合成大型分离式模块架构组成的晶片复合体。

    Foveros先进封装具有诸多优势,包括36u凸点间距,迹线宽度小于1微米;凸点密度提高近8倍;迹线长度小于2毫米;160GB/s/mm带宽;功耗小于0.3 pJ/位。相比于Raptor Lake,Meteor Lake通过Foveros先进封装使得低功耗晶片互连最大限度地减少分区开销,同时小区块提高了晶圆良率,初制晶圆更少,而且能够为每个区块选择理想的硅工艺。

    计算模块

    计算模块内的P-Core架构从前一代的Golden Cove升级成了Redwood Cove,在进一步提升性能的前提下,英特尔很大程度上提升了它的能效比,对分支预测进行了强化,并增加了每个核心的带宽,L1指令缓存从32KB翻倍到64KB。

    E-Core架构Cracemont升级到了Crestmont,新架构IPC性能有所提升,和P-Core一样改善了分支预测,让指令执行变得更有效率,提升了E-Core的吞吐能力,宽度分配从5组增加到6组,执行单元的矢量/浮点模块的指令集有所升级,提升了VNNI指令执行能力,为AI加速做准备。

    性能方面,官方做了酷睿Ultra 7 165H在不同功耗下的性能测试,在同20W以上它的多线程性能表现就要优于上代的酷睿i7-1370P,同时还对比了高通骁龙8 Gen3、苹果M3和AMD锐龙7 7840U,酷睿Ultra 7 165H在同功耗的情况下性能都要优于它们。

    同功耗情况下,酷睿Ultra 7 165H的多线程性能比上代酷睿i7-1370P提升了8%,比锐龙7 7840U高出11%。

    单线程性能则比锐龙7 7840U高12%,但由于酷睿Ultra 7 165H的最大睿频只有5.0GHz,而酷睿i7-1370P是能到5.2GHz的,所以单线程性能反而没上代高,个人推测这是Intel 4工艺还处于较早期阶段导致的,实际上最高端的酷睿Ultra 9 185H最大睿频也只有5.1GHz,和采用Intel 7的Raptor Lake相比确实差点意思,其实新工艺早期阶段频率比不过多次改进后的成熟工艺也很正常,Intel首批10nm处理器频率就没当时的14nm处理器高,但新节点工艺的能耗比是肯定比成熟工艺好的所以先推向轻薄本市场。

    由于LP E-Core的加入,酷睿Ultra在节能方面是要比对手优秀得多的,酷睿Ultra 7 165H在播放本地视频或观看Netflix流媒体视频时功耗比锐龙7 7840U低了44~48%,桌面空载待机更是低了79%之多,如果有后台活动的话降幅就没那么大,但也有36%。

    第三代硬件线程调度器

    Meteor Lake里面有三种不同的核心,它们在不同的功耗下性能表现是不一样的,在低于某功率的时候P-Core性能是低于E-Core的,E-Core在低于某功率时性能也不如LP E-Core,如何正确的调度是个难题,所以英特尔把硬件线程调度器升级到第三代。

    新的硬件线程调度器增强了对OS的反馈,在其他IP占用功耗的时候,核心的功耗会被动态分配,把这个条件也考虑在内,更加精准的报告整个核心和每个Core的能力。Meteor Lake能够更准确的去做内部能耗比的评估和判断,提供更加精确的表格给到OS,不管任何的计算任务都可以在E-Core、P-Core和LP E-Core上做实时转换,需要性能需要响应速度的时候往P-Core上移,需要降低功耗的时候,就往E-Core甚至是LP E-Core上移。

    至于具体到底怎么做,英特尔和微软合作对不通的线程负载进行了分类,这是根据线程在P-Core、E-Core以及LP E-Core上运行的IPC来区分的,有Class 0到3四个等级。

    Class 0代表P-Core、E-Core在实行这类指令时,每始终周期实行的指令数量基本一致;Class 1代表P-Core执行效率高于E-Core,比如大部分浮点运算,会优先分配给P-Core,如果P-Core不有用也可以分一些给E-Core;Class 2表示P-Core执行效率远高于E-Core,比如AI运算,这类会必然分给P-Core;Class 3则代表E-Core的执行效率高于P-Core,这类是比较少见的特定程序。

    在确定程序的类型后,硬件线程调度器会结合核心当前处理能力对每个核心打两个分数,一个是高性能(Perf),另一个则是高能效(EE),然后汇报给OS,分数最高的就是对系统推荐的核心,以上图为例,这是一个Class 0线程,如果线程追求性能的话就使用P-Core N,如果线程追求能效的话就使用E-Core N,最终OS就会结合其他的自身条件最终确定把线程分配到哪一个核心上。

    下面举两个简单的例子:

    1.一个应用要求高性能,它有四个进程被分配到P-Core上了,下一个时间两个相对轻载的进程配分频到E-Core上,随着时间的推移四个P-Core上的进程被执行完了,两个小进程还在E-Core上,接下来的硬件线程调度器就会建议OS把两个进程转移到LP E-Core上,这样整个计算模块就可以关掉了。

    2.两个进程在LP E-Core上运行,然后突然进来了四个要求高性能的进程,这时计算模块开启,这四个进程被分配给P-Core,这时硬件线程调度器就会建议OS把这两个轻的进程转移到计算模块的E-Core上,这样就可以更快的执行,同时还可以关闭SOC模块的内部总线和LP E-Core。

    神经网络处理器NPU

    其实现在处理器里面的CPU和GPU都能实现AI运算,然而AI任务也分很多种,而Meteor Lake新引入的NPU则是为了更好的分担不同的AI任务,让不同的处理器单元在多种AI任务中实现性能核功耗的平衡:

    GPU具有性能并行性和高吞吐量,非常适合在媒体、3D应用程序和渲染管道中引入AI功能。
    NPU是一种专用的低功耗AI引擎,用于持续AI运行和AI卸载。
    CPU具有快速响应能力,非常适合轻量级、单推理、低延迟的AI任务。

    CPU、GPU、NPU都是很合适的AI引擎,有各自不同的特征,NPU是个专属的AI低功耗的引擎,适合那些持续性的AI任务,比如进行电话时开启的AI摄像头效果就相当适合NPU。

    NPU由一个多引擎架构组成,该架构配备两个神经计算引擎,可以共同处理单一工作负载或各自处理不同的工作负载。在神经计算引擎中,有两个主要的计算组件:

    推理管道:这是高能效计算的核心驱动因素,通过最大限度地减少数据移动并利用固定功能运作来处理常见的大计算量任务,可以在神经网络执行中实现高效节能。绝大多数计算发生在推理管道上,这个固定功能管道硬件支持标准的神经网络运作。该管道由一个乘积累加运算(MAC)阵列、一个激活功能块和一个数据转换块组成。
    SHAVE DSP:这是一款专为AI设计的高度优化的VLIW DSP(超长指令字数字信号处理器)。流式混合架构向量引擎(SHAVE)可以与推理管道和直接内存访问(DMA)引擎一起进行管道化,实现在NPU上并行进行的真正异构计算,从而最大限度地提高性能。
    DMA引擎:该引擎能够优化编排数据移动,实现最高的能效和性能。

    NPU的驱动是符合微软新出的MCDM驱动框架的,所以能够在任务管理器里面就能够看到NPU,它就像CPU、GPU一样能够在任务管理器显示它的工作负载,这点和友商是不一样的。

    Meteor Lake的GPU、NPU、CPU都可以承载AI算力,而且可以相互协同工作,以Stable Diffusion负载为例,如果把Unet、VAE都跑在CPU上的时候,在中间Unet上跑20步,花了43秒,功耗是40W。如果全部跑在GPU上,耗时 14.5秒,功耗是37W。如果以把正负Unet中间的部分跑在NPU上,其他的用CPU来跑,时间缩短到20.7秒,功耗降至10W。如果把正向提示词的Unet跑在GPU上面,负向提示词的Unet跑在NPU上,用时缩短到11.3秒,因为有GPU的参与,所以功耗为30W。

    可见在NPU的介入下,AI负载的功耗大幅下降,整体性能也要优于纯CPU或纯GPU负载,整体能耗比大幅提升。

    随着NPU的引入,再加上原来的CPU和GPU,酷睿Ultra处理器里就有三个不同的单元可以执行各种AI运算,加起来一共可提供34TeraOPS的算力,而CPU、GPU和NPU的特性各不相同,可以各自分担不同的AI任务,也可以协同工作,具体看程序怎么调度。

    上面是内容创作者使用较多的AI程序负载,酷睿Ultra 7 165H交上代的酷睿i7-1370P和对手的锐龙7 7840U都有非常明显的性能优势,最高可达锐龙7 7840U的5.4倍。

    Meteor Lake的CPU、GPU和NPU都有良好的Int8和FP16运算能力,而竞品则不是所有模块都拥有完整的AI运算能力,而且Meteor Lake在不同数据类型下算力都相当优秀,这是基于UL Procyon的AI测试以及SPECrate 2017的测试结果。

    SOC模块

    Meteor Lake为了达成高性能计算和低功耗做了重大的架构更改,上图是Alder Lake和Raptor Lake的框架图,基本上所有东西都挂在环形总线上,CPU核心、GPU或者媒体引擎要访问内存的时候都要穿过环形总线,对于内存访问来说是一个非常高效的方案。

    但在节能方面就不怎么好了,环形总线上的任何区块去访问内存的时候,会把一些在该应用场景下不需要的计算单元激活,就会产生较高功耗,比如在流媒体播放时,GPU是不需要被打开的,但是由于这样的一个结构,使得媒体引起要对内存访问的时候,必须要把Ring整个打开。

    在Meteor Lake上为了解决这一问题,Intel把媒体引擎从GPU中剥离,现在GPU在独立的图形模块上,媒体引擎整合在SOC模块里面,Ring总线现在只用在计算模块中,SOC模块有自己的总线,这样他们之中其中一个要访问内存时,都不需要把别的其他模块供电激活了。

    比如在播放流媒体视频时,只需要激活内存控制器、媒体引擎以及显示模块,理论上无需激活GPU与计算单元,以此实现节能的目的。

    SOC模块里面还有两个LP E-Core,它们的工作频率非常低,但能效比很高,可以承担一些对CPU需求较低的负载,比如流媒体播放,这样就不需要激活计算模块了。

    电源管理也重新进行设计,不同模块里面都有分立的PMC电源管理控制器在内部,在SOC模块上面有一个主要的PMC单元,它对整个CPU进行电源管理,通过跟不同模块上的分电源管理器进行沟通 ,没负载时可以关闭对应的模块来节约电力,这个架构为Meteor Lake提供了很多新的电源管理功能,为将来的芯片设计上的电源管理奠定了非常好的基础。

    上图是Meteor Lake架构SOC模块的方块图,可以看到里面有两个总线,上面的是的Scalable fabric,也称为NOC,它的带宽高达128GB/s,响应速度也很快,够让挂在上面的所有的设备去快速、低功耗的访问整个内存。

    可以看到外部的计算模块和图形模块也挂在NOC上面,在SOC内部,包括LP E-Core,内存控制器、多媒体引擎、显示模块、NPU、IPU都挂在NOC总线上。

    下面那个总线是IO fabric,外部的IO模块接在这总线上,SOC内部的PCI-E、SATA、USB、Wi-Fi、以太网、音频、传感器以及两个负责安全的区块也连接在这总线上,IO fabric与NOC总线之间由IOC单元进行交互,这两条总线连接了整个SOC模块,甚至说它们连接了Meteor Lake所有的关键部件。

    此外我们可以看到IO模块和SOC模块都是有PCIe控制器的,当中IO模块可以提供8条PCIe 5.0和8条PCIe 4.0,另外还有额外的4个Thunderbolt 4接口,而SOC模块则可提供12条PCIe 4.0。

    利用先行的Foveros封装技术,模块间通信带宽基本就是内存级的带宽,速度相当之快,延迟也很低,是一个非常低功耗、高性能的一个互连结构。

    由于SOC模块引入了两个LP E-Core,现在一个完整的Meteor Lake是由6个P-Core,8个E-Core和2个LP E-Core所构成,上图是三种核心的能耗表现,横坐标是功耗,纵坐标是性能,当功耗低于一定程度的时候P-Core的性能表现就不如E-Core,同理在某个功耗点上LP E-Core的性能表现会优于E-Core,所以硬件线程调度器需要更新。

    图形模块与媒体单元

    Meteor Lake的GPU被移动到独立的显示模块上,用的是Xe-LPG架构,它是在现有Xe-LP核显架构上发展而来的,并引入了Arc A系列独显的一些技术。

    除了显示模块的GPU外,Meteor Lake的多媒体引擎与显示引擎都移到了SOC模块里面,IO模块上也有显示的物理层负责视频信号的输出。

    与上一代的核显相比,Meteor Lake的GPU拥有更高的主频,电压也更低,Xe核心从6个增加到8个,共128个矢量引擎,增长了33%,几何图形渲染管线数量翻倍,有更高的像素与采样能力,并且加入了8个光追单元,现在Intel的核显也支持光线追踪了。


    各种改进让核显性能较上代番了一倍

    上图是酷睿Ultra 7 165H和酷睿i7-1370P同在28W下的实际游戏表现,最佳情况下游戏帧率直接翻倍,最低也会提升9%,酷睿Ultra配备的新核心确实能提供更好的游戏性能。

    而这个则是Meteor Lake处理器和锐龙7040处理器的游戏性能对比,测试了18款游戏在1080p中等画质下的表现,酷睿Ultra 7 165H的游戏性能是要比锐龙7 7840U要好5%的,而酷睿Ultra 7 155H则与对手持平。

    多媒体引擎也有升级,现在最高支持8K 60Hz 10bit的HDR视频解码以及8K 30Hz 10bit的HDR视频编码,支持包括VP9、AVC、HEVC、AV1以及其他的传统格式。

    显示方面,Meteor Lake支持HDMI 2.1、DP 2.1以及完整的eDP 1.4的输出规范,分辨率最高支持一个8K60 HDR,或者4个4K60 HDR,或者是更高刷新率的1080p或者1440p 360Hz。

    总而言之Meteor Lake的改进非常多,新增的LP E-Core是Intel高性能混合架构的首个重大进展,模块化设计代表着Intel 40年来重大的架构转变,NPU的引入代表Intel会将AI广泛引入PC,让PC进入AI时代,庞大的x86生态系统将提供广泛的软件模型和工具。

    ×
    热门文章
    已有 6 条评论,共 119 人参与。
    登录快速注册 后发表评论
    • 这些评论亮了
    • asight等待验证会员 2023-12-21 17:28    |  加入黑名单

      全新酷睿ultra,一颗cpu使用4种工艺制造5颗die,最后只做出个7840HS类似物,还不能保证性能功耗全胜,调度还是大问题。结论:电子垃圾。

      已有7次举报

      支持(45)  |   反对(6)  |   举报  |   回复

      1#

    • razorzzh博士 2023-12-22 10:43    |  加入黑名单

      asight 等待验证会员

      全新酷睿ultra,一颗cpu使用4种工艺制造5颗die,最后只做出个7840HS类似物,还不能保证性能功耗全胜,调度还是大问题。结论:电子垃圾。
      2023-12-21 17:28 已有7次举报
    • 支持(45)  |   反对(6)  |   举报  |   回复
    • 7840HS本质也是三个DIE组成,CPU IO,MEDIA ENGINE,IGPU三者共同应用了台积电的TSMC N4制程工艺。
      英特尔ULTRA系列四种工艺就一个INTEL 4能跟TSMC N4比较,INTEL 4的晶体管密度介于TSMC N5和TSMC N4之间。
      英特尔ULTRA跨DIE通知要用到TVS和EMIB总线,这个组合就比超威半导体的无限总线效率低,再加上英特尔第一次在消费级CPU应用此项技术,根据最基础的工程学知识,这是个雷。
      ULTRA系列还有个大麻烦,就是能效比比不过RX780M规模却更大的INTEL ARC 核显,根据现有的测试,它至少需要50W功率供给才有完全发挥峰值性能。这个核显会跟CORE互相抢功率。
      综上所述这代ULTRA本质上仍然是把消费者当小白鼠对待的产品,如果对核显加速雷电4接口没有很强需求的话,一般不建议购买。

      已有1次举报

      支持(13)  |   反对(0)  |   举报  |   回复

      6#

    • Adonis教授 2023-12-22 00:14    |  加入黑名单

      各个模块之间巨大的通信延迟是造成Meteor Lake IPC性能下降的罪魁祸首。

      已有4次举报

      支持(5)  |   反对(3)  |   举报  |   回复

      5#

    • cailiao1987教授 2023-12-21 19:24    |  加入黑名单

      就是没啥活,起个叼名糊弄消费者, 自己有工厂缺在对手厂那里下单哈哈哈哈哈哈

      已有4次举报

      支持(6)  |   反对(3)  |   举报  |   回复

      4#

    • 茶扉丶博士 2023-12-21 18:55    |  加入黑名单

      windows:随便你怎么设计,一切看我眼色行事

      已有1次举报

      支持(14)  |   反对(0)  |   举报  |   回复

      3#

    • Shinku高中生 2023-12-21 17:44    |  加入黑名单

      NPU相当于英伟达的Tensor Core吧。我还以为它能自我学习越用性能越强呢

      支持(1)  |   反对(0)  |   举报  |   回复

      2#

    提示:本页有 6 个评论因未通过审核而被隐藏

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明