E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    英特尔在台北电脑展上公布了Lunar Lake处理器的架构与技术细节,它是一款针对轻薄笔记本设计的,侧重于低功耗、高效能、高效率和看重AI性能的处理器。这款处理器将会在今年第三季度正式发布,届时才会公布具体性能表现,它将会与计划在第四季度发布的Arrow Lake处理器一同组成酷睿Ultra 200系列处理器的产品线。

    Lunar Lake其实就是去年Meteor Lake架构这条线路的发展产物,Lunar Lake所用的Lion Cove架构P-Core与Skymont架构E-Core就是Meteor Lake上的Redwood Cove与Crestmont的后继者,得益于新的CPU架构,在单线程性能上,Lunar Lake用原来一半的功耗可以达到上代一样的性能。

    GPU方面,它采用了代号为Battlemage的Xe2架构,也是下一代ARC独立显卡的架构,与Meteor Lake上的Xe-LPG相比游戏性能提高了50%。

    NPU对于AI PC来说是必须的,微软要求运行Copilot+需要40 TOPS的算力,而Lunar Lake搭载了最新的第四代NPU,可提供48 TOPS的算力,是上代的四倍多,而平台整体算力则高达120 TOPS。

    Lunar Lake架构概述

    Meteor Lake是英特尔首款采用Foveros先进封装技术的消费级处理器,这代Lunar Lake依然采用这一技术,但模块数量从Meteor Lake的四个减少到只有两个,从这点就能看出Lunar Lake在设计上与前代产品有很大的不同。

    从处理器照片来看,Lunar Lake看上去有三个模块,实际上左下角那个模块是单纯用来填充的,里面没有电路。Lunar Lake由计算模块和平台控制模块所组成,它们通过底部的基础模块互相联通。

    计算模块包含最多4个P-Core、4个E-Core、GPU、NPU、内存控制器、媒体引擎、显示引擎、IPU图像处理单元,并配有8MB内存侧缓存MSC,这MSC独立于CPU和GPU的缓存系统,是为计算模块内的其他IP单元所准备的,像媒体引擎、NPU、IPU,E-Core也可从中获益,可降低这些模块对系统内存的依赖,避免内存重复读取,可有效降低延迟,并且大大降低能耗。

    模块内部采用第二代Scalable fabric(NOC)总线通信,而两个模块之间则采用D2D界面相互连接。

    Lunar Lake上有一个很有趣的地方,此前不论是Alder Lake、Raptor lake还是Meteor Lake,P-Core与E-Core都是绑在一个环形总线里面的,并共享L3缓存,但现在看架构图就知道Lunar Lake里的P-Core和E-Core分别位于NOC总线的两侧,也就是说它们之间是要通过NOC总线通信的,现在12MB的L3缓存是P-Core独享的,E-Core并不能直接访问,它们之间的关系其实更像是Meteor Lake的计算模块与SoC模块里的LP E-Core。

    至于为啥要这样,这和低功耗岛设计有关,这是从Meteor Lake架构上延续下来的概念,在Lunar Lake上计算、SoC和图形模块被整合到一个模块上,所以没必要像Meteor Lake那样特意在SoC模块上弄两个LP E-Core,而且Lunar Lake的定位是低功耗轻薄本,节能是很重要的。

    在Lunar Lake上,进程进来后会首先分配给E-Core,当调度器认为E-Core性能不够后在把任务分给P-Core,而新一代E-Core的性能有较大幅度提升,可满足大部分日常工作负载,这就能让P-Core大部分时间闲置,这个设计非常利于节能。

    而平台控制模块则包含PCIe、USB、Thunderbolt 4、WiFi、千兆有线网络MAC,此外还有安全模块。Lunar Lake可提供三个Thunderbolt 4接口,2个USB 3.0与6个2.0接口。集成英特尔Wi-Fi 7无线网卡,并支持蓝牙5.4。同时还有4个PCIe 5.0和4个PCIe 4.0通道是为M.2 SSD所准备的。

    需要注意的是,Lunar Lake上的这两个模块全部都是由台积电生产的,这和此前的Intel处理器大相径庭,当中的计算模块用的是台积电N3B工艺,而平台控制模块则使用N6工艺,最后他们会在英特尔的封装厂内组合到一齐。

    此外Lunar Lake的一大特点就是处理器和内存封装在同一块PCB上,这样直接能看到的好处是节省面积,可节约主板上250mm2的空间,这能让笔记本主板设计变得非常紧凑,同时也让主板设计变得简单,毕竟不用再去考虑内存走线了。其次这样设计明显缩短了内存的走线,这能让内存降低40%的功耗,对改善性能估计也有一定的帮助。

    Lunar Lake最多可配备32GB 2 Ranks的LPDDR5x内存,支持16bit*4通道,最高支持内存频率达到8.5GT/s。

    新性能核:Lion Cove

    现在Meteor Lake所用的Redwood Cove对于上代Golden Cove来说可以说是小修小改,但Lunar Lake上的Lion Cove改动还是蛮彻底的,首先它的缓存结构就有很大变化。在L1数据缓存与L2缓存之间加了一层缓存,原来的L1数据缓存现在变成了L0数据缓存,容量同样是48KB,加载延迟从5周期降低到4周期;新增的L1数据缓存是192KB,加载延迟9周期;L2缓存对于Lunar Lake来说是2.5MB,而Arrow Lake则是3MB,都比上代的2MB要大,但加载延迟从16周期降低到17周期。Lunar Lake上的四个P-Core共享12MB L3缓存。

    用于管理缓存的子系统数据转换后备缓冲区(DTLB)深度从96页增加到128页,以提高其命中率。地址生成单元/存储单元(AUG/STA)从2组增加到3组,这一改动使加载/存储管道的数量达到平衡,各有三个,而上两代都是三个加载与两个存储管道。

    前段进行了重新设计,分支预测块增加了8倍,获取区块从以前的64字节增加到128字节,解码器由6个增至8个,微指令队数量144条目增加到192条目,微指令缓存从4K扩大到5.25K,并让缓存读取带宽增加了50%。这些改进的目的是为了能够改进代码转换和执行的性能和功耗。

    Lion Cove的乱序引擎划分成整数和矢量区域,这两个区域都具有独立的确定和重命名功能,这样可以省下大量的硬件开销,并降低能耗提升性能。乱序引擎的分配/重命名从6个增加到8个,退出从8个增加到12个,深度指令窗口从512个增加到576个,执行端口从12个增加到18个。

    整数执行引擎的ALU加法器从5个增加到6个,junp单元从2个增加到3个,shift单元从2个增加到3个,乘法器从单个64×64的单元变成了3个64位乘法器,这些改动能为复杂的操作提供更强大的算力。

    矢量单元的SIMD ALU从3个增加到4个,拥有两个4周期延迟的256位FMA,同事还有两个256位除法器,和前一代相比,单精度和双精度计算的吞吐量都有大幅提高。

    英特尔宣称Lion Cove与上一代Redwood Cove相比,平均IPC提升了14%,而且功耗越低提升幅度越大,在某个低功耗范围性能增幅甚至超过了18%。

    超线程在Lunar Lake上被移除了,并不是英特尔把超线程关闭了,而是直接移除了。其实英特尔做了两个版本的Lion Cove,开启超线程能在相同芯片面积下增加30%的IPC,但代价是增加20%的功耗,这在数据中心这种追求线程密度的产品上是很好的,但在客户端处理器上情况就不一样了,经过三代混合架构处理器的实践,已经证明了E-Core是比超线程更高效的多线程加速手段。

    超线程并不是免费的,它需要额外的芯片面积,一个没有超线程的Lion Cove和一个开启超线程的Lion Cove相比,能效比提升了5%,单位面积性能降低15%,但把性能、功率、芯片面积全算起来效费比提升了15%,再加上Lunar Lake是为低功耗设备而准备的,所以英特尔直接就删掉了这部分的电路,把节省出来的功耗和芯片面积来换取内核的更高时钟速度和IPC。

    频率控制也变得更为精细,此前处理器核心的频率变化步进是100MHz,现在大幅缩小到16.67MHz,这自然提高了能效,某些情况下甚至能达到更高的频率。

    新能效核:Skymont

    当年英特尔在Alder Lake上引入的Gracemont架构E-Core,IPC是向Skylake看齐的,而现在Luner Lake上的Skymont,它的IPC则是向Raptor Cove看齐,而这Raptor Cove就是现在13/14代酷睿里面的P-Core,这也是这次Luner Lake线程调度为什么会优先用E-Core的原因。

    Skymont与上代Crestmont相比,整数性能提升了38%,浮点性能提升了68%之多,只需要1/3功耗就能达到与Meteor Lake的SoC上两个LP E-Core同样的性能,同功率下单线程性能是原来的1.7倍,最大功率性能更是达到原来的两倍。

    与Raptor Cove相比,Skymont的单线程整数与浮点性能都高出2%,达到了当时定下让Lunar Lake的E-Core性能匹配Raptor Lake的P-Core的设计目标。

    再来看性能与功耗的对比曲线,Skymont能用更低的功耗实现与Raptor Cove同等的性能,在上图中框起来的那个区间内,在最佳情况下,Skymont只需要60%的功耗就可达到Raptor Cove的同等性能,在同功率下可实现20%的性能提升。当然了,Raptor Cove的功率上限比Skymont高得多,所以整体性能上限也比Skymont更高,毕竟两者的定位完全不一样。

    Skymont的分支预测单元每周期预测范围从64字节翻倍到128字节,这加快了指令提取速度,现在最多可并行提取96个指令字节。解码方面,Skymont每周期解码指令从6条增加到9条,比Crestmont提高了50%,Uop队列从64提高到了96,这是x86历史上最宽最广的解码能力。

    同时Skymont引入了Nanocode的新功能,它允许每一个解码集群可以独立处理多个微代码流,把类似的微代码段组合在一起,以实现更高的并行性。

    乱序执行引擎的分配队列从6宽度增加到8宽度,退出队列从8宽度增加到16队列, 新增依赖中断机制,可有效降低延迟。重排序缓冲区从之前的256个条目扩展至416个条目,物理寄存器文件、保留站和加载/存储缓冲区也得到扩展,这些改动可提高并行性和降低延迟。

    执行引擎的调度端口增加到26个,拥有8个整数ALU,3个Jump接口,每周期可执行3个加载操作,这些均比上一代增加了50%,提升了整体的并行处理能力。

    矢量单元现在拥有4个128位浮点与SIMD矢量,这使得Gigaflops和TOPs算力直接翻倍,增加的执行单元有助于提升AI方面性能。FMUL、FADD、FMA经过重新设计降低了延迟,FP舍入现在支持硬件加速。

    加载/存储管道数量从原来的都是两个变成了现在拥有3个加载管道和4个存储管道,L2缓存TLB的大小从3096增加到4192,Skymont依然是四个核心共享4MB L2缓存,但现在L2缓存带宽番了一倍,这让核心之间通信速度翻倍,并降低了内存延迟并提高了数据吞吐量。

    GPU:全新Xe2 Battlemage架构

    Lunar Lake采用了代号为Battlemage的Xe2架构核显,这是英特尔最新的GPU架构,也是未来ARC B系列独显的核心,在Lunar Lake上一共拥有8个Xe2核心,8个光线追踪单元,新增XMX矢量扩展引擎,拥有8MB L2缓存,整体性能较上代提升了1.5倍。

    这是Lunar Lake的Xe2 GPU内部结构,包含两组Render Slice共8组Xe核心,一共64个矢量引擎,8个采样器,4个像素后端,8个光线追踪单元,8MB L2缓存。其实从规格上来看和Meteor Lake上的Xe-LPG是一样的,而且矢量引擎少了一半,其实是因为Xe架构的矢量引擎是256位的,现在Xe2架构是512位的,所以看起来数量少了一半,但实际上执行能力更强。新架构光线追踪单元得到了增强,强化了并行处理能力,这让光线追踪性能提升1.6倍到2.1倍。

    第二代Xe核心包括8个512位矢量引擎,8个2048位XMX矩阵扩展引擎,均比上代位宽翻倍数量减半,可支持64位的atomic ops,带有192KB的L1缓存。

    XMX矩阵引擎虽然存在于Alchemist架构的独显GPU里面,但在核显里面是没有的,所以Lunar Lake是首个代XMX矩阵扩展引擎的英特尔核显,在它的加持下,可实现每时钟4096次的INT8运算或每时钟2048次的FP16运算,这让GPU可提供67 TOPS的AI算力,而且XMX矩阵扩展引擎的引入对于强化核显的XeSS性能也是有很大帮助的。

    新一代Xe2 GPU能让Lunar Lake提供比Meteor Lake约1.5倍的图形性能,或者在同性能情况下实现更低的功耗,由于产品还没正式推出,所以官方也没给出具体的性能和功耗数值,而且对于英特尔的GPU产品来说,驱动的不确定性因素太大了,我们还是等产品出来后再谈论性能吧。

    新一代的媒体引擎支持AV1的视频编解码能力,最高可支持8K60 10bit HDR视频编解码。新增支持H.266(VVC)视频格式的解码能力,与AV1相比,H.266在同等质量下可把文件大小缩小10%。显示引擎支持eDP 1.5、DP 2.1和HDMI 2.1,最多可实现三屏输出,支持屏幕自适应刷新,可使用提前传输进行选择性显示内容更新,结合Panel replay技术实现显示自适应同步功能。

    第四代NPU

    虽然英特尔在Meteor Lake上整合了NPU,但它的算力只有11.5 TOPS,并不能满足微软要求本地运行Copilot+的40 TOPS的需求。而在Lunar Lake上搭载了最新的第四代NPU,算力直接达到了48 TOPS,而且在加强算了的同时也提升了能效,这样就对笔记本的续航不会造成太大影响。

    NPU 4算力是上一代的四倍,英特尔是如何做到的呢?首先NPU 4的神经网络运算引擎从2个增加到6个,一共有12K个MAC单元,这样从规模上就有了三倍的提升了,再加上算法和频率上的提升,这样就有了四倍的提升,至于NPU 4的具体频率是多少,这个得等到产品正式发布才会公布,但官方表示比NPU 3是有较大提升的。

    同时每个神经网络运算引擎都嵌入了推理管道,包括MAC阵列和许多用于不同类型计算的专用DSP,这是为多并行操作而构建的,这提高了性能和效率。新的SHAVE DSP经过优化,矢量计算能力是上一代的四倍,可处理更为复杂的神经网络运算。

    NPU 4显著改进了矩阵乘法和卷积运算,支持INT8和FP16精度的数据输出,INT8每周期可以进行2048个MAC运算,而FP16则是每周期1024个,效率比以前有两倍的提升。此外针对大语言模型不同种类的量化,NPU 4支持Data Conversion功能,可以把INT4、INT2等不同的数据量化成INT8进行处理,让后续的处理更快、更有效率。

    由于NPU 4的神经网络运算引擎数量是原来的三倍,得加大带宽才行,所以NPU 4的DMA(直接内存访问)引擎带宽也直接翻倍,这让NPU能支持更高的数据流,减少带宽上的瓶颈确保流畅运行,这对大模型处理是相当有用的,能提升数据处理的效率。

    NPU 4支持激活函数,现在有更多种类的激活函数可以支持和处理任何神经网络运算,并可选择精度来支持浮点计算,这将使计算更加精确和可靠。改进的激活函数和优化的推理管道将使其能够以更快的速度和更高的准确度执行更复杂和更细致的神经网络模型。

    NPU 4里的SHAVE DSP从NPU 3的128位暴增至512位,这使其矢量计算能力是上代的四倍,并使矢量性能整体提升了12倍。这对于Transformer语言模型和大型语言模型LLM非常有用,处理起来更加快速和节能。

    与NPU 3相比,NPU 4的矢量性能提高了12倍,TOPS提高了4倍,带宽提高了2倍,这些改进提高了NPU 4的性能和效率,更适合对算力和延迟都有要求的最新AI应用。

    说完了Lunar Lake的CPU、GPU和NPU,现在可以算算开篇所说的120 TOPS平台算力是怎么来的了。首先算力最高的是GPU,它可提供67 TOPS的算力,比较适合文生图、图生图这类的创作AI,当然英特尔的XeSS超分技术也属于是AI应用。

    其次是NPU,它可提供48 TOPS算力,它比较适合AI助手类型负载,当然了创作类AI其实NPU也可以介入,英特尔有个基于OpenVINO框架部署的Stable Diffusion就能用NPU执行文字识别和U-Net操作,有兴趣的可以自己下下来玩一下。

    最后是CPU,它可提供5 TOPS的算力,由于CPU是通用计算器,可利用VNNI和AVX来运行AI应用,只不过CPU的算力确实不高,只适合运行一些轻型AI负载。

    新一代硬件线程调度器

    硬件线程调度器是自12代酷睿Alder Lake推出已来一直存在的东西,因为混合架构处理器确实需要它,英特尔每次对处理器架构进行更新都会对硬件线程调度器进行升级,Lunar Lake上的硬件线程调度器就有四项升级。

    一是更智能的反馈机制,包括采用新的遥测方式,可以更全面地收集线程运行信息;引入AI技术进行预测,可以更准确地预测线程的运行模式,从而进行更智能的线程调度;采用基于工作负载的调度方式,不再局限于静态的应用列表,可以根据不同的工作负载进行更灵活的线程调度。

    二是增加了OS隔离区,允许操作系统定义不同的工作负载区域,并根据区域的不同进行不同的线程调度策略。此外硬件线程调度器与Windows 11操作系统进行更深度的整合,为操作系统提供更强的hint功能,使操作系统能够更准确地理解硬件线程调度器的调度意图。

    三是与SoC的电源管理引擎做了结合,可以根据SoC电源管理引擎的工作负载分类结果,为操作系统提供电源管理模式的指导,使操作系统能够根据不同的电源管理模式进行不同的线程调度策略。

    四是英特尔对OEM厂商开放了硬件线程调度器的API,允许OEM根据自身需求定义线程调度策略,并给硬件线程调度器提供自定义hint,使硬件线程调度器能够根据OEM的需求进行更灵活的线程调度。

    在调度机制上,在Raptor Lake是会优先把线程分配给P-Core,当发现负载不需要那么强性能时就会把线程移至E-Core,如果负载又增加了就再移回P-Core。在Meteor Lake上,线程会优先进入SoC的LP E-Core,如果需求增加了就激活计算模块,把线程移至E-Core,如果还是不够就把它移到P-Core。

    而到了Lunar Lake上就变得简单得多,线程会先分配给E-Core,在需求更高的性能的时候就移动到P-Core上。由于现在的Skymont架构E-Core性能暴涨,这使大部分日常工作负载可在E-Core上完成,只有在非常重载的情况才会启用P-Core。

    总而言之,Lunar Lake的硬件线程调度器相比上一代进行了多方面的改进,使其能够更智能、更灵活地进行线程调度,从而提升处理器性能和能效,并提升用户体验。

    总结

    Lunar Lake无论在架构还是封装还是工艺上都有了非常大的改变,它的CPU内两个核心架构都改了,GPU架构也改了,NPU也改了,对比起Meteor Lake简直是翻天覆地的变化,而这离酷睿Ultra 100系处理器发布与上市才半年。

    Lunar Lake的设计很明显是针对低功耗平台以及未来AI PC的,实际上在这领域英特尔所面临的不只有老对手AMD,苹果和高通分别拿着自家的M系列处理器和骁龙X Elite处理器抢占着这片市场,而AMD也拿出了最新的锐龙AI 300系列处理器等候Lunar Lake的到来。

    在台北电脑展是发布会上英特尔并没有对Lunar Lake的性能进行具体描述,这些都要要等产品发布时才会介绍。不过说真的光Skymont E-Core与Raptor Cove(Raptor Lake的P-Core)有着相近的IPC这点就相当令人震撼了,此外它还有性能更强的Lion Cove P-Core,这两者核心还会用在未来规模更大的Arrow Lake上,很期待新一代酷睿Ultra处理器的性能表现。

    此外新的Battlemage GPU和NPU 4的性能表现会怎么样也很让人期待,英特尔表示Lunar Lake会在今年第三季度上市,大概率是想赶在暑期销售旺季前推向市场,而面向高性能平台的Arrow Lake还得等到第四季度。

    ×
    热门文章
    1分形工艺Mood ITX机箱上市:竖置背靠背设计,顶置18CM风扇,售价1249元
    2英伟达问鼎全球市值最高上市公司,总市值达3.335万亿美元
    3GPD推出GPD DUO双屏笔记本,首曝AMD Radeon 890M核显跑分
    4西部数据WD Blue SN5000 SSD现身官网:新一代蓝盘,TLC/QLC闪存混用
    5新版13/14代酷睿K/KF/KS不稳定问题相关指导发布,英特尔称eTVB非根本原因
    6iPhone 15 Pro系列在iOS 18的加持下AI性能大幅增强,最高增幅约为700%
    7技嘉正式发布AI TOP 100E SSD:针对密集型AI工作负载设计,TBW可达219000
    8台积电开始使用3nm工艺为Intel生产芯片:可能包括未来的Arrow Lake
    9《勇者斗恶龙III HD-2D重制版》Steam国区上架:预售价348元,支持简体中文
    已有 5 条评论,共 187 人参与。
    登录快速注册 后发表评论
    • 这些评论亮了
    • asight等待验证会员 06-06 18:58    |  加入黑名单

      Lunar Lake顶级型号4P4E,怎么看都是腊鸡,这玩意打不打得过7840hs我持怀疑态度,可以确定是Lunar Lake一定很贵。

      已有14次举报

      支持(22)  |   反对(13)  |   举报  |   回复

      3#

    • hahaemm博士 06-06 18:37    |  加入黑名单

      孝话揭晓:CPU:5TOPS + GPU:67TOPS + NPU:48TOPS=120TOPS
      而锐龙AI9HX300的50TOPS指片内的纯NPU算力,论PPT大师非intel莫属,连显卡带主板整个扯进来跟一颗28瓦单片CPU比算力,脸都不要了

      已有17次举报

      支持(27)  |   反对(14)  |   举报  |   回复

      2#

    • 塔奇克马博士 06-06 18:31    |  加入黑名单

      就凭AMD不用换主板 ,就根本轮不到我买INTEL

      已有14次举报

      支持(22)  |   反对(12)  |   举报  |   回复

      1#

    • raidenhuo大学生 06-08 17:15    |  加入黑名单

      感叹现在的cpu真的是越做越复杂...每次看IA两家的u发布,我都疑问----国内能追上吗?

      支持(6)  |   反对(0)  |   举报  |   回复

      5#

    • yochee教授 06-06 20:27    |  加入黑名单

      我倒是觉得这次intel方向对了,集成内存+系统级缓存,cosplay苹果卷能效,估计windows on arm的压力给的不小

      已有3次举报

      支持(14)  |   反对(4)  |   举报  |   回复

      4#

    提示:本页有 5 个评论因未通过审核而被隐藏

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明