有问有答:CPU做一个性能超强的单核不行吗?技术可以吗?

2019-3-27 10:52  |  作者:孟宪瑞   |  关键字:有问有答,英特尔,AMD,CPU,频率,单核

Pentium 4时代,英特尔在CPU频率不断突破1GHz、2GHz、3GHz之后要做更高频率的CPU,放言称奔4频率上4GHz,后来就有了英特尔前任CEO巴瑞特下跪的一幕,因为英特尔在奔4时代并没有如承诺的那样推出4GHz高频的产品。

本文约1608字,需3分钟阅读

CPU的的单核性能有多重要,这个不用再重复了,但是CPU的单核性能可以无限增加下去吗?回答这个问题之前,先说一个小故事吧。很多年前VIA威盛还可以跟英特尔硬刚,那时候是Pentium 4时代,英特尔在CPU频率不断突破1GHz、2GHz、3GHz之后要做更高频率的CPU,放言称奔4频率上4GHz,后来就有了英特尔前任CEO巴瑞特下跪的一幕,因为英特尔在奔4时代并没有如承诺的那样推出4GHz高频的产品。

但是很多人不知道的是,4GHz并不是英特尔当时的最终目标,2001年的IDF会议上英特尔曾经表示奔4处理器可以上10GHz频率。如今18年过去了,这个目标一直都没实现,(硅基时代)可能永远都无法实现了。

这件事就能说明CPU频率不是想提升就提升的,奔4时代过去这么多年了,其实CPU的主流频率依然在4GHz左右,英特尔虽然在酷睿i7-8086K上首次实现官方5GHz频率,但绝大多数处理器日常使用的频率都没这么高,高负载下频率在4GHz出头就不错了。

制约单核性能超强的CPU出现的第一个问题就是频率无法大幅提升,而这个因素也跟现在的制程工艺有关,实质上是摩尔定律已经失效了,这个影响了半导体行业50年的金科玉律随着硅基芯片物理极限的到来已经失效了,从28nm节点之后其实就没有带来很大的性能改进了,而且功耗问题也越来越严重。

大家都知道理论上制程工艺越先进(制程数字越小),CPU性能会更高,功耗、发热会更低,但是实际上这个问题很复杂,CPU的功耗可以分为静态功耗(Static Power)及动态功耗(Dynamic Power),前者主要是漏电流引起的,制程越先进,漏电流又有增加的趋势,而动态功耗可以用1/2*CV2F这个公式来计算,F频率越高,动态功耗就越高。

为了上更高的频率,电压增加不可避免,但电压高了功耗也高了,总之静态功耗、动态功耗的存在就决定了CPU频率越高,功耗就会极速增加,将会严重影响处理器的性能表现,因为要降频。

说到这一点,英特尔的14nm工艺虽然被人调侃挤牙膏,但从技术上来说真的很牛了,从Skylake架构的第一代14nm到现在Coffee Lake的14nm++工艺,性能提升26%,或者功耗降低52%,在不改变基本结构的情况下这个成绩很难得。

制程工艺的放缓导致CPU频率不可能大幅提升,有很多人会想到那么有没有非常牛的CPU架构让IPC性能大幅提升呢?理论上这种思路是可以的,但是现实很残酷,CPU架构还是要服从半导体工艺物理定律的,没有先进的工艺,再好的CPU架构也不可能实现。

此外,即便不考虑工艺对CPU架构的影响,单纯说CPU架构的话,不论是X86还是ARM架构,在64位时代CPU单元不外乎就是ALU单元、缓存、I/O等子单元, 但是不论提升那部分单元,归根到底还是要算到晶体管数量上来,还要考虑提升导致的成本——这个成本不只是钱的问题,比如提升L1/L2/L3缓存可以提高性能,但是缓存占用的核心面积很大,而且还有命中率及命中惩罚的问题,不是随便加加单元就行的。

此外,CPU的内部还可以分为整数部分、浮点部分,前者对日常使用很重要,浮点性能对计算更重要,但CPU的浮点性能并不是日常所需的,所以大家普遍感觉不到这部分的提升。

支持AVX512的酷睿i9-7900X浮点性能提升很大

公平地说,近年来CPU浮点单元的进步是符合题目所说的单核超强的要求的,因为从SSE到AVX到AVX2再到最新的AVX-512,CPU浮点性能是有大幅提升的。如英特尔所说:“借助多达两个512位融合乘加 (FMA) 单元,应用程序在512位矢量内的每个时钟周期每秒可打包32次双精度和64次单精度浮点运算,以及八个64位和十六个32位整数。因此,与英特尔高级矢量扩展 2.0(英特尔 AVX2)相比,数据寄存器的宽度、数量以及FMA单元的宽度都增加了一倍。”

但是前面也说了,CPU的浮点性能不是日常所需的,整数性能更加重要一些,但是整数单元性能提升就没这么明显了,导致很多人以为CPU架构多年来挤牙膏。

 



  • 这些评论亮了
  • Elwin教授 03-27 12:44

    奔四年代intel的黑历史实在是罄竹难书,跪一下不算啥。给你们数一数,最早推出的是soket423的850系列主板,支持180nm奔四和rdram,够高端吧,没有一年就被抛弃了,推出了soket478的845和850主板,最原始的845i甚至只支持sdram 133mhz。然后大戏上演,从支持ddr的845d,但是只支持到fsb400和ddr266并且南桥不支持usb2.0开始,到533fsb,ddr333和usb2.0的845pe,再到800fsb,双通道ddr400和usb2.0,sata150的865pe/875p,一年之内不停的折腾,玩家精疲力竭。当听说865/875可以上prescott的时候大家都高兴了一阵子,然后紧接着又傻眼了,LGA775和ddr2的915/925来了。intel觉得没玩够,又搞啥双核pentium d,同时又推出945/955主板搭配,前面的不支持。

    支持(21)  |   反对(1)  |   举报  |   回复

    11#

  • lewx大学生 03-28 14:05

    文中一针见血说了从一代到现在单核性能只提生了26%,第二代比第一代提升10%,1.26/1.1=1.1454545455,这些年从2代到现在单核同频性能提升只有15点,这牙膏真香^_^

    支持(2)  |   反对(0)  |   举报  |   回复

    24#

  • 游客  03-28 03:35

    拾人牙慧 高中生 :

    那换个问法,单核心的晶体管数量为什么不能做的很多呢?
    03-27 12:09
  • 支持(1)  |   反对(0)  |   举报  |   回复
  • 游客:

    会过热,太集中无法散热,过散延迟大增
    03-27 12:34 已有1次举报
  • 支持(6)  |   反对(0)  |   举报  |   回复
  • cjrcl 研究生 :

    没回答到点子上,没有分支预测和超标量的话,一个大核心里只有一小部分电路会工作,其他都闲着,所以才有超线程技术出现,闲的电路可以执行其他任务,注意是其他的任务,生生把一个大核心变成两个小核心来用,变相多核,IBM的一个Power核可以拆成8个用,不用超线程就是浪费晶体管,做大核跟做很多小核有时是异曲同工的。

    分支预测和超标量的实现很苛刻,超标量要求程序的后一步操作不能依赖前一步的结果,就是要有所谓的并行特点,CPU发现这些可以并行执行的指令同时执行他们,可以让一个大核里的许多单元同时干活(但其实分配给一堆小核干也是可以的,做大核跟做很多小核这时是异曲同工的);分支预测就顾名思义了,一步计算结果出来前猜这一步的结果是某个值,让闲置单元来执行依赖此值的下一步,但这导致了漏洞meltdown、spectre。
    03-28 01:47
  • 支持(9)  |   反对(0)  |   举报  |   回复
  • cjrcl 研究生 :

    超标量要求程序的后一步操作不能依赖前一步的结果,就是要有所谓的并行特点,CPU发现这些可以并行执行的指令同时执行他们,可以让一个大核里的许多单元同时干活(但其实分配给一堆小核干也是可以的,做大核跟做很多小核这时是异曲同工的)

    以上技术上是可以实现的,指的是分配给一堆小核干,但目前Intel、AMD都没这么干,所以我们才看到大单核NB。
    03-28 01:54
  • 支持(2)  |   反对(0)  |   举报  |   回复
  • 你说的对,但游客字数限制,无法详细回复

    支持(0)  |   反对(0)  |   举报  |   回复

    23#

  • cjrcl研究生 03-28 01:54

    拾人牙慧 高中生 :

    那换个问法,单核心的晶体管数量为什么不能做的很多呢?
    03-27 12:09
  • 支持(1)  |   反对(0)  |   举报  |   回复
  • 游客:

    会过热,太集中无法散热,过散延迟大增
    03-27 12:34 已有1次举报
  • 支持(6)  |   反对(0)  |   举报  |   回复
  • cjrcl 研究生 :

    没回答到点子上,没有分支预测和超标量的话,一个大核心里只有一小部分电路会工作,其他都闲着,所以才有超线程技术出现,闲的电路可以执行其他任务,注意是其他的任务,生生把一个大核心变成两个小核心来用,变相多核,IBM的一个Power核可以拆成8个用,不用超线程就是浪费晶体管,做大核跟做很多小核有时是异曲同工的。

    分支预测和超标量的实现很苛刻,超标量要求程序的后一步操作不能依赖前一步的结果,就是要有所谓的并行特点,CPU发现这些可以并行执行的指令同时执行他们,可以让一个大核里的许多单元同时干活(但其实分配给一堆小核干也是可以的,做大核跟做很多小核这时是异曲同工的);分支预测就顾名思义了,一步计算结果出来前猜这一步的结果是某个值,让闲置单元来执行依赖此值的下一步,但这导致了漏洞meltdown、spectre。
    03-28 01:47
  • 支持(9)  |   反对(0)  |   举报  |   回复
  • 超标量要求程序的后一步操作不能依赖前一步的结果,就是要有所谓的并行特点,CPU发现这些可以并行执行的指令同时执行他们,可以让一个大核里的许多单元同时干活(但其实分配给一堆小核干也是可以的,做大核跟做很多小核这时是异曲同工的)

    以上技术上是可以实现的,指的是分配给一堆小核干,但目前Intel、AMD都没这么干,所以我们才看到大单核NB。

    支持(2)  |   反对(0)  |   举报  |   回复

    22#

  • cjrcl研究生 03-28 01:47

    拾人牙慧 高中生 :

    那换个问法,单核心的晶体管数量为什么不能做的很多呢?
    03-27 12:09
  • 支持(1)  |   反对(0)  |   举报  |   回复
  • 游客:

    会过热,太集中无法散热,过散延迟大增
    03-27 12:34 已有1次举报
  • 支持(6)  |   反对(0)  |   举报  |   回复
  • 没回答到点子上,没有分支预测和超标量的话,一个大核心里只有一小部分电路会工作,其他都闲着,所以才有超线程技术出现,闲的电路可以执行其他任务,注意是其他的任务,生生把一个大核心变成两个小核心来用,变相多核,IBM的一个Power核可以拆成8个用,不用超线程就是浪费晶体管,做大核跟做很多小核有时是异曲同工的。

    分支预测和超标量的实现很苛刻,超标量要求程序的后一步操作不能依赖前一步的结果,就是要有所谓的并行特点,CPU发现这些可以并行执行的指令同时执行他们,可以让一个大核里的许多单元同时干活(但其实分配给一堆小核干也是可以的,做大核跟做很多小核这时是异曲同工的);分支预测就顾名思义了,一步计算结果出来前猜这一步的结果是某个值,让闲置单元来执行依赖此值的下一步,但这导致了漏洞meltdown、spectre。

    支持(9)  |   反对(0)  |   举报  |   回复

    21#

  • 游客  03-27 21:30

    游客:

    把所有整数单元比作两人三脚,那么变成千人会多快
    03-27 12:28
  • 支持(4)  |   反对(0)  |   举报  |   回复
  • 比作两人三脚的涵义是绑在一起的人不会变快,但会变多在不扯后腿的情况下 ...

    支持(0)  |   反对(0)  |   举报  |   回复

    20#

  • 乱古研究生 03-27 18:55

    按照用户超频使用的频率算,现在的CPU比起十几年前的奔腾4主频并没有任何提高!奔腾4时代 风冷水冷很多型号也可以超频到5GH多正常使用,而目前最新的9900k等仍然是这个超频频率使用

    支持(1)  |   反对(2)  |   举报  |   回复

    19#

  • 望星喵一代宗师 03-27 18:33

    游客:

    我记得intel给NASA定制了一个5.1GHz的E5-26xxV4 好像是CHH坛还是哪个坛的玩家拿到过ES版的 ...
    03-27 14:12
  • 支持(0)  |   反对(0)  |   举报  |   回复
  • 这年头假新闻哥满地跑,而且各种出口转内销再外包……
    求不了证的东西直接当假的就行了……

    支持(2)  |   反对(0)  |   举报  |   回复

    18#

  • 游客  03-27 16:52

    Elwin 教授 :

    奔四年代intel的黑历史实在是罄竹难书,跪一下不算啥。给你们数一数,最早推出的是soket423的850系列主板,支持180nm奔四和rdram,够高端吧,没有一年就被抛弃了,推出了soket478的845和850主板,最原始的845i甚至只支持sdram 133mhz。然后大戏上演,从支持ddr的845d,但是只支持到fsb400和ddr266并且南桥不支持usb2.0开始,到533fsb,ddr333和usb2.0的845pe,再到800fsb,双通道ddr400和usb2.0,sata150的865pe/875p,一年之内不停的折腾,玩家精疲力竭。当听说865/875可以上prescott的时候大家都高兴了一阵子,然后紧接着又傻眼了,LGA775和ddr2的915/925来了。intel觉得没玩够,又搞啥双核pentium d,同时又推出945/955主板搭配,前面的不支持。
    03-27 12:44
  • 支持(21)  |   反对(1)  |   举报  |   回复
  • RDRAM后期还有个昙花一现的32bit版本,不能用16bit的RDRAM,好像只有华硕出了一款,记得送内存,套装好像40 ...

    支持(2)  |   反对(0)  |   举报  |   回复

    17#

  • 果粒橙高中生 03-27 14:51

    热密度不允许吧 极限超频榜上 的cpu都要用液氮也压。。

    支持(0)  |   反对(0)  |   举报  |   回复

    16#

  • 游客  03-27 14:12

    我记得intel给NASA定制了一个5.1GHz的E5-26xxV4 好像是CHH坛还是哪个坛的玩家拿到过ES版的 ...

    支持(0)  |   反对(0)  |   举报  |   回复

    15#

  • 游客  03-27 13:49

    游客:

    上10GHz挺简单啊,5G+5G就10啦~淘宝奸商们就是这么算的,还有20GHz的呢
    03-27 11:44
  • 支持(11)  |   反对(0)  |   举报  |   回复
  • 还有的网商说20核呢,牛逼不?
    其实就是4核a53再加16个gpu的cu

    支持(3)  |   反对(0)  |   举报  |   回复

    14#

  • 游客  03-27 13:05

    再快脉冲会出现竞争冒险现象,数据出错率大增,同时漏电率、功耗大增,得不偿失,遂增加核心,提升性能 ...

    支持(5)  |   反对(0)  |   举报  |   回复

    13#

  • ywp0815研究生 03-27 12:59

    游客:

    最强还是amd fx8000系列,世界超频记录8g多
    03-27 11:40
  • 支持(0)  |   反对(0)  |   举报  |   回复
  • 那货性能太差了。。。超了8G也是高频低能 失败品之一 日常使用还是个火炉 冬天不错

    已有1次举报

    支持(7)  |   反对(1)  |   举报  |   回复

    12#

  • 游客  03-27 12:34

    拾人牙慧 高中生 :

    那换个问法,单核心的晶体管数量为什么不能做的很多呢?
    03-27 12:09
  • 支持(1)  |   反对(0)  |   举报  |   回复
  • 会过热,太集中无法散热,过散延迟大增

    已有1次举报

    支持(6)  |   反对(0)  |   举报  |   回复

    10#

  • Elwin教授 03-27 12:31

    原话是年内就推出4ghz的prescott奔腾4,并且将来直上10ghz。然而事实很打脸,3.8ghz的p4 670直到65nm才推出,而且915/925还不支持,还得换945/955。他下跪不是因为10g,是因为他们改变方向,开始玩奔腾d了。其实90nm的prescott奔四如果去掉超线程上4g还是轻轻松松的,100外频的2.8a可以直接提升到150甚至166外频,只是intel没心思继续玩,搞pentium d去了。最让人诟病的是无论90nm pd还是65nm p4,刚出的915/925居然都不支持,卖了个壁的。

    支持(2)  |   反对(0)  |   举报  |   回复

    9#

  • 游客  03-27 12:29

    单核多核都是一个ide功能也是一样的, 你看见单核就没兴趣升级了 你看见很多核就有兴趣了,差别就这样

    已有1次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    8#

  • 游客  03-27 12:28

    把所有整数单元比作两人三脚,那么变成千人会多快

    支持(4)  |   反对(0)  |   举报  |   回复

    7#

  • QQ23870862一代宗师 03-27 12:24

    肯定是上不去才转换成多核的!

    支持(3)  |   反对(0)  |   举报  |   回复

    6#

  • 拾人牙慧高中生 03-27 12:09

    那换个问法,单核心的晶体管数量为什么不能做的很多呢?

    支持(1)  |   反对(0)  |   举报  |   回复

    5#

查看全部评论(24)

回复