E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    近十年来,Arm整个生态体系有了飞速的发展。这得益于智能手机的普及,几乎所有人都知道了Arm的存在。事实上更大的变革来自其他方面,比如桌面平台、服务器和超算领域。更接近于人们认知的是苹果推出了首款自研芯片M1,从自己产品线吹响了取代英特尔芯片的号角,无论对于苹果还是Arm生态系统,这都是一个划时代的产品。x86已经主宰了计算机行业多年,随着Arm的崛起,接下来的将面临有史以来最大的挑战。

    Armv8架构是Arm在2011年推出的第一款64位架构,相比Armv7架构是一个巨大的跨越。苹果在其中扮演了重要的角色,也借此迅速地推出了一连串基于此架构的芯片,从iPhone和iPad系列产品,最终拓展到了桌面平台的iMac上,在市场竞争中占据了先机,因此大获成功。不少企业也基于此架构,开发了可用于服务器和超算领域的产品,个别产品也获得了不错的效果,Arm架构芯片得到了更广泛的应用。可以说Armv8架构让Arm芯片从小型或移动设备,进入了新的领域。

    前一段时间,Arm发布了全新的Armv9架构,开启了新的征程。根据Arm官方的介绍,新的Armv9架构将会至少使用10年,未来两代基于Armv9架构的处理器在性能上有望提升30%。与Armv8架构不同的是,Armv9架构的适用范围更广阔,其一系列改进不少都是为了Arm架构芯片可以实现高性能计算做铺垫,也就是说更接近于大家口中“x86处理器的对手”这个定位。

    Armv9架构相比Armv8架构改进了什么?

    在Armv8架构基础上,Armv9架构继续使用AArch64作为基准指令集,保持了向下兼容性,在此基础上分别在安全性、AI(机器学习)以及可伸缩矢量扩展和DSP上做出改进,扩展了应用范围。Armv9架构包括了三个系列,分别是通用计算的A系列、实时处理器的R系列和微控制器的M系列。

    Armv9架构在安全性方面做了多方面的工作,比如引入了Arm机密计算体系(Confidential Compute Architecture, CCA)和动态创建机密领域(Realms)概念,通过打造基于硬件的安全运行环境来执行计算,保护代码和数据免被窃取或修改。Arm还与谷歌合作开发了“内存标签扩展”技术,可以在软件中查找空间和时间的内存安全问题。另外,Arm与剑桥大学在其CHERI架构上进行合作,从架构底层提高安全性。

    Arm认为,未来计算性能的提升非常重要的驱动力就是AI。不同的设备的AI性能需求不同,对AI处理器的要求也会不一样。为了满足未来的行业需求,Arm在原有的SVE(可伸缩矢量扩展)指令集基础上,开发了SVE2指令集,增强了新一代Arm架构在高性能计算、5G网络、虚拟现实、AI和DSP等方面的性能。另外Arm对矩阵乘法的进一步优化,以及Mali GPU和Ethos NPU的持续改进,也将扩展Armv9架构的技术能力。

    随着各行各业对处理器的要求已从通用计算向专用计算发展,为了满足各方对性能的需求,Arm提出了全面计算(Total Compute)的设计方法。通过对系统级硬件(包含Arm的CPU、GPU、NPU)和软件优化,将全面计算的设计方法应用在汽车、用户端、基础设施和物联网等解决方案的整个IP组合中,让Armv9架构加速总体计算性能。

    富士通在Armv9架构开发过程中的作用

    富士通(Fujitsu)作为一家在超级计算机领域有着丰富经验的企业,与Arm合作开发了SVE指令集来扩展Arm处理器。SVE指令集并不是Armv8基本规范的一部分,只是一个扩展,不过在Armv9里,已经成为了标准规范的一部分。虽然SVE作为初代产物,应用范围有限,并且更多地只是针对HPC工作负载,但作用不可忽视。

    Arm和富士通的合作成果是A64FX,是首款使用SVE指令集的Arm架构处理器,也就是目前世界排名第一超算系统“Fugaku”使用的芯片,表现相当亮眼。

    根据富士通的介绍,A64FX采用台积电7nm FinFET工艺制造,拥有87.86亿个晶体管,596个信号针脚,集成了52个核心,包括48个计算核心和4个一样结构的管理核心。所有的52个核心分为四组,每组13个,共享8MB二级缓存。每组之间的互联使用的是富士通第二代TOFU,也就是6D mesh/torus片上互联网络。同时配置了配的32GB HBM2内存,16条PCIe Gen3通道,拥有1024 GB/s的存储带宽。可以提供2.7 TFLOPS@64bit,21.6 TFLOPS@8bit的性能。

    基本上A64FX是一款除了贵,没有什么缺点的产品。Arm与富士通在A64FX合作开发过程中,得到了超算系统方面的大量研发经验,为接下来Armv9架构的标准规范制定工作奠定了坚实的基础。

    随着人工智能、机器学习和数据分析等项目在经济生产和日常生活中变得更普遍,数据中心和超算系统将越来越受到重视。这个由英特尔和AMD的x86处理器主导的市场,自然也是未来Arm想要涉足的地方。在这个领域,富士通A64FX处理器为Arm打响了第一枪,可以说是Arm架构芯片一次成功的试水。

    SVE2与x86的SIMD相比有什么优势?

    对于目前使用基于Armv8架构处理器的iPhone或iPad系列这样的产品,想运行某些为A64FX制作的代码是不可行的,因为不支持SVE指令集。在不久的将来,基于Armv9架构处理器的新一代移动设备却可以做到,因为SVE指令集已经成为Armv9架构标准的一部分。从这个角度来看,等于将“超算”塞进了口袋。

    在现代微处理器中,处理矢量的指令被称为SIMD指令。从技术上讲,Arm的Neon和SVE指令集都可以视为SIMD指令的一种形式,这是单指令多数据流的简称。简单来说,就是当你向CPU发出一条指令,然后会在同一时间对多个值进行相同的操作。这类型的指令集其实很常见,在x86微处理器里,为更快进行多媒体处理和视频编解码工作,使用了包括MMX、SSE系列和现在的AVX系列等指令集,都有相似的思路和作用。

    不过目前x86的SIMD指令存在一定的问题。比如一些看起来相同的指令,因为参数不同,都会被编码为独立的指令。另外矢量寄存器由MMX的64位,扩展到AVX-512的512位,但由于在x86的SIMD指令里,矢量寄存器的长度会被编码在SIMD指令中,需要增加一条指令来处理,长度不同的矢量寄存器都要添加新的扩展和指令,所以每当英特尔提供更大的矢量寄存器,就不得不大量增加新指令以适应矢量寄存器长度的变化。自1978年以来,IA-32指令集已从80条增加到大约1400条,主要就是由SIMD指令推动的,最终变得越来越臃肿,编译也变得愈加繁琐。

    在x86的早期,处理器制造工艺的提升相对容易,晶体管数量可以很轻松地以几何级数量增加,指令集的条数也不算多,想加入更大的矢量寄存器并不难,每隔几年增加新指令也是常态。不过随着工艺开发越来越难,以及晶体管密度过高造成的各种问题,通过这种方式提高性能可能开始有点行不通了。目前在消费级平台,使用AVX-512指令集的时候会有什么样的效果,英特尔第11代酷睿系列处理器的表现相信已经有目共睹了。

    一般来说,使用x86处理器的领域允许其做得更大,功耗高一些可能也没关系,对于超算系统使用的处理器而言,更不会那么严格。不过Arm架构的处理器大多是用在小型设备上,对功耗和散热都很敏感,所以就变得很谨慎了。更重要的一点是,Arm试图让自己的架构可以覆盖更广泛的领域,从微小的嵌入式设备到“Fugaku”这样的超算系统。虽然Arm也能提供不同的指令集,或者为不同的细分市场提供不同的配置标准,但软件可以在所有Arm架构芯片上编译和运行会更符合Arm的利益,发挥出其架构的最大效益。

    如果Arm按照x86的这种思路,显然是达不到自己想要的效果。而SVE/SVE2指令集可以让Arm做到不同类型芯片上提供可变长度的矢量寄存器,一个矢量寄存器的最小长度为128位,最大长度为2048位。无论在什么样的Armv9架构芯片上运行,矢量的可变长度都为128位。

    未来智能手机使用的Arm处理器,可能使用128位的矢量寄存器就可以了,而在超算系统里,则可以使用2048位的设计,代码能够充分利用矢量寄存器的长度以达到更高的性能。这意味着同样的代码其实可以适用于超算系统和普通人的智能手机,这是目前x86的SIMD指令所做不到的,而且需要解码和管理的指令也更少,装入缓存的指令也少得多。

    或许有人会产生一个疑问,为什么SVE2与SVE有什么不同?带来了什么变化?

    SVE指令集是Armv8架构里的一个可选扩展,为适应高性能计算需要而设计的,适用性有限。对于大多数用户而言,更多地是使用Arm的Neon指令集,所做的多媒体工作负载可能更贴合他们的需求,对于这类型工作基本不需要长的矢量寄存器。SVE2指令集一方面完善了SVE指令集的不足,另一方面基本做到了原来Neon指令集所要做的事情,而且有着更高的效率和更好的灵活性,可变长度让其不但适应使用长矢量寄存器的工作,还能胜任使用短矢量寄存器的任务。

    Arm未来可期,x86将面临真正的挑战

    未来用户根据自己的实际用途,使用Armv9架构可以设计出更适合自己的芯片,既可以是最小最省电的芯片,也可能是要求最高性能的芯片,而且用户只需要编译一次。这也避免了Arm相隔几年就要考虑大量加入新的SIMD指令,使其加入到英特尔和AMD的SIMD指令军备竞赛中。SVE2指令集为使用Arm架构芯片的用户提供了一个具有稳定性和可发展空间的平台,开发人员编写和优化Arm代码变得更简单,这有利于编写机器学习、人脸识别和语音识别的程序变得更加容易,而且不用担心目标平台是否支持这些指令,搭载的设备变得更多样化。

    事实上RISC-V和Arm一样,在指令集类型上有一样的追求。在未来几年,英特尔和AMD将面临严峻的挑战,在机器学习、人工智能、数据中心和超算等高性能、高利润的领域,面对的竞争对手并不是彼此,而是Arm甚至RISC-V这样的新生势力强有力的冲击。Armv9架构的发布,指明了Arm前进的方向,未来的道路已渐露曙光。当了解了这些以后,再看看英伟达想以400亿美元买下Arm,是不是觉得有点超值?

    ×
    热门文章
    1海韵青龙PX-1200图赏:犹如国风艺术品般的大功率ATX 3电源
    2英特尔Core Ultra 5 238V现身:已知首款带有32GB LPDDR5X的Lunar Lake
    3Epic平台免费领取《龙腾世纪 : 审判》年度版, 至5月23日23点截止
    4XFX讯景推出RX 7900 GRE / 7800 XT 白色凤凰涅槃:纯白银光配色,4099元起
    5芝奇推出芝奇Ripjaws S5焰刃RGB内存:纯白或纯黑烤漆马甲,最大容量96GB
    6华硕ROG Ally X掌机将升级内存配置:配备24GB的LPDDR5X-7500
    7西数发布6TB 2.5寸移动机械硬盘:目前全球容量最大,包含三个系列
    8华硕推出Z790-AYW WIFI W主板:纯白PCB设计,内存支持DDR5-8000+OC
    92024年4月中国大陆主板出货量:各个品牌厂商普遍出现下滑
    已有 11 条评论,共 130 人参与。
    登录快速注册 后发表评论
    • 我匿名了  2021-06-07 09:24

      RISC-V这个不会卡脖子吧 但是那个好用谁就会赢。安卓打败塞班几乎半年的事情

      支持(1)  |   反对(0)  |   举报  |   回复

      11#

    • zhaoyun980终极杀人王 2021-06-04 18:53    |  加入黑名单

      音乐系魔法使 教授

      该评论因举报过多,自动进入审核状态。

      言之有理

      支持(1)  |   反对(1)  |   举报  |   回复

      10#

    • Pigeon.GuGuJi一代宗师 2021-06-04 10:49    |  加入黑名单

      未来两年服务器那边,会有相当数量有能力的自己搞一部分用来替换X86,毕竟便宜+贴近需求+可定制,亚麻就这么干的
      桌面不好说,苹果肯定自研了,看看月底那个下代windows是什么态度
      不过X86的绝对统治地位确实要过去了

      支持(7)  |   反对(0)  |   举报  |   回复

      9#

    • 我匿名了  2021-06-04 09:31

      从 Armv9 指令集来看,虽然有模仿类似CISC指令集(X86)的AVX 指令的迹象,但 Armv9 将来主打仍然是手机、平板领域,只增加很少的SVE指令,是为了兼容ARM超算系统(如“Fugaku”超算)而设置。

      支持(3)  |   反对(0)  |   举报  |   回复

      8#

    • hstjm2008一代宗师 2021-06-04 08:56    |  加入黑名单

      不过ARM公司的态度 让不少企业选择了其他的架构

      支持(4)  |   反对(0)  |   举报  |   回复

      7#

    • DK101教授 2021-06-04 06:08    |  加入黑名单

      华为押宝RISC-V

      支持(0)  |   反对(0)  |   举报  |   回复

      6#

    • 梦の黑白教授 2021-06-03 23:39    |  加入黑名单

      x64就是指x86-64

      支持(0)  |   反对(0)  |   举报  |   回复

      5#

    • 音乐系魔法使教授 2021-06-03 23:12    |  加入黑名单

      本评论因举报过多,待审核处理。

      4#

    • kula54博士 2021-06-03 20:26    |  加入黑名单

      intel和amd要加油了

      支持(4)  |   反对(0)  |   举报  |   回复

      3#

    • zhaoyun980终极杀人王 2021-06-03 20:03    |  加入黑名单

      Arm战X86,那谁来战X64呢

      已有3次举报

      支持(1)  |   反对(17)  |   举报  |   回复

      2#

    • QQ23870862终极杀人王 2021-06-03 19:19    |  加入黑名单

      本评论因举报过多,待审核处理。

      1#

    提示:本页有 11 个评论因未通过审核而被隐藏

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明