E X P
本文约 1420 字,6 张图表,正努力加载…
  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    近日,NextPlatform根据中国并行计算机工程与技术国家研究中心(NRCPC)的一份文件,分析了中国的百亿亿次(E级)超级计算机三个提案之一的申威HPC架构,以及申威多核混合CPU架构 。

    超算趋势:更多内核

    NRCPC对近年来超算系统的发展趋势进行了研究,发现由于摩尔定律和登纳德缩放比例定律 (Dennard Scaling)的放慢,在不增加功耗的情况下提高超算的性能变得异常困难,整个系统架构的复杂性会呈指数级增长。从2008年到2019年,顶尖超算的性能有所提高,这主要是由于内核数的增加,多了44倍。比起重新设计复杂的架构,不如扩展现有的架构设计。

    申威SW26010:采用混合架构

    2016年推出的神威太湖之光超算使用了40960个国产申威SW26010处理器,采用混合架构。该系统的Linpack性能(Rmax)为93,014.6 TFLOPS, (Rpeak)为125,436 TFLOPS。

    申威SW26010处理器是基于自主研发的64位RISC架构,具有4个集群(CG)和一个协议处理单元(PPU)。每个集群有一个MPE(management processing element), MPE是一个超标量乱序核,具有256位向量引擎、32KB/32KB L1指令/数据缓存、256KB L2缓存。它还集成了64个计算处理元素(CPE),具有相同的256位向量引擎以及64KB快速数据存储和16KB指令存储。CPE以8x8阵列形式组成,使用网状网络相互连接。

    每个CG都有其自己的DDR3内存控制器,具有自己的地址空间,使用9个内存模块,8GB内存,实现专有的ECC。CG通过类似于环形总线的片上网络(NoC)进行互连,并且处理器本身通过系统互连(SI)总线连接至系统的其余部分。

    处理器的工作频率为1.45GHz,可能采用台积电28nm工艺制造。整个系统拥有40960个以上的节点,总计1.25PB内存。

    E级超算解决方案:建议扩展一切

    从NRCPC的角度来看,可以同时扩展神威系统和申威CPU架构,以构建性能约为1 ExaFLOPS的超级计算机。

    新的申威将具备8个CG群集,比原来的4个翻了一倍,CG架构不变,仍然是一个MPE和64个CPE组成。使处理器数量至少增加一倍,达到80000个以上,同时CPE和MPE将支持512位向量指令,这样处理器将提供共12 FP64 TFLOPS的性能。下一代的神威超算大约1个FP64 ExaFLOPS,2个FP32 ExaFLOPS以及4个FP16 ExaFLOPS峰值性能。考虑到效率(70%)问题,实际性能大约是700 PFLOPS,也会比现有的神威太湖之光超算快了7.5倍,内存带宽会增加7倍,网络带宽则增加2倍。

    面临挑战:需要新工艺

    核心数量翻倍意味着需要更多的晶体管,这是一个不可克服的挑战。申威SW26010处理器应该是采用了台积电的28nm工艺制造,新处理器使用14nm工艺制造是很合理的猜想。目前国内只有中芯国际具有14nm工艺节点的生产能力,但一直都只是生产移动平台的SoC或者相对较小的芯片,这么复杂处理器还没试过。如果采用28nm工艺制造,并非不可行,但功耗和散热方面需要更多地进行处理。

    事实上NRCPC的文章里并没有提及整个系统的功耗目标,目前神威太湖之光超算的功率是15371千瓦,而目前排名第一的Fugaku超算消耗的功率为29899千瓦,约为两倍。

    另一个问题是中芯国际被美国商务部列入了“实体清单”,无论是制造上需要的化学品还是配件都更难获取了,这些都会影响代工。当然也可以向台积电或者三星下单,不过同样也会面临被列入“实体清单”的危险,可以说是一个冒险的选择。

    从这点上看,如果向台积电下单,可以直接尝试使用7nm甚至6nm的工艺制造。

    结论:万事俱备只欠东风

    作为国内最早的E级超算计划,为了在Linpack基准测试中达到1 FP64 ExaFLOPS Rpeak性能,NRCPC将增加其处理器中的核心数量,增加对512位矢量指令的支持。最终结果是处理器的核心数量翻倍,以及使用全新的内存系统对其进行支持,并计划采用新工艺制造。

    国内的工程师已经可以开发出包括CPU,DRAM,NAND和其他组件在内的尖端超级计算机,但进行中的亿亿级超算系统计划仍存在最后的疑问,最终将取决于制造的工艺技术。

    ×
    热门文章
    1技嘉将正式发布CMP 30HX矿卡,保修期仅三个月
    2Alder Lake年内会发布,先来看看不同版本的方块图
    3台积电遭遇突发停电,汽车芯片供应难上加难
    4芝奇宣布推出皇家戟尊爵版DDR4内存,频率最高达5333HMz
    5不怕找不到GPU开关了,NVIDIA GeForce Experience加入自动配置创意软件
    6华硕将推出ROG Zephyrus M16游戏本,配置和外观遭曝光
    7一加9R手机正式发布:售价2999元起,迪迦奥特曼的硬核伙伴
    8Unity将原生支持DLSS,让更多游戏拥有DLSS
    9TCL展示可卷可折的概念手机,可变身10英寸平板
    已有 6 条评论,共 145 人参与。
    登录快速注册 后发表评论
    • 这些评论亮了
    • hopper大学生 02-20 16:37    |  加入黑名单

      不容易啊,从最开始的什么都没有,再到现在只剩下制造工艺没攻破。

      已有5次举报

      支持(50)  |   反对(4)  |   举报  |   回复

      1#

    • 我匿名了  02-21 14:45

      SimplTonB 初中生

      该评论因举报过多,自动进入审核状态。

      你这话就不对了,你意思做arm的也没有核心技术,还要很多例子呢

      已有3次举报

      支持(4)  |   反对(1)  |   举报  |   回复

      6#

    • zkm研究生 02-21 10:47    |  加入黑名单

      该评论因举报过多,自动进入审核状态。

      5#

    • 我匿名了  02-21 10:23

      神友还没杀到

      已有2次举报

      支持(5)  |   反对(1)  |   举报  |   回复

      4#

    • SimplTonB初中生 02-21 09:48    |  加入黑名单

      该评论因举报过多,自动进入审核状态。

      3#

    • QQ23870862终极杀人王 02-20 20:41    |  加入黑名单

      该评论因举报过多,自动进入审核状态。

      2#

    提示:本页有 3 个评论因未通过审核而被隐藏

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明
    为你推荐