美国橡树岭国家实验室的Frontier是全球首台真正意义上达到ExaFLOP级别(百亿亿次)的超级计算机,在高性能Linpack(HPL)基准里,显示其运算性能达到了1.102 Exaflop/s,峰值性能达到了1.685 Exaflop/s。打造一台超级计算机并不是一件容易的事情,需要面对大量的硬件和软件工作,而且有可能遇到意料之外的状况,特别是Frontier这种采用新架构、性能有跨越式提升的超算。
据TomsHardware报道,目前Frontier的运转情况并不好,几乎没有一天是完全正常运转,平均故障间隔时间仅为数个小时。有关Frontier存在硬件问题的消息已经流传有一段时间了,有消息称可能与该系统采用的HPE Slingshot互连系统有关,也有传闻指Instinct MI250X计算卡并不是那么可靠。
Frontier基于HPE Cray EX235a架构,采用了AMD第三代EPYC处理器,频率为2GHz,整个系统共有8730112个内核。每个HPE Cray EX节点包括了一块AMD的64核EPYC“Trento”7A53处理器(代号Milan的Zen 3架构衍生产品),512GB的DDR4内存,以及四块Instinct MI250X计算卡,通过四个HPE Slingshot 200Gbps以太网NIC(25GB/s)连接,提供800Gbps(100 GB/s)的节点带宽。
Frontier并不是唯一一款采用HPE Cray EX架构及HPE Slingshot互连系统的超级计算机,芬兰名为Lumi的超算几乎采用了相同的架构,不过规模要小一些,峰值性能为0.55 ExaFLOPS,似乎并没有出现类似的问题。
Frontier原计划在2022年上线,不过至今仍未正式部署,不知道2023年是否可以向研究人员开放。
Rio终极杀人王 2022-10-10 18:29 | 加入黑名单
支持(2) | 反对(0) | 举报 | 回复
7#
appleache一代宗师 2022-10-10 12:11 | 加入黑名单
支持(7) | 反对(0) | 举报 | 回复
6#
旅途一代宗师 2022-10-09 18:55 | 加入黑名单
支持(8) | 反对(4) | 举报 | 回复
5#
旅途一代宗师 2022-10-09 17:30 | 加入黑名单
目前Frontier的运转情况并不好,几乎没有一天是完全正常运转,平均故障间隔时间仅为数个小时。有关Frontier存在硬件问题的消息已经流传有一段时间了,有消息称可能与该系统采用的HPE Slingshot互连系统有关,也有传闻指Instinct MI250X计算卡并不是那么可靠。
已有11次举报支持(8) | 反对(1) | 举报 | 回复
4#
tao123教授 2022-10-09 14:42 | 加入黑名单
支持(10) | 反对(10) | 举报 | 回复
3#
fanzhiyue研究生 2022-10-09 14:22 | 加入黑名单
擦,美国禁售MI250X原来是这个原因,令人烧心
已有5次举报支持(14) | 反对(4) | 举报 | 回复
2#
旅途一代宗师 2022-10-09 13:48 | 加入黑名单
要有人甩锅美国橡树岭国家实验室,不会用AMD的技术
已有15次举报支持(8) | 反对(7) | 举报 | 回复
1#
提示:本页有 7 个评论因未通过审核而被隐藏