首台ExaFLOP级超算Frontier几乎每天都有故障,问题或出自GPU及互联系统

前沿科技 2年前 (2022) 虚像
9 0 0

美国橡树岭国家实验室的 Frontier 是全球首台真正意义上达到 ExaFLOP 级别(百亿亿次)的超级计算机,在高性能 Linpack(HPL)基准里,显示其运算性能达到了 1.102 Exaflop/s,峰值性能达到了 1.685 Exaflop/s。打造一台超级计算机并不是一件容易的事情,需要面对大量的硬件和软件工作,而且有可能遇到意料之外的状况,特别是 Frontier 这种采用新架构、性能有跨越式提升的超算。

首台ExaFLOP级超算Frontier几乎每天都有故障,问题或出自GPU及互联系统

据 TomsHardware 报道,目前 Frontier 的运转情况并不好,几乎没有一天是完全正常运转,平均故障间隔时间仅为数个小时。有关 Frontier 存在硬件问题的消息已经流传有一段时间了,有消息称可能与该系统采用的 HPE Slingshot 互连系统有关,也有传闻指 Instinct MI250X 计算卡并不是那么可靠。

Frontier 基于 HPE Cray EX235a 架构,采用了 AMD 第三代 EPYC 处理器,频率为 2GHz,整个系统共有 8730112 个内核。每个 HPE Cray EX 节点包括了一块 AMD 的 64 核 EPYC"Trento"7A53 处理器(代号 Milan 的 Zen 3 架构衍生产品),512GB 的 DDR4 内存,以及四块 Instinct MI250X 计算卡,通过四个 HPE Slingshot 200Gbps 以太网 NIC(25GB/s)连接,提供 800Gbps(100 GB/s)的节点带宽。

Frontier 并不是唯一一款采用 HPE Cray EX 架构及 HPE Slingshot 互连系统的超级计算机,芬兰名为 Lumi 的超算几乎采用了相同的架构,不过规模要小一些,峰值性能为 0.55 ExaFLOPS,似乎并没有出现类似的问题。

Frontier 原计划在 2022 年上线,不过至今仍未正式部署,不知道 2023 年是否可以向研究人员开放。

原文地址:http://www.myzaker.com/article/6342c98cb15ec024f015212c

版权声明:虚像 发表于 2022年10月10日 am9:16。
转载请注明:首台ExaFLOP级超算Frontier几乎每天都有故障,问题或出自GPU及互联系统 | 快导航网

相关文章