×
×

揭秘:美国百亿亿级超算内部超级互联技术

2020-02-10 13:04:26 来源:本文由EETOP翻译自wikichip

在过去的一年中,Cray与美国能源部签订了许多极有价值的合同。毫无疑问,Cray赢得了所有三款美国已宣布的下一代百亿亿次超级计算机-El Capitan,Frontier和Aurora。Aurora计划在2021年基于英特尔的Sapphire Rapids Xeon CPU和Xe GPU进行开发,并计划成为美国第一台百亿亿级超级计算机。在Aurora之后不久,Frontier也计划在2021年推出。这是基于AMD的1.5 exaFLOPS超级计算机。2022年下半年推出的第三个系统是1.5 exaFLOPS El Capitan。这三个系统的共同点是它们都基于Cray最新的Shasta计算机系统架构。
 

新的Shasta架构的核心是采用了新的Slingshot互连技术。这是Cray的第八个主要的高性能网络互连技术,并且已经投入使用了五年多。Slingshot与以前的互连有所不同,因为它将以太网作为基准互连。

Slingshot实际上是建立在标准以太网之上的,这是Cray的第一个。但有一个问题。以太网对于HPC工作负载不是很好。财务它具有较弱的同步机制和较大的报文头,导致处理小数据包时效率低下。为了解决这些问题,Cray设计了一个自定义的互连,称为“ HPC以太网”。Cray认为,它将专有HPC网络的优势带入了高度可互操作的以太网标准。但是,毫无疑问,HPC以太网仍然是Cray专有的互连,但是它具有标准的以太网的附加优点,以便为基于标准以太网的设备(例如,存储和网络连接的加速器)提供支持。换一种说法,Slingshot交换机首先使用标准以太网协议进行操作,但是当连接的设备支持高级“ HPC以太网”功能时,它将尝试协商高级功能。此处的目的是允许高级HPC以太网功能在支持该功能的设备(例如其他Slingshot交换机)的网络中工作,同时与不支持该功能的以太网设备完全互操作。稍后,我们将更详细地介绍其中一些新增功能,但最大的新增功能是引入更好的特定于HPC的拥塞控制。

Cray使用64端口的的Slingshot交换机建立Slingshot互连。每个端口使用四个56G PAM4通道,速率为200Gbps。

使用Slingshot交换机,Cray使用其dragonfly拓扑构建大型系统。请注意,尽管这是Cray首选的系统拓扑,但Slingshot支持任何数量的拓扑,例如扁平化的butterflies 和fat trees拓扑。Slingshot可以很好地与这些拓扑结构一起使用。dragonfly拓扑的使用很大程度上是受成本推动的。减少较长的光缆,降低了系统的成本。Cray声称,系统中多达90%的电缆是廉价的铜缆,而光缆只占10%。
对于那些不熟悉dragonfly拓扑的人来说,它是一个具有三个级别的分层网络,分别称为系统,组和路由器。最低层是路由器。对于最大规模的系统,路由器连接到16个端口,剩下48个端口用于互连网。在中间层是组,一个组包含一个路由器。在最大规模的系统中,一组将使用每个路由器中的31个端口将32个路由器完全连接在一起。每个路由器留出17个端口(总共544个),用于在一个全方位网络中全局连接系统级别的所有组。总共545个组和每组32个路由器,使用dragonfly拓扑的Shasta系统可以扩展到279,040个端点。

罗塞塔(Rosetta)

Slingshot交换机内部是Cray的自定义HPC以太网ASIC交换机Rosetta。Rosetta采用台积电TSMC)的16 nm工艺实现,功耗高达250W,它是64端口,200 Gbps端口交换机。罗塞塔(Rosetta)采用平铺式结构。在下图中所示,有64个图块。芯片的参数上有32个图块,用于外围功能块,例如SerDes,Ethernet Lookup ,MAC / LLR / PCS。芯片中心内的32个图块用于所有其他端口功能。请注意,每个图块都包含两个端口。

在内部,该芯片包括32个功能块,排列成四行乘八列。每个图块有两个交换机端口,因此有32个功能块,您正在查看完整的64个端口。Rosetta是使用分层交叉交换实现的。每个端口都有自己的行总线,该行总线跨行通信。有一组八列通道连接到该列中的八个端口。由于每个图块有两个交换端口,因此在八列通道集中有两个。每个图块都有一个16输入8输出交叉开关。

HPC以太网

我们提到Cray Slingshot实现了称为HPC以太网的新协议。该协议是由Cray和一家未公开的公司(可能是Broadcom)共同努力实现的。HPC以太网是标准以太网协议的超集,该协议专门针对HPC优化以提高性能和弹性。在内部和交换机的Cray系统中,所有数据包都是HPC以太网数据包,而与网络边缘设备的通信是标准以太网数据包。
允许将数据包轻松地从一种形式转换为另一种形式。以太网的最小帧大小为64字节(18字节报头+ 46字节有效负载)。HPC以太网摆脱了这一限制,以40字节帧(或32字节加上边带)为目标。它改变了报文头,使其尺寸尽可能减小–减少了前同步码,删除了L2报头。还引入了基于信用的流量控制,该流量控制的设计比现有机制更加有效。为了提高弹性,提供了低延迟FEC,链路级重试以容忍瞬态错误(针对CRC错误在链路级进行重传)以及通道性能下降(例如从4通道变为3通道或3通道降低)。在Cray的分析图中,下面绘制了消息大小与每秒可发送的百万个数据包的关系图,很明显,与标准以太网相比,HPC以太网由于消息头小得多而在较小消息大小时效率更高。HPC以太网可以与HDR Infiniband相媲美,后者是另一个非常好的HPC网络互连。
真正的魔力在于拥塞控制
QoS很好,但现实世界中的工作负载要复杂得多,通常共享相同的流量类别,争夺可用带宽。Slingshot的最大进步也许是高级拥塞管理。根据Cray的说法,Slingshot知道系统中每对端点之间正在流动的内容。这使它可以非常快速地检测到拥塞。这与现有的基于ECN的机制(将拥塞信息发送回源)非常不同,更像是为网络中的所有内容提供不同的虚拟通道。一旦检测到有问题的流量来源,Slingshot会回推该流量来源,释放缓冲区空间。
原文:https://fuse.wikichip.org/news/3293/inside-rosetta-the-engine-behind-crays-slingshot-exascale-era-interconnect/

全部评论

X