一个机架120kW算力,Nvidia DGX GB200 NVL72组成架构

2024-09-20

GTC Nvidia 周一发布了迄今为止最强大的 DGX 服务器。这款 120kW 机架式系统使用 NVLink 将 72 个新的 Blackwell 加速器拼接成一个大型 GPU,性能超过 1.4 exaFLOPS — 无论如何,精度达到 FP4。

在本周的 GTC 大会上,我们有机会仔细研究机架规模系统,Nvidia 声称它可以支持大型训练工作负载以及高达 27 万亿个参数的模型推理——但目前还没有任何这么大的模型。

Nvidia 的 DGX GB200 NVL72 是一个机架规模系统,它使用 NVLink 将 72 个 Blackwell 加速器组合成一个大型 GPU。

Nvidia 的 DGX GB200 NVL72 是一个机架规模系统,它使用 NVLink 将 72 个 Blackwell 加速器整合成一个大型 GPU(点击放大)

该系统被称为 DGX GB200 NVL72,是 Nvidia去年 11 月展示的Grace-Hopper Superchip 机架系统的升级版。不过,该系统的 GPU 数量是前者的两倍多。

计算堆栈

虽然重达 1.36 公吨(3,000 磅)的机架系统作为一块大型 GPU 进行销售,但它是由 18 个 1U 计算节点组装而成,每个节点都配备了两个 Nvidia 的 2,700W Grace-Blackwell 超级芯片(GB200)。

这里我们看到了两个 GB200 超级芯片,没有散热器和冷却板,位于 1U 液冷机箱中

这里我们看到了两个 GB200 超级芯片,1U 液冷机箱中没有散热器和冷板(点击放大)

您可以在我们的发布日报道中找到有关 GB200 的更多详细信息,但简而言之,大量部件使用 Nvidia 的 900GBps NVLink-C2C 互连将 72 核 Grace CPU 与一对顶级 Blackwell GPU 结合在一起。

总体而言,每个 Superchip 都配备 864GB 内存(480GB LPDDR5x 和 384GB HBM3e),据 Nvidia 称,可以实现 40 petaFLOPS 的稀疏 FP4 性能。这意味着每个计算节点能够产生 80 petaFLOPS 的 AI 计算,整个机架可以进行 1.44 exaFLOPS 的超低精度浮点数学运算。

Nvidia 的 Grace-Blackwell 超级芯片(简称 GB200)结合了 72 个 Arm 核心 CPU 和一对 1,200W GPU。

Nvidia 的 Grace-Blackwell 超级芯片(简称 GB200)结合了 72 个 Arm 核心 CPU 和一对 1,200W GPU(点击放大)

系统前端有四个 InfiniBand NIC(请注意机箱面板左侧和中央的四个 QSFP-DD 笼),它们构成了计算网络。系统还配备了 BlueField-3 DPU,据说它负责处理与存储网络的通信。

除了几个管理端口外,机箱还配备四个小型 NVMe 存储托架。

NVL72 的 18 个计算节点标配四个 Connect-X InfiniBand NIC 和一个 BlueField-3 DPU。

NVL72 的 18 个计算节点标配四个 Connect-X InfiniBand NIC 和一个 BlueField-3 DPU(点击放大)

有了两个 GB200 超级芯片和五个 NIC,我们估计每个节点的功耗在 5.4kW 到 5.7kW 之间。绝大部分热量将通过直接到芯片 (DTC) 液体冷却带走。Nvidia 在 GTC 上展示的 DGX 系统没有冷却板,但我们确实看到了来自合作供应商的几个原型系统,比如联想的这个。

虽然 Nvidia 展示的 GB200 系统没有安装冷却板,但联想的这款原型机展示了其在生产中可能的样子

虽然 Nvidia 展示的 GB200 系统没有安装冷板,但这款联想原型展示了其在生产中可能的样子(点击放大)

然而,与我们从 HPE Cray 或联想 Neptune 系列中看到的一些使用液体冷却所有东西的 HPC 中心节点不同,Nvidia 选择使用传统的 40 毫米风扇来冷却 NIC 和系统存储等低功耗外围设备。

把所有东西拼接在一起

首席执行官兼皮夹克爱好者黄仁勋在主题演讲中将 NVL72 描述为一个大型 GPU。这是因为所有 18 个超密集计算节点都通过位于机架中间的九个 NVLink 交换机堆栈相互连接。

NVL72 的计算节点之间是九个 NVLink 交换机的堆栈,为系统的 72 个 GPU 中的每个 GPU 提供 1.8 TBps 的双向带宽。

NVL72 的计算节点之间是九个 NVLink 交换机的堆栈,为系统 72 个 GPU 中的每个 GPU 提供 1.8 TBps 的双向带宽(点击放大)

Nvidia 的 HGX 节点也使用同样的技术,让 8 个 GPU 像一个 GPU 一样运行。不过,NVL72 并没有像下面 Blackwell HGX 那样将 NVLink 交换机嵌入到载板上,而是将其作为独立设备。

NVLink 交换机传统上被集成到 Nvidia 的 SXM 载板中,例如 Blackwell HGX 板。

NVLink 交换机传统上集成到 Nvidia 的 SXM 载板中,例如此处显示的 Blackwell HGX 板(点击放大)

这些交换机设备内部有一对 Nvidia 的 NVLink 7.2T ASIC,总共提供 144 个 100 GBps 链路。每个机架有 9 个 NVLink 交换机,相当于为机架中的 72 个 GPU 中的每一个提供 1.8 TBps(18 个链路)的双向带宽。

这里展示的是 NVL72 的九个交换机托架中各有两个第五代 NVLink ASICS。

这里展示的是 NVL72 的九个交换机托架中各有两个第五代 NVLink ASIC(点击放大)

NVLink 交换机和计算底座都插入盲插背板,并配有超过 2 英里(3.2 公里)的铜缆。透过机架背面,您可以隐约看到一捆巨大的电缆,它们负责将 GPU 连接在一起,使它们能够作为一个整体运行。

如果仔细观察,就会看到构成机架 NVLink 背板的大量电缆。

如果仔细观察,你会看到构成机架 NVLink 背板的大量电缆(点击放大)

坚持使用铜缆而非光纤的决定似乎是一个奇怪的选择,特别是考虑到我们所谈论的带宽量,但显然支持光纤所需的所有重定时器和收发器会使系统本来就巨大的功耗再增加 20kW。

这也许可以解释为什么 NVLink 交换机托架位于两个计算机组之间,因为这样做可以使电缆长度保持在最短。

电源、冷却和管理

在机架的最顶部,我们发现了几个 52 端口 Spectrum 交换机 — 48 个千兆 RJ45 和四个 QSFP28 100Gbps 聚合端口。据我们所知,这些交换机用于管理和传输来自组成系统的各个计算节点、NVLink 交换机托架和电源架的流式遥测数据。

在 NVL72 的顶部,我们发现了几个开关和六个电源架中的三个。

在 NVL72 的顶部,我们发现了几个开关和六个电源架中的三个(点击放大)

这些交换机正下方是 NVL72 正面可见的六个电源架中的第一个——三个在机架顶部,三个在底部。我们对它们了解不多,只知道它们负责为 120kW 机架供电。

根据我们的估计,六个 415V、60A 的 PSU 足以满足这一要求。不过,Nvidia 或其硬件合作伙伴可能已在设计中加入了一定程度的冗余。这让我们相信这些电源的运行电流可能超过 60A。我们已要求 Nvidia 提供有关电源架的更多详细信息;我们会告诉您我们的发现。

不管他们是怎么做的,电力都是通过机架背面的超大规模直流母线输送的。如果你仔细观察,你就能发现母线沿着机架中间延伸。

据首席执行官黄仁勋介绍,冷却液的设计输送速度为每秒 2 升。

据首席执行官黄仁勋介绍,冷却液设计为以每秒 2 升的速度泵送通过机架(点击放大)

当然,冷却 120kW 的计算并非易事。但随着芯片越来越热,计算需求不断增长,我们看到越来越多的数据中心供应商(包括 Digital Realty 和 Equinix)扩大了对高密度 HPC 和 AI 部署的支持。

对于 Nvidia 的 NVL72,计算和 NVLink 交换机均采用液体冷却。据黄先生介绍,冷却剂以每秒两升的速度进入机架,温度为 25 摄氏度,离开机架时温度会高出 20 度。

扩展

如果 DGX GB200 NVL72 的 13.5 TB HBM3e 和 1.44 exaFLOPS 稀疏 FP4 不够用的话,可以将其中 8 个联网在一起,形成一个带有 576 个 GPU 的大型 DGX Superpod。

八个 DGX NVL72 机架可以串联在一起形成 Nvidia 的液冷 DGX GB200 Superpod。

八个 DGX NVL72 机架可以串联起来形成 Nvidia 的液冷 DGX GB200 Superpod(点击放大)

如果您需要更多计算来支持大型训练工作负载,可以添加额外的 Superpod 以进一步扩展系统。这正是亚马逊网络服务 (Amazon Web Services) 对Ceiba 项目所做的。这款人工智能超级计算机最初于 11 月宣布,现在使用 Nvidia 的 DGX GB200 NVL72 作为模板。据报道,完成后,该机器将拥有 20,736 个 GB200 加速器。然而,该系统的独特之处在于 Ceiba 将使用 AWS 自主开发的 Elastic Fabric Adapter (EFA) 网络,而不是 Nvidia 的 InfiniBand 或以太网套件。

Nvidia 表示,其 Blackwell 部件(包括机架式系统)将于今年晚些时候开始上市


阅读521
分享
写评论...