英伟达Blackwell技术问题得到解决,GB200真要量产了

2024-09-28

NVIDIA将在12月初开始向主要云服务提供商交付首批GB200服务器,这一时间表比原计划仅晚一个月,问题解决速度超出预期。我的消息来源称,微软预计将获得NVIDIA最新AI芯片的最大配额,Oracle、AWS和Meta等也是顶级客户。NVIDIA直接与最终客户洽谈Grace CPU和Blackwell GPU的销售,但芯片会直接发送给供应商进行系统集成(因此,实际上是系统集成商将服务器交付给客户)。

图片1.jpg

GB200-NVL36服务器原定于本月底交付(我听说NLV36的订单不多),而GB200-NVL72版本原定于11月初交付,但延迟将时间推迟到1月。现在,这两个版本都将在12月第一周左右发货。(‘72服务器实际上是两个‘36机架连接在一起。)

几个月前,NVIDIA和TSMC发现了与CoWoS-L封装相关的问题,这一封装将处理器与高带宽内存连接起来,从而扰乱了BlackwellGPU的生产。SemiAnalysis对此进行了深入分析。一个主要挑战是翘曲,这也是本月SEMICON Taiwan的一个重要议题。

《信息报》在8月3日报道称,这些芯片将延迟三个月或更长时间,因此大宗出货预计要到第一季度。可是,设计和制造的重新调整使NVIDIA和TSMC重新回到正轨。我的消息来源透露,模块制造商和服务器系统集成商已经收到了资格样品。这些芯片采用TSMC的4nm工艺制造,随后在CoWoS封装步骤中与HBM结合,后者也是由TSMC在不同设施中完成。

随后,芯片将进入模块组装阶段。富士康工业互联网(FII)预计将成为这一阶段的主要供应商。然后,这些芯片会送往服务器制造商,主要是富士康和广达,进行完整服务器机架的集成。本周我与这三家台湾公司的发言人交谈时,他们均拒绝评论。NVIDIA的发言人也拒绝了评论。

纬创的台北子公司Wiwynn和中国的立讯精密等公司也希望构建和销售基于GB200的服务器。然而,由于NVIDIA决定芯片的分配,这些组装商需要赢得一个大型客户(获得分配的客户),才能获得GPU。

由于TSMC和NVIDIA迅速解决了设计和制造问题,FII、富士康和广达能够构建和测试将作为GB200-NVL36(每台36个Blackwell GPU)或NVL72(每台72个GPU)服务器发出的系统。

消息来源告诉我,从模块到系统组装的量产工作将在12月初全面展开,Ariel板(1个Grace,1个Blackwell)和Bianca板(1个Grace,2个Blackwell)也将准备就绪。SemiAnalysis在七月份详细解释了各种配置。

尽管经历了一些波折,需求依然强劲,部分原因是之前的Grace-Hopper项目实际上被取消,只有少量企业客户获得了相关产品。

最初,GB200服务器的组装将完全在台湾进行。明年第一季度,可能会将海外工厂(如墨西哥和德克萨斯州)纳入生产计划。

分析师们来自摩根士丹利,他们认为尽管由于一个显著但易于修复的设计问题导致低产量,Nvidia仍将生产大约450,000个基于Blackwell架构的AI GPU。如果这一信息准确,而公司能够在本日历年内销售这些单位,这可能意味着超过100亿美元的收入机会。

摩根士丹利的分析师在致客户的报告中写道:“预计Blackwell芯片将在2024年第四季度生产450,000个单位,这将为Nvidia带来超过100亿美元的潜在收入机会。”这篇报告由The_AI_Investor发布,该博客通常能够获得此类报告的内容。

尽管100亿美元和450,000个单位的数字看起来很重要,Nvidia将以约22,000美元的价格出售其需求量大的Blackwell GPU,而这个价格相比传闻中的每个Blackwell GPU模块70,000美元有了显著下降。虽然数据中心硬件的实际定价依赖于数量和需求等因素,但以低于Nvidia当前一代H100的价格出售首批超高端GPU显得有些奇怪。

当然,Nvidia更希望出售以其BlackwellGPU为动力的“参考”AI服务器机柜:NVL36配备36个B200 GPU,预计售价在180万到200万美元之间,而NVL72内部有72个B200 GPU,起售价为300万美元。出售机柜而不是单独的GPU、GPU模块,甚至DGX和HGX服务器更具盈利性,因此通过出售这些机器赚取100亿美元并不令人意外。然而,在这种情况下,Nvidia不需要提供450,000个GPU就能实现100亿美元的收入。

在八月底,Nvidia表示必须更改代号为B100/B200的GPU光掩模设计,以提高生产产量。公司还指出,这些GPU将在第四季度进入大规模生产,并持续到2026财年。在2025财年第四季度(该公司于十月底开始),预计Nvidia将在Blackwell方面实现“数十亿美元的收入”,显著低于摩根士丹利分析师提到的金额。

根据SemiAnalysis的报告,Blackwell芯片和封装材料的热膨胀系数(CTE)不匹配导致了失败。Nvidia的B100和B200 GPU是首批使用台积电CoWoS-L封装的产品,该封装通过集成在重分布层(RDL)中间体上的被动局部硅互连(LSI)桥链接芯片。桥的精确放置至关重要,但芯片、桥、有机中间体和基板之间的CTE不匹配会导致翘曲和系统失败。Nvidia据说不得不重新设计GPU的顶部金属层以提高产量,但没有透露细节,仅提到新的光掩模。公司澄清,Blackwell硅片没有功能性更改,仅专注于提高产量。


Read44
share
Write a Review...