英伟达GPU，好日子到头了？

NVIDIA的“GPU节”会结束吗？

自2022年11月30日美国Open AI发布ChatGPT以来，生成式AI（人工智能）成为一大热潮，NVIDIA的GPU作为AI半导体开始流行。然而，在GPU的生产中，存在两个瓶颈：台积电的中制程和高带宽内存（HBM）与DRAM堆叠，导致GPU在全球范围内短缺“瓶颈是HBM和台积电之间的中间制程吗？”

在这些GPU中，“H100”的需求量尤其大，其价格飙升至4万美元，引发了所谓的NVIDIA“GPU节”。

在这种情况下，台积电将中制程中介层产能翻倍，SK海力士等DRAM制造商增加了HBM产量，导致“H100”的交货时间从52周缩短至20周。

那么，NVIDIA的“GPU节”会结束吗？

因此，在这篇文章中，我们将讨论NVIDIA的“GPU节”是否即将结束。先说结论，预计即使到2024年，ChatGPT级AI开发和运营所需的高端AI服务器（定义将在后面解释）也只有3.9%的出货量。因此，谷歌、亚马逊、微软等云服务提供商（CSP）的需求似乎根本无法得到满足。总之，到目前为止，NVIDIA 的“GPU 节”还只是一个开始，全面的生成式 AI 热潮即将到来。

下面，我们先简单回顾一下NVIDIA GPU的两大瓶颈。

两个NVIDIA GPU瓶颈

在NVIDIA GPU的生产中，代工厂台积电负责所有前、中、后工序。这里，中间工序是指分别生产GPU、CPU、HBM等芯片，并将其放置在从12英寸硅片切下的方形基板上的工序。这种基板称为硅中介层（图 1）。

图1 2.5D到3D中出现的中级工艺，例如NVIDIA GPU（资料来源：Tadashi Kamewada）

另外，台积电开发的NVIDIA GPU封装称为CoWoS（Chip on Wafer on Substrate），但两个瓶颈是硅中介层容量和HBM（图2）。情况如下。

图2 CoWoS结构和NVIDIA GPU上的两个瓶颈（来源：WikiChip）

CoWoS 于 2011 年开发，但此后，随着 GPU 性能的提高，GPU 芯片的尺寸不断增大，GPU 中安装的 HBM 数量也随之增加（图 3）。结果，硅中介层逐年变大，而从单个晶圆上可获得的中介层数量却与之成反比减少。

图3 Interposer面积和HBM数量随着每一代的增加而增加（资料来源：KC Yee(TSMC)）

此外，GPU中安装的HBM数量增加，HBM内部堆叠的DRAM芯片数量也增加。此外，DRAM每两年就会小型化一次，HBM标准每两年更新一次以提高性能。因此，尖端HBM供不应求。

在这种情况下，台积电将其硅中介层产能从2023年夏季前后的每月15000片翻倍至今年夏季前后的每月超过30000片。此外，三星电子和美光科技已获得NVIDIA认证，并开始供应尖端HBM，此前由SK海力士主导。

受上述影响，需求量最高的NVIDIA H100的交货时间从52周大幅缩短至20周。那么，AI服务器的出货量因此增加了多少呢？

两类AI服务器的定义

根据DIGITIMES Research发布的《全球年度服务器出货量，2023-2024》（Servers Report Database, 2024）显示，AI服务器有两种类型：

配备两个或多个AI加速器但未配备HBM的系统称为“通用AI服务器”。

配备至少四个搭载HBM的AI加速器的系统被称为“高端AI服务器”。

这里的AI加速器是指为加速AI应用，特别是神经网络和机器学习而设计的特殊硬件，典型的例子就是NVIDIA的GPU。此外，ChatGPT级别的生成式AI的开发和运行需要大量高端AI服务器，而不是通用AI服务器。

那么，通用AI服务器和高端AI服务器的出货量分别是多少？

通用AI服务器和高端AI服务器出货量

图4显示了2022年至2023年通用AI服务器和高端AI服务器的出货量。预计2022年通用AI服务器出货量为34.4万台，2023年出货量为47万台，2024年出货量为72.5万台。

图4 通用AI服务器和高端AI服务器出货量（2022-2024）（资料来源：DIGITIMES Research）

同时，ChatGPT级生成式AI开发和运营所需的高端AI服务器预计2022年出货3.4万台，2023年出货20万台，2024年出货56.4万台。

那么，高端AI服务器的出货量能否满足美国CSP的需求呢？

图5显示了服务器、通用AI服务器和高端AI服务器的出货数量。当我画出这张图并看着它时，我惊呆了，想知道“这是有多少高端AI服务器正在出货吗？ ”这是因为，从服务器整体来看，无论是通用人工智能服务器还是高端人工智能服务器，出货量都非常少。

图5 服务器、通用AI服务器、高端AI服务器出货量

资料来源：作者根据MIC和DIGITIMES

当我研究开发和运行 ChatGPT 级别的生成式 AI 需要多少高端 AI 服务器时，我更加失望。

ChatGPT级别生成AI所需的高端AI服务器

据报道，ChatGPT 的开发和运营需要 30,000 台 NVIDIA DGX H100 高端 AI 服务器（图 6）。当我看到这个三万台的数字时，我感到头晕。

图6 运行ChatGPT需要多少高端AI服务器？（来源：HPC网站）

顺便说一句，“NVIDIA DGX H100”配备了八颗“H100”芯片，每颗芯片的价格已飙升至4万美元，使得系统总价达到46万美元。换句话说，生成 ChatGPT 级别的 AI 需要投资 30,000 单位 x 460,000 美元 = 138 亿美元（按 1 美元 = 145 日元计算，约 2 万亿日元！）。

我认为世界上充斥着生成式人工智能系统，但实际上已经（或将要）构建了多少 ChatGPT 类生成式人工智能？（图7）

图7 服务器出货量、高端AI服务器出货量、ChatGPT级生成AI系统数量（来源：MIC和DIGITIMES）

由于2022年高端AI服务器出货量为3.4万台，因此只能构建一套ChatGPT级AI系统（这正是ChatGPT）。次年，即2023年，高端AI服务器出货量达到20万台，因此可以构建6到7个ChatGPT级AI系统。由于预计2024年将出货56.4万台高端AI服务器，因此将有可能构建18至19个ChatGPT级AI系统。

不过，上述估算假设ChatGPT级AI可以用3万台高端AI服务器“NVIDIA DGX H100”构建。然而，由于一代 AI 可能变得更加复杂，在这种情况下可能需要超过 30,000 个 NVIDIA DGX H100。综上所述，美国通信服务提供商不太可能对当前高端人工智能服务器的出货量感到满意。

现在，我们来看看每个最终用户（例如美国的 CSP）拥有多少台高端 AI 服务器。

最终用户的高端人工智能服务器数量

图 8显示了最终用户的高端 AI 服务器数量。2023年，拥有OpenAI的微软拥有最多的高端AI服务器数量，为6.3万台，但到2024年，谷歌将超越微软，拥有最多的高端AI服务器。

图8 按最终用户划分的高端人工智能服务器（2023-2024）（来源：DIGITIMES Research）

2024 年排名前五的分别是谷歌，以 162,000 台（5 个系统）排名第一，微软以 90,000 台（3 个系统）排名第二，超微以 68,000 台（2 个系统）排名第三，亚马逊（67,000 台）排名第四。2个系统），其次是Meta，以46,000个单位（1个系统）排名第五（括号中的数字是ChatGPT类生成AI可以构建的系统数量）。由此可见，美国前五名光热发电企业垄断了约80%的份额。

接下来我们看看AI加速器的高端AI服务器出货量（图9），正如预期，NVIDIA的GPU是AI加速器使用最多的，2024年将达到33.6万台。然而，令人惊讶的是，第二受欢迎的公司不是AMD，而是谷歌。

图9 按人工智能加速器划分的高端人工智能服务器（2023-2024）（资料来源：DIGITIMES Research）

谷歌开发了自己的张量处理单元（TPU）作为人工智能加速器。到2024年，搭载该TPU的高端AI服务器数量将达到13.8万台。这里，从图8我们知道，谷歌到2024年将拥有16.2万台高端AI服务器。因此，预计有 138,000 台配备了 Google 自家的 TPU，其余 24,000 台配备了 NVIDIA 的 GPU。换句话说，对于英伟达来说，谷歌既是客户，也是可怕的敌人。

另外，如果我们再看一下2024年的出货量，排名第三的AMD有4.5万台，排名第四的亚马逊则以4万台紧随其后。亚马逊还在开发 AWS Trainium 作为人工智能加速器。如果再等等，AMD可能会被亚马逊超越。

综上所述，目前，NVIDIA 的 AI 加速器出货量最多，但谷歌和亚马逊正在成为其强有力的竞争对手。NVIDIA的竞争对手不是处理器制造商AMD（当然不是濒临危机的英特尔），而是美国的CSP谷歌和亚马逊。

全面的生成式人工智能热潮即将到来

让我们总结一下到目前为止的一切。根据 DIGITIMES Research 的一份报告，预计到 2024 年，能够开发和运行 ChatGPT 级生成式 AI 的高端 AI 服务器出货量仅占所有服务器的 3.9%。人们认为这个出货量根本无法满足CSP的需求。

也就是说，NVIDIA 2023年至2024年的“GPU节”只是一个开始。因此，全面的生成式人工智能热潮很可能到来。让我们在下面展示其基础。

图10显示了半导体行业协会 (SIA) 发布的按应用划分的半导体市场及其未来预测。据SIA预测，2030年全球半导体市场规模将超过1万亿美元。