Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒 | 科技云

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

当地时间3月18日,人工智能(AI)芯片龙头厂商NVIDIA在美国加州圣何塞召开了GTC2024大会,正式发布了面向下一代数据中心和人工智能应用的“核弹”——基于Blackwell架构的B200 GPU,将在计算能力上实现巨大的代际飞跃,预计将在今年晚些时候正式出货。

同时,NVIDIA还带来了Grace Blackwell GB200超级芯片等。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

NVIDIA创始人兼CEO黄仁勋,NVIDIA目前按照每隔2年的更新频率,升级一次GPU构架,进一步大幅提升AI芯片的性能。

两年前推出的Hopper构架GPU虽然已经非常出色了,但我们需要更强大的GPU。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

B200:2080亿个晶体管,FP4算力高达 40 PFlops

NVIDIA于2022年发布了采用Hopper构架的H100 GPU之后,开始引领了全球AI市场的风潮。

此次推出的采用Blackwell构架的B200性能将更加强大,更擅长处理AI相关的任务。Blackwell构架则是以数学家David Harold Blackwell的名字命名。

据介绍,B200 GPU基于台积电的N4P制程工艺(这是上一代Hopper H100和Ada Lovelace架构GPU使用的N4工艺的改进版本),晶体管数量达到了2080亿个,是H100/H200的800亿个晶体管两倍多。这也使得B200的人工智能性能达到了20 PFlops。

黄仁勋表示,Blackwell构架B200 GPU的AI运算性能在FP8及新的FP6上都可达20 PFlops,是前一代Hopper构架的H100运算性能8 PFlops的2.5倍。

在新的FP4格式上更可达到40 PFlops,是前一代Hopper构架GPU运算性能8 PFlops的5倍。

具体取决于各种Blackwell构架GPU设备的內存容量和频宽配置,工作运算执行力的实际性能可能会更高。

黄仁勋强调,而有了这些额外的处理能力,将使人工智能企业能够训练更大、更复杂的模型。

需要指出的是,B200并不是传统意义上的单一GPU。相反,它由两个紧密耦合的GPU芯片组成,不过根据NVIDIA的说法,它们确实可以作为一个统一的CUDA GPU。

这两个芯片通过10 TB/s的NV-HBI(NVIDIA高带宽接口)连接连接,以确保它们能够作为一个完全一致的芯片正常工作。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

同时,对于人工智能计算来说,HBM容量也是极为关键。

AMD MI300X之所以被广泛关注,除了其性能大幅提升之外,其所配备的容量高达192GB HBM(高带宽内存)也是非常关键,相比NVIDIAH100 SXM芯片的80GB高了一倍多。

为了弥补HBM容量的不足,虽然NVIDIA也推出了配备141GB HBM的H200,但是仍大幅落后于AMD MI300X。

此次NVIDIA推出的B200则配备了同样的192GB HBM3e内存,可提供8 TB/s的带宽,弥补了这一薄弱环节。

虽然NVIDIA尚未提供关于B200确切的芯片尺寸,从曝光的照片来看,B200将使用两个全掩模尺寸的芯片,每个管芯周围有四个HMB3e堆栈,每个堆栈为24GB,每个堆栈在1024 bit接口上具有1TB/s的带宽。

需要指出的是,H100采用的是6个HBM3堆栈,每个堆栈16GB(H200将其增加到6个24GB),这意味着H100管芯中有相当一部分专门用于六个HBM内存控制器。

B200通过将每个芯片内部的HBM内存控制器接口减少到四个,并将两个芯片连接在一起,这样可以相应地减少HBM内存控制器接口所需的管芯面积,可以将更多的晶体管用于计算。

支持全新FP4/FP6格式

基于Blackwell架构的B200通过一种新的FP4数字格式达到了这个数字,其吞吐量是Hopper H100的FP8格式的两倍。

因此,如果我们将B200与H100坚持使用FP8算力来比较,B200仅提供了比H100多2.5倍的理论FP8计算(具有稀疏性),其中很大一部分原因来自于B200拥有两个计算芯片。

对于H100和B200都支持的大多数的数字格式,B200最终在理论上每芯片算力提升了1.25倍。

再次回到4NP工艺节点在密度方面缺乏大规模改进的问题上。

移除两个HBM3接口,并制作一个稍大的芯片可能意味着B200在芯片级的计算密度上甚至不会显著更高。当然,两个芯片之间的NV-HBI接口也会占用一些管芯面积。

NVIDIA还提供了B200的其他数字格式的原始计算值,并应用了通常的缩放因子。

因此,FP8的吞吐量是FP4吞吐量的一半(10 PFlops级),FP16/BF16的吞吐量是5 PFlops级的一半,TF32的支持是FP16的一半(2.5 PFlops级)——所有这些都具有稀疏性,因此密集操作的速率是这些速率的一半。

同样,在所有情况下,算力可以达到单个H100的2.5倍。

那么FP64的算力又如何呢?

H100被评定为每GPU可提供60万亿次的密集FP64计算。如果B200具有与其他格式类似的缩放比例,则每个双芯片GPU将具有150万亿次浮点运算。

但是,实际上,B200的FP64性能有所下降,每个GPU约为45万亿次浮点运算。这也需要一些澄清,因为GB200超级芯片将是关键的构建块之一。

它有两个B200 GPU,可以进行90万亿次的密集FP64计算,与H100相比,其他因素可能会提高经典模拟的原始吞吐量。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

另外,就使用FP4而言,NVIDIA有一个新的第二代Transformer Engine,它将帮助用户自动将模型转换为适当的格式,以达到最大性能。

除了支持FP4,Blackwell还将支持一种新的FP6格式,这是一种介于FP4缺乏必要精度但也不需要FP8的情况下的解决方案。

无论结果的精度如何,NVIDIA都将此类用例归类为“专家混合”(MoE)模型。

最强AI芯片GB200

NVIDIA还推出了GB200超级芯片,它基于两个B200 GPU,外加一个Grace CPU,也就是说,GB200超级芯片的理论算力将会达到40 PFlops,整个超级芯片的可配置TDP高达2700W。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

黄仁勋也进一步指出,包含了两个Blackwell GPU和一个采用Arm构架的Grace CPU的B200,其推理模型性能比H100提升30倍,成本和能耗降至了原来的1/25。

除了GB200超级芯片之外,NVIDIA还带来了面向服务器的解决方案HGX B200,它基于在单个服务器节点中使用八个B200 GPU和一个x86 CPU(可能是两个CPU)。

这些TDP配置为每个B200 GPU 1000W,GPU可提供高达18 PFlops的FP4吞吐量,因此从纸面上看,它比GB200中的GPU慢10%。

此外,还有HGX B100,它与HGX B200的基本架构相同,有一个x86 CPU和八个B100 GPU,只是它被设计为与现有的HGX H100基础设施兼容,并允许最快速地部署Blackwell GPU。

因此,每个GPU的TDP被限制为700W,与H100相同,吞吐量降至每个GPU 14 PFlops的FP4。

值得注意的是,在这三款芯片当中,HBM3e的每个GPU的带宽似乎都是8 TB/s。因此,只有功率,以及GPU核心时钟,也许还有核心数上会有不同。

但是,NVIDIA尚未透露任何Blackwell GPU中有多少CUDA内核或流式多处理器的细节。

第五代NVLink和NVLink Switch 7.2T

人工智能和HPC工作负载的一大限制因素是不同节点之间通信的多节点互连带宽。

随着GPU数量的增加,通信成为一个严重的瓶颈,可能占所用资源和时间的60%。

在推出B200的同时,NVIDIA还推出其第五代NVLink和NVLink Switch 7.2T。

新的NVLink芯片具有1.8 TB/s的全对全双向带宽,支持576 GPU NVLink域。它也是基于台积电N4P节点上制造的,拥有500亿个晶体管。

该芯片还支持芯片上网络计算中的3.6万亿次Sharp v4,这有助于高效处理更大的模型。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

上一代NVSwitch支持高达100 GB/s的HDR InfiniBand带宽,是一个巨大飞跃。

与H100多节点互连相比,全新的NVSwitch提供了18X的加速。这将大大提高万亿参数模型人工智能网络的可扩展性。

与此相关的是,每个Blackwell GPU都配备了18个第五代NVLink连接。这是H100链接数量的18倍。

每条链路提供50 GB/s的双向带宽,或每条链路提供100 GB/s的带宽。

GB200 NVL72服务器

NVIDIA还针对有大型需求的企业提供服务器成品,提供完整的服务器解决方案。

例如GB200 NVL72服务器,提供了36个CPU和72个Blackwell构架GPU,并完善提供一体水冷散热方案,可实现总计720 PFlops的AI训练性能或1,440 PFlops的推理性能。

它内部使用电缆长度累计接近2英里,共有5,000条独立电缆。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

具体来说,GB200 NVL72 基本上是一个完整的机架式解决方案,有18个1U服务器,每个服务器都有两个GB200超级芯片。

然而,在GB200超级芯片的组成方面,与上一代相比存在一些差异。

曝光图片和规格表明,两个B200 GPU与一个Grace CPU匹配,而GH100使用了一个较小的解决方案,将一个GraceCPU与一个H100 GPU放在一起。

最终结果是,GB200超级芯片计算托盘将具有两个Grace CPU和四个B200 GPU,具有80 PFlops的FP4 AI推理和40 PB的FP8 AI训练性能。

这些是液冷1U服务器,它们占据了机架中典型的42个单元空间的很大一部分。

除了GB200超级芯片计算托盘,GB200 NVL72还将配备NVLink交换机托盘。

这些也是1U液冷托盘,每个托盘有两个NVLink交换机,每个机架有九个这样的托盘。每个托盘提供14.4 TB/s的总带宽,加上前面提到的Sharp v4计算。

GB200 NVL72总共有36个Grace CPU和72个Blackwell GPU,FP8运算量为720 PB,FP4运算量为1440 PB。有130 TB/s的多节点带宽,NVIDIA表示NVL72可以处理多达27万亿个AI LLM参数模型。

英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

目前,亚马逊的AWS已计划采购由2万片GB200芯片组建的服务器集群,可以部署27万亿个参数的模型。

除了亚马逊的AWS之外,DELL、Alphabet、Meta、微软、OpenAI、Oracle和TESLA成为Blackwell系列的采用者之一。

文章来源于互联网:凤凰网-英伟达造了个2080亿晶体管的怪物:性能高达4亿亿次每秒

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注