Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
要打破内存墙,可以将HBM与DDR5融合 | 科技云

要打破内存墙,可以将HBM与DDR5融合

在 2024 年,如果需要将数十个、数百个、数千个甚至数万个加速器拼接在一起,那么互连就是个大课题了。

英伟达(Nvidia) 拥有 NVLink 和 InfiniBand。Google 的 TPU 吊舱使用光电路开关 (OCS) 相互通信。AMD 拥有 Infinity Fabric,用于芯片到芯片、芯片到芯片以及即将推出的节点到节点流量。当然,还有好的老式以太网。

这里的诀窍不是构建足够大的网格,而是抵御与离包相关的大量性能损失和带宽瓶颈。它也没有做任何事情来解决这样一个事实,即所有这些 AI 处理所依赖的 HBM 内存都以固定的比例与计算相关联。

“这个行业正在使用Nvidia GPU作为世界上最昂贵的内存控制器,”Dave Lazovsky说,他的公司Celestial AI刚刚在USIT和许多其他风险投资巨头支持的C轮融资中获得了1.75亿美元,以将其光子织物商业化。

去年夏天,我们研究了Celestial的光子结构,其中包括一系列硅光子学互连器、中介层和小芯片,旨在将AI计算从内存中分解出来。不到一年后,他们正在与几家超大规模客户和一家大型处理器制造商合作,将其技术集成到他们的产品中。Lazovsky没有指名道姓。

但事实上,Celestial将AMD Ventures视为其支持者之一,其高级副总裁兼产品技术架构师Sam Naffziger在公告发布的同一天讨论了共同封装硅光子小芯片的可能性,这无疑引起了一些人的注意。话虽如此,AMD为光子学初创公司提供资金并不意味着我们将永远在Epyc CPU或Instinct GPU加速器中看到Celestial的小芯片。

虽然 Lazovsky 无法透露 Celestial 与谁合作,但他确实提供了一些关于该技术如何集成的线索,以及即将推出的 HBM 内存设备的先睹为快。

正如我们在最初涉足Celestial的产品战略时所讨论的那样,该公司的零件分为三大类:小芯片、中介层和英特尔EMIB或台积电CoWoS的光学旋转,称为OMIB。

不出所料,Celestial的大部分吸引力都集中在小芯片上。“我们没有做的是试图强迫我们的客户采用任何一种特定的产品实施。目前,为光子结构提供接口的风险最低、最快、最不复杂的方法是通过小芯片,“Lazovsky告诉 The Next Platform。

从广义上讲,这些小芯片可以以两种方式使用:要么增加额外的 HBM 内存容量,要么作为芯片到芯片的互连,分类或类似于光学 NVLink 或 Infinity Fabric。

这些小芯片比 HBM 堆栈小一点,提供光电互连,片外总带宽为 14.4 Tb/s或 1.8 GB/s。

话虽如此,我们被告知可以制造一个小芯片来支持更高的带宽。第一代技术可以支持每平方毫米约 1.8 Tb/s的速度。与此同时,Celestial的第二代Photonic结构将从56 Gb/s提高到112 Gb/s的PAM4 SerDes,并将通道数量从4个增加到8个,从而有效地将带宽翻两番。

因此,14.4 Tb/s不是上限,而是现有芯片架构能够处理的结果。这是有道理的,否则任何额外的容量都会被浪费。

这种连接性意味着 Celestial 可以实现类似于 NVLink 的互连速度,只是沿途的步骤更少。

虽然芯片到芯片的连接相对不言自明——在每个封装上放一个光子织物小芯片并对齐光纤连接——但内存扩展完全是另一种动物。虽然 14.4 Tb/s的速度并不慢,但对于多个 HBM3 或 HBM3e 堆栈来说,它仍然是一个瓶颈。这意味着添加更多的 HBM 只会让您的容量超过某个点。尽管如此,用两个 HBM3e 堆栈代替一个堆栈并不算什么。

Celestial 有一个有趣的解决方法,即它的内存扩展模块。由于带宽的上限为 1.8 GB/s,因此该模块将仅包含两个总计 72 GB 的 HBM 堆栈。此外,还将配备一组 4 个 DDR5 DIMM,支持高达 2 TB 的额外容量。

Lazovsky不愿将所有豆子都洒在产品上,但确实告诉我们,它将使用Celestial的硅光子学中介层技术作为HBM,互连和控制器逻辑之间的接口。

说到模块的控制器,我们被告知 5nm开关 ASIC 有效地将 HBM 变成 DDR5 的直写缓存。“它为您提供了 DDR 的容量和成本以及带宽和 HBM 互连的 32 个伪通道的所有优势,从而隐藏了延迟,”Lazovsky 解释道。

他补充说,这与英特尔对至强Max所做的或英伟达对其GH200超级芯片所做的事情相去不远。“它基本上是一个增压的 Grace-Hopper,没有所有的成本开销,而且效率更高。”

效率提高多少?“我们的内存事务能量开销约为每比特 6.2 皮焦耳,而通过 NVLink、NVSwitch 进行远程内存事务的开销约为 62.5 皮焦耳,”Lazovsky称,并补充说延迟也不高。

“这些远程内存事务的总往返延迟,包括通过光子结构的两次旅行和内存读取时间,为120纳秒,”他补充道:“因此,它将比大约80纳秒的本地内存多一点,但它比去Grace并读取参数并将其拉到Hopper要快。”

据我们了解,这些内存模块中的 16 个可以啮合并为一个内存交换机,并且可以使用光纤随机播放连接多个这些设备。

这意味着,除了计算、存储和管理网络之外,使用Celestial互连构建的芯片不仅能够相互连接,而且能够共享内存池。

“这允许你以一种非常非常有效的方式进行机器学习操作,例如广播和减少,而无需切换,” Lazovsky说。

Celestial面临的挑战是时机。Lazovsky告诉我们,他预计将在 2025 年下半年的某个时候开始向客户提供光子织物小芯片的样品。然后,他预计至少还需要一年时间,我们才能看到使用该设计的产品投放市场,并在2027年实现销量增长。

然而,Celestial并不是唯一一家追求硅光子学的初创公司。另一家获得英特尔投资支持的光子学初创公司Ayar Labs已经将其光子学互连集成到原型加速器中。

然后是 Lightmatter,它在去年 12 月获得了 1.55 亿美元的 C 轮融资,并试图通过其 Passage 中介层做一些与 Celestial 非常相似的事情。当时,Lightmatter 首席执行官尼克·哈里斯 (Nick Harris) 声称,它有客户使用 Passage 来“扩展到 300,000 台节点的超级计算机”。当然,和拉佐夫斯基一样,哈里斯也不会告诉我们它的客户是谁。

还有 Eliyan,它正试图通过其 NuLink PHY 完全摆脱中介层——或者如果你必须拥有它们,可以提高中介层的性能和规模。

无论谁在这场竞赛中脱颖而出,向共封装光学器件和硅光子中介层的转变似乎只是时间问题。

文章来源于互联网:凤凰网-要打破内存墙,可以将HBM与DDR5融合

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注