Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证 | 科技云

中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证

IT之家 9 月 3 日消息,当前,随着智算卡数达到千卡、甚至万卡,所需带宽往往高达百 T 比特级、甚至超 P 比特级。因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。

中国电信集团宣布,中国电信研究院、中国电信北京公司、天翼云公司共同在中国电信现网基于 800G C+L 技术,为 1024 卡规模的分布式集群提供大容量带宽,实现 120 公里千亿参数大模型分布式训练,性能达到集中训练的 95% 以上。

据介绍,针对数据传输的大带宽问题,中国电信采用高阶调制格式的单波长 800G 技术以提高频谱效率,配合当前的业界热点的 C+L 波段技术实现超大传输带宽,在中国电信武清与润泽机房之间采用华为公司传输设备,通过多次环回构建了大带宽互联的智算验证网,距离达到 120km。

针对数据传输的高可靠问题,中国电信完成了链路误码、波长故障、光纤故障等异常测试试验,结果表明,一个 800G 业务波中断会导致超 40% 的算效降低,而百毫秒级以上光纤故障会导致算效大幅下降甚至训练中断。IT之家从官方获悉,采用 WSON 重路由恢复技术,此次在两点间将重路由恢复时间控制在 50ms 以内,可保证分布式智算业务的高可靠互联,最大程度释放算效。

针对传输链路的高效率问题,中国电信提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率。此次验证为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章来源于互联网:IT之家-中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注