百度文心大模型4.0即将发布，万卡训练史上最大参数模型

小科 • 2023年 12月 28日 pm6:27 • 未分类 • 阅读 128

近日，有媒体报道称，百度正加紧训练文心大模型4.0，这将是文心大模型3.5版本后又一个重磅版本。据报道，文心大模型4.0进展比预期快很多，将是基础模型的大升级，理解、生成、逻辑、记忆核心能力都将提升，特别是在逻辑推理、代码和数学等方面提升最明显。

10月10日，记者从百度内部人士基本确认了该消息，据悉，即将推出的文心大模型4.0的参数量、训练数据量以及推理成本等都比3.5高出一个数量级。

今年3月16日，百度官宣新一代大语言模型“文心一言”启动邀测，8月31日正式面向公众开放服务。如今，文心大模型即将再度升级发布4.0版，如此迅速的大模型升级速度，在国内尚属唯一。只不过，快速升级的背后，文心大模型4.0快速攀升的参数量、数据量所带来的训练和推理成本提升，也正在成为大模型商业化过程中需要考虑的重点。

据此前消息报道，相比文心大模型3.5，文心4.0不仅训练成本在增加，推理成本也增加了很多，大概是此前的8-10倍。一直以来，百度并未对外披露大模型训练、推理的各项成本，不过据国盛证券此前估算，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM模型（如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM），训练成本介于200万美元至1200万美元之间。作为国内大语言模型代表，文心一言想要在性能上追赶甚至超越ChatGPT等国外同行，所需耗费的资金成本，恐怕也将与之相当。

过高的训练和推理成本压力下，在打造领先的底层基础大模型的路上，注定只能是一场巨头间的游戏。不过对于百度而言，由于具备万卡集群、飞桨、文心大模型以及丰富的百度应用生态优势，独具芯片、框架、模型及应用四层架构优势，更具技术竞争力。

在进一步降低大模型算力成本和时间成本上，百度万卡集群的整体优势已得到充分体现——在万卡集群训练大模型时，常规方法下工程师们有30%-40%时间都花在容错和故障恢复上，而在百度智能云自研的集群组网故障管理机制下，模型有效训练时间达到95%以上，人力及算力资源均得到了利用。

真金白银投入的背后，目前国外大模型厂商已开始尝试收费模式，无论是在面向企业客户的B端垂类大模型开发，还是面向消费群体的To C付费产品，均有不少案例。例如，在面向C端消费者付费领域，目前GPT-4已推出“每月支付20美元订阅费”的收费模式。

可以预见，不远的将来，以百度为代表的大模型企业们，或将陆续推出收费模式。在To C大模型AI应用层面，类似爱奇艺或百度网盘VIP会员的收费模式，也将不断浮现，逐渐培养用户付费习惯。

文章来源于互联网:科技讯-百度文心大模型4.0即将发布，万卡训练史上最大参数模型