Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
阿里巴巴开源Qwen1.5-110B模型,性能比肩Meta-Llama3-70B | 科技云

阿里巴巴开源Qwen1.5-110B模型,性能比肩Meta-Llama3-70B

阿里巴巴开源Qwen1.5-110B模型,性能比肩Meta-Llama3-70B

近日,阿里巴巴宣布开源了其Qwen1.5系列中的首个千亿参数模型——Qwen1.5-110B。这一举措不仅彰显了阿里巴巴人工智能领域的创新实力,也标志着中国企业在大型语言模型领域取得了显著进展。

据悉,Qwen1.5-110B模型采用了Transformer解码器架构,并引入了分组查询注意力(GQA)技术,使得模型在推理时更加高效。该模型支持长达32K tokens的上下文长度,具备多语言处理能力,支持包括英、中、法、西、德、俄、日、韩、越、阿等在内的多种语言。

在性能评估方面,Qwen1.5-110B模型展现出了与MetaLlama3-70B模型相媲美的实力。这一成绩是在没有大幅改变预训练方法的情况下取得的,阿里巴巴方面认为,性能的提升主要归功于模型规模的增加。这一结果不仅证明了阿里巴巴在模型设计和优化方面的专业能力,也为中国在大型语言模型领域的发展注入了新的活力。

除了在基础能力评估中表现出色外,Qwen1.5-110B模型在Chat评估中也取得了优异的成绩。在MT-Bench和AlpacaEval 2.0这两个Chat模型基准评估中,该模型相较于之前发布的72B模型表现出了显著的优势。这一结果进一步证明了更大规模的基础语言模型可以带来更好的Chat模型性能。

阿里巴巴方面表示,Qwen1.5-110B是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。这一成就不仅彰显了阿里巴巴在大型语言模型领域的领先地位,也为中国企业在全球人工智能竞争中赢得了更多的话语权。

随着人工智能技术的不断发展,大型语言模型已经成为了各大科技企业的重点研究方向。阿里巴巴此次开源Qwen1.5-110B模型,不仅为开发者提供了更加优秀的工具,也为推动人工智能技术的普及和应用做出了积极的贡献。

未来,我们期待看到更多中国企业在大型语言模型领域取得突破,为人工智能技术的发展和应用注入更多的活力和创新力量。

文章来源于互联网:科技云-阿里巴巴开源Qwen1.5-110B模型,性能比肩Meta-Llama3-70B

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注