Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121

Notice: Undefined offset: 0 in /www/wwwroot/www.help4uu.com/wp-content/themes/JuseNews/themer/functions/sidebar.php on line 75

Notice: Trying to get property 'cat_ID' of non-object in /www/wwwroot/www.help4uu.com/wp-content/themes/JuseNews/themer/functions/sidebar.php on line 75
微软开源EvoDiff新型蛋白质生成人工智能 核心是6.4亿参数模型 | 科技云

微软开源EvoDiff新型蛋白质生成人工智能 核心是6.4亿参数模型

本周,微软推出了一个通用框架EvoDiff,该公司声称可以根据给定的蛋白质序列生成“高保真”、“多样化”的蛋白质。与其他蛋白质生成框架不同,EvoDiff 不需要任何有关目标蛋白质的结构信息,省去了通常最费力的步骤。

微软高级研究员 Kevin Yang 表示,EvoDiff 是开源的,可用于创建用于新疗法和药物输送方法的酶,以及用于工业化学反应的新酶。

“我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,”EvoDiff 的联合创始人之一杨向媒体表示,“通过 EvoDiff,我们证明我们实际上可能不需要结构,而是‘蛋白质序列就是你所需要的’来可控地设计新蛋白质。”

EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。(“参数”是从训练数据中学习的 AI 模型的一部分,本质上定义了模型解决问题的技能 – 在本例中生成蛋白质。)训练模型的数据来源于用于序列比对的 OpenFold 数据集UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。

EvoDiff 是一种扩散模型,其架构类似于许多现代图像生成模型,例如稳定扩散和DALL-E 2。EvoDiff 学习如何逐渐从几乎完全由噪音组成的起始蛋白质中减去噪音,使其慢慢地、一步一步地接近蛋白质序列。

扩散模型已越来越多地应用于图像生成之外的领域,从设计新型蛋白质(如 EvoDiff)到创作音乐甚至合成语音。

“如果要从 EvoDiff 中汲取一件事,我认为我们可以而且应该通过序列进行蛋白质生成,因为我们能够实现通用性、规模化和模块化,” EvoDiff 的另一位共同贡献者、微软高级研究员 Ava Amini 表示,“我们的扩散框架使我们有能力做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。”

Amini 认为,EvoDiff 不仅可以创造新的蛋白质,还可以填补现有蛋白质设计中的“空白”。例如,如果蛋白质的一部分与另一种蛋白质结合,模型可以围绕该部分生成满足一组标准的蛋白质氨基酸序列。

由于 EvoDiff 在“序列空间”而不是蛋白质结构中设计蛋白质,因此它还可以合成最终不会折叠成最终三维结构的“无序蛋白质”。与正常功能蛋白质一样,无序蛋白质在生物学和疾病中发挥着重要作用,例如增强或降低其他蛋白质活性。

文章来源于互联网:科技讯-微软开源EvoDiff新型蛋白质生成人工智能 核心是6.4亿参数模型

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注