上海交大洪亮团队提出CPDiffusion模型全自动设计功能型蛋白质

前沿也要数据派 2024-10-25 10:42:40

本文约3500字,建议阅读5分钟本文介绍了上海交通大学洪亮团队设计了一种扩散概率模型框架 CPDiffusion。

上海交通大学洪亮团队设计了一种扩散概率模型框架 CPDiffusion,该框架能够以非常低的训练成本、数据成本学习蛋白质的序列、结构与功能之间的隐含映射关系,从而生成多样化的蛋白质序列。

蛋白质是生命活动的主要执行者,其结构与功能之间的关系一直是生命科学领域研究的核心议题。近年来,随着深度学习的兴起,借助其强大的数据处理能力,让模型学习蛋白质序列、结构及其功能之间的映射关系,设计出具备更高稳定性、更强结合亲和力、更高酶活性的新型蛋白质,可以大幅提升蛋白质设计的效率,并有效降低其研发成本。

然而,现有方法通常需要在大规模数据集上训练一个参数量极大的模型,难以推广到同源序列稀少的特异蛋白上,往往也只能生成结构、功能相对简单的蛋白质。此外,实验验证表明,设计出的蛋白一般活性较低,能够超越野生型蛋白质的更是凤毛麟角。

对此,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮课题组的助理研究员周冰心等人,设计了一种扩散概率模型框架 CPDiffusion,该框架结合蛋白质骨架结构、活性位点等多种生成条件,能够以非常低的训练成本、数据成本,学习蛋白质的序列、结构与功能之间的隐含映射关系,进而生成多样化的蛋白质序列,这些生成的序列能够在湿实验验证中以极高的成功率通过测试。

值得注意的是,CPDiffusion 的训练和推理过程几乎不需要专家指导,可自动识别高度保守的区域,进而在确定保守区功能的基础上,在非保守区域引入更多的变化,提高所生成序列的多样性。该研究以「A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity」为题,发表于 Nature 旗下 Cell Discovery。

研究亮点:

* 该研究成功设计并生成内切核酸酶 KmAgo、PfAgo,它们的 DNA 剪切活性最高提升 10 倍以上,显著高于现在已发现的中温野生型蛋白活性

* 该研究可一次性改变数百个氨基酸,为蛋白质工程研究提供了更多的可能性

* 多样化生成的新型蛋白序列还能扩展蛋白质家族的数据库,为科学家们提供更为丰富的研究资源

论文链接:https://www.nature.com/articles/s41421-024-00728-2

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:https://github.com/hyperai/awesome-ai4s

数据集:确保样本多样性,避免数据偏见

为了学习蛋白质序列-结构-功能之间的映射关系,CPDiffusion 模型用 CATH 4.2 中的 2 万条野生型蛋白质进行训练,此外,研究人员还在训练集中加入了 694 条 pAgos 蛋白质,用于强化模型对待生成蛋白质特征的理解。

这些蛋白质来自先前研究中整理的 pAgo 蛋白质家族,包括短型、long-A、long-B 型的 pAgo 蛋白质,确保了所选样本的多样性,以此减少可能存在的数据偏见问题。此外,数据集中大多数 WT 蛋白质是中温 pAgos,仅有少数 long-A pAgo 蛋白质属于嗜热型。

模型架构:6 步法自动设计 pAgo蛋白

为了验证 CPDiffusion 对功能性蛋白质的生成效果,研究人员选择将关注点放在 pAgo 蛋白上。pAgo 蛋白是一种在原核生物 DNA 干扰过程中起重要作用的内切核酸酶,能够特异性地识别并切割特定的单链 DNA 或 RNA 序列,在诊断学领域具有广泛的应用价值。此外,pAgo 蛋白对底物具有高度亲和力,并能够特异地识别目标序列,这使得它们成为成像和基因编辑的重要工具。

研究人员利用 CPDiffusion 框架设计新型 pAgo 蛋白,如下图 a 所示,首先将输入蛋白质 (Original pAgo) 的序列和信息转化为一种图表示,这种图表示在氨基酸层面展示了蛋白质的分子生化和拓扑特性。如图 b 所示,蛋白质进入前向扩散 (Forward Diffusion) 阶段,原始蛋白质中的每种氨基酸类型都会遵循某个替换概率矩阵,在一系列步骤(T 步)中被破坏,直到整个序列变得均匀分布。

CPDiffusion 设计新型 pAgo 序列的工作流程

如上图 c 所示,在逆向扩散 (Reverse Diffusion) 阶段,研究人员从 20 种均匀分布的氨基酸类型中随机抽样氨基酸,随后,对蛋白质序列逐步去噪。如上图 d 所示,在去噪过程中,研究人员依据一些条件(如目标蛋白质的野生型骨架结构 Backbone、二级结构 Secondary Structure,以及基于野生型蛋白质的氨基酸替换矩阵 Transition Matrix 等)来指导这一过程。为了确保模型能够学习到蛋白质三维结构中隐含的等变性,研究人员使用了一个等变图卷积层来拟合传播函数。随后,该模型会生成蛋白质骨架上每个氨基酸位置的联合概率分布,通过对学习到的分布进行采样 (Sampling),研究人员可以得到相应的蛋白质序列 (Generated pAgo),如上图 e 所示。

接下来,研究人员使用 AlphaFold2 对生成的序列进行结构预测,并通过评估 RMSD 和 pLDDT 等指标来筛选出合适的序列。最后,如下图 f 所示,这些合适的序列会在实验室中通过湿实验(实验合成 Synthesis、表征 Characterization 和评估),进一步确认它们的实际特性,如表达水平、酶活性和热稳定性等。

湿实验

实验结论:新型蛋白质活性、热稳定性更强

研究人员以嗜温 pAgo 蛋白(如 KmAgo)、嗜热 pAgo 蛋白(如 PfAgo)作为候选蛋白,进一步生成两组新蛋白质序列。如下图所示,利用生成和筛选框架 CPDiffusion,研究人员成功生成了 27 种新型人工 KmAgos (Km-APs) 和 15 种新型人工 PfAgos (Pf-APs)。这些新生成的蛋白质,与原始的野生型 (WT) 模板相比,有 50%-70% 的序列同一性,与其他非模板 WT 蛋白质(即 NCBI 数据库中的其他 WT 蛋白)相比,序列同一性则低于 40%。

* KmAgo 是一种中温酶,野生型的 DNA 切割活性相对较低,限制它在实际应用中的潜力

* PfAgo 是一种超高温酶,野生型的 DNA 切割活性更高,但通常仅在高温下发挥作用,随着温度下降,活性也会随之减弱

CPDiffusion成功学习蛋白质序列的保守特征、表面带点性等重要性质

值得一提的是,CPDiffusion 的训练和推理过程几乎不需要专家指导,可自动识别高度保守的区域,从而在确定保守区功能的基础上,在非保守区域引入更多的变化,提高所生成序列的多样性。

通过多种实验验证,如下图所示,研究人员发现为 KmAgo 生成的新序列中,所有序列都能够表达。将近 90% 的新序列具备 DNA 切割活性,超过 70% 的序列表现出比野生型更高的活性,其中,表现最佳的新 KmAgo 活性比野生型 KmAgo 高出将近 9 倍。此外,相较于野生型 KmAgo,部分 Km-AP 的热稳定性也得到了增强。

e: 37 °C 下 27 种 Km-AP 的 DNA 切割活性g: 27 个 Km-AP 中,发挥不同作用的蛋白质数量

f: 42°C 下培育 2min 和 5min后,WT KmAgo 和 27 种 Km-APs 的 DNA 切割活性

如下图所示,在为 PfAgo 生成的 15 个新序列中,所有的序列都能够表达,并展示出单链 DNA 切割活性。其中表现最佳的新 PfAgo 不仅将野生型 PfAgo 的熔解温度从 100°C 左右降低到了约 50°C,而且在 45°C 时的单链 DNA 切割活性是野生型 PfAgo 在 95°C 时的 2 倍,更是中温下野生型 KmAgo 切割活性的 11 倍。

c: 45 °C 下 15 种 Pf-AP 的 DNA 切割活性d: WT PfAgo 和 Pf-AP 的熔融温度e: 15 个 Pf-AP 中,发挥不同作用的序列数量

综上,CPDiffusion 可作为一种强大的全新蛋白质序列设计工具,能够自动从野生型功能蛋白中学习,并设计出功能更强大的复杂蛋白质序列,丰富现有蛋白质数据库,为蛋白质工程设计带来更多的可能。

AI 重塑蛋白质工程的未来之路

用 AI 解码蛋白质奥秘,对于生命科学研究的数字化进程具有关键意义,在这场探寻生命本质的竞赛中,中国研究团队正不断前进,贡献力量。作为该领域的杰出代表之一,本研究的通讯作者洪亮教授及其课题组长期关注 AI 蛋白质定向改造和辅助药物设计,具体研究内容包括但不限于蛋白质结构预测和优化、蛋白质定向改造和设计、辅助药物设计和优化等,团队成果颇丰。截止目前共发表论文 77 篇,其中多篇登顶 Nature 期刊。

洪亮教授课题组主页:

https://ins.sjtu.edu.cn/people/lhong/index.html

自 2021 年起,洪亮教授团队就尝试将 AI 用于蛋白质领域,比如,构建蛋白质工程领域的专有模型,端对端地面向功能设计序列。他们曾与上海人工智能实验室的谈攀研究员合作,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,该方法能在只利用 20 个随机湿实验数据的情况下,高效训练蛋白质预训练模型,大幅提高模型的单点突变预测阳性率,可适用于蛋白质适配性的小样本学习,在实际应用中显示出了巨大的潜力。

洪亮教授团队还开发了一种名为 ProtLGN 的微环境感知图神经网络,能够从蛋白质三维结构中学习并预测有益的氨基酸突变位点,指导具有不同功能白质单位点突变和多位点突变设计。实验结果显示,超过 40% 的 ProtLGN 设计单点突变体蛋白质优于其野生型对应物。

此外,他们还引入了一种简单、高效、可扩展的适配器 SES-Adapter,将蛋白质语言模型嵌入与结构序列嵌入结合,以创建结构感知表示 (structure-aware representations),能够显著增强蛋白质语言模型的性能。

以上研究展示了深度学习在蛋白质设计中的强大潜力,毫无疑问,随着深度学习技术在蛋白质领域的进一步应用,蛋白质工程的研究将迎来更加广阔的发展空间。

参考资料:https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQhttps://ins.sjtu.edu.cn/articles/301

0 阅读:0

前沿也要数据派

简介:感谢大家的关注