绿色荧光蛋白的结构模型,生物技术的主力。图片来源:Laguna Design
一种能说蛋白质语言的人工智能(AI)模型——迄今为止为生物学开发的最大的人工智能模型之一——已被用于制造新的荧光分子。
本月,evoltionaryscale在纽约市宣布了原理验证演示,同时还获得了1.42亿美元的新资金,用于将其模型应用于药物开发、可持续性和其他追求。该公司由曾在科技巨头Meta工作的科学家创办,是一个日益拥挤的领域的最新进入者,该领域正在将语言和图像训练的尖端机器学习模型应用于生物数据。
该公司首席科学家亚历克斯•里夫斯(Alex Rives)曾参与Meta将人工智能应用于生物数据的工作,他表示:“我们希望开发出能够让生物学可编程的工具。”
进化规模公司的人工智能工具ESM3被称为蛋白质语言模型。它接受了超过27亿个蛋白质序列和结构以及这些蛋白质功能信息的训练。该模型可用于根据用户提供的规格创建蛋白质,类似于ChatGPT等聊天机器人吐出的文本。
威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的计算生物学家安东尼·吉特(Anthony Gitter)表示:“这将成为生物学中每个人都关注的人工智能模型之一。”
发光了
里夫斯和他的同事们曾在Meta研究ESM模型的早期迭代,但在去年Meta结束了在这一领域的工作后,他们开始了自己的研究。他们之前使用ESM-2模型创建了一个免费的数据库,其中包含6亿个预测的蛋白质结构。此后,其他团队使用ESM-1版本设计了具有更好的抗病原体活性的抗体,包括SARS-CoV-22,并重新设计了“抗crispr”蛋白质,以提高基因编辑工具的效率3。
今年,位于加州伯克利的另一家生物人工智能公司Profluent利用自己的蛋白质语言模型创造了新的受crispr启发的基因编辑蛋白质,并免费提供了一种这样的分子。
为了展示其最新的模型,Rives的团队开始对另一种生物技术的主力进行彻底检查:绿色荧光蛋白(GFP),它吸收蓝光并发出绿光。研究人员在20世纪60年代从生物发光水母Aequorea victoria中分离出绿色荧光蛋白。后来的工作——随着这一发现,获得了诺贝尔奖——展示了绿色荧光蛋白是如何在显微镜下标记其他蛋白质的,解释了其荧光的分子基础,并开发出了这种蛋白质的合成版本,这种蛋白质发出的光更明亮,颜色也不同。
研究人员已经发现了其他类似形状的荧光蛋白,它们都共享一个被桶状支架包围的吸光和发光的“发色团”核心。里夫斯的团队要求ESM3创造出含有GFP发色团中发现的一组关键氨基酸的GFP样蛋白质的例子。
研究人员合成了88种最有前途的设计,并测量了它们的荧光能力。大多数都是无用的,但有一种设计,与已知的荧光蛋白不同,发出微弱的光——比自然形式的绿色荧光蛋白弱约50倍。以这种分子的序列为起点,研究人员要求ESM3改进其工作。当研究人员制作了大约100个最终设计时,有几个和天然的gfp一样明亮,但仍然比实验室设计的变体暗淡得多。
其中一种最亮的esm3设计的蛋白质,被称为esmGFP,预计具有与天然荧光蛋白相似的结构。然而,它的氨基酸序列差异很大,与训练数据集中最密切相关的荧光蛋白序列匹配不到60%。在bioRxiv4服务器上发布的预印本中,里夫斯和他的同事们说,根据自然突变率,这种水平的序列差异相当于“超过5亿年的进化”。
但吉特担心,这种比较对描述尖端人工智能模型的产品没有帮助,而且可能具有误导性。“当你想到人工智能和加速进化时,这听起来很可怕,”他说。“我觉得过度宣传模特的工作可能会伤害这个领域,对公众来说可能是危险的。”
里夫斯认为,ESM3通过各种序列的迭代产生新的蛋白质,类似于进化。他补充说:“我们认为,大自然需要什么才能产生这样的东西,这是一个有趣的观点。”
风险阈值
根据2023年的一项总统行政命令,ESM-3是首批在培训期间使用足够计算能力的生物人工智能模型之一,要求开发人员通知美国政府并报告风险缓解措施。进化规模公司表示,他们已经与美国科技政策办公室取得了联系。
超过这个阈值的ESM3版本——包含近1000亿个参数,或模型用来表示序列之间关系的变量——尚未公开。对于较小的开源版本,某些序列,例如来自病毒和美国政府令人担忧的病原体和毒素清单的序列,被排除在培训之外。科学家在任何地方都可以下载并独立运行的ESM3-open也不能被提示生成这种蛋白质。
瑞士洛桑联邦理工学院(Swiss Federal Institute of Technology)的结构生物学家马丁·帕塞萨(Martin Pacesa)对开始与ESM3合作感到兴奋。他指出,这是第一个允许研究人员使用自然语言描述其特性和功能来指定设计的生物模型之一,他渴望看到这个和其他特征在实验中是如何表现的。
Pacesa印象深刻的是,EvolutionaryScale发布了一个开源版本的ESM3,并清楚地描述了最大的版本是如何训练的。但他说,最大的模型需要大量的计算资源才能独立开发。“没有一个学术实验室能够复制它。”
里夫斯渴望将ESM-3应用到其他设计中。Pacesa是使用一种不同的蛋白质语言模型来制造新的CRISPR蛋白质的团队的一员,他说,看看ESM-3如何做到这一点将是很有趣的。里夫斯设想在可持续性方面的应用——他们网站上的一个视频展示了可食用塑料酶的设计——以及抗体和其他基于蛋白质的药物的开发。他说:“这确实是一个前沿模式。”