科学家开发的新型人工智能,创造出“自然界中不存在”的蛋白质

知新了了 2024-07-19 12:57:26

ESM3模型可以从零开始“编写”新的蛋白质,为合成生物学开辟了新的可能性。

就像ChatGPT通过预测序列中最有可能出现的单词来生成文本一样,一种新的人工智能(AI)模型可以编写新的蛋白质,这些蛋白质不是从头开始自然产生的。

他们在7月2日发表在bioRxiv预印本数据库上的一项研究中说,科学家们使用新的模型ESM3创建了一种新的荧光蛋白,其序列与自然产生的荧光蛋白只有58%的相同。由前Meta研究人员组成的公司Evoluaryscale的代表也在6月25日的一份声明中概述了细节。

研究小组在非商业许可下发布了该模型的小版本,并将使该模型的大版本可供商业研究人员使用。根据Evoluaryscale的说法,这项技术可以在从药物发现到设计塑料降解新化学品等各个领域发挥作用。

ESM3是一个大型语言模型(LLM),类似于OpenAI的GPT-4,后者为ChatGPT聊天机器人提供动力,科学家们用27.8亿种蛋白质训练了他们最大的版本。对于每种蛋白质,他们提取了有关序列(构成蛋白质的氨基酸构建块的顺序)、结构(蛋白质的三维折叠形状)和功能(蛋白质的功能)的信息。他们随机屏蔽了这些蛋白质的信息片段,并要求ESM3预测缺失的片段。

他们将这个模型扩大了规模,这是同一团队还在Meta时所做的研究。2022年,他们宣布了EMSFold —— ESM3的前体,可以预测未知的微生物蛋白质结构。那一年,Alphabet的DeepMind还预测了2亿个蛋白质的蛋白质结构。

科学家随后指出,这些人工智能模型的预测存在局限性,蛋白质的预测需要得到验证。但是,这些方法仍然可以大大加快对蛋白质结构的搜索,因为另一种方法是使用X射线逐一绘制蛋白质结构,这种方法既慢又昂贵。

然而,ESM3不仅仅是预测现有的蛋白质。利用从7710亿个独特的结构、功能和序列信息中收集的信息,该模型可以生成具有特定功能的新蛋白质。Evoluaryscale的一位支持者将其描述为“生物学的ChatGPT时刻”。

在这项新研究中,研究人员对该模型进行了质疑,以产生一种新的荧光蛋白 —— 一种捕获光并以更长的波长释放光的蛋白质,使其发出新的绿色。这些蛋白质对生物学研究人员很重要,他们将它们附加到他们感兴趣的分子上,以跟踪和成像它们。

该模型生成了96种具有可能产生荧光的序列和结构的蛋白质。然后,研究人员选择了与天然荧光蛋白相同序列最少的一种。虽然,这种蛋白质的亮度比天然绿色荧光蛋白低50倍,但ESM3产生了另一次迭代,产生了增加亮度的新序列 —— 结果是一种不同于自然界中发现的绿色荧光蛋白,被称为“esmGPF”。Evoluaryscale团队估计,人工智能在瞬间完成的这些迭代,在自然界中需要5亿年的进化才能实现。

如果朋友们喜欢,敬请关注“知新了了”!

0 阅读:0

知新了了

简介:专注于新知、科普及趣闻的传播,日耕不辍,天天新鲜。