麦克马斯特大学和斯坦福大学的研究人员,开发了一种新的生成式人工智能模型 SyntheMol,可以基于近 300 亿个分子的化学空间,设计出易于合成的新型化合物。
自 1928 年亚历山大·弗莱明发现青霉素开始,抗生素作为人类医药史上最重要的发现之一,已经彻底改变了现代医学。然而,在实际的诊疗中,抗生素滥用情况日益加剧,这一现象在部分监管不严格的三四线城市中尤为突出,这也导致细菌正在产生耐药性。
2022 年发表在《柳叶刀》上的一项研究提出,2019 年有近 500 万人死于耐药细菌感染,这一数字预计将在 2050 年达到 1,000 万人。同一研究还显示,抗生素耐药性 (AMR) 目前是全球第三大死因,仅次于心脏病和中风,超过了艾滋病毒/艾滋病、乳腺癌和疟疾造成的死亡率。
面对细菌耐药性问题,在严格控制抗生素滥用的基础上,加速研发结构新颖的抗生素迫在眉睫。如今,人工智能方法虽然可以助力新抗生素的发现,但仍存在诸多限制,例如,评估分子特定性质的预测模型,在大型化学空间中的扩展效果不佳。
针对这一问题,麦克马斯特大学和斯坦福大学的研究人员在 Nature 子刊 Nature Machine Intelligence 上发表了题为「Generative AI for designing and validating easily synthesizable and structurally novel antibiotics」 的论文。
该研究开发了一种新的生成式人工智能模型 SyntheMol,可以基于近 300 亿个分子的化学空间设计出易于合成的新型化合物。研究团队应用 SyntheMol 设计出了能够抑制超级细菌鲍曼不动杆菌 (A. baumannii) 生长的分子,从中合成了 58 个分子,并验证了其中 6 个结构新颖的分子对鲍曼不动杆菌和其他细菌病原体表现出抗菌活性。
研究亮点:
* 生成式人工智能模型 SyntheMol 可以从近 300 亿个分子的化学空间中设计易于合成的新型化合物
* 该模型不仅创造了新的药物结构,还提供了化学合成的详细配方
* 实验结果表明生成式人工智能具有从广泛的化学空间中设计结构新颖、可合成和有效的小分子抗生素候选物的潜力
论文地址:https://www.nature.com/articles/s42256-024-00809-7
数据集:包含 13,524 个独特分子
本研究首先对 3 个不同的化学库进行物理筛选,以用作训练数据集。
化学库 1 包含来自 Pharmakon-1760 库的 2,371 个分子 (360 个 FDA 批准的药物和 400 个国际上批准的药物),以及从植物、动物和微生物中分离的 800 个天然产物。
化学库 2 为药物再利用中心数据库 (Broad Drug Repurposing Hub),包含 6,680 个分子,其中多数是 FDA 批准的药物或临床试验候选药物。
化学库 3 是一个合成小分子筛选集,包含 5,376 个分子,这些分子是从 Broad 研究所的一个更大的化学库中随机抽样得到的。
对于每个数据库,研究人员分别进行了两次生物学重复实验,计算每个化合物的平均标准化 OD600 值,同时还计算了这些 OD600 值的平均值 μ 和标准差 σ,进而使用阈值 μ − 2σ 对这些值进行二值化 (binarization),将低于阈值的所有值标记为活跃,将等于或高于该阈值的所有值标记为非活跃。然后,研究人员合并了这 3 个二值化库,并删除了具有冲突活性标签的重复化合物。
经过上述处理,最终数据集中包含 13,524 个独特分子,其中 470 个 (3.5%) 为活性化合物,13,054 个(96.5%) 为非活性化合物。
模型架构:由性质预测模型引导的蒙特卡洛树搜索超级细菌 A. Baumannii 以「难根除」而著称,会导致肺炎、脑膜炎和感染伤口,世界卫生组织 (WHO) 已经将其确定为世界上最危险的抗生素耐药细菌之一。因此,实验围绕针对该超级细菌的潜在抗生素候选化合物展开。
用于抗生素发现的生成式人工智能
如上图,首先,研究人员筛选了约 13,000 个分子的训练集 (Training set),并进行了生长抑制试验,以确定它们对 A. Baumannii 的生物活性,随后又利用这些筛选数据训练了一个属性预测模型 (Property predictor),以预测抗菌活性。
为了生成分子,研究人员选择了一个由近 300 亿个分子组成的化学空间 (Chemical space),每个分子都可以通过 13 种化学反应中的一种来合成,这些反应可以从约 132,000 个模块中组合出两个或三个分子。
生成式人工智能模型 SyntheMol 使用由属性预测模型引导的蒙特卡洛树搜索 (Monte Carlo tree search, MCTS) 来搜索广阔的组合化学空间,以寻找对 A. Baumannii 具有活性的有前景的抗生素候选化合物。
在每次 MCTS 展开中,SyntheMol 通过选择 Root 并将它们与 Reaction 组合来构建分子。然后,生成的分子由性质预测模型评估,并向 MCTS 算法提供反馈。随着 MCTS 展开的进行,SyntheMol 学习了哪些 Root 和 Reaction 的组合能够产生具有高性质预测得分的分子。如下图所示:
生成式人工智能模型 SyntheMol
在一组展开后,SyntheMol 输出所有生成的化合物以及用于合成每个分子所需的具体合成方案——包括 Root 和 Reaction 的顺序。
经过 2 万次迭代后,研究人员筛选出了一组结构新颖、种类繁多的高分化合物,对这些化合物进行了合成,并在体外对不同系统发育的细菌物种进行了实验测试。
研究结果:SyntheMol 助力化学家合成抗生素并创建配方在实验中,研究人员将 SyntheMol 应用于使用抗生素性质预测模型发现针对 A. Baumannii 的潜在抗生素候选化合物,并主要使用 SyntheMol 内的 Chemprop 呈现结果。
在 2 万次 MCTS 展开 (不到 8.5 小时) 的过程中,SyntheMol 配合 Chemprop 评估了 4.52 亿个中间节点,其中包含多种分子构建模块的组合,并生成了 24,335 个完整的分子,其中有 2,868 个具有至少 0.5 的 Chemprop 抗菌预测分数。这胜过了一种基于人工智能的虚拟筛选方法,其中 Chemprop 对 1 千万个随机采样的 REAL 分子进行了评分(8 小时),只鉴定出了 374 个分数至少为 0.5 的分子(只有 SyntheMol 的 13%)。
SyntheMol在每2千次MCTS展开中的
Chemprop抗菌模型得分
SyntheMol 在所有的 MCTS 展开中都生成了高分子,但这些高分子主要集中在早期的展开中,在前 2,000 次展开中生成了 2,868个 (36%) Chemprop,其中得分至少为 0.5 的分子有 1,035 个 (占10%),虽然 20,000 次展开只探索了接近 300 亿分子的化学空间的一部分,但这些结果表明,SyntheMol 快速生成了许多得分最高的化合物。
研究人员选择了 70 种最有可能杀死细菌的化合物,并与乌克兰化学公司 Enamine 合作合成它们。该公司能够有效地生成 58 种此类化合物,研究员进一步验证了这 58 种化合物对 A. Baumannii 的生物活性。实验结果显示,下图所示的 6 种分子 (Enamine 10、23、28、31、40 和 43) 表现出优异的抗菌活性,即最低抑制浓度 (MIC) ≤ 8 μg ml−1。这代表了 10% 的命中率,几乎是训练集的 3.5% 命中率的三倍。
抗生素效力分析结果
此外,这 6 种结构新颖的分子还对其他几种系统发育不同的细菌病原体(肺炎克雷伯菌、甲氧西林耐药金黄色葡萄球菌等),显示出了抗菌效力。具体而言,当与外膜扰动剂 (如 SPR 741或粘菌素) 联合使用时,所有 6 种分子对多种革兰氏阴性细菌鲍曼杆菌、大肠杆菌和肺炎克雷伯菌具有广谱活性,其中一种分子 Enamine 40 对铜绿假单胞菌也有活性。
作为单一药物,这些分子抑制革兰氏阳性细菌耐甲氧西林金黄色葡萄球菌,和缺乏脂多糖和耐粘菌素的鲍曼杆菌革兰氏阴性分离物的生长。实验结果如下图所示:
生成分子的体外验证实验
目前,SyntheMol 模型也有一些不足之处,它的编程没有考虑要产生高水溶性的分子。6 种分子中的 4 种抗菌分子的水溶性不足,只有 2 种可以在小鼠模型中进行毒性测试。
虽然需要更多的研究来将这些生成的分子转化为可行的候选抗生素,并改进可合成分子设计的生成人工智能方法,但这些研究结果表明了生成式人工智能具有从广泛的化学空间中设计结构新颖、可合成和有效的小分子抗生素候选物的潜力。
更值得强调的是,该模型不仅创造了新的药物结构,还提供了化学合成的详细配方,使化学家能够在实验室中合成这些药物。
AI + 抗生素研发屡有突破世界各地的科学家、公共卫生机构和政府都在警告,抗生素耐药性将会是下一个全球重大健康危机。因为自 20 世纪 60 年代以来,细菌和其他某些微生物对抗生素的耐药性越来越强,并且导致了越来越多的死亡事件。
虽然人们对新抗菌药物的需求越来越大,但新开发出的新抗生素却屈指可数。一方面,开发抗生素需要花费很长的时间,传统上,科学家大约需要花费 12 年才能开发一种新的抗生素,再到发现任何临床候选药物,还需要 3-6 年的时间。另一方面,由于研发抗生素药物所带来的利润过少,导致许多大型制药公司退出了该市场。据估计,2017 年开发一种抗生素的成本约为 15 亿美元,然而,相较于如此高的成本,抗生素药物每年却只能给制药公司带来 4,600 万美元的收入,如果单纯从收入和成本角度考虑,大约需要 32 年才能回本儿。
如今,人工智能技术的快速发展,则为抗生素的研发带来了新的突破和路径。
早在 2020 年,麻省理工学院的科学家们利用深度学习模型发现的「halicin」抗生素分子就展示了前所未有的广谱抗菌能力,这是人类首次完全使用人工智能的方法发现新抗生素。研究人员表示,halicin 可以消灭一些世界上最危险的细菌,他们的这一研究登上了生命科学顶级期刊 Cell。
2023 年 6 月,加拿大麦克马斯特大学、麻省理工学院的研究人员合作,在 Nature Chemical Biology 期刊发表了题为「Deep learning-guided discovery of an antibiotic targeting Acinetobacter baumannii 」的研究论文。研究团队使用人工智能算法,发现了一种新型抗生素 abaucin,能够特异性杀死重要的耐药菌 A. Baumannii。研究团队还计划使用这一人工智能模型来识别对抗其他重要耐药菌(例如金黄色葡萄球菌、铜绿假单胞菌)的抗生素。
2023 年 12 月,来自麻省理工学院的研究者们开发了一种深度学习方法来发现抗生素,利用图神经网络 Chemprop 从大型化学库中识别潜在的抗生素,并发现了一类新型抗生素,能够特异性杀死重要的耐药菌 A. Baumannii。
值得注意的是,虽然上述研究中也有针对耐药菌 A. Baumannii 的案例,但是并未使用生成式 AI。与传统的 AI 方法相比,本研究的生成式 AI 模型能够直接设计出候选抗生素分子,并快速探索广阔的化学空间。
在国内学术界,2022 年 6 月,中国科学院微生物研究所的研究人员发表题为「Identification of antimicrobial peptides from the human gut microbiome using deep learning」的研究论文,描述了利用人工智能有效地挖掘大型肠道微生物组数据集,以寻找具有抗菌特性肽的方法。研究人员在检索出的 4,409 个代表性基因组中筛选出了 2,349 个候选 AMP,通过基因表达数据、相对丰度和与选定细菌的关联,进一步鉴定出 241 条抗菌肽序列,并合成了最终的 216 个多肽,其中的 181 个具有抗菌活性,命中率为 83.8%——这一发现有力的说明机器学习模型能够有效地加快发现新型抗生素的进度。
同年,西安交大一附院的刘冰教授利用基于华为云盘古药物分子大模型打造的 AI 辅助药物设计服务,成功研制超级抗菌药 Drug X,该药物通过靶向微生物类组蛋白 HU,抑制细菌的 DNA 复制达到抗菌效果,是世界上首次发现噬菌体编码靶向细菌类组蛋白 HU 的抑菌抑制剂。相关研究以「Bacteriophage protein Gp46 is a cross-species inhibitor of nucleoid-associated HU proteins」为题发表在「美国国家科学院院刊」上。
在产业端,国内主要的抗生素生产企业有鲁抗医药、华北制药、科伦药业、哈药股份、川宁生物等,海外企业有赛诺菲、诺华等,其中有多家已明确表示将引入 AI 来进行业务优化。
例如,川宁生物与上海金珵科技有限公司建立战略合作关系,利用 AI 辅助合成生物学研发及合作开发新产品,以提升生产方式和生产效率。赛诺菲于 2023 年宣布全「All in 人工智能和数据科学」,并与百图生科达成合作,利用 BioMap 的人工智能平台,共同开发用于生物治疗药物发现的前沿AI模块。
当然,抗生素分子的发现只是 AI 技术在药物挖掘领域应用的冰山一角。目前,全球各地的学者都在尝试用人工智能技术,降低药物研发成本,缩短研发时间,提高研发效率,使新药开发走上快速高效的道路。
参考资料:1.https://www.thepaper.cn/newsDetail_forward_200928602.https://www.chinagut.cn/articles/ss/a5871d7d61f64fdc9d902e34520654c73.https://www.sohu.com/a/374972885_4987294.https://www.most.gov.cn/gnwkjdt/202206/t20220614_181127.html