TrendsPlantSci.|植物生物学中的大语言模型

2024年5月，南洋理工大学的Hilbert Yuen In Lam等人在Trends in Plant Science发表了题为Large language models in plant biology的文章，综述了不同类型的大语言模型(LLMs)在生物学领域的最新应用，旨在为植物科学提供新的研究方向和工具。

doi : 10.1016/j.tplants.2024.04.013

生物信息学中的LLMs

BERTGPTRoBERTaALBERTDNABERT

LLMs通过将DNA或氨基酸序列视为文本的方式处理生物序列数据以进行分析，其任务是预测被掩码的氨基酸或核苷酸身份，从而理解“蛋白质或DNA语言”，进一步完成蛋白质结构预测、基因功能预测、调控元件和剪接位点识别、蛋白质设计等复杂任务。

图1.DNABERT模型的预训练和微调

学者们开发了各种技术来提高LLMs的可解释性：包括特征重要性映射注意力图以及可解释性框架，旨在将模型的决策方式分解为可理解的组件。在生物学研究中Transformer的自注意力机制能了解模型的的关注序列，从而揭示数据内部的统计关系，实现在特定预测任务中识别重要的关键基因组或蛋白质组特征的工作。

图2.DNABERT模型的预训练、结构解析、分类以及探测

当前，深度学习广泛用于生物现象研究，强大AI模型能自动筛选复杂基因组数据。CNN和RNN等架构在生物信息学中贡献显著，LLMs以其灵活的自注意力机制(Self-Attention Mechanism)推动了植物研究的步伐，为精准农业、作物改良等实际应用开辟了广阔前景。

该研究综述了LLMs在生物研究方面的应用场景，根据DNA序列预测基因表达模式，从而预测植物在不利环境下的表现以及基因突变对基因表达的影响，旨在利用创新深度学习模型以较少数据量理解基础生物学以促进植物研究的发展

幸福双城资讯网

智农云芯看智能农业