引言
对组学数据进行差异分析后,有时我们可能遇到差异基因偏少或太多的情况。如果鉴定到的差异基因偏少,通常可以从调整实验设计(选择表型显著差异的样本)、剔除异常离群样本(参考相关性热图、PCA)、降低筛选阈值(FC、P Value)、更换分析软件(DESeq2、edgeR)等方面入手。但如果鉴定到的差异基因太多,我们又该如何挑选关键靶标进行后续深入研究呢?今天,我们将介绍一种文献中高频使用的方法——GO富集分析。
图1 文献中GO富集分析的可视化
GO富集分析是基于GO数据库对给定基因集进行功能注释和富集分析的方法,通过统计学算法(如超几何分布、Fisher精确检验等)计算给定基因集在不同GO term中的富集程度和显著性。借助GO富集分析,我们可以筛选显著富集的GO term,而GO term中的差异基因又能作为后续深入研究的靶标参考。GO(Gene Ontology)数据库是一个对不同物种中基因和基因产物的功能进行标准分类的国际体系,它按照生物过程(Biological Process,BP)、细胞组分(Cellular Component,CC)和分子功能(Molecular Function,MF)对基因进行分类注释。其中,BP、CC和MF属于一级分类(Level1),往下又进一步划分不同层级(Level),Level数字越大,功能描述越详细。GO term是GO数据库的分类单元,一个基因对应着一个或多个GO term。图2 Gene Ontology我们可以从知乎、B站、微信公众号等渠道获取GO富集分析实操的学习资料,但通常还需额外下载软件或学习代码。“担心基础”或“想快速入手”的同学们还可以尝试使用康测科技云分析平台,4分钟左右的视频教学、零代码实现轻松上手。图3 B站上的大神教学GO富集分析云工具提供2种高频使用软件Kobas和clusterProfiler用于GO富集分析结果的可视化,并支持3种不同的可视化展现形式(气泡图、柱状图和有向无环图),此外,物种和基因组版本、P值大小、通路展示个数、Term字体大小均可自由选择/设置充分满足客户科研需求。
图4 GO富集分析的可视化