引言
GO/KEGG富集分析前,常会对基因进行差异分析,获得DEG。然而,你可曾听过这样一种分析,可以直接对基因集进行差异分析?
说到基因集,可能大家最先想到的是GSEA。前期,我们提过:针对表达差异不显著但具有重要生物学意义的基因,可以通过GSEA分析其所在功能相关的基因集与生物学状态(表型)的相关性,来阐明机制。需要注意的是,GSEA依赖于表型(分组)信息。对于表型(分组)复杂的大样本量研究以及不设比较组的多个、独立样本研究而言具有局限性。本期,我们介绍一种文献中常用、不依赖表型(分组)而对基因集进行分析的方法——GSVA。
表1 GSEA与GSVA的比较
基因集变异分析(Gene Set Variation Analysis,GSVA),是一种非参数、无监督的分析方法。通过将不同样品之间基因的表达量矩阵转化为基因集的表达量矩阵,从而评估基因集在不同样品之间的富集情况。并且,GSVA能对富集分析后的基因集进行差异分析,使分析结果更具解释性。GSVA方法概述此外,GSVA与GSEA有许多相似之处。比如,都是对基因集而非单个基因进行分析、都需要提供基因表达矩阵、都可以使用MSigDB中基因集或自定义基因集。因而,MSigDB并非GSEA专属数据库,也能用作GSVA!
图2 文献中GSVA的应用我们可以从知乎、B站等渠道获取GSVA学习资料,但通常还需额外下载软件或学习代码。“担心基础”或“想快速入手”的同学们还可以尝试使用康测科技云分析平台,零代码实现轻松上手。图3 B站上GSVA教学康测GSVA云工具支持多种GeneID来源(Ensembl、GeneSymbol、EntrezID(NCBI)),支持多个物种(不止人和小鼠),并提供文献中常用的可视化方式:箱型图和热图,更能进行差异分析(P值、logFC阈值可调)。