快速发掘性状关联基因的好方法!

武汉康测 2024-05-14 15:05:12

使用预测表达水平的全转录组关联研究(TWAS)已被认作一种鉴定复杂性状和疾病中新基因组风险区域和候选风险基因的有效方法。由于基于预测表达的TWAS仅依赖于表达的遗传成分,因此可将其视为对表达与性状之间非零局部遗传相关性的检验。在这种背景下,显著的遗传相关性通常被解释为SNP对目的基因介导的性状所产生影响的评估。然而,这种解释需要强有力的假设,但由于连锁不平衡(LD)和多效性SNP效应,这些假设可能与经验数据相悖。因此,与试图直接评估中介效应的方法相比,TWAS主要被用作关联测试。

研究中,作者提出了一种对来自TWAS的基因-性状关联信号进行精细映射的方法——FOCUS。FOCUS解释了TWAS中LD和预测权重诱导的相关性结构,并控制SNP多效性效应。FOCUS将风险区域中所有SNP的GWAS汇总数据、表达预测权重(参考eQTL)和LD作为输入,并评估给定基因集的概率。此外,作者扩展了概率SNP精细映射方法,以在预定义的置信水平上筛选包含因果基因(负责关联信号的基因)的基因集。广泛的模拟表明,当数据中存在因果基因,FOCUS在评估后验概率和可信集合时近似无偏(指定确定性)。当因果组织不可用,而使用具有相关表达水平的替代组织时,FOCUS在标准假设下仍能保证性能。这在一定程度上缓解了对组织的严格要求!总体而言,TWAS更像是对GWAS分析的补充,通过利用GWAS数据、群体材料全转录组数据、LD等构建统计模型,直接检测基因-性状的关联性,从而更快发掘与性状关联的关键基因。

康测科技以全自动核酸建库平台、独立自主云分析平台等先进平台为基础,充分利用Digital RNA-seq创新技术,通过UMI数字标签去重纠错,SNP鉴定更准确,为TWAS分析奠定最坚实、最可靠的基础!

方法概述

为了明确TWAS显著区域中基因-性状关联,作者首先分析推导TWAS统计量之间的协方差结构,作为预测中LD和eQTL权重的函数。接着,作者使用多变量高斯分布对一个区域内(TWAS显著和不显著)所有基因的边际TWAS关联统计(Ztwas)的整个向量进行建模。

上述模型中,作者利用截距项量化由预测表达标记的平均SNP效应大小(λsnp),从而控制由于SNP多效性造成的偏差。作者证明eQTL在组织之间很大程度上是共享的,并采用标准的贝叶斯方法来计算区域中每个基因的边际后验包含概率(PIP)。为了避免过度拟合,作者使用多变量高斯先验对未知的因果效应λpe进行积分。作者还使用PIP计算ρ-可信基因集(包含概率为ρ的因果基因)。此外,为了解释由于不可预测的表达或其他潜在功能机制而导致的因果机制缺失,作者将零模型作为可信集合中的可能结果,并用于基因后验评估的正则化。最后,作者使用基于模拟的程序来计算后验预测检查,在给定的TWAS Z-score下测量FOCUS模型的拟合优度。

FOCUS在模拟中产生准确的可信集合

为了表征预测表达相关性结构并验证框架,作者从真实的基因型数据开始进行广泛的模拟,以生成表达参考面板和GWAS汇总数据(Fig. 2)。

作者证实风险区域中的非因果基因与性状显著关联,这促使TWAS精细映射优先考虑因果影响性状的基因。作者在各种架构下对复杂性状进行模拟,以评估使用FOCUS计算的90%可信基因集的性能(Fig. 3)。当测定相关组织中的因果基因时,作者发现模拟中90%可信基因集平均包含83%(s.d. 0.04)的因果基因(Fig. 3)。在SNP直接影响下游性状的模拟中,作者发现性能略有下降,这表明尽管回归掉平均局部效应,但FOCUS仍能保持性能。接下来,作者改变了GWAS和参考eQTL数据集的样本量。结果显示:随着样本量的增加,FOCUS检测因果基因的性能有所提高(Fig. 3)。与GWAS样本量相比,参考eQTL的样本量对性能的影响更大。遗传力定义了基于SNP方法的预测上限。而由于非零遗传力更容易检测到,作者预计性能会有所提高。事实上,作者证实性能随因果基因表达的遗传性而增加(Fig. 3)。此外,作者探究了先验效应-大小分布对基因表达的影响,并发现性能在很大范围内保持稳定。

2.使用代理组织时,FOCUS仍保持稳定

接下来,作者探究了当因果基因在相关组织中缺失,但在不同组织中能被测量时FOCUS的性能。部分研究表明,顺式调控的基因表达水平在组织和功能结构之间表现出高度的遗传相关性。如果一个因果基因的代理组织模型在90%可信基因集中,作者认为该基因被成功精细映射。当相关组织和代理组织中eQTL的样本量相同,但代理组织的遗传力低于相关组织时,作者发现准确性显著下降。当代理组织基因表达的遗传力至少等同相关组织时,这种效应又未被观察到 (Mann–Whitney U-test P=0.27)。这表明,当因果eQTL在组织之间共享,增加表达的遗传力可以提高检测因果基因的能力。模拟中,作者发现:当相关组织和代理组织中表达的遗传力相似时,共享eQTL效应大小的相关性对性能不起主要影响。总而言之,当潜在的组织特异性因果基因由代理组织eQTL权重表示时,FOCUS对模拟扰动相对稳健,并且表现良好。

3.对于混淆,FOCUS依旧稳健

作者证明,由于eQTL SNP之间的LD,TWAS统计量是相关的。这意味着当推理中不包括因果基因的预测表达时,附近的基因可能会在精细映射中被优先考虑。FOCUS通过显式建模零值作为计算可信基因集时的可能解释来应对这种情况。作者测试了当表达和性状无关时FOCUS在标准-零模拟中的性能,发现2495/2500模拟中零模型包含在90%可信基因集中。298/2500模拟中零模型是唯一定义90%可信基因集的模型。余下2202/2500可信基因集中零模型的平均后验概率远大于邻近基因模型。因此,当基因表达和性状无关时,FOCUS也是准确的。此外,作者在69%(s.d. 0.07)的90%可信基因集中鉴定到零模型(Fig. 4),与存在因果基因的模拟相比,这一比例明显更高。总而言之,当缺少因果表达时,优先零模型的挑战设置中,FOCUS是稳健的。

随后,作者探究了稳态基因表达对下游性状没有中介效应,但基因的eQTL对下游性状具有多效性(即多效性eQTL)的模拟。作者通过计算多效性模拟中每个风险区域的零模型优先于对应区域基因的频率来衡量性能,发现251/500个区域中零模型排名靠前 (Fisher’s exact P<2.2×10−16)。多效性eQTL模拟中,90%可信基因集可以通过零模型捕获得到富集(328/500 sets; Fisher’s exact P<2.2×10−16) 。接着,作者聚焦包含零模型的可信集合,并在多效性eQTL模拟和标准模拟中计算平均后验概率。作者发现:与标准模拟相比,可信基因集在更大比例的区域中包含零模型。同样,与标准模拟相比,多效性eQTL模拟聚焦可信集合中零模型的捕获,导致分配给零模型的后验密度更多。这意味着,在SNP表现出水平多效性效应的大多数模拟中,FOCUS优先考虑零模型。

4.FOCUS提高精细映射因果基因的分辨率

在确定可信集合中包含因果基因后,作者着手量化捕获基因的平均数量。作者发现,在相关组织模拟中,90%可信基因集平均包含4.4个基因 (s.d. 1.3),这导致每个风险区域平均有54%的预测基因。在改变模型参数和样本量后,90%可信基因集中的基因数量相似。为了完整性,作者在模拟中使用90%可信基因集对基因优先排序,以便与TWAS P值和共定位的后验概率进行直接比较。具体而言,作者模拟了一个复杂性状,其中一个区域中的多个基因具备因果,每个基因都有多个eQTL。之后,作者通过两种方式筛选基因。首先,作者利用P值或PP4排名挑选相同数量的基因作为90%可信基因集 (标记“matched”)。其次,使用COLOC (PP4≥0.8) 和TWAS P值(P<0.05/15277)的标准阈值来挑选基因。作者发现利用可信集合对基因优先排序比这两种方法更好 (Fig. 5)。与非大小匹配的方法相比,FOCUS的相对性能有所提高。总而言之,在真实模拟中FOCUS识别因果基因的灵敏度更高。

5.应用于脂质GWAS

作者分析了来自脂肪组织的、eQTL权重的脂质GWAS。为了解释缺失的基因预测模型,作者通过参考45个测量组织,将脂肪组织中无法预测的基因整合到基因表达模型。RefSeq (version 65)已知的26292个基因中,作者数据涵盖了12663个基因,剩余2614个基因在RefSeq中没有找到。脂肪优先的TWAS在108个(63 unique)独立区域中鉴定到301个(202 unique)显著基因。在通过GWAS鉴定到的160个(89 unique)风险区域中,有75个(46 unique)与TWAS结果重叠,而GWAS和eQTL仅25%风险区域重叠(Table 1)。并且,在具有显著TWAS关联的75个性状-区域对中,有47个具有多个显著的TWAS关联。

作者发现61/75个风险区域包含的因果基因少于2个。可信集合的最大PIP平均为88%。这意味着大多数风险区域可以用单个因果基因来解释。通过计算PIP,作者评估了每个风险区域的90%可信基因集,并发现与转录组范围的显著基因相比,优先基因的数量(平均1.9)显著减少。通过将FOCUS的灵敏度与先验方差项的设置进行对比,作者发现计算的PIP在脂质性状之间高度相似。将FOCUS结果与TWAS排名进行比较,作者发现47/75性状-区域对中,TWAS Z-score最高的基因也是PIP最高的基因。当排除零模型后,这个比例增加到57/75。 作为阳性对照,作者检测了LDL的1p13位点,该区域存在风险SNP rs12740374(NC_000001.10:g.109817590G>T),被证明可以扰乱 SORT1基因的转录并影响下游LDL水平。作者在90%可信集合中检测到4/34基因,其中SORT1的后验概率达95%(Fig. 6)。

最后,作者研究了90%可信基因集包含零模式的区域(基因表达模型驱动风险证据较弱的地区)。作者在脂质性状的可信集合中检测到25/ 75个零模型,这表明与解释观察信号的统计噪声相比,大多数重叠的 GWAS风险区域与顺式调控表达水平所贡献的风险更一致。FOCUS输出的PIP取决于FOCUS模型的正确性。如果FOCUS模型不能准确捕获潜在的生成过程,则PIP将存在偏差。作者使用模拟程序量化适合每个基因的模型,发现FOCUS模型与观测数据基本一致。

总结

作者提出了一种精细映射方法FOCUS,通过使用预测eQTL权重、LD和GWAS汇总统计来评估可信因果基因集。作者证明在零模拟中FOCUS优先考虑零模型,并且当区域中基因影响下游性状时,仍能准确识别因果基因。90%可信基因集在各种模拟中保持稳定,eQTL样本量和基因表达的SNP遗传力对性能影响最大。

除了提供对需要验证多少基因以识别区域中因果基因的置信度进行量化外,FOCUS还允许多个因果SNP和基因,同时通过使用共轭先验来整合基因效应大小,这有利于应对等位基因异质性(eQTL和GWAS中普遍存在)。此外,除了预测基因表达,FOCUS也可以应用于其他在复杂性状病因中具有既定作用的预测分子性状(例如可变剪接外显子)。

作者建议尽可能优先考虑样本量大于100的eQTL数据,并对具有稳健非零SNP遗传力的基因进行推断。

参考文献

Nicholas Mancuso, Malika K. Freund, Ruth Johnson, et al. Probabilistic fine-mapping of transcriptome-wide association studies[J]. Nature Genetics, 2019

0 阅读:4

武汉康测

简介:专注高通量二代测序服务