在过去15年中,对精神分裂症遗传学的基因解码取得了实质性进展。基因解码表明精神分裂症是一种高度多基因的病症,目前解释的遗传性主要来自小效应的常见等位基因,但罕见的拷贝数和编码变异也有额外贡献。许多特定基因和位点已被证实,为机制研究提供了坚实基础。这些指向神经元,特别是突触功能的基因序列与功能变化,这些变化不局限于少数几个脑区和回路。基因解码基因检测发现还揭示了精神分裂症与其他疾病,特别是双相障碍和儿童神经发育障碍的密切关系,并解释了常见风险等位基因如何在生育能力降低的情况下在人群中持续存在。
当前的基于数据库比对基因组方法可以找到约40%的患者的致病基因遗传性,但其中只有一小部分可归因于已被稳健识别的位点。极端的多基因性给理解生物学机制带来了挑战。高度的多效性指出了需要更多跨诊断的基因解码,以及当前诊断标准作为划分生物学上不同层次的方法的局限性。这也给在人类和模型系统中推断因果关系的观察性和实验性研究带来了挑战。最后,基因组研究的欧洲中心偏见需要纠正,以最大化益处并确保这些益处能惠及多元化社区。
通过将全基因组和长读序列等新兴技术应用于大规模和多样化的样本,未来可能会取得进一步进展。在生物学理解方面取得实质性进展将需要在不同发育阶段的大脑中应用功能基因组学和蛋白质组学的并行进展。为了使这些努力在识别疾病机制和定义新的分层方面取得成功,需要将其与足够精细的表型数据相结合。
精神分裂症发生的基因原因图1:精神分裂症已知风险变异的效应大小和频率效应大小以优势比(OR)表示,相对于拷贝数变异(CNVs)、有害罕见编码变异(蛋白质截断变异(PTVs)或错义变异)、常见单核苷酸多态性(SNPs)和多基因风险评分(PRS)的一般人群频率。22q11dup CNV的OR小于1表示保护作用。CNVs的效应大小来自。为了将22q11.2 del和PWS/AS dup的OR限制在无穷大以下,在对照组中为每个CNV添加了一个携带者。Dup和del分别指重复和缺失。PTV和错义相关基因来自参考文献。RCV相关基因的人群频率和OR来自。RCV效应大小指命名基因中RCVs的超额负担。由于观察次数少,CNV和RCV效应大小不精确。SNP和PRS数据来自。PRS OR给出了前1%个体相对于所有其他个体,以及前1%与后1%的比较。欧洲、东亚和非裔美国人的遗传祖先数据分别给出。拉丁美洲人群的效应大小未绘制,因为尚未在足够的样本中估计。应该注意的是,大多数罕见等位基因预计不会产生大的效应。曲线的形状提供了选择压力允许给定效应大小的等位基因达到的最大频率的指示,而不是特定频率的等位基因的预期效应大小。
常见变异全基因组关联研究(GWAS)已确定常见变异(次要等位基因频率>1%)在精神分裂症中扮演重要角色。继首次成功的精神分裂症GWAS研究确定了包含ZNF804A基因的单一位点[11]后,多轮GWAS研究结果已被报道,每一轮都在前一轮的基础上进行,既确认又扩展了早期的发现。迄今为止最大规模的已发表GWAS研究,包含76,755名精神分裂症患者和243,649名对照,识别出287个符合全基因组显著性标准的关联,其中5个位于X染色体上。典型的与低生育力相关特征的常见变异关联,效应大小较小(平均优势比1.06;范围1.04-1.23),所有全基因组显著性位点共同只解释了约2-3%的疾病易感性方差,或约10%的估计由常见等位基因贡献的总方差(图2)。这项研究还发现,精神分裂症的常见变异遗传结构在男性和女性之间并无差异,推断这类等位基因不太可能解释该疾病在流行病学和病程中报告的性别差异。对关联位点进行精细映射以识别可信的因果单核苷酸多态性(SNP),确定了一组120个基因,这些基因被优先考虑为可能介导某些位点关联的基因,其中只有少数(N=16)是由改变编码蛋白序列的相关变异所暗示的。
图2: 精神分裂症易感性的方差组成内环:根据双生子研究,遗传率估计约为80%。剩余20%归因于非遗传风险因素,包括环境风险因素、随机效应和新发突变。中环:目前已知的可遗传风险等位基因类别对易感性方差的贡献估计。外环:分配给特定风险等位基因的易感性方差,或在罕见编码变异(RCV)的情况下,相关基因中RCV的负担测试。百分比指总易感性的方差,基于主要为欧洲生物地理祖先的人群研究。数值为近似值(详见正文)。SNP:单核苷酸多态性和小插入/缺失多态性,次要等位基因频率大于0.01。CNV:大型拷贝数变异,人群频率小于0.01。RCV:罕见编码变异,频率通常小于0.0001。GWS:显著性超过相关阈值,考虑到SNP、CNV和RCV负担测试的多重检验。
考虑到达到全基因组显著性的等位基因只解释了常见变异易感性的一小部分,仍有大量常见变异待发现。具体数量尚未确定,但精神分裂症和其他精神、认知和行为特征属于人类特征中最多基因的,最近的估计显示下限约为10,000个致病变异,尽管其他估计值要高得多。与高度多基因性一致,常见风险变异在大量基因附近被发现,但这并非随机。因此,关联富集在跨物种保守的基因周围,以及在人类中对突变相对不耐受的基因周围。它们还富集在大脑中表达的基因、神经元(兴奋性和抑制性)中表达的基因,以及编码与神经元功能相关的基本生物学过程中涉及的蛋白质的基因中,特别是与突触结构和功能相关的基因集(图3)。最后,它们还富集在罕见变异研究中与神经发育障碍(包括精神分裂症)相关的基因中。
。图3: 精神分裂症风险基因的突触定位和富集
A 根据精神病学基因组学联盟的精神分裂症工作组优先考虑的蛋白质编码基因、精神分裂症外显子组元分析联盟研究中罕见编码变异富集达到FDR < 0.05的基因,以及唯一涉及单个基因的精神分裂症相关CNV神经轴突蛋白1的突触定位。图表和位置根据突触基因本体(SYNGO)联盟网站(https://syngoportal.org)生成和定义。生成图表所需的数据以及每个基因的位置和突触功能的详细信息和证据可在补充表1中获得。颜色表示每个细胞组分中的基因数量。数字从图的外围到中心累积,分别描述本体层次结构的最低和最高水平。B SYNGO本体层次结构的组分被标注为A中所示的基因显著富集。颜色表示由SYNGO确定的富集显著性。富集是相对于所有大脑表达基因的背景计算的。
罕见拷贝数变异多项研究一致表明,罕见拷贝数变异(CNVs),定义为大于1千碱基(KB)的DNA片段的缺失或重复,是精神分裂症的风险因素。在全基因组范围内,与对照组相比,精神分裂症患者富集有大于20 KB的罕见(<1%频率)CNVs,其中与基因重叠的缺失对风险影响最大。此外,精神分裂症病例的全基因组新发CNV率显著高于对照组。
第一个被稳健地与精神分裂症相关联的特定遗传风险因素是22q11.2的1.5-3兆碱基(MB)缺失,这之前被发现可导致DiGeorge综合征和Velocardiofacial综合征。在这一发现之后,利用超过20,000例病例和20,000例对照的SNP基因分型阵列数据进行的CNV研究已确定12个特定CNVs作为精神分裂症的风险因素(图1)。其中11个CNVs影响多个基因,是由低拷贝重复序列之间的非等位同源重组形成的反复事件,这导致携带者之间的CNV断点相似。目前唯一涉及单个基因破坏的CNV是NRXN1的非重复外显子缺失。个别而言,这12个与精神分裂症相关的CNVs在0.015%-0.64%的病例中出现,但对个体携带者造成强烈的精神分裂症风险,估计的优势比在1.8到81.2之间[20, 21](图1)。由于是罕见事件,这些估计的置信区间很宽,而且有一些来自人群研究的证据表明点估计可能被高估,尽管应该注意到,即使是最大的人群研究也只包含相对较少的精神分裂症病例(N = 1704–2590),也无法提供准确的效应大小估计。很明显,通过SNP基因分型阵列可以识别出额外的风险CNVs,但它们可能更罕见,比阵列能解析的尺寸更小,或者效应大小比目前涉及的更小,因此需要更大的样本来发现。
22q11.2的重复,即这个位点风险缺失的互反,是唯一在对照组中比病例组富集的重复CNV,表明对精神分裂症有保护作用(图1)。然而,这种保护作用并不延伸到其他神经发育障碍,因为它是发育迟缓和自闭症谱系障碍的风险因素。从利用这一发现进行治疗的角度来看,确定是否相同或不同的特定基因的重复既能保护against精神分裂症又能增加其他神经发育障碍的风险,显然很重要。
罕见编码变异外显子组测序研究已经证明,改变基因氨基酸序列的极罕见单核苷酸变异(SNVs)和小插入缺失(indels),统称为罕见编码变异(RCVs),也对精神分裂症易感性有贡献。虽然精神分裂症中新发有害编码变异的全外显子组率仅略高于预期,但在人类中对蛋白质截断变异(PTVs)不耐受的基因、早发神经发育障碍相关基因以及与谷氨酸能突触后蛋白相关的基因中,病例中这类变异的富集更为明显。病例对照研究也表明,在精神分裂症患者中,这些基因集合富集了极罕见(在不到1/10,000人中出现)的有害编码变异。
测序研究目前还没有足够的统计能力来确定特定的精神分裂症RCVs,但它们已经开始识别特定基因,在这些基因中,任何此类RCV的总负担显著高于对照组。迄今为止最大规模的精神分裂症外显子组测序研究是由精神分裂症外显子组测序元分析(SCHEMA)联盟进行的;通过对24,248例精神分裂症病例、97,322例对照和3,402个先证者-父母三人组的数据进行元分析,确定了10个基因在全外显子组水平上显著过量存在极罕见有害编码变异(图1)。作为一个整体,这些基因在病例中富集了PTVs和有害错义变异,基因特异性优势比范围从3到50,尽管具有较大的置信区间。随后的一项研究对11,580例病例和10,555例对照的161个基因进行靶向测序数据的元分析,并与SCHEMA联盟的数据结合,在全外显子组显著性水平上确定了另外两个风险基因(图1)。