如果你做过转录组的测序,尤其是长期使用转录组测序作为研究工具,你是否经历过以下困惑?
·差异表达基因的验证总是存在问题,总是有一部分基因的qPCR结果和测序结果不一致,尤其是表达量不高的 基因;
·随着测序量的增加,数据的重复率越来越高,基因表达的定量还是不是可靠?
·使用HiseqX10测序之后,数据的重复率直线上升,原因在哪?
这一切,都和数据的“重复”有关。从RNA到测序文库,到最终的测序结果,有一个无法摆脱的过程,就是PCR扩增。只要存在PCR扩增,就会有重复的存在,扩增偏好引发的重复的不均一性,就是基因表达定量不准确的罪魁祸首。
那是不是把重复去掉,结果就变得准确了呢?不幸的是,答案是否定的。Why?让我们来看一下测序数据中重复的来源:
从 RNA 到最终的测序数据,要经过片段化、接头连接、PCR 扩增和测序等必需的步骤, 其中多个步骤会引入重复的序列。这些重复的来源不同、其意义也不同,对结果的影 响也不同:
测序不同阶段引入的重复类型
1. 建库过程的 RNA 片段化会引入重复(1)。这些重复是由于不同的 RNA 分子在相同的位置发生了断裂,产生了序列完全一样的片段,在最终的测序数据中表现为重复的序列。这些重复来自于不同的 RNA,其数量是原始生物大分子组成的表征,因此是有生物学意义的,在测序结果中需要被保留;
2. 建库过程中的 PCR 会引入重复(2)。这些重复是由同一个分子扩增产生的拷贝,其数量不能表征原始生物大分子的组成,因此存在于测序结果中,会造成有重复的基因表达量被高估,需要从测序结果中去除;
3. 测序过程的桥式PCR会引入重复(3)。这是由于某些分子的扩增效率太高从而形成了超大的簇,这些超大的簇在信号识别中会被判定成多个分子,从而引入重复;这一部分重复的存在导致部分Reads的数量被认为提高,造成假阳性;
4. 测序过程中的重复问题,在新一代采用 Patterned Flow Cell 的测序仪中尤为严重(感兴趣的同学可以 google 一下 ExAmp, Patterned Flow Cell)。
因此,这些重复中,除了(1)是真实存在的分子外,PCR、测序过程中产生的重复(2、3、4),都是由同一个分子扩增产生的假阳性的拷贝。这些假阳性序列的存在,就是我们测序结果不够准确的原因。
如何才能使测序结果变得准确呢?把假阳性序列去掉就好啦~~
怎么去呢?只要把(1)的重复和(2、3、4)的重复区分开就好啦~~ 要实现这一点,就必须要强大的数字标签(UMI)标记技术登场了!!
数字标签(UMI)技术原理
像上图表示的一样,数字标签标记技术,会在扩增前对每一个独立的cDNA分子进行标记,这些标记会伴随cDNA分子的一生。所以在最终的测序结果中,一个序列的多个拷贝,如果具有相同的UMI,就说明他们是从同一个分子扩增来的;而如果一个序列的多个拷贝具有不同的UMI,则说明他们来源于不同的分子。因此,通过UMI,我们就可以将测序结果中假阳性的重复去掉,获得准确的定量结果。
如上图,两个cDNA的组成比例为2:5,如果使用普通的转录组测序,定量出来的结果变成了7:14;而如果使用了UMI标记技术,就可以还原2:5的原始组成了!!
很强大吧?实际使用效果如何呢?为此,我们特地设计了如下实验:将 2个样品(control、treatment)分别使用带 UMI 的方法(KC-digitalRNA)构建了文库,扩增了不同的循环数目来比较重复对结果的影响。作为对照,我们使用了普通的链特异性试剂盒构建了相同的文库:
、
测序完成后,KC-digitalRNA文库使用UMI判断重复来源,并去除PCR/测序引入的重复。
从上表可以看出:
1. KC-digitalRNA 和Truseq 两种建库方式数据的重复率都在50%左右,且随着PCR
循环数的升高,重复率也在增加;
2. 数字标签去重之后,每个文库约被去掉了20%左右的Reads,说明文库中20%
的序列是PCR、测序引入的重复。
3. KC-digitalRNA文库根据UID进行去重之后,数据重复率仍在40%以上,说明起始cDNA中就存在大量的重复片段。
这些不同程度的重复,对结果会有什么影响呢?我们首先分析了同一个样本扩增15个循环和扩增 23 个循环两个结果的相关性。由于是来源于同一个样本,因此相关性越高越好,结果如下图:
不同PCR 循环数的相关性分析
图中红色点为使用 Truseq 试剂盒建库的结果(包含所有类型重复),黑色点为使用KC-digitalRNA 建库并使用 UMI 判断重复来源之后,去除 PCR 重复的结果(去除了PCR、测序过程中引入的重复)。从上图可以看到:
1. PCR 扩增对与高表达基因影响较小,RPKM 值>32(2^5)的基因,收敛性非常好,一致性高;
2. 随着表达量降低,基因在不同扩增条件的表达量差异增大;
3. PCR、测序重复程度的不同,使同一个样品的部分基因表达在不同扩增条件下一致性不好(发散的红点);
4. 使用UMI去除PCR、测序引入的重复之后(黑点),基因表达在不同扩增条件下一致性显著变好,表达量的分布更加收敛。
从上面的结果可以看出,使用 UMI 去除了 PCR、测序过程引入的重复之后,完全消除了PCR 偏好性带来的基因表达的不准确的现象。
当然,大家最关注的还是差异表达分析:消除了PCR和测序引入的重复,能否让差异表达分析的结果更可靠呢?我们对对照和处理组在15个循环条件下鉴定出来的差异基因和 23 个循环鉴定出来的差异基因进行了比较,结果如下图:
两种方法的差异表达分析比较
可以发现:使用 UMI 去重的 KC-digitalRNA 测序方法,除了共有差异基因数目占比更高、相关系数也更高之外,基因表达差异的一致性也更好,不同实验间同一基因差异倍数更加收敛。因此,KC-digitalRNA 测序在差异基因鉴定的时候更加稳定。
从上面的结果中可以看出来,使用UMI标记之后,可以有针对性的消除PCR引入的扩增重复、解决Patterned Flow Cell引入的测序重复,让测序数据在基因表达分析中更加准确。其实,UMI除了在基因表达分析中有优势之外,在转录组体细胞突变鉴定、可变剪接分析、RNA编辑分析等等等等方面都有天然的优势,我们会慢慢展示给大家看。小伙伴们有没有动心呢?