如何从根本上提高转录组测序的准确性？|武汉康测科技

如果你做过转录组的测序，尤其是长期使用转录组测序作为研究工具，你是否经历过以下困惑?

·差异表达基因的验证总是存在问题，总是有一部分基因的qPCR结果和测序结果不一致，尤其是表达量不高的基因；

·随着测序量的增加，数据的重复率越来越高，基因表达的定量还是不是可靠？

·使用HiseqX10测序之后，数据的重复率直线上升，原因在哪？

这一切，都和数据的“重复”有关。从RNA到测序文库，到最终的测序结果，有一个无法摆脱的过程，就是PCR扩增。只要存在PCR扩增，就会有重复的存在，扩增偏好引发的重复的不均一性，就是基因表达定量不准确的罪魁祸首。

那是不是把重复去掉，结果就变得准确了呢？不幸的是，答案是否定的。Why？让我们来看一下测序数据中重复的来源：

从 RNA 到最终的测序数据，要经过片段化、接头连接、PCR 扩增和测序等必需的步骤，其中多个步骤会引入重复的序列。这些重复的来源不同、其意义也不同，对结果的影响也不同：

测序不同阶段引入的重复类型

1. 建库过程的 RNA 片段化会引入重复（1）。这些重复是由于不同的 RNA 分子在相同的位置发生了断裂，产生了序列完全一样的片段，在最终的测序数据中表现为重复的序列。这些重复来自于不同的 RNA，其数量是原始生物大分子组成的表征，因此是有生物学意义的，在测序结果中需要被保留；

2. 建库过程中的 PCR 会引入重复（2）。这些重复是由同一个分子扩增产生的拷贝，其数量不能表征原始生物大分子的组成，因此存在于测序结果中，会造成有重复的基因表达量被高估，需要从测序结果中去除；

3. 测序过程的桥式PCR会引入重复（3）。这是由于某些分子的扩增效率太高从而形成了超大的簇，这些超大的簇在信号识别中会被判定成多个分子，从而引入重复；这一部分重复的存在导致部分Reads的数量被认为提高，造成假阳性；

4. 测序过程中的重复问题，在新一代采用 Patterned Flow Cell 的测序仪中尤为严重（感兴趣的同学可以 google 一下 ExAmp, Patterned Flow Cell）。

因此，这些重复中，除了（1）是真实存在的分子外，PCR、测序过程中产生的重复（2、3、4），都是由同一个分子扩增产生的假阳性的拷贝。这些假阳性序列的存在，就是我们测序结果不够准确的原因。

如何才能使测序结果变得准确呢？把假阳性序列去掉就好啦~~

怎么去呢？只要把（1）的重复和（2、3、4）的重复区分开就好啦~~ 要实现这一点，就必须要强大的数字标签（UMI）标记技术登场了！！

数字标签（UMI）技术原理

像上图表示的一样，数字标签标记技术，会在扩增前对每一个独立的cDNA分子进行标记，这些标记会伴随cDNA分子的一生。所以在最终的测序结果中，一个序列的多个拷贝，如果具有相同的UMI，就说明他们是从同一个分子扩增来的；而如果一个序列的多个拷贝具有不同的UMI，则说明他们来源于不同的分子。因此，通过UMI，我们就可以将测序结果中假阳性的重复去掉，获得准确的定量结果。

如上图，两个cDNA的组成比例为2：5，如果使用普通的转录组测序，定量出来的结果变成了7：14；而如果使用了UMI标记技术，就可以还原2：5的原始组成了！！

很强大吧？实际使用效果如何呢？为此，我们特地设计了如下实验：将 2个样品（control、treatment）分别使用带 UMI 的方法（KC-digitalRNA）构建了文库，扩增了不同的循环数目来比较重复对结果的影响。作为对照，我们使用了普通的链特异性试剂盒构建了相同的文库：

、

测序完成后，KC-digitalRNA文库使用UMI判断重复来源，并去除PCR/测序引入的重复。

从上表可以看出：

1. KC-digitalRNA 和Truseq 两种建库方式数据的重复率都在50%左右，且随着PCR

循环数的升高，重复率也在增加；

2. 数字标签去重之后，每个文库约被去掉了20%左右的Reads，说明文库中20%

的序列是PCR、测序引入的重复。

3. KC-digitalRNA文库根据UID进行去重之后，数据重复率仍在40%以上，说明起始cDNA中就存在大量的重复片段。

这些不同程度的重复，对结果会有什么影响呢？我们首先分析了同一个样本扩增15个循环和扩增 23 个循环两个结果的相关性。由于是来源于同一个样本，因此相关性越高越好，结果如下图：

不同PCR 循环数的相关性分析

图中红色点为使用 Truseq 试剂盒建库的结果（包含所有类型重复），黑色点为使用KC-digitalRNA 建库并使用 UMI 判断重复来源之后，去除 PCR 重复的结果（去除了PCR、测序过程中引入的重复）。从上图可以看到：

1. PCR 扩增对与高表达基因影响较小，RPKM 值>32（2^5）的基因，收敛性非常好，一致性高；

2. 随着表达量降低，基因在不同扩增条件的表达量差异增大；

3. PCR、测序重复程度的不同，使同一个样品的部分基因表达在不同扩增条件下一致性不好（发散的红点）；

4. 使用UMI去除PCR、测序引入的重复之后（黑点），基因表达在不同扩增条件下一致性显著变好，表达量的分布更加收敛。

从上面的结果可以看出，使用 UMI 去除了 PCR、测序过程引入的重复之后，完全消除了PCR 偏好性带来的基因表达的不准确的现象。

当然，大家最关注的还是差异表达分析：消除了PCR和测序引入的重复，能否让差异表达分析的结果更可靠呢？我们对对照和处理组在15个循环条件下鉴定出来的差异基因和 23 个循环鉴定出来的差异基因进行了比较，结果如下图：

两种方法的差异表达分析比较

可以发现：使用 UMI 去重的 KC-digitalRNA 测序方法，除了共有差异基因数目占比更高、相关系数也更高之外，基因表达差异的一致性也更好，不同实验间同一基因差异倍数更加收敛。因此，KC-digitalRNA 测序在差异基因鉴定的时候更加稳定。

从上面的结果中可以看出来，使用UMI标记之后，可以有针对性的消除PCR引入的扩增重复、解决Patterned Flow Cell引入的测序重复，让测序数据在基因表达分析中更加准确。其实，UMI除了在基因表达分析中有优势之外，在转录组体细胞突变鉴定、可变剪接分析、RNA编辑分析等等等等方面都有天然的优势，我们会慢慢展示给大家看。小伙伴们有没有动心呢？