10×单细胞转录组常见Q&A(三)|数据质控专题
各位老师大家好!第三期10×单细胞转录组常见 Q&A如期而至。上两期中,我们分别介绍了单细胞实验开展前最需要了解的几大问题(点击阅读)和实验质控相关问题(点击阅读)。本期将为大家介绍单细胞转录组数据质控,质控就是为了保证数据的质量,并且检测细胞分布是否符合预期。单细胞数据质控主要看哪些指标呢?
指标一 原始数据质控
单细胞转录组测序获得的原始数据为 fastq(或为压缩文件 fq.gz)格式,每个样本有 read1.fastq.gz 和 read2.fastq.gz两个文件,其中read1 为 barcode 和 UMI 信息,read2 为测序的 RNA 序列信息,后续根据序列标签信息可进行数据拆分及定量。在数据分析过程中,我们首先需要对下机的原始数据进行一系列严格的质控,去除掉低质量数据,保留高质量数据以确保后续数据分析结果的真实性及可靠性。FastQC软件可以快速对测序数据进行整体统计及质量评估,直观地反映出测序数据的好坏。
单细胞转录组推荐的测序数据量是多少?
答:中科使用Single Cell 3' V3.1版试剂盒,官方建议最低测序量20K reads/cell。目前,中科提供的数据量默认为90G/样,客户可依据具体的实验目的决定数据量的多少。
如何判断测序数据的好坏?
答:通过计算每个碱基的质量值,对测序的read 进行质量评估。碱基质量值 Q= -10×Log10(P),在生物物理学中是碱基识别出错概率的整数映射,用于分析每个碱基被识别错误的概率,其值越高表明碱基识别越可靠。质控标准中的 Q20 表示该碱基错误的概率为 0.01,Q30 表示错误率为0.001。一般Q20在85%以上,Q30在80%以上视为测序质量较好。
指标二 细胞过滤
我们在做单细胞测序的时候,首先要做细胞分离。分离条件对某些类型的细胞不适应,造成细胞破碎或凋亡,RNA溢出,导致线粒体基因比例上升,会干扰细胞分群。因此,在Cell Ranger 生成表达矩阵之后,还需要进一步对细胞进行过滤。
如何判定线粒体的过滤标准?
答:细胞本身就需要能量,所以必然含有一定的线粒体基因。线粒体过滤的原则为,去除线粒体基因含量过高的细胞,但不能大量丢失样本的细胞信息。目前统计的文章线粒体过滤阈值在5%~30%之间不等,但是一些特殊样本,如肿瘤组织、心脏样本、肌肉样本,因其本身的线粒体含量偏高,固定阈值筛选原则显然是不合适的,故而此标准需要进行调整。
目前,中科关于线粒体过滤采用绝对中位差(Median Absolute Deviation,MAD)。
绝对中位差是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果。且MAD是一个比样本方差或者标准差更鲁棒的度量,对于不存在均值或者方差的分布效果更好。
指标三 多样本批次矫正
当涉及多个样本进行比较分析时,需要对这些样本进行合并分析和批次矫正。目前,中科采用 Harmony 方法对scRNA 数据进行多样本合并和批次效应的校正。
图1 Harmony原理图[1]
Harmony原理:利用PCA将转录组表达谱嵌入到低维空间中,不同颜色表示不同数据集,不同形状表示不同的细胞类型,然后应用迭代过程去除数据集特有的影响。
Harmony概率性地将细胞分配给cluster,从而使每个cluster内数据集的多样性最大化;
Harmony计算每个cluster的所有数据集的全局中心,以及特定数据集的中心;
在每个cluster中,Harmony基于中心为每个数据集计算校正因子;
最后,Harmony使用基于C的特定于细胞的因子校正每个细胞。由于Harmony使用软聚类,因此可以通过多个因子的线性组合对其A中进行的软聚类分配进行线性校正,来修正每个单细胞。
重复步骤A到D,直到收敛为止。聚类分配和数据集之间的依赖性随着每一轮的减少而减小。
Harmony算法与其他整合算法相比的优势:
整合数据的同时对稀有细胞的敏感性依然很好;
适合于更复杂的单细胞分析实验设计,可以比较来自不同供体,组织和技术平台的细胞。
总结
本期分享到这里就结束啦,通过这三期Q&A内容的学习,相信各位老师对单细胞转录组已经有了比较深入的了解,以及如何将单细胞技术应用于自己的课题也有了明确的方向。中科新生命单细胞多组学相关产品持续热销中,欢迎感兴趣的老师前来咨询。
参考文献
[1] Korsunsky I , Fan J , Slowikowski K , et al. Fast, sensitive, and flexible integration of single cell data with Harmony[J]. Cold Spring Harbor Laboratory, 2018(12).
往期推荐
10×单细胞转录组常见Q&A(一)| 实验开展前最需要了解的几大问题