微生物多样性“全新”升级——“ASV”质的飞跃
近年来,微生物群落的组成和多样性研究逐渐成为农业及医学科研热点,越来越多的研究开始致力将微生物多样性作为基础研究。因此,微生物多样性的数据分析也被越来越多的研究者所关注和学习。为助力广大微生物领域的科研工作者,中科新生命《微生物多样性v2.0》全新起航,接下来,让我们一睹新流程的独特风采吧。
QIIME2替代QIIME1
特征提取更新换代
“ASV”对“OTU”的替代。OTU是以序列之间的相似度为阈值(一般选择97%)划分为操作分类单元。一段时间内被认为是扩增子测序聚类方法的“金标准”。
DADA2于2016年发表在Nature methods,发表之初即为通过降噪得到不含扩增与测序错误,不含嵌合体的生物学序列,其聚类相当于100%相似度进行聚类。
QIIME2的可重复分析且可扩展插件的理念成为扩增子分析首选平台。
基于机器学习的物种注释方法。QIIME2中使用Naive Bayes分类的classify-sklearn算法,可以最大程度上确保注释结果的可靠、准确。在分类器的运行性能方面,随着目标序列数的增加,注释分析的运算时间优于Vsearch、BLAST等方法;且当参考序列数据库增大时,注释分析的运算时间又优于RDP、SortMeRnA等方法。
Database升级
提高样本的物种注释率
16S/18S数据库:silva138(https://www.arb-silva.de/)。silva数据主要来源于EMBL-EBI/ENA,命名源自于EMBL的公布编号(release number)。silva每年根据EMBL数据库的更新频率进行更新。silva数据库收录全面、更新比较及时,是目前高通量测序常用的16S分析参考数据库之一。
ITS数据库:UNITE(https://unite.ut.ee)。Unite是目前真菌ITS整理最全面的数据库。它的目标是形成正式的真菌条形码-核糖体内部转录间隔区(ITS)区域-并提供所有~1,000,000公共真菌ITS参考序列。
PICRUSt2进行功能注释
16s/18s功能预测新利器
PICRUSt2(Phylogenetic Investigation of Communities by Reconstruction of Unobserved States)是基于群落标记基因序列丰度预测菌群功能丰度的软件,诸如KEGG同源基因,COG同源蛋白簇。相对PICRUSt1,PICRUSt2进行了以下提升:
参考基因组数据库比初代扩大了近10倍,使功能预测信息更加全面,较大提高了预测精度。
数据库规模
贴近实际环境的预测设置。
PICRUSt2通过将OTU/ASV序列输入至16S参考序列进化树中进行基因家族拷贝数预测,而参考序列进化树可根据不同样本类型(如肠道微生物、土壤微生物等)自定义特定环境的参考数据库。
使用Castor隐藏状态预测算法,同时使用MinPath推断代谢通路,使得预测更严谨。
PICRUSt2功能预测模块,包括MetaCyc(https://metacyc.org/)、KEGG(https://www.kegg.jp/)、COG (https://www.ncbi.nlm.nih.gov/COG/)、Pfam(http://pfam.xfam.org/)和TIGRFAM (http://tigrfams.jcvi.org/cgi-bin/index.cgi)。
PICRUSt2算法逻辑图
FUNGuild
真菌ITS到功能分类“神器”
我们使用FUNGuild数据库,完成真菌ITS从特征序列到功能注释的跨越。其涵盖了超过12000个真菌的功能注释信息。根据营养方式分为三类:
病理营养型(pathotroph)—— 通过损害宿主细胞而获取营养(包括吞噬型真菌phagotrophs);
共生影响型(symbiotroph)——通过与宿主细胞交换资源来获取营养;
腐生营养型(saprotroph)——通过降解死亡的宿主细胞来获取营养。
FUNGuild预测结果
多种距离算法“加持”
差异分析更加丰富
同步使用Weighted Unifrac/Unweighted Unifrac/Bray Curtis三种距离矩阵做Beta多样性分析和可视化统计分析
基于三种距离算法的差异分析
STAMP分析不同组间“各层级”菌群丰度差异(2组及多组)
STAMP分析结果
LEfSe 基于LDA算法计算不同组间菌群丰度差异——不同维度丰度差异
LEfSe分析结果
中科新生命《微生物多样性v2.0》,全流程QIIME2分析,内容包括 ASVs分析及物种注释、α-多样性、β-多样性、物种差异与标志物种分析、组间群落结构差异显著性检验、环境因子关联分析以及功能预测等,技术路线如下:
中科优品推荐
【中科新生命】建立了完整的多组学服务平台,通过多组学生物信息学报告的剖析和引导,能够帮助老师们从庞大而又复杂的多组学数据中迅速理出线索,充分利用好组学大数据带来的系统生物学信息。联合分析限时免费体验中,诚邀您来体验。