单细胞测序数据的差异表达分析方法总结

无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本表达显著上调(up-regulated)和下调的基因(down-regulated),从而可进一步研究这些差异表达基因的功能,包括富集的通路(pathway)或生物学过程(biological process)。

由于单细胞测序技术的局限性,单细胞测序数据通常具有高噪音,有较高的dropout问题,即很多低表达或中度表达的基因无法有效检测到。所以,以前针对传统多细胞转录组测序数据开发的差异表达检测方法或软件不一定完全适用于单细胞测序数据。若想比较不同细胞亚型或不同条件下的细胞表达差异时,为了能得到可靠的结果,需要选定一个好的差异表达分析方法(微信公众号:AIPuFuBio)。

近年来,有不少专门针对单细胞转录组测序数据的差异表达分析方法相继被开发出来,如MAST (Finak et al., 2015)、SCDE (Kharchenko et al., 2014)、 DEsingle (Miao et al., 2018)、 Census (Qiu et al., 2017)、 BCseq (Chen and Zheng, 2018)等。具体可以见下表所示:

红线上方是专门针对单细胞测序数据开发的差异表达分析软件或R包,红色下方是针对bulk转录组数据开发的软件或R包

图1、一些比较流行的差异表达分析软件(Chen et al. Frontiers in Genetics, 2019) 

这里要值得提一下SCDE(全名:Single Cell Differential Expression)软件,其属于最早一批专门针对单细胞测序数据开发的差异表达分析软件,地址为:https://hms-dbmi.github.io/scde/。下图是原文章中SCDE与其他传统差异表达分析软件的性能比较,显示SCDE具有不错的性能。

图2、SCDE与其他软件在单细胞测序数据集上鉴定差异表达基因的性能比较(Kharchenko et al. Nature Methods, 2014)

最近,Wang et al.等人比较了11款经典的软件在单细胞测序测序数据集上的差异表达分析性能,这些软件具体如下表所示:

图3、不同差异表达软件的相关信息(Wang et al. BMC Bioinformatics, 2019)

图4、不同差异表达软件ROC曲线比较( Wang et al. BMC Bioinformatics, 2019)

图5、不同差异表达软件各主要指标的比较( Wang et al. BMC Bioinformatics, 2019)


图6、不同差异表达软件之间在真实数据集上检测到的差异表达基因比较( Wang et al. BMC Bioinformatics, 2019)。差异表达基因的定义为:adjusted p-value< 0.05

图7、样本数量对不同差异表达软件各方面性能的影响比较( Wang et al. BMC Bioinformatics, 2019)

 

图8、不同差异表达软件鉴定到的top 300个差异表达基因富集的显著KEGG通路数和GO条目数比较( Wang et al. BMC Bioinformatics, 2019) 。(条件:FDR<0.05)

总的来说,不同的差异表达软件有不同的优缺点。有些软件具有高灵敏性,但检测精度却比较低,有些则刚好相反。这11款软件中,DEsingle 和SigEMD这两个方法较好的平衡了差异表达基因检测灵敏性和准确性。值得注意的是,Wang et al. 的比较发现,现在这些专门针对单细胞测序数据开发的差异表达分析软件和传统的方法相比,并没有显示出太多的优势( Wang et al. BMC Bioinformatics, 2019)。这也进一步说明,还需不断开发新的单细胞测序差异表达分析方法,以更好的检测单细胞测序数据的差异表达基因。(更多经典,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com)。笔者建议,做单细胞测序数据的差异表达分析,最好还是选择专门针对单细胞测序数据开发的软件,如SCDE、DEsingle 和SigEMD等。

希望今天的内容对大家有用哦,会持续更新的,欢迎留言~~

参考文献

1. Chen et al. Single-Cell RNA-Seq Technologies and Related Computational Data Analysis,Frontiers in Genetics, 2019

2. Wang et al. Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data, BMC Bioinformatics, 2019

3. Kharchenko et al. Bayesian approach to single-cell differential expression analysis, Nature Methods, 2014

原文地址:https://www.cnblogs.com/aipufu/p/11480737.html

时间: 2024-08-29 17:44:27

单细胞测序数据的差异表达分析方法总结的相关文章

基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结

细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态(state)之间会按照一定的时间顺序转换.最典型的比如细胞的分化过程,从不成熟的细胞逐渐分化为成熟细胞.此外,细胞在受到外界刺激或扰动时,细胞内基因的表达也可能发生一系列的变化,从而呈现出一系列状态的转换. 这些特别提一下,细胞状态(cell state)和细胞亚型(cell subtype)是两

【收集和分析】网站用户行为数据收集和分析方法

为改善网站的可用性, 一般采用可用性工程方法, 其核心是以用户为中心的设计方法论(UCD).综合介绍了目前国内外对于用户行为数据收集和分析方法所进行的研究, 各种方法的特点, 并介绍一些利用相应方法所开发出的工具实例, 使得建设的网站更加符合用户的需要, 以保障用户与网站之间沟通的顺畅. 随着In ternet 的不断发展, 各种各样的网站如雨后春笋般成倍增长, 各个商业网站之间的竞争越来越激烈, 随之而来的是, 网站的建设不可避免的出现了很多问题.从最近一次国外对15 个大型网站进行统计分析表

单细胞转录组测序数据的可变剪接(alternative splicing)分析方法总结

可变剪接(alternative splicing),在真核生物中是一种非常基本的生物学事件.即基因转录后,先产生初始RNA或称作RNA前体,然后再通过可变剪接方式,选择性的把不同的外显子进行重连,从而产生不同的剪接异构体(isoform).这种方式,使得一个基因可产生多个不同的转录本,这些转录本分别在细胞/个体分化发育的不同阶段,在不同的组织中有各自特异的表达和功能,从而极大地丰富了编码RNA和非编码RNA种类和数量,进而增加了转录组和蛋白质组的复杂性. 可变剪接主要有以下五种常见的形式: 1

单细胞测序方法大比拼

[生物技术]单细胞测序方法大比拼 测序技术 导读 在单细胞研究的大潮中,新的测序方法层出不穷.不过,很少有人对这些方法进行系统的比对.慕尼黑大学生物学家Wolfgang Enard最近领导团队,在小鼠胚胎干细胞的基因表达研究中比较了一 导读 在单细胞研究的大潮中,新的测序方法层出不穷.不过,很少有人对这些方法进行系统的比对.慕尼黑大学生物学家Wolfgang Enard最近领导团队,在小鼠胚胎干细胞的基因表达研究中比较了一些常用的单细胞测序方法,包括Smart-seq.CEL-seq.SCRB-

基于基因组测序数据鉴定单碱基变异的方法总结

单核苷酸多态性,英文single nucleotide polymorphism,缩写为SNP,读音为Snip.SNP主要是指在基因组水平上引起的单个碱基的变异,其在群体中的发生频率不小于1%,包括单碱基的转换.颠换以及单碱基的插入和缺失等. 多态性示意图(图片来源:genome news network) 突变(mutation)和多态性(polymorphism)的主要区别在于: 1)突变在群体中的发生频率小于1%,而多态性的发生频率在大于1%: 2)突变通常对生生物体是有害的,而多态性通常

差异表达分析之FDR

差异表达分析之FDR 随着测序成本的不断降低,转录组测序分析已逐渐成为一种很常用的分析手段.但对于转录组分析当中的一些概念,很多人还不是很清楚.今天,小编就来谈谈在转录组分析中,经常会遇到的一个概念FDR,那什么是FDR?为什么要用FDR呢?一起来学习吧! 什么是FDR FDR (false discovery rate),中文一般译作错误发现率.在转录组分析中,主要用在差异表达基因的分析中,控制最终分析结果中,假阳性结果的比例. 为什么要用FDR 在转录组分析中,如何确定某个转录本在不同的样品

全基因组重测序基础及高级分析知识汇总

全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml 全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析.通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP

文本数据的机器学习自动分类方法(转)

http://blog.csdn.net/jdbc/article/details/50586042 本文为第一部分,着重介绍文本预处理以及特征抽取的方法. 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类."文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程"(达观数据科技联合创始人,张健).文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,

日志分析方法概述(转)

原文:日志分析方法概述 日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其实并没有精确的定义,可能包括但不限于各种前端Web服务器――apache.lighttpd.tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志. 在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志: 211.87.