Fold Change和t分布

  • 基因表达谱数据

基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt”文件中存储,第一列为基因的entrez geneid,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。

图1 基因表达谱的矩阵表示

  • 寻找差异表达的基因:

原理介绍:

差异表达分析是目前比较常用的识别疾病相关miRNA以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change的计算公式如下:

即用疾病样本的表达均值除以正常样本的表达均值。

差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T检验(T-test)方法来寻找差异表达的miRNA。T检验的主要原理为:对每一个miRNA计算一个T统计量来衡量疾病与正常情况下miRNA表达的差异,然后根据t分布计算显著性p值来衡量这种差异的显著性,T统计量计算公式如下:

对于得到的显著性p值,我们需要进行多重检验校正(FDR),比较常用的是BH方法(Benjamini and Hochberg, 1995)。

时间: 2024-11-06 19:34:03

Fold Change和t分布的相关文章

fold change(ratio)

fold change 英文简称 : FC 中文全称 : 倍性变化 所属分类 : 生物科学 词条简介 : 一种用于描述两个用于相比的对象数量差异的方法.例如,第一个样本和第二个样本的量是50/10,那么FC(Ratio)就是5,反之就是0.2. 用这种方法分析微阵列的数据可以说明: 1)从基因表达的绝对值而来的表达变化是有意义的: 2)这种方法可以说明基因表达变化是否显著: 3)可以利用这种模型用于有效数据的筛选.

fold change(差异倍数), P-value(差异的显著性)

fold change的意思是样本质检表达量的差异倍数,log2 fold change的意思是取log2,这样可以可以让差异特别大的和差异比较小的数值缩小之间的差距.Q-value,是P-value校正值,P值是统计差异的显著性的.Q值比P值更严格的一种统计. The mean UMI counts per cell of this gene in cluster iThe log2 fold-change of this gene's expression in cluster i rela

生物信息学题目整理: 陈润生

生物信息学题目整理: 陈润生: 一.什么是生物信息学?你怎么理解它的含义? Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 1.生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .

中科院生物信息学题目整理

1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1)         生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .分析和解释的所有方面. 2)         生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测:其本质是识别基因信号. 3)         生物信息学的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"

ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets(大规模蛋白组学数据集中鉴定和定量蛋白复合物)

文献名:ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets(大规模蛋白组学数据集中鉴定和定量蛋白复合物) 期刊名:Mol Cell Proteomics 发表时间:(2019年11月) IF:4.828 单位:南丹麦大学生物化学与分子生物学系和VILLUM生物分析科学中心 物种:人和小鼠 技术:ComplexBrow

抗TNF治疗改变JIA患者PBMC基因表达谱,可预测疗效

抗TNF治疗改变JIA患者PBMC基因表达谱,可预测疗效 Moorthy LN, et al. ACR 2007. Presentation No:1713. 背景:我们假设儿童期发生的特发性关节炎(JIA)和SLE的基因表达谱是独特的,抗细胞因子或细胞毒药物将改变之,并可能有预测疗效的价值. 目的:利用核酸微阵列技术,分析Etanercept治疗JIA以及环孢霉素/Rituximab(COME)联合治疗SLE,对患者外周血单个核细胞(PBMC)基因表达谱的影响. 方法:共 有4例活动性JIA[

edgeR

edgeR:Empirical Analysis of Digital Gene Expression Data in R 一个R包,用于RNA-seq或相关技术分析中,基因差异性表达的read count的分析.(read count 已通过HTseq-count等工具得到). read counts的来源可以htseq-count等计算原始count的结果,不可以是cufflinks等计算normalization count的结果. counts数据格式:至少为两列,一列为基因类表,一列为

TCGA系列--GDCRNATools

https://github.com/Jialab-UCR/GDCRNATools GDCRNATools - An R package for downloading, organizing, and integrative analyzing lncRNA, mRNA, and miRNA data in GDC Introduction The Genomic Data Commons (GDC) maintains standardized genomic, clinical, and

零成本SCIwwwhj8828coml8O88049999文章发表利器Oncomine数据库

目前免费公开的数据库有很多,之前我们反复强调,了解他们可以大大提高科研效率,甚至可以直接利用这些数据库发表SCI文章,由于不需要实验数据,快狠准,所以广受欢迎. Oncomine数据库是目前世界上最大的癌基因芯片数据库,截止目前已经收集了近800个基因表达数据库以及90000多个癌组织和正常组织的样本数据,这些芯片数据都是别的课题组上传的,而我们要做的只是学会应用,拿别人的数据,发表自己的文章.这种好事儿,显然,只要随便在pubmed上搜索下,就可以发现基于该数据库的文章已经不少了! Oncom