False Discovery Rate, a intuitive explanation

【转载请注明出处】http://www.cnblogs.com/mashiqi

Today let‘s talk about a intuitive explanation of Benjamini-Hochberg Procedure. My teacher Can told me this explanation.

Suppose there are $M$ hypothesis:$$H_1,H_2,\cdots,H_M$$and corresponding $M$ p-values:$$p_1,p_2,\cdots,p_M$$Let‘s suppose $p_i$ are in ascending order: $p_1 \leq p_2 \leq \cdots \leq p_M$ for convenience. Now we want to let the FDR to be a positive scale, say $\alpha$, then what is the threshold value $p$ that can be used to reject hypotheses.

We know that the Benjamini-Hochberg Procedure is like this: let $k$ be the largest i for which $p_i \leq \frac{i}{M} \alpha$, then reject all $H_i,~i=1,2,\cdots,k$.

We wants to ask why this above gives the FDR at $\alpha$? Let‘s consider a probability $p$, the threshold value. If we reject all $H_i$ thich satisfy corresponding $p_i \leq p$, then the FDR is at $\alpha$. But how do we get the value of $p$? Let‘s take a look at the exact definition of False Discovery Rate:$$FDR = E[\frac{ \sharp\{falsely~say~significant\} }{\sharp\{say~significant\}}]$$
The $$\sharp\{say~significant\} = \sharp\{p_i \leq p\}$$. If the $H_i$ is null, then $p_i$ will be uniformly distributed,so $$\sharp\{falsely~say~significant\} = \pi_0 \times p \times M$$, where $\pi_0$ is the non-hypothesis probability. Then we get$$\frac{\pi_0 \times p \times M}{\sharp\{p_i \leq p\}}=\alpha$$

This gives a explanation.

PS: Have been a long time since she replys me last time. Sad...

时间: 2024-07-28 17:49:24

False Discovery Rate, a intuitive explanation的相关文章

文献名:Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identication (用于肽段鉴定中错误发生率估计的能体现重复性的诱饵数据库)

文献名:Repeat-Preserving Decoy Database for False Discovery Rate Estimation in Peptide Identication (用于肽段鉴定中错误发生率估计的能体现重复性的诱饵数据库) 期刊名:Journal of Proteome Research 发表时间:(2020年3月) IF:3.78 单位: 滑铁卢大学计算机科学学院 多伦多细胞生物学和SPARC生物项目中心 多伦多大学分子遗传学系 技术:肽段鉴定,诱饵数据库构建 一

What is an intuitive explanation of the relation between PCA and SVD?

What is an intuitive explanation of the relation between PCA and SVD? 36 FOLLOWERS Last asked: 30 Sep, 2014 QUESTION TOPICS Singular Value Decomposition Principal Component Analysis Intuitive Explanations Statistics (academic discipline) Machine Lear

An Intuitive Explanation of GraphSAGE

By R?za Özçelik Original post: https://towardsdatascience.com/an-intuitive-explanation-of-graphsage-6df9437ee64f DeepWalk is a transductive algorithm, meaning that, it needs the whole graph to be available to learn the embedding of a node. Thus, when

混淆矩阵(Confusion Matrix)分析

Content ConfusionMatrix Example Talbe ofconfusion Preference Confusion Matrix 在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵.它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix).其每一列代表预测值,每一行代表的是实际的类别.这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测

corsetjiedu

Corset: enabling differential gene expression analysis for de novo assembled transcriptomes 背景: 转录组测序这种高通量RNA测序,是一个非常强力的技术 去研究转录本的各个方面 it has a broad range of applications 它有着广泛的应用 包括发现新的基因,检测可变剪接,差异表达基因,基因融合检测,比如SNPs和转录后的编辑post- transcriptional edit

机器学习那些事 (转)

原文为发表于Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”,虽然发表于2012年,但是作者提出的观点对于今天仍有很多借鉴意义. 作者:佩德罗·多明戈斯(Pedro Domingos) 译者:刘知远 机器学习系统自动地从数据中学习程序.与手工编程相比,这非常吸引人.在过去的 20 年中,机器学习已经迅速地在计算机科学等领域普及.机器学习被用于网络搜索.垃圾邮件过滤.推荐

转载-机器学习那些事

[原题]A Few Useful Things to Know About Machine Learning [译题]机器学习的那些事 [作者]Pedro Domingos [译者]刘知远 [说明]译文载于<中国计算机学会通讯> 第 8 卷 第 11 期 2012 年 11 月 ,本文译自Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”一文. 机器学习系统自动地从数据

分类器模型评价指标

Spark mllib 自带了许多机器学习算法,它能够用来进行模型的训练和预测.当使用这些算法来构建模型的时候,我们需要一些指标来评估这些模型的性能,这取决于应用和和其要求的性能.Spark mllib 也提供一套指标用来评估这些机器学习模型. 具体的机器学习算法归入更广泛类型的机器学习应用,例如:分类,回归,聚类等等,每一种类型都很好的建立了性能评估指标.本节主要分享分类器模型评价指标. ROC曲线 ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating

MAGENTA: Meta-Analysis Gene-set Enrichment of variaNT Associations

MAGENTA是一款计算工具,利用全基因组遗传数据,计算预先设定的涉及生物过程或者功能性基因集在遗传相关性的富集程度.开发的目的是分析基因型不是现成的数据集,比如大型的全基因组关联荟萃分析.在以下两种情况下可以使用:1,检验某个特定的假设:2,通过检测一系列已知的生物基因集(从不同的公共数据库提供的通路)提出某个假设. 输入文本格式:变体相关的P值和它们的染色体位置(数据从全基因组关联分析文件或者荟萃分析文件获得) 输出文本格式:针对给定的基因集或通路,计算出基因集富集分析后的P值和错误发现率(