多重比较的问题

在统计学中，当同时考虑一系列的统计推断或者基于观察值选择的参数的子集时会发生多重比较的问题（Multiple comparisons problem）。

原因：当一个人把子集作为整体的估计时，错误的推断很可能发生，包括置信区间没有包含相应的总体参数或者是假设检验错误地拒绝了零假设。对此，我举出两个例子作为说明。

①假设我们想要去判断一个写作教学的新方法与传统方法的好坏。那么我们把学生分为两组，一组使用新方法（治疗组），一组使用传统方法（对照组）。我们可以根据学生们的语法、拼写、内容等来评估这两组的表现，但是随着评估参数的增多，由于随机因素，这两组会至少在一个参数上表现得不同，那么此时我们怎么判断这种不同时随机的表现还是使用方法所致的呢？

②经典的抛硬币的问题：一个均匀的硬币（即正反两面概率相等）抛10次至少有9次正面的概率是（10+1）*0.5^10 =0.0107, 这个概率低于0.05,所以我们一般可以推定一次抛硬币的实验中这种情况是不会发生的，反之，如果一次实验中发生了这种小概率的事件，可以宣称这个硬币是不均匀的。现在，假设我们有100个均匀的硬币，把它们同时做上诉的实验，不会发生一个硬币抛10次至少9次正面的概率是（1-0.0107）^100=0.34。由此，我们很可能错误地推断至少有一个硬币是不均匀的。所以单个硬币的评判标准对多个硬币是不适用的。

解决方法：为了解决上诉的问题，可以使用错误发现率（FDR:False Discovery Rate）、Bonferroni correction等方法。

注：通过以下网址归纳整理：https://en.wikipedia.org/wiki/Multiple_comparisons_problem

　　

时间： 2024-07-30 03:11:15

多重比较的问题的相关文章

多重比较谬误（Multiple Comparisons Fallacy）

多重比较谬误(Multiple Comparisons Fallacy),是一种机率谬误,系指广泛比较二个不同群体的所有差异,从中找出具有差异的特征,然后宣称它就是造成二个群体不同的原因. 1992年瑞典有个研究试图找出电源线对健康的影响,他们收集了高压电源线300米范围内所有住户的样本长达25年,对超过800种疾病一一检查发生率的统计差异.他们发现幼年白血病的发病率是一般人的4倍,还推动政府为此采取行动.然而,当我们比对超过800种疾病时,有一种以上的疾病因为随机效应而呈现发病率增加是非常可能

R语言实战（五）方差分析与功效分析

本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析

【Python数据挖掘】决策树

决策树的定义决策树(decision tree)是一个树结构(可以是二叉树或非二叉树).其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别.使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果. 树是由节点和边两种元素组成的结构.理解树,就需要理解几个关键词:根节点.父节点.子节点和叶子节点. 父节点和子节点是相对的,说白了子节点由父节点根据某

SAS数据步与过程步，数据步语句

SAS数据步与过程步,数据步语句http://www.biostatistic.net/thread-2045-1-1.html ---转载---原文作者:biostar(出处: 生物统计家园) 数据步与数据步语句 1．数据步基本概念数据步是产生数据集的一组语句.一个数据步可以建立一个或多个数据集.在一份程序中可以有多个数据步.数据步程序还可以对已建立了的数据集进行修改和产生输出. 2．程序变量与数据集变量 SAS变量有程序变量与数据集变量.数据集的列也叫变量. 3. 数据步的三

《R语言实战》（中文完整版）pdf

下载地址:网盘下载基本介绍编辑原作名: R in Action[2] 作者: Robert I. Kabacoff 译者: 高涛 / 肖楠 / 陈钢出版社: 人民邮电出版社出版年: 2013-1 页数: 388 定价: 79.00元装帧: 平装 ISBN: 978-711-529-990-1 内容简介编辑数据时代已经到来,但数据分析.数据挖掘人才却十分短缺.由于"大数据"对每个领域的决定性影响,相对于经验和直觉,在商业.经济及其他领域中基于数据和分析去发现问题并作出科学

《数据挖掘导论》 - 读书笔记(5) - 分类：基本概念、决策树与模型评估 [2016-8-21]

第4章分类:基本概念.决策树与模型评估分类任务就是确定对象属于哪个预定义的目标类.分类问题是一个普遍存在的问题,有许多不同的应用.例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分析. 本章介绍分类的基本概念,讨论诸如模型的过分拟合等关键问题,并提供评估和比较分类技术性能的方法.尽管本章主要关注一种称作决策树归纳的技术,但是本章讨论的大部分内容也适用于其他的分类技术. 4.1 预备知识分类任务的输入数据是记录的集合.每

线性模型总结

数学模型可以看做是人们对复杂的现实问题进行简化描述的数学表达式,由于统计学来源于数学,因此在统计分析中,也普遍使用模型来分析问题.数学中模型的分类非常多,但统计学中最常用的模型是线性模型和非线性模型. 在此,首先明确几个概念 1.线性关系线性关系是指自变量和因变量之间成比例的关系,即增量之间有固定的比例,比如X增加了m,那么Y就增加km,这里隐含着两个要点:(1)自变量与因变量是一次函数关系(2)函数图像呈一条过原点的直线,注意是要过原点 2.非线性关系与线性关系相对应,非线性关系是指自变量和因

多重检验_LSD方法不准确性

医药统计项目联系:QQ231469242 #mental group1=[2,2,3,4,4,5,3,4,4,4]#physicalgroup2=[4,4,3,5,4,1,1,2,3,3]#medicalgroup3=[1,2,2,2,3,2,3,1,3,1] 多重检验结果和贾俊平的LSD结果不一样,经过T配对试验,多重检验和T配对试验一致,LSD对小样本可能不准确 # -*- coding: utf-8 -*- # Import standard packages import numpy a

t分布, 卡方x分布，F分布

T分布:温良宽厚本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字.Fisher最早将这一分布命名为“Studen

猜你喜欢

ES5基础之正则表达式01：初次见面

1.正则初次见面测试地址:https://regexper.com 第一个正则:匹配 2006-10-11 或 2006/10/11 var reg = /^\d{4}[-/]\d{2}[-/]\d ...

Flexbox属性总结

来源:Flexbox详解 align-content

Linux命令之finger

[email protected]:~$ finger 程序"finger"尚未安装. 您可以使用以下命令安装: sudo apt-get install finger [emai ...

python开发之路

Python开发[一]初识Python Python开发[二]基本数据类型 python开发[三]文件管理 python开发[四]函数

初学Java.

java 诞生于1995年,由SUN Microsystem从“Green”项目中研发的.其中James Gosling被公认为Java之父. Jave 的特点:”简单性,面向对象,多线程,健壮,安全 ...

java中23种设计模式之18-原型模式（Prototype pattern）

class Something{ public String something=null;}class Prototype implements Cloneable{ private String ...

Haproxy启动脚本

#vi /etc/init.d/haproxy !/bin/bash #chkconfig:- 85 15 #-:表示所有级别,85:表示启动顺序,15:关闭顺序 #descri ...

键盘延迟修改

玩竞技游戏,比如QQ飞车,CF,DNF,为什么别人反应比你快,同样的操作你却先挂掉,同样的操作QQ飞车却比别人慢几秒,除了技术问题还有可能是键盘延迟导致的! 下面是修改键盘延迟的方法,从此在牛A到牛C ...

数据库的恢复

1 source 文件名 mysql> drop database oldboy; Query OK, 2 rows affected (0.01 sec) mysql> source / ...

xmpp+openfire+spark+centos 安装

1.环境准备 centos6.5x64 , 2.卸载系统自带的jdk rpm -qa|grep jdk rpm -e --nodeps java* 3.安装jdk rpm -ivh jdk-8u6 ...

[转载] Linux内存管理之mmap详解

转载自http://blog.chinaunix.net/uid-26669729-id-3077015.html 一. mmap系统调用 1. mmap系统调用 mmap将一个文件或者其它对象映射进 ...

Map代码案例

/* * Map集合的遍历. * Map -- 夫妻对 * 思路: * A:把所有的丈夫给集中起来. * B:遍历丈夫的集合,获取得到每一个丈夫. * ...

java.lang.NoClassDefFoundError: org/apache/jsp/licence_jsp (wrong name: org/apache/jsp/Licence_jsp)

MyEclipse中出现如下错误: java.lang.NoClassDefFoundError: org/apache/jsp/licence_jsp (wrong name: org/apache ...

手机移动端web前端常见问题整理

移动端常见问题及解决方案一.meta基础知识 H5页面窗口自动调整到设备宽度,并禁止用户缩放页面 <meta name="viewport" content="w ...

linux系统启动的简单流程

1. 通电自检首先通电,然后cpu会自动加载主板上ROM芯片cmos中的代码BIOS,cpu为什么会这么做呢?因为cpu就是这么设计的.BIOS会完成周边硬件检测,并按次序查找各引导设备,第一个有引 ...

LeetCode – Refresh – Convert Sorted List to Binary Search Tree

Similar to the sorted array. But we have to remember, the position of node not depends on the index. ...

POJ1523 SPF【割点】【Tarjan】

题目链接: http://poj.org/problem?id=1523 题目大意: 有一个网络,在这个网络里,电脑之间的通信只能是两台电脑间(点对点)双向通信.如下面左图所示:如果3号电脑出故障了 ...

CSS伪类选择器和伪元素选择器

CSS的伪类选择器常用的是link/visited/hover/active,分别对应未访问.已访问过.鼠标悬停.鼠标按下时的样式,常用于链接,使用时要按此顺序依次写CSS,不能乱 1 a:link{ ...

SDWebImage的总结

SDWebImage 1> 图片文件缓存的时间有多长:1周 _maxCacheAge ＝ kDefaultCacheMaxCacheAge 2> SDWebImage 的内存缓存是用什么实 ...

从每日工作清单开始对工作进行目标管理

今天分享的内容是如何最大化利用工作8小时,让你的工作目标化.数字化.简单化. 目标管理是工作中非常重要的管理技能,我把目标管理拆分为3块,第一每日工作日清表,第二分解目标,第三聚焦目标. 1.每日工作 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.