多重比较谬误(Multiple Comparisons Fallacy)

多重比较谬误(Multiple Comparisons Fallacy),是一种机率谬误,系指广泛比较二个不同群体的所有差异,从中找出具有差异的特征,然后宣称它就是造成二个群体不同的原因。
1992年瑞典有个研究试图找出电源线对健康的影响,他们收集了高压电源线300米范围内所有住户的样本长达25年,对超过800种疾病一一检查发生率的统计差异。他们发现幼年白血病的发病率是一般人的4倍,还推动政府为此采取行动。然而,当我们比对超过800种疾病时,有一种以上的疾病因为随机效应而呈现发病率增加是非常可能的。果不其然,后续的研究再也没有发现电源线和幼年白血病的相关及因果关系。

联系是普遍存在的,其中有些是巧合。调查样本足够多,就会出现。
P.S.这类结果经不起验证~不能重现的~

descriptive statistics是用来总结大型数据集的重要特征。如均值、中位数、众数等。
inferential statistics是根据一个小型数据集的主要特征,来对一个大型数据集进行预测,估计或者推断。

时间: 2024-07-30 03:11:27

多重比较谬误(Multiple Comparisons Fallacy)的相关文章

多重比较的问题

在统计学中,当同时考虑一系列的统计推断或者基于观察值选择的参数的子集时会发生多重比较的问题(Multiple comparisons problem). 原因:当一个人把子集作为整体的估计时,错误的推断很可能发生,包括置信区间没有包含相应的总体参数或者是假设检验错误地拒绝了零假设.对此,我举出两个例子作为说明. ①假设我们想要去判断一个写作教学的新方法与传统方法的好坏.那么我们把学生分为两组,一组使用新方法(治疗组),一组使用传统方法(对照组).我们可以根据学生们的语法.拼写.内容等来评估这两组

R语言︱机器学习模型评估方案(以随机森林算法为例)

R语言︱机器学习模型评估方案(以随机森林算法为例) 笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评价模型的方式. 常见的应用在监督学习算法中的是计算平均绝对误差(MAE).平均平方差(MSE).标准平均方差(NMSE)和均值等,这些指标计算简单.容易理解:而稍微复杂的情况下,更多地考虑的是一些高大上的指标,信息熵.复杂度和基尼值等等. 本篇可以用于情感挖

机器学习那些事 (转)

原文为发表于Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”,虽然发表于2012年,但是作者提出的观点对于今天仍有很多借鉴意义. 作者:佩德罗·多明戈斯(Pedro Domingos) 译者:刘知远 机器学习系统自动地从数据中学习程序.与手工编程相比,这非常吸引人.在过去的 20 年中,机器学习已经迅速地在计算机科学等领域普及.机器学习被用于网络搜索.垃圾邮件过滤.推荐

转载-机器学习那些事

[原题]A Few Useful Things to Know About Machine Learning [译题]机器学习的那些事 [作者]Pedro Domingos [译者]刘知远 [说明]译文载于<中国计算机学会通讯> 第 8 卷 第 11 期 2012 年 11 月 ,本文译自Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”一文. 机器学习系统自动地从数据

The top 100 papers Nature explores the most-cited research of all time.

The top 100 papers Nature explores the most-cited research of all time. The discovery of high-temperature superconductors, the determination of DNA’s double-helix structure, the first observations that the expansion of the Universe is accelerating —

多重检验_LSD方法不准确性

医药统计项目联系:QQ231469242 #mental group1=[2,2,3,4,4,5,3,4,4,4]#physicalgroup2=[4,4,3,5,4,1,1,2,3,3]#medicalgroup3=[1,2,2,2,3,2,3,1,3,1] 多重检验结果和贾俊平的LSD结果不一样,经过T配对试验,多重检验和T配对试验一致,LSD对小样本可能不准确 # -*- coding: utf-8 -*- # Import standard packages import numpy a

数据分析常见的错误思维

0. 不知道的请绕开,前方高能 1. 一定要用图形来显示数据——So Bigger 大多数的时候,我们需要开发各种各样的图表来满足感官上的成就——然而大多数的图表是没什么卵用的,例如Pie Chart在90%的情境下都是没什么卵用的,所存在的意义仅仅是为了撑版面而已,通常情况下的饼图我是从来不看的. 好忧桑的饼…… 2. 多重比较谬论——概率性事件影响决策 此处请观赏有名的吃糖豆~长青春痘漫画: P < 0.05 的问题我不敢装逼,请看知乎回答(附连接) 作者:stevenliuyi链接:htt

fMRI数据分析处理原理及方法

来源: 整理文件的时候翻到的,来源已经找不到了囧感觉写得还是不错,贴在这里保存. 近年来,血氧水平依赖性磁共振脑功能成像(Blood oxygenation level-dependent functional magnetic resonance imaging, BOLD-fMRI)技术得到极快的发展,除了与扫描硬件.扫描技术的进步有关外,更得力于以图形图像等计算机科学为核心的相关学科的支持:图像数据的后处理技术成为fMRI中的关键环节 一.功能图像数据的性质 功能磁共振数据包括解剖(结构)

fMRI数据分析处理原理及方法————转自网络

fMRI数据分析处理原理及方法 来源: 整理文件的时候翻到的,来源已经找不到了囧感觉写得还是不错,贴在这里保存. 近年来,血氧水平依赖性磁共振脑功能成像(Blood oxygenation level-dependent functional magnetic resonance imaging, BOLD-fMRI)技术得到极快的发展,除了与扫描硬件.扫描技术的进步有关外,更得力于以图形图像等计算机科学为核心的相关学科的支持:图像数据的后处理技术成为fMRI中的关键环节 一.功能图像数据的性质