辛普森悖论

辛普森悖论

今天刚开始看<商务与经济统计>,看到辛普森悖论,顿时蛮有趣的,所以打算记录下这个。

书中是给出了这么个例子:

有两个法官勒斯特和肯德尔,他们分别在民事和市政主持审理案件,他们的部分案件被提出上诉。我们通过上诉法庭维持原判的比例高低来区分哪个法官更出色。

首先给出了勒斯特和肯德尔的一组数据:

表格1

  勒斯特 肯德尔 总计
维持 129(86%) 110(88%) 239
推翻 21(14%) 15(12%) 362
总计(%) 150(100%) 125(100%) 275

从上面的表格不难看出肯德尔比勒斯特更优秀,但是事实真是这样吗,我们再来看下另一张表格:

表格2

  勒斯特 勒斯特  
 判决 民事庭 市政庭 总计
维持 29(91%) 100(85%) 129
推翻 3(9%) 18(15%) 21
总计 32(100%) 118(100%) 150

表格3

   肯德尔 肯德尔   
判决   民事庭 市政庭  总计 
维持  90(90%)  20(80%) 110 
推翻  10(10%)  5(20%)  15 
总计  100(100%)  25(100%)  125 

从表2和表3可以看出无论是民事还是市政,勒斯特都大于肯德尔,这与表1的结果完全相悖,这就是"辛普森悖论"。

所谓"辛普森悖论"就是在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

那么上述两个结果哪个对呢?当然是第二个,因为民事和市政的权重是不一样的,不能简单的通过相加来求解。

用代数来表示就是a/b+c/d != (a+c)/(b+d).

所以在进行多组的统计时候,要充分考虑多组的权重这个隐含的因素,不能直接相加进行综合。进行统计分析时候,要划分好颗粒度。

下面引用一篇博文来更深入的理解辛普森悖论 《辛普森悖论:诡异的男女比例》

大学的男女比例问题一直是广大宅男同胞所关心的重大问题,也是高中同学聚会时必然谈起的话题,对于选择大学来说,这也是一项重要指标。

一天,我拿出两个大学(P 大和 T 大)的统计数据开始研究。“物理学院,P 大男女比例大于 T 大;数学科学学院,P 大男女比例又是大于 T 大??哇,怎么所有专业 P 大的男女比例都高于 T 大啊??那还犹豫什么呢,我肯定报 T 大了!”正当我刚刚心意已定的时候,突然看到了统计数据的最后一行:P 大的总体男女比例低于 T 大!“什么?!有没有搞错?怎么可能 P 大的所有专业男女比例都高于 T 大,但是整体男女比例却低于 T 大了呢?!肯定是哪里算错了吧??”于是我拿出计算器狂敲,却发现没有任何一个计算错了的数据。这种情况真的可能发生吗?

统计数据不说谎

多说无益,请看下面编造出来的一份男女比例数据(其中假设两所大学都只有物院和外院两个专业):

物院的数据:

  男生人数 女生人数 男:女
P大 45 8 5.6:1(大)
T大 101 51 2.0:1

外院的数据:

  男生人数 女生人数 男:女
P大 50 201 0.25:1(大)
T大 9 92 0.10:1

学校整体数据(即上述两个专业人数之和):

  男生人数 女生人数 男:女
P大 95 209 0.45:1
T大 110 143 0.77:1(大!)

数据可不会是骗人的,不信可以自己动手验算一下,真的出现了这种违背常理的情况!这种现象被称为“辛普森悖论”。虽然这么叫,但其实这不是个真正的悖论,它内部没有包含逻辑上的矛盾,只是有些违背人们的常理罢了。

辛普森悖论的直观认识

可能有些人还是一头雾水,虽然数据是如此没错,可还是不能理解到底发生了什么使得结论如此古怪。让你构造一个类似的数据,恐怕你也很难直接想得出来吧!人们对几何图形的想象能力总是高于对数字和字母的想象,因此为了更直观地表现出辛普森悖论,我们看下面一幅向量图:

图中,黑色的线代表 P 大数据,红色的线代表 T 大的数据。A p 点的横坐标为 P 大外院女生人数,纵坐标为 P 大外院男生人数;B p 点的横纵坐标则分别为 P 大总女生人数和总男生人数。A t 和 B t 点的意义与之相对应。

设坐标原点为 O,则 OA p 的斜率表示的就是 P 大外院的男女比例,A p B p 表示的是 P 大物院的男女比例,OB p 表示的则是 P 大总男女比例;T 大的各线段斜率意义与之对应。

如此一来,一切都变得清晰起来了。辛普森悖论反映在这张图上,就成了一个显然的事实:在 P 大的外院、物院两个向量的斜率分别大于 T 大的两个向量的斜率的条件下,总人数向量的斜率当然不一定哪个大呀!根据这个直观的理解,你也可以随意编造能产生辛普森悖论的数据了吧!

知道了辛普森悖论这一事实之后,我们以后对待统计数据就要更加小心了。在数学中,经常会出现这种出乎人们意料的惊人事实,所以还是一定要学好数学啊!

时间: 2025-01-17 19:09:34

辛普森悖论的相关文章

浅谈A/B测试里常见的辛普森悖论,企业决策者必看

A/B测试背后有着高深的统计学知识,今天我们就来讲讲常见的辛普森悖论. 辛普森悖论 (Simpson's Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论. 举一个辛普森悖论的简单小例子:一个大学里有商学院和法学院两个学院.这两个学院的女生都抱怨"男生录取率比女生录取率高",有性别歧视.但是学校做总录取率统计,却发现总体来说女生录取

数据科学入门

目录 前言 第1章导论1 1.1数据的威力1 1.2什么是数据科学1 1.3激励假设:DataSciencester2 1.3.1寻找关键联系人3 1.3.2你可能知道的数据科学家5 1.3.3工资与工作年限8 1.3.4付费账户10 1.3.5兴趣主题11 1.4展望12 第2章Python速成13 2.1基础内容13 2.1.1Python获取13 2.1.2Python之禅14 2.1.3空白形式14 2.1.4模块15 2.1.5算法16 2.1.6函数16 2.1.7字符串17 2.1

为Google每年带来100亿美元增长的A/B测试是什么?

最近,前Facebook工程师覃超一篇关于2010年到2015年Facebook改版网站首页历程的文章受到极大关注.按照他的记录,2012年,当时的Facebook产品副总裁带领一支公司内部顶尖高手组成的团队,历时大半年开发了新的网站首页,进行了重大的改版与更新.随后,Facebook对该首页进行了A/B测试:当测试到5%用户群的时候,各项数据指标都在下滑:当测试到12%用户群的时候,下滑趋势依旧明显.于是,Facebook不得不放弃了这支30余人团队近一年努力的结果. A/B测试是个什么鬼?

推荐随笔

白天看了一份PPT,把里面有用的东西截下来,哪天把L2R理好了,整理下~ locality-Sensitive Hashing(MinHash/SimHash) 关联规则:辛普森悖论

常用思维模式大全(上)

就像芒格说的那样:"80到90个模式在让你成为精于世故的人的因素当中所占分量达到了90%." 编者按:思维模式是人们观察.分析.解决问题的模式化.程式化的"心理结构",对个人乃至于组织的行为起着至关重要的作用.为了一劳永逸地解答员工平时不断问到的问题,也出于对自己思考方式的总结,DuckDuckGo创始人兼CEO.<Traction>一书的联合作者Gabriel Weinberg总结了他平时反复使用到的思维模式,按照解释(Explaining).建模.头

《数据科学入门》pdf格式下载免费电子书下载

<数据科学入门>pdf格式下载免费电子书下载 https://u253469.ctfile.com/fs/253469-300325729更多电子书下载: http://hadoopall.com/book 内容简介 数据科学是一个蓬勃发展.前途无限的行业,有人将数据科学家称为"21世纪头号性感职业".本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识--数学和统计学. 作者选择了功能强大.简单易学的Python语言环境,亲手搭

七周成为数据分析师01_数据分析思维

在学习数据分析知识的过程中发现了一个七周成为数据分析师课程班,讲解的比较基础和全面,相对于常见的一些数据分析课程,突出的优点在于它把重心放在了数据分析的思维和业务能力,更加符合实际需求.毕竟对于数据分析师来说,最难的地方在于思维业务能力,否则只会使用各种各样炫酷的软件代码而不知所措. 这里记录一下七周成为数据分析师课程的学习笔记,教学视频是在万能的b站上发现的.可能涉及到版权原因这里就不贴上链接. 对应的文字教学资料可以查看:互联网数据分析能力的养成,需一份七周的提纲--秦路 接下来是第一周的课

数据分析思维

数据分析思维 三种核心思维 结构化(树状) 1)概述 结构化是将‘思维如同乱麻’转换为 ‘清晰的思维图’. 摒弃‘想一点是一点’,减少时间浪费 结构化思想来自麦肯锡金字塔 2)如何将分析思维结构化 ①将论点归纳和整理 ②将论点递进和拆解 ③将论点完善和补充 3)金字塔的思考方式 ①核心论点 寻找金字塔的塔顶,它可以是假设,问题,预测,原因 也就是整个问题的核心 ②结构化拆解 自上而下,将核心论点层层拆解成分论点,上下之间成因果关系或依赖关系 ③MECE 相互独立,完全穷尽 论点之间无交集,所有论

数据分析-统计知识(一)

1.辛普森悖论 2.四分位数 四分位数间距 IQR = Q3 - Q1 3.总体方差.样本方差  关于样本方差分母 n - 1 的证明 1.总体 已知总体方差,μ 为总体平均值 2.样本 有偏估计: 已知如下: 对有偏估计求期望: 原文地址:https://www.cnblogs.com/Jacon-hunt/p/11330563.html