相关性 ≠ 因果性(转)

专家说,常食海参使人变得更聪明!

科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低!

你深信以上这种说法吗?是不是为了变聪明我们就要天天吃海参?是不是为了降低患前列腺癌的风险我们就要天天打飞机?

相信死理性派的读者,不会轻易就得出结论。但轻易下结论是很多人经常犯的毛病,为了分析类似这种结论的可信程度,我们先来看看这种结论都是如何得出的。

为了研究海参和聪明之间的关系,研究人员通常是这样做的:

首先在一定的人群中统计一下他们是否平时常吃海参,挑选出常吃海参的一组和不常吃海参的一组。然后进行智商测试,对总体结果进行统计,看看哪一组智商平均值更高,或者直接统计吃海参频率和智商之间的相关系数。如果常吃海参的一组平均智商得分更高,那么研究人员就会得出结论:常吃海参和智商高之间是呈正相关的关系的。

但根据这个研究,有的所谓“专家”则声称:海参吃得越多智商就越高哦!为了提高智商赶紧吃海参吧!

相关性 ≠ 因果性

即便是假设常吃海参的组平均智商真的更高,并且调查对象人数真的多到了具有统计意义,“专家”的声明仍然有一个致命的逻辑缺陷:相关性并不代表因果性!这是一个经常被人混淆,也经常被一些团体故意混淆已达到他们自己的目的。两个变量A和B具有相关性,其原因是有很多种的,并非只有A→B或者B→A这样的因果关系。一个很常见的导致相关性的可能性是A和B都是同样的原因造成的:C→A并且C→B,那么A和B也会表现出明显的相关性,但并不能说A→B或者B→A。

比如有统计表明,游泳死亡人数越高,冰糕卖得越多,也就是游泳死亡人数和冰糕售出量之间呈正相关性,我们可以由此得出结论说吃冰糕就会增加游泳死亡风险吗?显然不可以!这两个事件显然都仅仅是夏天到了气温升高了所导致的,吃不吃冰糕跟游泳死亡风险根本没有任何因果关系。

从这个例子可以明显看出,只依据统计数据是不足以得出因果性的,想要得出因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除掉第三个隐含变量同时导致这两个变量的可能性。

回到海参的例子上来。海参和聪明之间的正相关性,有可能是因为经常吃到海参的家庭一般比较富裕,而富裕的家庭通常可以给孩子提供更好的教育资源,以使得孩子更聪明;也可能是有一个或者多个基因,同时起到了使人喜欢吃海参和提升智商两种作用。如果不排除这些其他可能性,说吃海参可以导致更聪明的说法就是不可信的,我就绝不会为了提升智商去吃海参。

射精越频繁,前列腺癌风险越低?

对于什么是可靠的理论分析,我个人一直持有“无引用不相信”的原则,我们读到的科普文或者科技新闻,总是经过一次或者几次转述,很可能因为需要把某些说法夸张了。所以为了辨别这些说法的真伪,一定要根据文章的引用找到发表在学术期刊上的原文去读,看看原文的结论是什么,得出这个结论是用到了什么方法。而如果没有引用的话,就应该保留态度,此处存疑,不可尽信。

最后再来说说关于射精频率和前列腺癌患病率的负相关关系。“20~50岁男人射精越频繁,以后患前列腺癌风险就越低”,这个问题最近引起了不小的争论。依旧用“无引用不相信”的原则,我们搜索到一篇 文献 ,这篇论文依据的正是统计调查,因此其研究结果只得出了相关性的结论,并没有给出因果关系。原文的最后结论说的很明确也很谨慎:“Our results suggest that ejaculation frequency is not related to increased risk of prostate cancer.”翻译过来是:“我们的结果表明,射精频率与前列腺癌发病率的升高并没有相关关系。”所以不能因此就下这样的结论:射精越频繁导致前列腺癌风险越低。至于为了降低患前列腺癌的风险天天打飞机,更不可取。最后还有一点需要说明,相关不等于因果,不代表相关就不可能是因果关系,只不过为了论证因果关系,需要更加严密的实证来说明。

转自:http://www.guokr.com/article/38942/

时间: 2024-10-09 10:31:55

相关性 ≠ 因果性(转)的相关文章

再聪明,你也会常犯的数据分析错误  

如果你不了解大数据,你就不会明白大数据的核心价值有多大.当然你不光要了解大数据,还要学会科学的数据分析方法,才能让大数据产生价值.而在数据分析过程中,聪明的数据分析师也会常犯些错误,纽带线CRM小编跟大家分享这些常犯的错误,在以后应用过程中尽量避免. 错把相关性当成因果性  correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了.这个例子比较明显,说起来可

百度更加注重内容的相关性

 百度引擎排名优化之百度算法更新之后的五年夜特点:比来一段时刻百度调整力度斗劲大,从第一次的冲击低质内容,到第二次的抨击**链接作弊.百度调整往后呈现了一些新特点,这些新特点对上网站优化起到必然的指导浸染,沿着百度的调整标的目的走,这样才能有一个好的排名,今天笔者就总结一些百度大调整以后的新特点. 1.对处事器不变性的要求越来越高 按照笔者最近的尝试,若是一个网站打不开的时间跨越3天就可能被百度删除首页,网站可以打开以后,根基一周摆布网站从头被百度收录.从这个特点,我们可以发现百度对服务器的要求

全文搜索怎么给查询语句与文档相关性打分

朴素想法 用户输入一个查询query,query由若干词(term)组成,文档也由若干词(term)组成.那么怎么评判查询和文档的相关性的高低. 很朴素简单的想法就是文档中包含的term与查询query中包含的term,两者越多相同的则说明越相关.比如query为"animal cat",文档一内容为"cat dog bird animal",文档二内容为"cat dog bird tiger",则认为query与文档二的相关性比文档一的高. 词

显数据相关性与隐数据相关性

对于同一结构的同一出现,数据之间经过语言的抽象而具有"逻辑关系",比如同一队元素的先后,同一集合里元素的同类等:数据之间经过汇编活编译的机器实现而具有的存储关系,比如同一数组里元素的偏移,同一堆栈里元素的垒高等.于是,与数据结构相区别,"操作关系"成为数据相关性研究的重点.不同结构或不同出现的数据可能由于加减乘除等明显的操作,也可能因为快分布.公用区等隐蔽的操作而发生关联.前者是显数据相关性,他是在某种封闭(小的诸如结构化的顺序型选择型和重复型三类构建之一,或者时序

剖析Elasticsearch集群系列之三:近实时搜索、深层分页问题和搜索相关性权衡之道

转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03 近实时搜索 虽然Elasticsearch中的变更不能立即可见,它还是提供了一个近实时的搜索引擎.如前一篇中所述,提交Lucene的变更到磁盘是一个代价昂贵的操作.为了避免在文档对查询依然有效的时候,提交变更到磁盘,Elasticsearch在内存缓冲和磁盘之间提供了一个文件系统缓存.内存缓存(默认情况下)每1秒刷新一次,在文件系统缓存中使

Kendall’s tau-b,pearson、spearman三种相关性的区别(有空整理信息检索评价指标)

同样可参考: http://blog.csdn.net/wsywl/article/details/5889419 转自:https://www.douban.com/note/267043565/ 测量相关程度的相关系数很多,各种参数的计算方法及特点各异. 连续变量的相关指标: 此时一般用积差相关系数,又称pearson相关系数来表示其相关性的大小,积差相关系数只适用于两变量呈线性相关时.其数值介于-1~1之间,当两变量相关性达到最大,散点呈一条直线时取值为-1或1,正负号表明了相关的方向,如

不同尺度下耕地土壤Cr含量的空间自相关性分析

(一)空间自相关统计量 空间分析法是准确认识.评价和综合理解空间位置和空间相互作用重要性的方法,其中空间自相关是测试空间某点的观测值是否与其相邻点的值存在相关性的一种分析方法.空间自 相关最常用的统计量是莫兰指数(Moran’sI),莫兰指数的值域为[-1,1],取值为-1表示完全负相关,取值为1表明完全正相关,而取值为0表示不相关.全局莫兰指数公式如下:

如何使用机器学习解决实际问题-以关键词相关性模型为例

本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现.包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化.该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现.该模型的设计调研实现,也可以很容易移植解决其他包括语义相关性的问题 目标设定:提升关键词搜索相关性 作为一个搜索+推荐产品,百度关键词搜索推荐系统的产品形态是向凤巢用户推荐适合他业务的关键词.例如一个卖鲜花的广告主,他想在百度上做关键词搜索推广时,需要提交和他业务相关的关

从网页相关性TF-IDF到余弦定理的新闻分类的程序实现

前提:TF-IDF 模型是搜索引擎等实际应用中被广泛使用的信息检索模型,但对于 TF-IDF 模型一直存在各种疑问.本文为信息检索问题一种基于条件概率的盒子小球模型,其核心思想是把"查询串q和文档d的匹配度问题"转化为"查询串q来自于文档d的条件概率问题".它从概率的视角为信息检索问题定义了比 TF-IDF 模型所表达的匹配度更为清晰的目标.此模型可将 TF-IDF 模型纳入其中,一方面解释其合理性,另一方面也发现了其不完善之处.另外,此模型还可以解释 PageRa