处于大数据时代,应该具备哪些思维?

  处于大数据时代,应该具备哪些思维?

  对于身处大数据时代的我们来说,统计学越来走近我们,当我们在思考一个问题时,要尽量避免因为自己的无知,提出一些低级的问题来。譬如一些极其低级的,不符合统计学常识的错误。具体有哪些错误,后面我会提到。如果提问者懂一些统计学的常识,很多问题根本就不应该被提出来。要避免犯蠢,提出合理的科学的问题,就应该懂一些基本的统计常识。以下内容,学过数学/统计学/计量经济学的同学,应该知道我在说什么。如果你不知道,那请你回去面壁思过一下。

  样本偏差

  人们习惯通过很少的观察值,就得出结论。这样的结论,往往就存在样本不足导致的偏差。

  比如,你说吸烟有害健康,劝身边人戒烟。烟民们常用的借口是这样的:

  你看隔壁王大爷,都九十岁了,抽烟抽了一辈子,照样健健康康的。张二蛋,烟酒不沾,三十岁就归了西。所以呀,抽烟有害健康,都是扯淡骗人的!

  比如,有人跟踪过每年的高考状元后来的职业发展路径,最终发现这些状元,绝大多数并没有成为人中龙凤,国之栋梁,于是他们得出结论:

  高考状元最终将走向平庸,高考对筛选人才并没什么卵用!

  再比如,几个清北毕业的人,上知乎回答了个问题,说自己清北毕业,也买不起学区房,甚至也在北京留不下来,于是就有人得出结论:

  清北的学历不如学区房值钱!

  以上的例子,统统犯了小样本偏差的统计错误。换句话说,考察的样本太少,根本不可能得出可靠的结论。

  看吸烟是否有害健康,应该看的是整个烟民群体和非烟民群体的比较,光一个王大爷和张二蛋怎么能得出结论。

  高考状元的容量加起来不过几百人,但非状元人数上千万,几千万人当中出现马云马化腾,当然更正常。

  说清北毕业买不起房的,也只是发声的少数人,而那些闷声发大财的清北人,看到这样的结论,恐怕只会默默地骂一句SB。

  说到样本偏差,就必须提到有名的「红球实验」。

  假设有两个盒子:A和B.

  A盒:2/3的红球,1/3的蓝球。

  B盒:2/3的蓝球,1/3的红球。

  现在我们把两个盒子遮起来,从中随机抽取小球出来。换句话说,这个时候,你不知道哪个是A哪个是B,只知道盒子1和盒子2。

  我们从盒子1当中抽取了4个红球和1个蓝球,一共5个。从盒子2当中,抽取了20个红球,10个蓝球,一共30个。也即是:

  盒子1:4个红球,1个蓝球,共5个。

  盒子2:20个红球,10个蓝球,共30个。

  现在问,哪个盒子更有可能是A盒,是1还是2?

  多数人的答案是1。因为1当中红球的概率是80%,而2当中只有67%。A盒当中的红球概率更高,所以1是A盒。

  学过概率论的同学应该马上反应出来,这是一个典型的条件概率问题,用贝叶斯公式可以很容易计算:

  P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.

  P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.

  看不懂公式的同学可以略过,你需要记住一点即可:

  统计推断,样本量越大,越可靠。基于小样本的结论,往往都存在问题。

  以后不要再很蠢地说,你看,名校毕业的

  但答案恰恰相反,盒子2才更有可能是A盒。因为在更多的样本量下,它保证了红球的概率远高于蓝球。

  也在北京买不起房,所以学历没什么卵用。

  相关性

  混淆相关和因果,不能建立多元相关思维模型,简直是人们犯蠢的重灾区!

  因果的意思是,A的发生必然会导致B,B的发生必然以A的发生为前提。相关则不一定,仅仅可能是A,B同时发生了。

  比如暴饮暴食导致胃痛,就是一种因果关系。吃太多胃承受不了,必然会痛。胃之所以会痛,就是因为你吃了太多东西进去(控制其他变量的前提下)。

  但名校毕业和赚很多钱,这就不是因果关系。这只是一种相关关系,而且是一种多元的相关关系。

  换句话说,赚钱这个事实,不仅和学校学历相关,还和很多其他因素相关,比如长相、行业、冒险精神等等。

  现在明白我为什么说上面那些问题很蠢了吧。谁告诉你清北毕业就一定可以去投行?同理,谁告诉你,哈佛的学生就一定比咪蒙赚钱赚得多?

  清北毕业和去投行,只是相关性,且只是相关因子当中的一个,同理,哈佛毕业和赚钱多,也是这个道理。

  如果把一个结果称为Y,诸多和它相关的因素称为X,那么Y和X的关系应该是:Y=AX.

  其中A=[a0,a1,a2…an], X=[x0,x1,x2…xn]’

  以上是一个最基本的多元相关模型。比如,赚钱是Y,那它对应的X,包括了学历、起始资本(家庭背景)、努力程度、长相,等等。

  如果以多元相关模型来思考问题,根本就不可能提出为什么一个哈佛的还不如咪蒙赚得多这种愚蠢的问题。

  明白了这一点,你也不会再提凭什么奶茶长得好看就可以搞定东哥,为什么美联储加息了股票反而上涨,名校毕业的不如技校毕业的赚得多,这一类愚蠢的问题了。

  简单来说,记住一点:事情的发生,往往都是一个复杂系统里,多因素共同作用的结果。

  凡事都尽量避免用单因素模型去解释。这是避免你变得很蠢的重要思维法宝。

  控制变量

  控制变量的意思是,控制了这个因素,来看其他因素对事物发生的影响。最直观的表达就是 “假设其他条件不变的情况下”,这种假设,就是很典型的一种控制变量的假设。

  回到我们之前讨论的名校毕业挣钱不多的问题,名校毕业照样买不起学区房,很多人据此得出结论:

  名校也没什么卵用,甚至上大学也没什么卵用,照样买不起房,还不如王小二开个煎饼摊子挣得多。

  这个推理最大的问题就是控制变量的不可比。

  你在对比名校毕业生和开早餐铺子的王小二时,隐含了一个极为重要的有关控制变量的假设:

  除去学历这个因素,其他条件都是一样,且不变的。

  但很显然,一个清北毕业生和没上过大学的王小二,除去学历的不同,在其他方面,也就是控制变量方面,也存在巨大的差异!

  换个思路,不用横向对比,纵向来看,假设其他条件不变的情况下,一个清北毕业生,没有清北的学历,他会过得更好还是更惨?

  这样的比较才是有意义的。

  同理,也只有比较具有类似家庭背景,长相水平,努力程度的清北毕业生和一般学校甚至没上过大学的人,他们谁挣钱多,这样的比较才是有意义的。

  英文当中有个很好的表达叫 Apple to Apple,就是比较对象要要一致。可惜我们大部分人做的都是Pear to Apple这样的比较,毫无意义。

  再说一遍,我们考察单一变量对结果的影响时,一定要保持控制变量的不变且可比。不然这样比较得出的结论,毫无意义。

  你不能因为天天撩妹的王思聪,比天天工作十六小时的投行民工,钱更多,就据此否认努力工作没有用。你也不能因为同学有个好爸爸,就否认平民家庭出身的人奋斗没有意义。

  在考察努力这一变量对成功的影响上,你和王思聪的“控制变量相同”的假设并不成立。

  反过来,就你自己而言,控制其他变量不变,你不努力和努力的结果差异,一下子就会清晰起来。这才是思考问题的正确方式。

  不少反鸡汤人士认为,努力没什么用,家庭出身决定一切,先天条件决定一切,时代大势决定一切,这些论点,统统都是愚蠢的,也是错误的,因为他们忽略了控制变量的因素。

  系统思维

  统计常识除了以上三点,还有很多。比如假设检验,样本和母体的关系,统计一类和二类错误,置信水平等等,文章里没办法一一讲述。

  但我认为,弄清本文的三个基本常识,已经可以帮你避免很多愚蠢的错误。这些常识不是相互孤立的,在考察问题的过程当中,常常会同时运用到它们。

  比如还是说名校毕业生买房的问题。

  首先要问,是不是真的清北毕业生就买不起学区房,这个样本到底有多大?是不是小样本偏差,或者幸存者偏差得出的这个结论?

  其次我们要想,清北毕业生买不起学区房,是一件多么令人惊讶的事情吗?当然不是,因为挣钱这个事情,本身并不只和学历相关,它还和很多其他因素相关。

  也因此,名校毕业的同学,也不要总觉得自己有什么了不起,你得清晰地意识到,收入水平和你的教育程度,并非因果关系。意识到这一点,能让你认清真相,接受现实,并更好得在其他方面去努力。

  最后,因为其他方面的因素,比如家庭出身,比如行业影响,即使名校毕业真的也买不起房,你就要因此感到沮丧和否定名校教育带给你的价值了吗?当然不应该!

  因为控制变量的思想告诉你,其他条件不变的情况下,你读不读名校,收入的差异还是非常显著的。

  综合以上,我们在思考问题时,当尽量避免因为自己的无知,提出一些低级的问题来。

  今天小编想和你聊聊的,是学好统计的现实好处。

  第一,学会看问题,懂得数字的意义。

  例如,新闻报道中经常说某市人均收入为1万元。每每出现这样的报道,就有很多网友惊呼自己被平均了。为什么会造成这样的认知错觉呢?这是因为新闻报道并没有告诉我们数据的分布是什么样的。比方说,可能有20%的人掌握了80%的收入,余下80%的人掌握了总收入的20%,那这80%的人肯定觉得自己被平均了。所以,学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。

  此外,如果你学了统计学的抽样原理,或许你会进一步质疑,这个人均收入是怎么算出来的。是统计了全市所有人口的收入数据,还是只抽取了一部分人的收入数据。如果是抽取了一部分人,是按照什么原则抽取的?这些都会影响到数据的真实性与可信性。

  第二,用数据说话,让你的说服力要爆表。

  当你向领导汇报工作的时候。

  新人甲是这么汇报的:

  今年我们在华东市场一共投入了100万元推广费用。我们做了很多有影响力的活动,产生了良好的品牌效果。用户对我们的产品非常认可,在使用后很多都成为我们的忠诚的用户。我们在华东地区的市场占有率进一步提升。我希望明年能加大在这一地区的投入,以便产生更好的市场效果。

  新人乙是这么汇报的:

  今年我们在华东市场一共投入了100万元推广费用。其中,投放广告50万,落地活动宣传30万,促销样品20万。共带来3万新增用户,提升市场占有率5个百分点,预计在未来一年提升这一地区的销售额500万元。

  如果你是领导,你会喜欢哪个汇报?

  很显然,大部分人会选择后者。清晰的数据能传达清晰的信息。那些非常、很多、进一步写在公文里或许还可以,但是在市场汇报中,这种词汇简直就是一团浆糊。领导早晨在家里已经挨训了,你就不要给领导添堵啦。

  第三,体验到一种与众不同的思维方式。

  最近朋友圈流行两只大熊猫的萌对话,其中一只对另一只说,你看看我们,就知道这个世界非黑即白。另外一只大熊猫于是伸出了红色的舌头。这个笑话告诉我们,世界并非非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。庄子说,一尺之锤,日取其半,而万世不竭。这就是一种概率思维方式。所以,嗯,我喜欢宋冬野,他唱到:昨天晚上,我差一点就他妈地死了。他到底死没死啊。可能性,是最值得人玩味的。

  第四,像佛那样懂因果,知报应。

  统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高1.2万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。

原文地址:https://www.cnblogs.com/rengong/p/9532038.html

时间: 2024-10-09 01:47:58

处于大数据时代,应该具备哪些思维?的相关文章

大数据时代需要转变的思维

大数据时代要转变的思维: 要分析所有数据,而不是少量的数据样本 要追求数据的纷繁复杂,而不是精确性 要关注事物的相关关系,而不是因果关系 1. 分析所有数据,而非少量数据 至今为止,人们搜集数据的能力有限,因此采用的是"随机采样分析". 例如,要想知道中国顾客都联想笔记本的满意度,不可能对所有买了联想笔记本的人做问卷调查.通常的做法是随机找1000个人,用这1000个人的满意度来代表所有人的. 为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机. 这就是"小数

【网络大数据】大数据时代:数据融合或将发挥更大价值

大数据_大数据时代_大数据概念_网络大数据 随着大数据时代的来临,大数据也吸引了越来越多的关注.网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研究报告,免费行业报告等服务为一体,力争打造中国最大的网络大数据中心. 随着互联网技术的发展.全媒体环境的全面形成,"大数据"已成为新的时代主题词.海量级的数据催生了海量的搜集.存储.管理.

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

大数据时代新闻采编人员职业能力培训

原文  http://datameng.com/info/2014/03/big-data-xinwen-caibian/ 据统计,到2013年,全世界储存的信息如果记录在光盘上,再把这些光盘叠加起来,高度等于从地球到月球的距离.美国互联网数据中心指出,目前世界 上90%以上的数据是近几年才产生的.互联网上的数据每年将增加50%,每两年翻一番.因此有学者认为,人类进入了大数据时代.一般意义上,大数据是指无 法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知.获取.管理.处理和服务的数据集合

第29本:《大数据时代》

第29本:<大数据时代> 最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处 理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义.从SUN那里借来 <大数据时代>读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨. <大数据时代>这本书的章节划分非常清晰,主要讲了思维.商业和管理方面的变革,每一章有一

大数据时代,数据=财富!

什么是大数据呢? 故名思意大数据便是数量巨大,类型众多,结构复杂的数据集合.数据具有较小的价值,而数据的集合因为数量的众多量变引起的质变所以其价值无可估量. 数据出现的最早的时间可以追溯到18000年前,原始人类.开始用数据简单计算一些食物的储存期,还有动物的迁徙. 而中国自古以来便是数据大国,比如臣子和皇上“刚”起来后一般会骂,“谓之殷商”意思是你TM和昏君商纣王有什么区别.如果换成数据就会是,根据历史数据表明你和商纣王的昏庸度相似百分之百! 来人!拉出去砍了! 恩恩,这就是中国数据的具体应用

《大数据时代的历史机遇-产业变革与数据科学》读后感

这本书,帮助我初步完成了大数据探索之旅.大数据,并不是那么简单,她是一种思维方式,更是一种新的商业模式,是需要社会各界关注的大事件. 新的时代,是信息通信高度发达的时代,是信息无孔不入的时代.在具备自身核心竞争力的同时,对外分享.合作是企业生存和发展的唯一途径.经过多年互联网战国时代的厮杀,市场中逐步确立了"终端+平台+应用"的商业模式,谁能够控制终端,谁就掌握的用户入口,谁就抢得了先机.谁能够为用户提供个性化服务,谁就能够拥有客户,在长尾中赚足利润.而平台作为终端和应用的中枢,可以整

大数据时代,我诚惶诚恐的拥抱

这是最好的时代,也是最坏的时代,让我们拥抱大数据时代.----题记 这几天拜读了维克托·迈尔的<大数据时代>,感慨颇多,技术引领我们进入数据时代.数据存储.分析能力的提高大大改变,基于大数据的分析结果已经完完全全改变了我们的生活,如便捷的翻译.便捷的输入.新产品的推荐等.大数据已经成为学术界.业界关心的热切关心的问题,大数据时代的技术模式.管理模式都尚且未知.本文在梳理大数据的学术研究脉络的基础上,分析大数据和云计算的关系,大数据内涵及与信息技术发展的关系,并尝试对大数据在学术界和业界的发展进

大数据时代银行业应对策略

文|张建国(中国建设银行行长) 近十年来,中国银行业的改革发展取得了令世界瞩目的成就.在今年<银行家><福布斯>发布的大企业排行榜和市值排名上,五家大型商业银行均已跻身世界前列.随着以移动互联网.云计算.“大数据”和物联网为代表的信息革命的兴起,银行业又一次面临新的机遇和挑战.中国银行业能否用好大数据,实现经营.管理和服务创新,决定了其未来的可持续发展能力. 银行业已初步具备运用大数据的基础 大数据是信息技术与互联网产业发展到特定阶段的产物,从互联网到物联网,从云计算到大数据,信息