数据的局限:大数据分析不能告诉你什么

  咨询师Barry Devlin介绍了一些人们因为统计数据分析不当而误解风险的案例,同时阐述了为什么业务决策不能完全由数据驱动。他提醒企业要清醒认识数据科学家的阴谋,同时接受普通业务人员的天真想法。

  大数据分析的拥护者竭尽全力地鼓吹“数据驱动”,明智的人应该谨慎对待,并明确两个问题。一,业务人员在制定特定决策时是否真正理解相关数据,是否曾经以实用且可行的方式向管理层展示了这些数据?二,是否所有决策都有必要在收集“所有数据”之后自动完成?

  在《认清风险:如何作出好决策》 (Risk Savvy: How to Make Good Decisions)中,德国柏林Max Planck人类发展研究所管理主管Gerd Gigerenzer阐述了公共环境中风险测量与决策过程的问题,他的观点同样适用于商业领域。

  首先,我们看看Gigerenzer举的一些例子。它们说明了大多数人所获得的统计数据只是很小一部分,而且我们很容易因为数据的不正确性或明显误用而产生错误结论。

  在911事件的一年时间里,成千上万的美国人放弃乘坐飞机,转而选择开车长途远行,因为他们害怕遇到相同的袭击。高速公路行驶距离因此增长了 5%,而道路交通意外死亡人数在一年里逐月上升,已经超过了过去五年的平均水平。此外,粗略计算有约1,600人丧身交通意外,而航空旅客及空乘人员的伤 亡人数只有256人,其中还包括911事件的伤亡数字。

  由于对当时伤亡事件产生了主观反应,美国公众完全忽视了有效的统计风险测量结果,即飞机的安全系数要远远高于汽车。

错误的风险测量方法

  1995年,英国医药安全委员会发布了一系列研究结果,服用第三代口服避孕药的人患血栓症的概率是普通人的两倍。这个研究结果很快传遍全世界。 医生与药剂师向妇女传达了由预期结论得出的警告信息:意外怀孕与妊辰激增。接下来的一年时间里,仅仅在英格兰和威尔士流产案例预计增加了13,000人 次。

  尽管这些专家都经过科学和医学培训,但是他们严重忽视或忽略一个结果:绝对风险数量增加一倍才只有7000人次,也远远不及由怀孕与流产导致的 血栓症风险。因此,相同的数据有两种描述方式:一是风险率相对增长100%,二是绝对增长数量为7,000。前者很容易占据新闻头条和引起公众跟风。而后 者则不会造成太大影响,但是可能会避免很多痛苦。

  Gigerenzer的书还有很多这样的故事,如果你有兴趣了解人们解读数字数据的方式及使用(或不使用)这些数字作为决策依据的方式,那么这 本书很值得你阅读。事实是,即使经过科学训练,只有极少数人能够正确理解这个领域。因此,我们缺少区分不同风险表达方式及不确定性的能力,也缺乏一些帮助 理解所得到结果的培训。对于世界上的一些概念,我们很容易陷入偏见或先入为主的错误理解方式。

  当我们从“少量数据”世界(掌握简单算术就足够应付)过渡到充斥大数据统计的世界时,数据误解产生的危害也出现指数增长。无论 自助服务商业智能有多厉害,它们也无法轻松扩展变成自助服务商业分析。业务用户(及许多数据科学家)都需要在理解和展示统计数据方面加强自身的能力。

最大的决策动因:潜意识行为

  除了技能问题,还有一个更根本的问题,而911事件关于航空旅行方式的态度改变就是一个最好的例子。我将这种现象称为商业不智能 (Business unIntelligence),并且在我的同名图书中提出了这个术语。按照西方商业思维方式,智慧几乎可以完全等同于合理和理智思想,特别是在决策过程 中。这忽略了大脑的现实情况及其思维过程,其中有90%的想法是无意识发生的。决策很少是由数据驱动的,特别是那些会对个人产生影响或需要快速响应的决 策。

  心理学家及诺贝尔经济学奖得主 Daniel Kahneman在他写的书《快思考与慢思考》中阐述了这个话题,但是他落入唯理性主义者的圈套,后者认为无意识思维源于有意识思维。这样就得出了一些结 论:我们很容易作出一些严重错误且非常容易受外界干扰的决策,而且总是在有意识地保护自己。或者更坏的情况是,一些专制政府可能且总是会“迫使”我们作出 一些有利于自身的决策。

  当然,自我意识也很重要。然而,如果认为我们新进化的小小前额可以或应该完全超越大多数大脑的长期进化但潜意识发生的感知,那么这是极其短视 的。这种感知对于现实世界的决策过程有很多影响——形式包括内在感受、直觉、有根据的揣测和探索,而它们会忽略得到的大部分数据。如果只关注于收集和堆砌 不断增多的数据,那么我们就有迷失的风险。

  在不确定的世界里,有一些事件是无法预测的,基于数据分析出来的概率只能让人得到一个决策。2008年金融领域发生的事件表明,过份依赖于预测 风险模型是灾难性的,因为有一些东西不在模型参数的覆盖范围之内。Gigerenzer指出:“问题在于不正确的风险测量:这些方法错误地假定不确定的世 界里有已知的风险。因为这些计算为一个不确定的风险产生了精确的数字,因此它们会产生一个虚假的确定性。”

  在决策过程中完全依赖数据驱动或分析工具本身具有内在的危险性。人类决策者所带来的价值是他能够看到环境和理解业务环境。这些洞察力并不能完全 由参数来描述。当然,它们也来源于一些信息:思想认识中的旧记忆或新思维模式。但是,它们大多数都基于计算机科学远远无法理解的思维处理模型,计算机还完 全无法模拟出思维。这是一个宝贵的东西。

数据的局限:大数据分析不能告诉你什么

时间: 2024-10-28 10:17:53

数据的局限:大数据分析不能告诉你什么的相关文章

大数据简介与大数据分析

最近几年,大数据热得像烫手山芋!什么是大数据?通过查阅资料,整理一番,博文将给您带来福利了! 大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取.管理和处理. "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量:其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐

精品大数据分析资料大数据分析必备教程,大数据分析入门到精通全集教程分享

精品大数据分析资料,大数据分析入门到精通全集教程分享,看完工资至少涨到30K 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994 原文地址:https://www.cnblogs.com/raorao1994/p/10851911.html

TMF大数据分析指南 Unleashing Business Value in Big Data

大数据分析指南 TMF Frameworx最佳实践 Unleashing Business Value in Big Data 前言 此文节选自TMF Big Data Analytics Guidebook. TMF文档版权信息  Copyright © TeleManagement Forum 2013. All Rights Reserved. This document and translations of it may be copied and furnished to other

大数据落地的大挑战,明略数据在老环境中寻找新路径

"大数据"一词进入了十九大报告中,报告提出要"推动互联网.大数据.人工智能和实体经济深度融合".换句话说,就是要把大数据这样的先进技术,落地到实际的行业应用和业务场景中,对实体经济发挥真正的作用,创造实在的价值. 从2015年起,"大数据"一词就被移出了Gartner的新兴技术炒作曲线.然而,据有关统计,截至2017年8月初,我国大数据领域有183家企业获得融资,其中A轮81家.天使轮51家,也就是72%的大数据企业仍处于创业初期,商业模式仍有待

三分钟了解实时流式大数据分析

大家好,今天为大家介绍华为云实时流计算服务CS,希望通过本次分享,大家能对华为云实时流计算服务的服务能力和业务场景有所了解.我们先了解一下实时流计算背景.下面列举的是流数据普遍产生的四个方面:一.日志:二.物联网,也就是传感器或者边缘设备所产生的数据:三.车联网,也就是车辆行驶过程中或者车载系统所产生的数据:四.StreamingML.流数据普遍产生,但并没有充分产生价值.那么什么是实时流计算呢?实时流是指计算框架按事件逐条实时处理,one-by-one的数据流.计算,是指数学运算数据分析,算法

五个技巧助力优化大数据分析

近年来越来越多的公司已经意识到数据及数据分析可带来的价值,并且已经跳上了大数据旅行车.实际上,现在所有的一切都在被监控和测量,创造了大量的数据流,通常比公司可以处理的速度更快.问题是,根据定义,大数据很大,因此数据收集中的小差异或错误可能导致重大问题,错误信息和不准确的推论. 有一些技术可以优化您的大数据分析,并最大限度地减少可能渗入这些大型数据集的"噪音".以下是五个技术技巧做参考: 一.优化数据收集 数据收集是事件链中的第一步,最终导致业务决策.确保收集的数据与业务感兴趣的指标的相

大数据的奇特世界——数据分析

让我们从有趣的 “啤酒与尿布” 故事说起,在美国沃尔玛连锁超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了.这并非一个笑话,而是一个真实案例. 原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒.这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布这个看似不相干的物品销售之间的联系呢?这就是大数据的

论大数据的十大局限

“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,,大数据被神化得无处不在,无所不包,无所不能.这里面有认识上的原因,也有故意忽悠的成份.笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风.在这里谈大数据的十大局限性,并非要否定其价值.相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集.加工.应用,充分挖掘和发挥其价值.         1.数据噪声:与生俱来的不和谐 大数据之所以为大数据,首先是因为其数据体量巨大.然而,在这海量的数据中,

七牛大数据平台的演进与大数据分析实践--转

原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_content_list&utm_content=homepage 七牛大数据平台的演进与大数据分析实践 (点击放大图像) 图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会