大数据时代需要转变的思维

大数据时代要转变的思维:

  • 要分析所有数据,而不是少量的数据样本
  • 要追求数据的纷繁复杂,而不是精确性
  • 要关注事物的相关关系,而不是因果关系

1. 分析所有数据,而非少量数据

至今为止,人们搜集数据的能力有限,因此采用的是“随机采样分析”。

例如,要想知道中国顾客都联想笔记本的满意度,不可能对所有买了联想笔记本的人做问卷调查。通常的做法是随机找1000个人,用这1000个人的满意度来代表所有人的。

为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机。

这就是“小数据时代”的做法,在不可能搜集全部数据的情况下,随机采样分析在各领域取得了巨大的成功。

但是,随机采样有三个问题:

  1. 依赖随机性,而随机性很难做到。例如,使用固定电话随机打给1000户人家,这样也是缺乏随机性的,因为没有考虑到年轻人都使用手机的情况。
  2. 远看不错,一旦聚焦到某一点,就模糊了。例如,我们用1000个人来代表全国,这1000个人是随机从全国选取的。但是,如果用此结果来判断西藏的满意度,却是缺乏精确的。也就是说,分析结果不能适用于局部。
  3. 采样的结果只能回答你事先设计好的问题,不能回答你突然意识到的问题。

在”大数据时代“,样本=总体

如今,我们已经有能力搜集到全面而完整的数据。大数据是建立在掌握所有数据、至少是尽可能多的数据的基础上的。

2. 追求混杂性,而非精确性

在“小数据”时代,最重要的就是减少测量的错误,因为收集的信息较少,所以必须保证记录尽可能精确,否则细微的错误会被放大。为了精确,科学家必须优化测量的工具。现代科学就是这么发展过来的,物理学家开尔文(温度的国际单位)说:“测量就是认知”。很多优秀的科学工作者必须要能准确收集和管理数据。


在“大数据”时代,使用所有数据变为可能,且通常是上万亿个数据,要保证每一个数据的精确性是不可想象的,混杂性不可避免。但是,当数据量足够大时,混乱不一定会带来不好的结果。并且,由于放松了容错的标准,所能搜集的数据多了起来,还可以利用这些数据来做更多的事。举一个例子:

要测一个葡萄园的温度,如果只有一个温度计,那必须保证这个测量仪精确且能一直工作。但是如果每100棵葡萄树就有一个测量仪,则虽然有些测量数据是错误的,但是所有数据合起来却能得到一个更准确的结果。

因此,“大数据"通常用概率说话,而不是板着”确凿无疑“的面孔。”大数据“时代要求我们重新审视精确性的优劣。由于数据量太大,我们不再期待精确经,也无法实现精确性。

在图书馆我们可以看到,所有的书都被分类,例如,要找一本C语言的书籍,必须先找到”工科“分类,然后再找到”计算机“分类,再根据编号(类似于803.53x)找到需要的书籍,这是传统的方法。如果图书馆的书少,可以这么检索,如果有1亿本呢?10亿本呢?网络上的数据可远非图书馆的藏书量可比,动则数十亿,如果使用清晰的分类,那么不仅分类的人会疯,查询的人也会疯。因此,现在互联网上广泛使用”标签“,通过标签来检索图片、视频、音乐等。当然,有时人们会错标标签,这让习惯精确性的人很痛苦,但是,接受”混乱“给我们带来了两个好处:

  1. 由于拥有了远比”分类"数量多得多的标签,我们能够获得更多的内容。
  2. 可以通过标签组合来过滤内容。

例如,如果我们要检索“徐长卿”。“徐长卿”至少有三种身份:是一种中草药,是命名草药的人的名字,是仙剑3的主人公之一。如果按照传统分类法,可能“徐长卿”会被分到“中草药”类里,这还取决于分类的人。那么查询的人就不会知道它还有另外两重身份,或者只想查“徐长卿"这个人的人根本就不会到”中草药“类里查询。但是,如果使用”标签“,那么输入”徐长卿“+”草药“,即可查到草药;输入”徐长卿“+”仙剑3“即可查到游戏的主人公。

因此,使用”标签“代替”分类“,虽然有很多不精确的数据,但是却得到了大量标签,使得检索更方便,得到的结果更好了。

3. 关注相关关系,而非因果关系


知道”是什么“就够了,没有必要知道”为什么“,要让数据自己”发声“。来看一个例子:

沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。

看到这里,一个马上有人问”为什么飓风一来,人们都要买蛋挞“?

你问”为什么“,说明你注重的是因果关系。而这个“因”,可能是极难分析、且复杂的,而且即便研究出来,意义真的很大吗?对沃尔玛来说,只要知道“飓风来了,快摆蛋挞,准备大赚一笔”就行了,这就是注重的相关关系。

飓风与蛋挞有关,OK,行了,还能赚钱,太好了。为什么?不管,反正有关。

这也是大数据时代需要转变的思维,即关注相关关系,而非因果关系。

通过探求”是什么“,而非”为什么“,能够帮助我们更好地理解世界。但是,由于因果关系在我们的思维中根深蒂固,而且有时会臆想出一些因果关系,反而带来了错误的认知。例如:

父母经常告诉孩子,天冷时不带帽子和手套就会感冒。然而,研究表明,感冒和穿戴之间没有直接的联系。在某餐馆吃饭后,晚上肚子疼,我们会想到原因是餐馆的食物有问题。实际上很可能是和某人握手,或饭前没有洗手的关系。

相关关系能给我们分析问题提供新的视角,我们不需要事事去探究为什么,并且,它使我们相信,不探究”为什么“也是合理的。

但是,并不是说因果关系就应该完全摒弃,而是要灵活地以相关关系的立场来思考问题。



本文总结自《大数据时代》,作者Viktor Mayer-Schonberger。

文档信息

时间: 2024-10-13 17:46:48

大数据时代需要转变的思维的相关文章

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

处于大数据时代,应该具备哪些思维?

处于大数据时代,应该具备哪些思维? 对于身处大数据时代的我们来说,统计学越来走近我们,当我们在思考一个问题时,要尽量避免因为自己的无知,提出一些低级的问题来.譬如一些极其低级的,不符合统计学常识的错误.具体有哪些错误,后面我会提到.如果提问者懂一些统计学的常识,很多问题根本就不应该被提出来.要避免犯蠢,提出合理的科学的问题,就应该懂一些基本的统计常识.以下内容,学过数学/统计学/计量经济学的同学,应该知道我在说什么.如果你不知道,那请你回去面壁思过一下. 样本偏差 人们习惯通过很少的观察值,就得

读<<大数据时代>>的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是

《大数据时代》读书笔记

大数据开启了一次重大的时代转型.就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发-- 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法. 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样. 某个特别现象相关的

第29本:《大数据时代》

第29本:<大数据时代> 最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处 理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义.从SUN那里借来 <大数据时代>读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨. <大数据时代>这本书的章节划分非常清晰,主要讲了思维.商业和管理方面的变革,每一章有一

大数据时代的数据存储,非关系型数据库MongoDB

在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQL(非关系型数据库). 为什

大数据时代,银行BI应用的方案探讨

大数据被誉为21世纪发展创造的新动力,BI(商业智能)成为当下最热门的数据应用方案.据资料显示:当前中国大数据IT投资最高的为五个行业中,互联网最高.其次是电信.金融.政府和医疗.而在金融行业中,银行拨得头筹,其次才是证券和保险. 如何有效应用大数据.云计算等新信息技术,创造价值和财富,创造未来,是我们面临的巨大机遇和挑战. 下面把银行大数据应用做个详细全面的介绍. 一.大数据金融应用场景 从大数据技术特性以及银行近几年的应用探索来看,大数据在银行商业智能方面的应用主要体现在以下几个方面: 1.

大数据时代下的“管理”要素数据化

注:本文为帆软软件总经理陈炎在2015中国数据分析师行业峰会上的演讲记录.   今天,我要跟大家分享的是"管理数据化". 联想的柳传志先生说过,管理三要素:建班子,定战略,带队伍.中国典型的建班子思维,都是通过望闻问切来选人和用人,这个弊端大家都知道,但是以大数据兴起的基于互联网的技术,能解决建班子的数据化. 带队伍对于企业来说,其实就是对中低层员工工作过程进行量化.对于员工来说,工作量化了之后,他随时能知道自己的进展,自我改进.对于管理者来说,我随时能监控,随时指出来不足. 但在带队

大数据时代下的生活

最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据.有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情. 虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书. 刚刚看完<大数据时代>这本书,感觉收获也蛮多的.习惯性的整理了一下书籍的思维导图 这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的. 个人吐槽 就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重