论大数据的十大局限

“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,,大数据被神化得无处不在,无所不包,无所不能。这里面有认识上的原因,也有故意忽悠的成份。笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。在这里谈大数据的十大局限性,并非要否定其价值。相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集、加工、应用,充分挖掘和发挥其价值。

        1、数据噪声:与生俱来的不和谐

大数据之所以为大数据,首先是因为其数据体量巨大。然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的很小一部分。随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。

        2、真实性:不得不接受的虚假

“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。

网络是大数据最重要的来源之一,而网络本身就充斥着大量的虚假信息。例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。这种失真是由网络本身的特性决定的,比如说,绝大多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。

除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。就拿电信运营商来说,即便推行了实名制,数据质量与期望仍有相当差距。

可以预见,在相当长的时间内,即使最优秀的数据科学家、最先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。

        3、代表性:永不可能的全样本

迈尔·舍恩伯格在《大数据时代》一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。笔者认为,这种观点是错误的。

大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。然而,这两类数据的产生、收集都存在很大的盲区和局限性。例如:很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,由带有明显倾向的小众来代表整个群体明显是错误的。

无论科学技术如何发达,来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。

        4、完整性:广度与深度的缺失

大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决定信息深度)的缺失。

举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,有着较好的信息广度,但其掌握的信息深度却不够。运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等(信息广度充分),但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等(信息深度不足)。很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。

在大多数情况下,对某种自然、社会现象的深入研究或者对用户的超级刻画,信息广度和信息深度缺一不可。从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据。

然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。

        5、时效性:秒级价值存在

任何数据都位于一个连续的时间轴上,都有其时间属性,即数据年龄。不同年龄的数据有着不同的价值特性,往往老数据具有总体或趋势分析价值,新数据则更具有个体应用价值。大数据时代,信息更新速度非常快,从应用的角度看,大数据的时效性往往非常短。

用于探测地震和海啸的传感器所产生的数据时效往往只有几秒钟,在此之后就基本失去意义了。美国国家海洋局的超级计算机能够利用传感器传输的数据,在日本地震后9分钟内计算出海啸的可能性及强度。短短的9分钟,基本反映了当前人类计算的最高水平,但这对于瞬间消失的生命来说还是太长了。

实时营销对用户状态信息的时效性也有很高的要求,试想想,如果你的目标用户在离开店面500米后才收到你所谓“量身定做”的促销信息,他(她)是不是会对此嗤之以鼻?

大数据时效性的要求对数据的实时采集、实时加工、实时分发提出了极高的要求。数据处理上有一个著名的“1秒定律”,即要在秒级的时间范围内计算出分析结果并分发出去,超过这个时间,数据就失去价值了。这在许多时候还很难做到,从而在相当程度上限制了大数据的应用。

        6、解释性:不能没有因果关系

对于舍恩伯格关于大数据的另一个核心观点,“不是因果关系,而是相关关系”,只需要了解是什么或未来会发生什么,而不是为什么和事情发生的内在原因,笔者同样不敢苟同。

相关关系仅代表着过去和个案,没有解释性,有时甚至是错误的,而且不能推而广之。只有掌握了事物之间的因果关系、原因机制和科学原理,才能举一反三,迭代更新,持续推动社会进步。这是很简单的道理,不必赘言。

关于相关性,一直为人津津乐道的便是啤酒与尿布的故事。然而,沃尔玛商品品种成千上万,相关关系数十亿之多,我想类似的绝妙组合尚有不少,为什么再也难见?更何况,人们仍然对啤酒与尿布的相关关系进行了合理的因果逻辑解释。试想,如果首先发现了这样的因果关系,再通过相关关系予以验证,是否可以发现更多的“啤酒和尿布”?

大数据分析需要借助机器来完成,而机器从来就只能给出数据间的相关关系,而不能说明因果逻辑。因果关系需要人的思考和判断,电脑现在没有、将来也不可能完全替代人脑。玩笑一下,如此急迫地强调相关关系而不是因果关系,难道我们真的不需要脑子了吗?

7、预测性:让过去决定未来

大数据分析无论被赋予多么绚丽的光环,从根本上讲都只是对过去和现实的归纳和总结,其本身并不具有趋势和方向性的特征。决定趋势的是事物发展的内在因素及相互作用,在此方面大数据无能为力,这是大数据的先天性缺陷之一。

舍恩伯格也坦言,与大数据同行是有一定风险的,大数据有可能会把我们锁定在以往的错误当中,使我们堕入让过去决定未来的陷阱。

现在有些基金公司推出大数据指数基金,期望通过大数据对股票行情进行准确的预测。历史行情走势只是过去已经发生的影响股票市场的诸多因素共同作用的结果,以此来预测未来的市场根本不靠谱。普林斯顿大学经济学教授伯顿·麦基尔早在1973年的畅销作品《漫步华尔街》中就指出,把一只猴子蒙上双眼后让它向报纸的金融版掷飞镖而选中的投资组合,和那些专家经过大量研究而谨慎选择的投资组合相比,盈利性可能一样好。近几年甚至有研究者提出,麦基尔的这种看法低估了猴子(应该是高估了基金经理吧)。2008年,好事的俄国人更是用实验证明了这一点。俄罗斯《财经周刊》从马戏团找来一只猴子,让它从代表不同股票的牌子中选择8支进行模拟投资组合,并投入100万虚拟卢布。一年后,当金融专家再次观察猴子所选股票的表现时不由大吃一惊,其市值上涨了近3倍,跑赢了94%的基金。

必须承认,我们处于一个不确定的世界里,有许多事件是无法预测的。过分依赖大数据和预测模型是危险的,因为有许多决定性的影响因素都不能纳入模型参数的覆盖范围之内。从天气预报、地震预测、足球比赛到金融危机等等,都对这一点做了很好的诠释。

8、误导性:数据也会说谎

与大数据的代表性、真实性、完整性、解释性等局限性相关的,对统计现象只看结果不重解释,很可能导致错误甚至危险的结论。二战时期英国与德国的空战中,工程师发现,每次战斗机回来机翼上都带有很多枪眼,因此认为机翼是最容易受到攻击的地方,需要进行特别防护。可是增加防护之后,飞机的损失率不但没有降低,反而提高了。问题究竟出在哪呢?原来工程师们被这一统计结果误导了,从而采取了错误地防护措施。对机翼枪眼的统计只针对成功返航的飞机,而那些不幸的飞机被击落的原因并没有被统计和发现。相反,机翼受损还能飞回来,说明机翼被攻击并不是飞机被击落的主要原因。至于为什么增加防护后飞机损失率反而提高了,原因很简单,因为负荷增加降低了飞机的灵活性和航程。后来,工程师们反其道而行之,在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,事实证明效果良好。

9、合法性:数据安全与隐私保护

大数据本身及其采集、使用过程都极有可能会涉及个人隐私、商业机密、公众权益和国家信息安全。因此,安全性和合法性问题构成了大数据价值发挥的限制性因素之一。

商业和技术很重要,但商业和技术背后的价值观更重要。

Google曾将"不作恶"作为自己的公司价值观;百度为了短期商业利益售卖多个贴吧,公然践踏公众隐私,结果遭千夫所指,万人唾骂。这些都充分反映了公众对隐私和信息安全的关注和重视。

白宫曾在2014年发表书面声明称,大数据创造的社会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。中国政府在此方面虽然尚未立法,也从来没有明确的说法,但民众的基本权益和诉求理当被审慎考虑。

诚然,安全性、合法性要求限制了大数据的使用和商业价值的充分发挥,但从社会价值的角度来看,是值得的,也是必须的。

10、价值性:投入与收益的平衡

价值密度低是被公认的大数据特征之—,这也在一定程度上限制了大数据的研究和应用。

一方面,因为大数据的低密度价值特征,那么要使其价值达到可用的程度,就必须有足够规模的数据积累和有效的价值提取。以常规的监控视频为例,连续24小时的视频监控中,有用的数据可能仅有数秒。如何优化存储,并通过强大的机器能力迅速完成数据的加工处理和价值呈现,到目前为止还是大数据面临的一大难题。另一方面,大数据边际效用递增规律的存在,使许多企业、组织的数据无法达到基本的规模要求,从而也使其数据价值无法充分显现。

同时,前面讲到的大数据代表性、真实性、完整性、解释性上的不足及由此引起的结论误导,不仅会降低数据的价值,甚至可能产生负面作用。

除此之外,大数据的采集、存储、加工和使用所耗费的资金和时间成本都是非常高昂的。作为大数据投资主体,应该在投入和收益之间进行合理平衡。当前的确存在那么一种势力,为了某种目的极力鼓动企业进行大规模的大数据投资,如果不审慎评估,很可能得不偿失。

在此讲了这么多大数据的局限性,最后再次重申,并非要以此否定大数据的价值;同时,也要再次强调,大数据代表的只是信息,而非智慧。对世界的改造仅凭有限的信息是远远不够的,更需要人类取之不尽、用之不竭的智慧。只有用好了项上这颗六斤四,才能逐步突破大数据的局限性,更好地发挥大数据价值。

时间: 2024-10-23 16:31:21

论大数据的十大局限的相关文章

大数据营销十大切入点

许多人感觉到大数据时代正在到来,但往往只是一种朦胧的感觉,对于其真正对营销带来的威力可以用一个时髦的词来形容——不明觉厉.实际上,还是应尽量弄明白,才会明白其厉害之处.对于多数企业而言,大数据营销的主要价值源于以下几个方面. 第一,用户行为与特征分析.显然,只要积累足够的用户数据,就能分析出用户的喜好与购买习惯,甚至做到“比用户更了解用户自己”.有了这一点, 才是许多大数据营销的前提与出发点.无论如何,那些过去将“一切以客户为中心”作为口号的企业可以想想,过去你们真的能及时全面地了解客户的需求与

史上最全解析!大数据在十大行业的应用

什么是大数据?这次我们不谈概念,不谈理论,避虚就实,关注大数据在十大行业的实际应用.从证券行业到医疗领域,越来越多公司意识到大数据的重要性.2015年Gartner调查显示,超过75%的公司正在投资或计划在未来两年内投资大数据.而在2012年进行的类似调查中,仅有58%的公司在未来两年内计划投资大数据.增强客户体验.降低成本.精准营销以及提高流程效率.数据安全是公司关注大数据的主要目的.本文将研究正在使用大数据的10个垂直行业及面临的挑战,以及大数据如何解决这些难题. 1. 银行和证券挑战:通过

大数据的十大来源及其应用价值

当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒?如果×××老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实. 网络数据即使不是最原始的大数据源,也是使用最广泛.认可度最高的大数据源.除此之外,还有很多大数据源,它们都有各自的使用价值.其中一些广为人知,而另一些几乎没有名气.我们在此要借用本

跟上节奏 大数据时代十大必备IT技能(转)

新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能. 新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体.3D打印机.物联网……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能.另一方面,云计算和大数据乃至其他助推各个行业发展的

大数据算法 十大经典算法

一.C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它. 决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件. C4.5相比于ID3改进的地方有: 1.用信息增益率来选择属性. ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy,熵是一种不纯度度量准则), 也就是熵的变化

跟上节奏 大数据时代十大必备IT技能

新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能. 新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体.3D打印机.物联网……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能.另一方面,云计算和大数据乃至其他助推各个行业发展的

蔡先生论道大数据之(十五) :什么是数据化运营?

数据化运营讨论(1) 近现代营销理论代表思想是4P理论,4P是指产品.价格.渠道.促销,它的核心是产品,其他要素都是围绕产品这个核心来的,进入21世纪人们又提出了4C的营销理论,包括消费者.成本.方便性.沟通交流,它的核心是用户是消费者,一切以消费者为核心,这也是目前大多数企业市场营销战略核心思想. 社会在进步,4C理论之后来到了大数据时代,所面对的行业状况是,白热化的市场竞争,越来越严苛的营销预算.堆积如山的海量数据,迫使企业寻找更加适合的营销思路和方法.目前行业主流的理论是3P3C,包括概率

蔡先生论道大数据之(十六) :穷则思变

数据化运营讨论(2) 数据化运营的理念与技术对企业来说是革命性的,它能将现在"卖方市场"商业状态变成为"买方市场". "穷则思变"古话说的好,在当下传统营销方式手段很难明显提升业绩和市场竞争力时"数据化运营"的理念和技术就成为企业未来打破竞争,提升自我强有力地商业武器. 企业通过对数据的分析和挖掘,运营不在盲目,真正做到心中有数,有的放矢.举例,传统的营销活动带来的问题:"我知道投入的广告费有一半打了水漂,收效甚微,

蔡先生论道大数据之十: 企业如何入手大数据战略(1)

今天之后的几章我们重点讨论企业如果要利用大数据应该从那几个方面入手,我粗粗的总结了一下大致分三个方面,这三个方面做到为了,恭喜你你的企业正开始享受和拥有大数据来的红利和价值. 具体入手之前,我们先要明确一点就是首先企业管理层需要有清晰思路然后从上到下认真贯彻,管理层还要对预期的业务影响要有个清晰的认识,能够给出从数据收集.模型建立到企业文化转型的一揽子方法,避免掉进"数据可以为企业做那些"这样的思维陷阱中去. 企业定制大数据战略,需要注意三个关键点,说白了也就根据前面文章总结出来的精髓