关于大数据的思考
《大数据思维与决策》读后感
“21世纪的竞争是数据的竞争,谁掌握数据,谁就掌握未来。”——马云
不难理解大数据在我们生活的重要性。随着科技发展,网络无处不在,存储信息的本质是数字0和1(至少目前的计算机是如此),因而可以说数据无处不在。
在《大数据思维与决策》中,作者采用大量例子说明近20年来大数据对传统行业、传统思维的冲击,从医学到教育领域到金融行业再到互联网,大数据思维的冲击是史无前例的。
一、回归方程带来的冲击
从前人们的决策几乎全靠人为经验判断,作者在这个问题里举了“寻找棒球队员”的例子,传统的方式是经理人(暂以此名字代表挖掘球员的人)通过观看无数场(书中有列出具体数字)球赛,观察球员的每一个细致动作,经理人根据经验判断该球员是否有潜力成为球星。该方式代价非常大且人为主观因素会影响决策正确率。大数据思维则是分析球员历史训练及比赛的记录数据,利用数理统计的回归方法(必须掌握)分析数据,从而预测有潜力值球员。相对传统方式,大数据方法成本大大降低,且准确率更高。显然,新的方式对传统经理人带来的冲击是极大的,新的思想总会被质疑、抗拒。不过最终由一个胖球员不被看好,数据显示有潜力,最终成为球星的例子证明大数据引导决策是正确的。
正如书中所说,数据比人客观,且现在大规模数据的获取更加容易,价格便宜甚至免费。回归方法在数据处理中还是十分的有用,必须掌握这一技能。
二、随机试验
作者提到的第二个很有用的方法是随机试验。基本思想是:
随机抽取样本,控制单一变量,进行试验,分析试验数据检验哪个方式更加具有价值。
这里采用的例子很多,其中一个就是某一个网站(具体网站名忘了……暂且称作Test)利用随机随机试验方法为网站开发者提供工具检测怎样的界面用户更加喜欢。例如,某一栏是“收藏”还是“收藏与购买”。Test利用随机试验思想对开发网站采取控制变量检测,随机为用户展示以上两种方式的开发网站(仅“收藏”与“收藏与购买”的差异),通过统计用户点击行为,则可以评估哪种网页更被用户喜欢。
随机试验思维在大数据下显得更加有用,文中还列举了巴西(?具体不记得了)“穷人母亲产前补助”、“医生洗手对手术患者死亡影响”、“某一政策是否正确”等例子说明大数据下随机试验的利用。
随机试验思想确实是一个很实用的方法,在以后遇到数据处理、数据决策之前应不忘考虑这种方法。
三、大数据决策的弊端
万物皆有两面性,大数据决策为我们提供很多快捷、准确的预测。但是,过分依赖数据则让我们在很多时候得出的结果相差很大。例如,根据某人的历史数据分析预测下周五会去看电影,然而周末该人不小心骨折住院。尽管数据采集到骨折数据,模型不会因此而改变,因为该数据历史影响甚微,模型会忽略,仍然会认为该人去看电影。根本原因在于模型不会像人那样正确考虑到骨折的权值,即使是神经网络模型(我的理解是至少现在的神经网络模型还是没有人那么聪明),计算机的经验是有限的,尽管他能够存储很多内容,不代表他有人的智慧。所以很多情况下,人为的干预是十分重要的。
利用大数据进行决策,人为的经验还是不可或缺的,权值的设定,参数的调整,初值的设定等这些都是经验得来的,但是即使是这些经验,也不能太过依赖,因为数据在变化,世界在变化,以前正确的下一秒随时错误。总的来说,数据与人为经验相结合,互为促进,至于之间的尺度,估计只能在接触到该行业多年后才会有所想法吧,现在还是太年轻……
五、大数据下的隐私
随着科技发展,智能设备越来越普及,信息无处不在,数据无处不在。谷歌等都倡议数据共享,建立人人都可以利用的数据库。对于数据开发者、数据决策者而言的确是十分有利的。能够为客户创造价值,如机票预测是客户购买实惠机票很好的工具,这种情况客户也是乐意见到的。然而,一些恶意黑客当然也会因此入侵,获取用户数据,对人们生活带来很多干扰甚至是安全隐患。
所以说,大数据下仍然很多问题,不过利益在驱动,还是会继续发展。这些书中提到的应用和隐患大都基于美国现状的考虑。对于国内,确实还是有很大差距。首先应用方面,尽管很多互联网企业开始发力与大数据开发,但是总体的思维还是比较保守(无可厚非),许多模式几乎照搬国外,就类似云计算、物联网,大数据也很多公司只是在搞概念(纯靠猜),还有很大的发展空间,必须好好把握好时机。另外,安全隐私,就我个人观察,国内的隐私意识还是不怎么注重(又是靠个人经验判断的,可以看出我的思维也还是传统的,靠数据说话啊!!!),当然我们肯定会比国外稍微慢,但是再接下来十年,风云变幻,一切就说不准了(又在考虑用数据说话啊,统计和预测十年后哪国更强啊,预测以后行业怎么变幻啊,有点入魔了)。
总而言之,该书举了许多大数据决策与应用,也确实呈现了大数据时代是真的到来了。然而,这对我而言并没有很大帮助,这次之前,我就很明确要跟大数据打交道了。本书跟我最大的收获是,清楚地了解到更具体的各种大数据应用,了解到不同行业大数据的决策思维,了解到回归思想以及随机试验的重要性。当然,本书让我对大数据有了更深的体会,思维或多或少有些转变(但是不够),尽管技术上没有什么提升,但是其实大数据思维还是很重要的,让我对很多方面都有了大数据的联想。
最后,作为物联网专业,与大数据密不可分,也应该有一些更深的体会。其实大数据也算是物联网下的一个分支,物联网包括感知层、网络层、应用层。感知层的传感器采集是大数据采集(无处不在),网络层的数据处理是大数据处理,应用层的应用是大数据决策。现在互联网中的大数据比物联网中只是缺少传感器数据采集部分而已,所以定位到大数据方向还是没有脱离自己的开始方向。当然,大数据决策绝对不只是网络的决策,如果把世界的任意信息用数据表示(物联网),其实也可以说是包括了所有方面。下个浪潮无疑是物联网,现在只是开始,十年后,世界会变得你完全不认识,如果你没有具备大数据思维的话,你将被世界淘汰。
至此,算是对该书的阅读小结,由于时间匆忙,阅读难免不够仔细,感想也许片面,至少是我的体会,记录一下。其实,相关类的数据书籍,我觉得最好还是有过相关项目或工作经历之后再看或许会有更深入的体会。故不要停止阅读,不要停止思考!
2015年6月10日星期三
Tingelam