关于大数据的思考

关于大数据的思考

《大数据思维与决策》读后感

“21世纪的竞争是数据的竞争,谁掌握数据,谁就掌握未来。”——马云

不难理解大数据在我们生活的重要性。随着科技发展,网络无处不在,存储信息的本质是数字0和1(至少目前的计算机是如此),因而可以说数据无处不在。

在《大数据思维与决策》中,作者采用大量例子说明近20年来大数据对传统行业、传统思维的冲击,从医学到教育领域到金融行业再到互联网,大数据思维的冲击是史无前例的。

一、回归方程带来的冲击

从前人们的决策几乎全靠人为经验判断,作者在这个问题里举了“寻找棒球队员”的例子,传统的方式是经理人(暂以此名字代表挖掘球员的人)通过观看无数场(书中有列出具体数字)球赛,观察球员的每一个细致动作,经理人根据经验判断该球员是否有潜力成为球星。该方式代价非常大且人为主观因素会影响决策正确率。大数据思维则是分析球员历史训练及比赛的记录数据,利用数理统计的回归方法(必须掌握)分析数据,从而预测有潜力值球员。相对传统方式,大数据方法成本大大降低,且准确率更高。显然,新的方式对传统经理人带来的冲击是极大的,新的思想总会被质疑、抗拒。不过最终由一个胖球员不被看好,数据显示有潜力,最终成为球星的例子证明大数据引导决策是正确的。

正如书中所说,数据比人客观,且现在大规模数据的获取更加容易,价格便宜甚至免费。回归方法在数据处理中还是十分的有用,必须掌握这一技能。

二、随机试验

作者提到的第二个很有用的方法是随机试验。基本思想是:

随机抽取样本,控制单一变量,进行试验,分析试验数据检验哪个方式更加具有价值。

这里采用的例子很多,其中一个就是某一个网站(具体网站名忘了……暂且称作Test)利用随机随机试验方法为网站开发者提供工具检测怎样的界面用户更加喜欢。例如,某一栏是“收藏”还是“收藏与购买”。Test利用随机试验思想对开发网站采取控制变量检测,随机为用户展示以上两种方式的开发网站(仅“收藏”与“收藏与购买”的差异),通过统计用户点击行为,则可以评估哪种网页更被用户喜欢。

随机试验思维在大数据下显得更加有用,文中还列举了巴西(?具体不记得了)“穷人母亲产前补助”、“医生洗手对手术患者死亡影响”、“某一政策是否正确”等例子说明大数据下随机试验的利用。

随机试验思想确实是一个很实用的方法,在以后遇到数据处理、数据决策之前应不忘考虑这种方法。

三、大数据决策的弊端

万物皆有两面性,大数据决策为我们提供很多快捷、准确的预测。但是,过分依赖数据则让我们在很多时候得出的结果相差很大。例如,根据某人的历史数据分析预测下周五会去看电影,然而周末该人不小心骨折住院。尽管数据采集到骨折数据,模型不会因此而改变,因为该数据历史影响甚微,模型会忽略,仍然会认为该人去看电影。根本原因在于模型不会像人那样正确考虑到骨折的权值,即使是神经网络模型(我的理解是至少现在的神经网络模型还是没有人那么聪明),计算机的经验是有限的,尽管他能够存储很多内容,不代表他有人的智慧。所以很多情况下,人为的干预是十分重要的。

利用大数据进行决策,人为的经验还是不可或缺的,权值的设定,参数的调整,初值的设定等这些都是经验得来的,但是即使是这些经验,也不能太过依赖,因为数据在变化,世界在变化,以前正确的下一秒随时错误。总的来说,数据与人为经验相结合,互为促进,至于之间的尺度,估计只能在接触到该行业多年后才会有所想法吧,现在还是太年轻……

五、大数据下的隐私

随着科技发展,智能设备越来越普及,信息无处不在,数据无处不在。谷歌等都倡议数据共享,建立人人都可以利用的数据库。对于数据开发者、数据决策者而言的确是十分有利的。能够为客户创造价值,如机票预测是客户购买实惠机票很好的工具,这种情况客户也是乐意见到的。然而,一些恶意黑客当然也会因此入侵,获取用户数据,对人们生活带来很多干扰甚至是安全隐患。

所以说,大数据下仍然很多问题,不过利益在驱动,还是会继续发展。这些书中提到的应用和隐患大都基于美国现状的考虑。对于国内,确实还是有很大差距。首先应用方面,尽管很多互联网企业开始发力与大数据开发,但是总体的思维还是比较保守(无可厚非),许多模式几乎照搬国外,就类似云计算、物联网,大数据也很多公司只是在搞概念(纯靠猜),还有很大的发展空间,必须好好把握好时机。另外,安全隐私,就我个人观察,国内的隐私意识还是不怎么注重(又是靠个人经验判断的,可以看出我的思维也还是传统的,靠数据说话啊!!!),当然我们肯定会比国外稍微慢,但是再接下来十年,风云变幻,一切就说不准了(又在考虑用数据说话啊,统计和预测十年后哪国更强啊,预测以后行业怎么变幻啊,有点入魔了)。

总而言之,该书举了许多大数据决策与应用,也确实呈现了大数据时代是真的到来了。然而,这对我而言并没有很大帮助,这次之前,我就很明确要跟大数据打交道了。本书跟我最大的收获是,清楚地了解到更具体的各种大数据应用,了解到不同行业大数据的决策思维,了解到回归思想以及随机试验的重要性。当然,本书让我对大数据有了更深的体会,思维或多或少有些转变(但是不够),尽管技术上没有什么提升,但是其实大数据思维还是很重要的,让我对很多方面都有了大数据的联想。

最后,作为物联网专业,与大数据密不可分,也应该有一些更深的体会。其实大数据也算是物联网下的一个分支,物联网包括感知层、网络层、应用层。感知层的传感器采集是大数据采集(无处不在),网络层的数据处理是大数据处理,应用层的应用是大数据决策。现在互联网中的大数据比物联网中只是缺少传感器数据采集部分而已,所以定位到大数据方向还是没有脱离自己的开始方向。当然,大数据决策绝对不只是网络的决策,如果把世界的任意信息用数据表示(物联网),其实也可以说是包括了所有方面。下个浪潮无疑是物联网,现在只是开始,十年后,世界会变得你完全不认识,如果你没有具备大数据思维的话,你将被世界淘汰。

至此,算是对该书的阅读小结,由于时间匆忙,阅读难免不够仔细,感想也许片面,至少是我的体会,记录一下。其实,相关类的数据书籍,我觉得最好还是有过相关项目或工作经历之后再看或许会有更深入的体会。故不要停止阅读,不要停止思考!

2015年6月10日星期三

Tingelam

时间: 2024-10-08 00:31:28

关于大数据的思考的相关文章

陕西西咸新区沣西新城大数据产业发展思考

短短两年时间,陕西西咸新区大数据产业已经初具规模.注重基础设施建设,与应用对接,建立创新和人才培育机制是西咸新区成功的秘诀. 2012年12月6日,陕西西咸新区在北京举办了第一届西咸新区大数据论坛,正式发布了沣西大数据产业规划,在全国范围内率先扛起了大数据的旗帜. 两年后的11月10日,2014西咸新区大数据高峰论坛在西安举行.两年时间,沣西大数据产业规划的落实情况如何?作为国内大数据园区的标杆之一,西咸新区在大数据应用和产业化方面的探索又有哪些成功的经验值得借鉴呢? 大数据产业有了好基础 在参

【bigdata学习记录1】【转】 一篇对大数据深度思考的文章,让你认识并读懂大数据

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术.新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来.究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很"土鳖";二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然. 我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆

贵州全民大数据之体验

?? 近日有机会随广东省云计算应用协会的专家们到贵州贵阳市.毕节市黔西县.遵义市进行了云计算大数据之旅,参观交流了政府相关部门.高新区.经济开发区.软件园.大数据交易所.大数据应用展览中心.智慧社区.电子商务区.相关企业单位以及企业家创业者等等,可以说收获颇多感受颇深,贵州真正地实现了全民大数据热潮,从政府管理人员.企业家.创业者到普通老百姓开口闭口都是大数据,而且很多人的理解还真是到位,令我等书到用时方恨少,汗流直下三英尺. 然后思考为什么?个人观点:除了贵州本身拥有的天然条件适合建立大数据中

研究车联网的大数据更有意义

随着互联网的不断发展,大数据正在成为一股热潮,且业界对大数据的讨论已达到一个前所未有的高峰.车联网作为移动互联网大背景下诞生的一个产物,不管是车辆的接入.服务内容的选择还是服务的精准性,都离不开大数据. 车辆上传的每一组数据都带有位置信息和时间,并且很容易形成海量数据.一方面,如果说大数据的特征是完整和混杂,而车联网与车有关的大数据特征是完整加精准.如某些与车辆本身有关的数据,都有明确的一个ID,根据这个ID可以关联到相应的车主信息,并且这些信息还是精准的. 另一方面,我们可以看到车联网与驾驶人

移动大数据时代最IN编程语言必读书单

移动大数据时代最IN编程语言必读书单 这是一个快速更迭,快鱼吃慢鱼的时代.从IT 时代演变成 DT 时代,再到现在的智能时代.急速革新的各种新技术.新工具.新平台,需要程序员掌握良好的编程思想和学习方法,不断学习新技术.补充新知识,才能努力跟上时代的步伐,找到自我实现的际遇.读书依然是我们获取知识的最方便和有效的途径之一.既要读经典,也要读新书,前者让你沉淀,发现正确的方法,后者让你紧跟前沿,掌握最新的技术.可你是不是担心,不能找到真正值得读的新书而浪费时间?在此,我们汇总了当下最In的编程语言

分享一下Java程序猿最喜欢用的大数据工具

据日前的一则大数据工具使用情况调查,我们知道了Java程序猿最喜欢用的大数据工具. 问题:他们最近一年最喜欢用什么工具或者是框架? 受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具.上一篇Java调查包括下列内容: 开发语言 Web框架 应用服务器 数据库工具 SQL数据 大数据 开发工具 云供应商 现在,来看看维基百科上对大数据的定义: 大数据,广义上来说是一组量很大很复杂的数据集合,在这种情况下传统的数据处理方式将不再适用. 对于一般情况来说传统的SQL数据库足够用.再另

大数据实践总结---一点思考

本文算是一个阶段总结吧!总算是把MapReduce给搞完了.细想这三周来的收获,可能除了代码,更多的是逻辑上的提高吧!下边就以之前只会理论时的一些问题来开启本文吧! 1,大数据架构师,产品经理需要写代码吗? 需要,只不过写代码的程度不同.大数据架构师要详细了解大数据的各个模块功能,相关的接口参数.可以说,架构师要对代码有很详细的了解.大数据的相关工作中,架构,开发,运维都需要写代码.但每个人写的代码内容也不相同.对于一个IT公司来说,这三块主要是主开发人员,对代码经验都有很大要求. 产品经理,主

Laxcus大数据管理系统(2)- 第一章 基础概述 1.1 基于现状的一些思考

第一章 基础概述 1.1 基于现状的一些思考 在过去十几年里,随着互联网产业的普及和高速发展,各种格式的互联网数据也呈现爆炸性增长之势.与此同时,在数据应用的另一个重要领域:商业和科学计算,在各种新兴技术和产业需求的推动下,对数据存储和计算要求也日益提高,并且对计算数据的准确性和精度也远高于互联网数据.而在这些现象的背后,当前的数据计算早已经突破MB量级,GB成为常态,TB变得流行,正在向PB迈进的时候,面对如此庞大的数据量,如果管理和使用它们,满足各种计算需求,发现和筛选其中有价值的信息,通常

王家林亲授《DT大数据梦工厂》第84讲:Scala中List和ListBuffer设计实现思考

我一直觉得Scala里的List设计的很诡异,今天阅读了王家林老师的 <第84讲:Scala中List和ListBuffer设计实现思考 >, 然后我就豁然开朗了. Scala的List是immutable的,因此将其声明为var, 有了这个隐式转换,操作ResultSet就变简单了. =============================================================== 王家林亲授<DT大数据梦工厂>大数据实战视频“Scala深入浅出实战经