第29本:《大数据时代》

第29本:《大数据时代》

最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处 理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义。从SUN那里借来 《大数据时代》读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨。

《大数据时代》这本书的章节划分非常清晰,主要讲了思维、商业和管理方面的变革,每一章有一个关键词和一句话来总结概括,关键的是里面有大量的例子来阐述大数据的应用。

第一部分 思维变革

1 更多

不是随机样本,而是全体数据

以前由于技术的局限性,只能进行随机抽样进行统计学分析,而现在可以获得更多的数据,所以现在的样本就是总体数据,即样本=总体。

大数据中的“大”不是绝对意义上的“大”。几GB的数据不一定算大数据,而不到1GB的数据也可以算大数据,比如64000场所有摔跤比赛的记录也可以算是大数据,因为它代表的是所有的比赛数据。

例:Xoom跨境涉汇款异常交易报警

例:摔跤比赛中的消极比赛

2 更杂

不是精确性,而是混杂性

以前花大量的精力关注数据的绝对精确性,而现在要学会拥抱混乱。

例:语法检查算法。简单的算法,当语料库增加后,准确率会提高。

例:谷歌翻译。利用了950亿句英语。

译者注:淘宝消费物价指数,淘宝CPI,iSPI(Internet Shopping Price Index)。

传统的数据库是为数据稀缺的时代设计的,这类结构化的数据只占5%左右,而95%的都是非结构化数据,现在需要更好地利用这些混杂的数据。

3 更好

不是因果关系Causality,而是相关关系Correlation

人类有探求因果关系的欲望,而大数据分析能得到某些相关关系,而这种关系一般是洞察不出来的。

在这种情况下,可能知道是什么就够了,没必要知道是为什么。

通过大数据分析,可以捕捉现在,预测未来。

译者并不认同该观点,可能是当前机器学习算法的无奈之举。

例:亚马逊的推荐系统

例:沃尔玛,把蛋挞与飓风用品放在一起

例:零售商与怀孕预测

例:UPS与汽车修理预测

例:早产儿病情预测

例:纽约沙井盖爆炸预测

(后来读到《思考的乐趣----Matrix67数学笔记》的第4章时知道有很多相关性是虚假的相关性,冰淇淋销量增加,鲨鱼食人事件也会同时增加,但并不意味着把冰淇淋销售点全部取缔了,就能减少鲨鱼食人事件的发生,真实情况只是因为夏天来了。)

第二部分 商业变革

4 数据化

一切皆可“量化”

数字化:把模拟数据转换成用0和1表示的二进制码

数据化:把一种现象转变为可制表分析的量化形式的过程

T技术==>I信息

例:坐姿数据与防盗系统

当方位变成了数据,可以引出无数的创意,可以从当今的手机应用程序看到这种趋势

现实挖掘:通过处理大量来自手机的数据,发现和预测人类行为。

当沟通变成了数据:从社交网络的流行也可以看到这种趋势。

例:触感灵敏的地板,物联网?

并非原子,而信息才是一切的本源。

5 价值

“取之不尽,用之不竭”的数据创新

例:ReCaptcha与数据再利用。利用验证码完成图书扫描项目。

不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。

数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。

数据的基本用途可能只是冰山一角,还有许多潜在的价值隐藏在表面之下。

数据废气:它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

公司所持有和使用的数据也应该纳入无形资产的范畴。

6 角色定位

数据、技术与思维的三足鼎立

大数据价值链:基于数据本身的公司、基于技能的公司和基于思维的公司(数据科学家)。

大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。

第三部分 管理变革

7 风险

让数据主宰一切的隐忧

大数据时代难以保护个人隐私。

8 掌控

责任与自由并举的信息管理

这章不感兴趣

时间: 2024-07-30 13:49:34

第29本:《大数据时代》的相关文章

大数据时代的“透明人” 好莱坞艳照门背后的云隐私

好莱坞艳照门背后的云隐私 如今“修电脑才可能泄露艳照”的时代已然过去了,现在的新名词是“云艳照”.从陈冠希开始,中国网友某种程度上是第一次熟知了艳照,而这一次,数十位好莱 坞一线女明星宽衣而来,让我们对大数据下的个人隐私问题再次产生忧虑,如果大数据作为一种技术,在未来统治了人们的工作和生活,那么我们在云端的隐私该如 何保护? 谁都可能是下一个泄露艳照的人 女星艳照是从哪儿泄露的? 涉事女星博文 就目前而言,讨论女星们为什么要拍这样的照片都是没有意义的,这个事情更值得细究的就是私人照片是怎么跑到公

马云:大数据时代_最重要的是做最好的自己

原文链接 摘要: 做个二十名的人其实蛮好的.大数据时代,最重要的是让每个人做最好的自己. 6月29日上午,天津"世界智能大会"现场,马云作了万字演讲,以下是马云演讲整理: 我今天不是为不同而不同,我觉得进入数据时代,一个很重要的事,每个人对每个问题的看法.角度.深度和广度必须是不一样的,只有不一样,你才是你. 做个二十名的人其实蛮好的.大数据时代,最重要的是让每个人做最好的自己. 6月29日上午,天津"世界智能大会"现场,马云作了万字演讲,以下是马云演讲整理: 我今

计算机网络管理基础服务安装+大数据时代的网络运维

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络

读<<大数据时代>>的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是

当不再炒作大数据的时候,大数据时代就真的来了

从2015年开始,大数据就已经被移出了Gartner的新兴技术炒作曲线."Big Data"(大数据)一词最早于2011年8月出现在Gartner新兴技术炒作曲线中,当时Gartner预计大数据技术需要2年到5年才能进入企业的实际生产型应用中.从那以后,大数据就迅速被市场热炒,最终在2015年彻底在Gartner新兴技术炒作曲线中消失. 进入2016年,大数据已经进入了实际的企业生产应用,在切实推动企业向数字化转型.另一家市场调查公司IDC则强调,在未来5年中,全球的数据驱动型企业将获

大数据时代新闻采编人员职业能力培训

原文  http://datameng.com/info/2014/03/big-data-xinwen-caibian/ 据统计,到2013年,全世界储存的信息如果记录在光盘上,再把这些光盘叠加起来,高度等于从地球到月球的距离.美国互联网数据中心指出,目前世界 上90%以上的数据是近几年才产生的.互联网上的数据每年将增加50%,每两年翻一番.因此有学者认为,人类进入了大数据时代.一般意义上,大数据是指无 法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知.获取.管理.处理和服务的数据集合

LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)

转自:http://www.ituring.com.cn/article/75445 王益,LinkedIn高级分析师.他曾在腾讯担任广告算法和策略的技术总监,在此期间他发明了并行机器学习系统“孔雀”,它可以从数十亿的用户行为或文本数据中学习到上百万的潜在主题,该系统被应用在腾讯可计算广告业务中.在此之前,他在Google担任软件工程师,并开发了一个分布式机器学习工具,这个工具让他获得了2008年的“Google APAC 创新奖”.王益曾在清华大学和香港城市大学学习,并取得了清华大学机器学习和

决胜大数据时代:Hadoop&amp;Yarn&amp;Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> 二.Work Queues(using the Java Cl