大数据与时间

大数据的概念起源其实就和时间联系得非常紧密,一方面是单位时间内的数据种类和数据量,另一方面是历史时间内的数据积累,这两方面的交叉复合增长才使得数据可能被称为大。

从古至今,人类个体在单位时间内创造的数据本来是一样多的,但内在差别却很大。

第一种差别可以称做数据质量的差别。以前人们在单位时间内做的事情种类很少,可以很简单的做归类聚合。而现代人的任务切换太频繁了,因此需要更多的数据来进行描述。姑且不论做事质量的好坏,我们可以说以前的数据单一,质量差,现在在的数据丰富,质量好。

第二种差别涉及到可用性的概念,包括可获取性,可处理性,处理结果有无意义等。我们说以前的数据可用性差。最大的原因是收集方式匮乏,没有有效的手段获取数据。而另一个重要的原因就是大量个体产生的数据趋同,英雄才造时势,英雄又很少,因此针对历史的大量研究都趋向于统计群体的数据,而不是个体。

但现代社会有很大的不同,物质的丰富加上精神的多彩使得人类个体对于如何生活有了更多的选择。人民群众造时势,时势造英雄,人人又都是英雄。把我们人类自己看成数据的生产者,生活中更多的选择实质上生产出了更多种类的数据。以前是千人一面,现在则可能一人千面,人类社会的发展本质上是一个熵增的过程。

人与动物的一个重要区别就是人会制造和使用工具。现代人拥有足够多的工具,相比我们的祖先,我们可以在更少的时间中做更多的事。这个说法听上去太具有诱惑力了,从极限上来说,人类可以在有限时间内做无限的事务,虽然我们的感觉反而是现代人越来越没有时间了:(。那么反过来对于数据来说,它们就拥有了我们越来越多的时间,也至于无限。从这个角度来说,不是我们拥有了数据,而是数据拥有了我们。

继续深入,则应该能想到大数据发展的一个方向可以是"个人的大数据",即这种应用的目的是为单个人创建他自己的数据库和分析系统。因为单个人的数据量都已经大到可称为大数据的地步了。

目前来看,要想获得一个人的数据,最根本的是掌控他的时间。一个人最宝贵的也就是他的时间。各种APP应用本质上作为数据收集器,首要任务就是吸引人们沉浸其中,因为数据量大小取决于人们在某个应用上耗费的时间。

然而,当一个应用占用人们过多的时间时,情况又发生变化。一个显而易见的的例子是,各种自诩精准推送的应用,往往推荐的东西并不是用户想要的,或者说正是应用"培养"了用户,而用户本来并非如此。那么这种屁股决定脑袋的数据及其分析显然是不准确的。

大数据是我们的工具,用来辅助决策,节省决策的时间。一方面是通过大数据系统组件的发展升级以及越来越快的硬件,此所谓工具的工具。一方面是大数据的应用,搜索,电商,金融,医疗,以至生活的方方面面。

数据虽然多了,但是处理快了,节省了人们的思考时间。能否思考是活人与死人的唯一区别。在2015年,人类总共创造了4.4ZB(44亿TB)的数据,而这个数字大约每两年就会翻倍,但每年只有不到10%的数据会被分析处理。人们又是否为了节省决策的时间而在搜集和处理数据上花费了更多的时间?所谓的“资源诅咒”会不会在大数据领域出现呢?

时间: 2024-10-11 16:25:39

大数据与时间的相关文章

大数据算法(一)亚线性算法

来源:大数据算法 王宏志 一.概述 大数据定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法. 大数据特点:4V 大数据算法可以不是: 精确算法 内存算法 串行算法 仅在电子计算机上运行的算法 大数据算法不仅是: 云计算 MapReduce 大数据分析和挖掘的算法 难度: 访问全部数据时间过长 读取部分数据 亚线性算法 数据难以放入内存 将数据存储到磁盘上 外存算法 仅基于少量数据进行计算 空间亚线性算法 单个计算机难以保存全部数据 并行处理 并行算法 计算

java学习第13天( java获取当前时间,有关大数据的运算及精确数字运算,Date类)

一 java获取当前时间 学习一个函数,得到当前时间的准确值 System.currectTimeMillis(). 可以得到以毫秒为单位的当前时间.它主要用于计算程序运行时间,long start=System.currectTimeMillis() ,long stop=System.currectTimeMillis() , stop-start; 二  有关大数据的运算及精确数字运算. 此时integer不适用.我们使用BigInteger ,如:BigInteger B= new Bi

Pandas中如何处理大数据?

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

联合国“全球脉动”计划 《大数据开发:机遇与挑战》

联合国"全球脉动"计划发布<大数据开发:机遇与挑战>2012 年 5 月 29 日,联合国"全球脉动"( Global Pulse)计划发布<大数据开发:机遇与挑战>报告,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议.1. 引言技术创新和数字设备的普及带来了"数据的产业革命".对日益扩大的数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式.大数

大数据vs计算机

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts and Techniques>.第二本比较厚,也多了一些数据仓库方面的知识.如果对算法比较喜欢,可以再阅读<Introduction to Machine Learning>.当然,还

在云计算资源池上自动部署业务应用的大数据平台组件开发实战

在云计算提供的分布式资源池构建能够自动部署业务应用的平台组件,该平台组件能够非常简易的被众多的并发终端使用,从而轻而易举的提供业务支持: 尤其是值得注意的是,如果有需要的话,我们的不同业务组件和业务本身可以发生数据和资源的共享,这对于资源和数据的复用,尤其是对于效率的提升是至关重要的.         课程介绍   基于“在资源池上自动部署业务应用的平台组件”的要求,课程包含Spark的架构设计.Spark编程模型.Spark内核框架源码剖析.Spark的广播变量与累加器.Shark的原理和使用

大数据日知录:架构与算法

大数据丛书 大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术) 张俊林 著   ISBN 978-7-121-24153-6 2014年9月出版 定价:69.00元 404页 16开 编辑推荐 这是一本心血之作,历时3年,质量上乘. 从架构与算法的角度,比较全面地分门别类梳理了大数据相关技术. 本书内容紧跟技术前沿,讲解深入浅出,适合大数据领域所有技术人员. 书中还列有作者优选的高质量文献,能为读者节省选择的时间,绝对值得一读. 内容提要 大数据是当前最

计算机网络管理基础服务安装+大数据时代的网络运维

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络

读&lt;&lt;大数据时代&gt;&gt;的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是