大数据的概念起源其实就和时间联系得非常紧密,一方面是单位时间内的数据种类和数据量,另一方面是历史时间内的数据积累,这两方面的交叉复合增长才使得数据可能被称为大。
从古至今,人类个体在单位时间内创造的数据本来是一样多的,但内在差别却很大。
第一种差别可以称做数据质量的差别。以前人们在单位时间内做的事情种类很少,可以很简单的做归类聚合。而现代人的任务切换太频繁了,因此需要更多的数据来进行描述。姑且不论做事质量的好坏,我们可以说以前的数据单一,质量差,现在在的数据丰富,质量好。
第二种差别涉及到可用性的概念,包括可获取性,可处理性,处理结果有无意义等。我们说以前的数据可用性差。最大的原因是收集方式匮乏,没有有效的手段获取数据。而另一个重要的原因就是大量个体产生的数据趋同,英雄才造时势,英雄又很少,因此针对历史的大量研究都趋向于统计群体的数据,而不是个体。
但现代社会有很大的不同,物质的丰富加上精神的多彩使得人类个体对于如何生活有了更多的选择。人民群众造时势,时势造英雄,人人又都是英雄。把我们人类自己看成数据的生产者,生活中更多的选择实质上生产出了更多种类的数据。以前是千人一面,现在则可能一人千面,人类社会的发展本质上是一个熵增的过程。
人与动物的一个重要区别就是人会制造和使用工具。现代人拥有足够多的工具,相比我们的祖先,我们可以在更少的时间中做更多的事。这个说法听上去太具有诱惑力了,从极限上来说,人类可以在有限时间内做无限的事务,虽然我们的感觉反而是现代人越来越没有时间了:(。那么反过来对于数据来说,它们就拥有了我们越来越多的时间,也至于无限。从这个角度来说,不是我们拥有了数据,而是数据拥有了我们。
继续深入,则应该能想到大数据发展的一个方向可以是"个人的大数据",即这种应用的目的是为单个人创建他自己的数据库和分析系统。因为单个人的数据量都已经大到可称为大数据的地步了。
目前来看,要想获得一个人的数据,最根本的是掌控他的时间。一个人最宝贵的也就是他的时间。各种APP应用本质上作为数据收集器,首要任务就是吸引人们沉浸其中,因为数据量大小取决于人们在某个应用上耗费的时间。
然而,当一个应用占用人们过多的时间时,情况又发生变化。一个显而易见的的例子是,各种自诩精准推送的应用,往往推荐的东西并不是用户想要的,或者说正是应用"培养"了用户,而用户本来并非如此。那么这种屁股决定脑袋的数据及其分析显然是不准确的。
大数据是我们的工具,用来辅助决策,节省决策的时间。一方面是通过大数据系统组件的发展升级以及越来越快的硬件,此所谓工具的工具。一方面是大数据的应用,搜索,电商,金融,医疗,以至生活的方方面面。
数据虽然多了,但是处理快了,节省了人们的思考时间。能否思考是活人与死人的唯一区别。在2015年,人类总共创造了4.4ZB(44亿TB)的数据,而这个数字大约每两年就会翻倍,但每年只有不到10%的数据会被分析处理。人们又是否为了节省决策的时间而在搜集和处理数据上花费了更多的时间?所谓的“资源诅咒”会不会在大数据领域出现呢?