什么是大数据
“大数据”一词已经无处不在,然而其概念仍然存在混淆。有人从数量大、速度快、种类多等特征定义大数据;有人把大数据看作一项新技术,例如大数据处理技术Hadoop和非关系型数据库NoSQL;有人从大数据与数据的区别角度提出,大数据不仅包括人们过去搜集、存储和分析的交易数据,更包括人们从点击网页等操作中得到的交互数据以及机器自动搜集的观察数据;还有人认为大数据是一种新的预测信号,在传统情况下,当数据被记录时,人们已经无法对它们采取任何行动,组织在不断管理“失效的数据”,而在“新世界”,组织可以使用信号数据预测将发生什么,并通过干预改善情况。
值得注意的是,无论如何定义,业界几乎所有人都普遍认同,大数据不只是更多的数据,大数据是一个大事件,在未来几年将带来重大的机遇。
大数据与数据有何不同
“大数据”一词由英文“Big Data”翻译而来。很多文章在介绍大数据这一概念时都侧重于强调其“大”,即需要处理的信息量过大,已经超出了一般计算机在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。
然而,究竟多大才算是大数据?这个问题并没有标准答案,因为大数据的标准是不断调整的。麦肯锡全球研究所报告对大数据有以下定义:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。这个定义有意地带有主观性,即我们不以超过多少TB为大数据的标准。我们假设随着时间的推移和技术的进步,大数据的量仍会增加。还应注意到,该定义可以因部门的不同而有所差异,这取决于什么类型的软件工具是通用的,以及某个特定行业的数据集通常的大小。因此,今天众多行业的大数据范围可以从几十TB到数千TB。
有人可能有这样的疑问:大数据不就是数据分析的另一种说法吗?大数据与数据究竟有何不同?大数据与传统的数据挖掘相比,与其说是一种量的进步,不如说是一种质的飞跃。人们在大数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的。
高德纳的一份报告认为:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。这一概念虽然简洁,却内涵丰富:第一,它认为大数据是一种信息资产;第二,这种信息资产具有海量、高增长率和多样化的属性;第三,它指出了大数据的应用价值和革新意义,即具有更强的决策力、洞察力和流程优化能力。
笔者更赞同高德纳的定义,把大数据看作一种战略和习惯,一种新的世界观和方法论。例如,谷歌不用分发口腔试纸和联系医院,就能给出和基于大量真实病例所得到的流感情况一致的结果,并且比疾控中心提前了两周,就是因为它分析了数千亿的数据,建立了强大的预测模型。从2009年10月起,“谷歌流感趋势”网站开始提供全球每周流感疫情预测,对于数据较完备国家的预测能精确到省份,并能显示横跨7年的历史数据。
另一个有代表性的例子发生在能源计量领域。美国软件公司Opower与多家电力公司合作,在几百万户家庭安装了智能电表,这些电表每隔15分钟就读一次用电数据。Opower公司据此每个月向每户家庭提供一份个性化报告,把该家庭的电费与周围邻居进行对比,显示该家庭的用电情况在全美类似家庭中所处的水平,以鼓励节约用电,预计每年为美国消费用电节省5亿美元。由此可见,大数据成为政府节能减排的千里眼、万只手,并且做到了深入每户家庭、量身定制解决方案,这在入户抄电表的传统工作方式下根本是无法想象的事情。
打开数据利用的想象空间
分析师马特·艾斯莱特将大数据定位为“之前因为技术限制而被忽略的数据”。的确,尽管从数据中发现价值的实践由来已久,但是在大数据时代,数据的价值才真正被发掘出来,人们用数据说话、用数据决策、用数据管理、用数据创新的意识才真正被唤醒。
至顶网副总编赵效民提出了一个非常有意思的观点。他认为:“大数据的出现标志着人类在数据利用方面进入了一个新的阶段,它代表了一种理念(数据能源)、一种思路(从数据搜集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据和语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类认知数据的新能力,也进一步打开了人类在数据利用方面的想象空间。”
赵效民进一步阐述,放眼地球上的各种能源,就会发现大数据与其有太多相似之处。物质成为能源的前提在于人类?它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源。随着人类文明的进步,人类逐渐发现了越来越多的能源,比如煤、天然气、石油和太阳能。它们已经在地球上静静地存在了成万上亿年,只是在人类掌握了相应的科技与工具之后,它们才得到利用。数据也是如此,如果数据存在一个生成/采集—应用/加工—保存/管理—分析/挖掘—再保存或删除这样的一个周期,那么从其生成的那一刻起,它就存在应有的价值,只是在于你是否有能力发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下有石油,也无法开采,对所谓的数据分析,道理也是一样的。
从人类发展的历史来看,不断发现新能源是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的燃料。从这个角度讲,当前的大数据所带来的种种神奇只是人类在数据搜集、管理和分析等领域的一次进步而已,它有出现的必然,而非人类的一种顿悟。
新的数据技术既是数据大爆炸产生的基础,也为应对数据大爆炸提供了解决方案。信息和通信技术的融合与发展,廉价的存储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,是驱动大数据发展的技术基础。这些数据分析技术横跨数据库、统计学和机器学习等交叉学科。
从某种角度讲,大数据其实就是人类能源开拓历史在信息技术领域的一种再现与映射。大数据中谈到的数据搜集、汇总、保存、管理、分析、呈现,与能源的勘探、开采、汇聚、保管、提炼、使用一一对应。在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。它是人类信息技术水平发展到一定阶段的必然结果。它赋予了人类对数据认知的新能力,也进一步打开了人类在数据利用方面的想象空间。
第三次工业革命的战略资源
美国经济学家杰里米·里夫金提出了第三次工业革命的概念。在他看来,通信技术和能源技术的基础设施的变革是工业革命的主要推动力,并引发了经济和社会的转型。互联网技术与可再生能源的结合正在孕育第三次工业革命的基础设施—能源物联网。而第三次工业革命的主要内容便是解决前一次工业革命没有解决的问题。
在农业化浪潮中,一个木匠做家具可以是一把好手,但他在扩大再生产、创造社会化价值上是业余水平。在工业化浪潮中,生产者具有了大规模社会化地生产有用的东西的能力与环境,但是由于信息不对称,生产者的生产和服务经常是盲目的。生产者缺乏信息,不知道消费者需要什么,经常费了很大劲生产出市场不需要的东西,也就是创造了一大堆有价值而无意义的东西,因而实现不了价值。故第三次工业革命的使命便是通过信息化与数据化实现价值的最大化,通过个人对个人的一对一关系发展起来,以数据为中介,在经济上表现为多样化、差异性、个性化体验。
2012年4月21日,《经济学人》专题讨论了大数据分析第三次工业革命,并强调3D(三维)打印是第三次工业革命的核心推动力。如同第一次工业革命实现了机器生产对手工作坊的替代,第二次工业革命实现了规模化生产一样,以3D打印为代表的数字化制造将推进新软件、新工艺、机器人和个性化网络服务的普及,最终实现大规模定制化生产、分散式就近生产。
在第三次工业革命中,数据、计算将成为战略资源,扮演重要角色,如果把计算看作能源,视作能像电能、太阳能一样流通的资源,并以统一的价格收费,我们将来用三步计算、五步计算也就并不在乎计算从哪里来,就像我们不知道今天的5度电是来自大亚湾还是三峡。未来,大数据相关的技术和能力将成为一个国家至关重要的核心战略资源。
为了提升中国在第三次工业革命中的发展速度,为进入下一个经济周期做好准备,我们的每一个企业、科研团队和政府,都有责任通过一些计划,有目的地搜集、处理、分析、索引数据,IBM(国际商业机器公司)设立了“智慧地球”项目,现在,中国也有一些行业(如通信运营商、金融银行企业单位、政府交通部门)在制订类似的行业计划,通过信息化改造实现海量数据的搜集和处理,这些数据在未来可能产生现在所想象不到的价值,也需要现在的企业家、政府部门做好准备。
总之,无论是以智能电网为基础的能源物联网,还是以3D打印为基础的数字化制造,大数据数据分析软件都是以第三次工业革命的“新石油”这一重要战略资源的形态存在。可以想象,未来云计算、物联网和大数据将成为基础设施,移动互联网和3D打印技术将成为共性平台,数据分析和机器人等人工智能控制将成为服务手段,那么数据、知识和价值的按需分配、多次挖掘将成为新经济形态的不竭动力。
【了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com】