大数据,第三次工业革命的战略资源

什么是大数据

“大数据”一词已经无处不在,然而其概念仍然存在混淆。有人从数量大、速度快、种类多等特征定义大数据;有人把大数据看作一项新技术,例如大数据处理技术Hadoop和非关系型数据库NoSQL;有人从大数据与数据的区别角度提出,大数据不仅包括人们过去搜集、存储和分析的交易数据,更包括人们从点击网页等操作中得到的交互数据以及机器自动搜集的观察数据;还有人认为大数据是一种新的预测信号,在传统情况下,当数据被记录时,人们已经无法对它们采取任何行动,组织在不断管理“失效的数据”,而在“新世界”,组织可以使用信号数据预测将发生什么,并通过干预改善情况。

值得注意的是,无论如何定义,业界几乎所有人都普遍认同,大数据不只是更多的数据,大数据是一个大事件,在未来几年将带来重大的机遇。

大数据与数据有何不同

“大数据”一词由英文“Big Data”翻译而来。很多文章在介绍大数据这一概念时都侧重于强调其“大”,即需要处理的信息量过大,已经超出了一般计算机在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。

然而,究竟多大才算是大数据?这个问题并没有标准答案,因为大数据的标准是不断调整的。麦肯锡全球研究所报告对大数据有以下定义:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。这个定义有意地带有主观性,即我们不以超过多少TB为大数据的标准。我们假设随着时间的推移和技术的进步,大数据的量仍会增加。还应注意到,该定义可以因部门的不同而有所差异,这取决于什么类型的软件工具是通用的,以及某个特定行业的数据集通常的大小。因此,今天众多行业的大数据范围可以从几十TB到数千TB。

有人可能有这样的疑问:大数据不就是数据分析的另一种说法吗?大数据与数据究竟有何不同?大数据与传统的数据挖掘相比,与其说是一种量的进步,不如说是一种质的飞跃。人们在大数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的。

高德纳的一份报告认为:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。这一概念虽然简洁,却内涵丰富:第一,它认为大数据是一种信息资产;第二,这种信息资产具有海量、高增长率和多样化的属性;第三,它指出了大数据的应用价值和革新意义,即具有更强的决策力、洞察力和流程优化能力。

笔者更赞同高德纳的定义,把大数据看作一种战略和习惯,一种新的世界观和方法论。例如,谷歌不用分发口腔试纸和联系医院,就能给出和基于大量真实病例所得到的流感情况一致的结果,并且比疾控中心提前了两周,就是因为它分析了数千亿的数据,建立了强大的预测模型。从2009年10月起,“谷歌流感趋势”网站开始提供全球每周流感疫情预测,对于数据较完备国家的预测能精确到省份,并能显示横跨7年的历史数据。

另一个有代表性的例子发生在能源计量领域。美国软件公司Opower与多家电力公司合作,在几百万户家庭安装了智能电表,这些电表每隔15分钟就读一次用电数据。Opower公司据此每个月向每户家庭提供一份个性化报告,把该家庭的电费与周围邻居进行对比,显示该家庭的用电情况在全美类似家庭中所处的水平,以鼓励节约用电,预计每年为美国消费用电节省5亿美元。由此可见,大数据成为政府节能减排的千里眼、万只手,并且做到了深入每户家庭、量身定制解决方案,这在入户抄电表的传统工作方式下根本是无法想象的事情。

打开数据利用的想象空间

分析师马特·艾斯莱特将大数据定位为“之前因为技术限制而被忽略的数据”。的确,尽管从数据中发现价值的实践由来已久,但是在大数据时代,数据的价值才真正被发掘出来,人们用数据说话、用数据决策、用数据管理、用数据创新的意识才真正被唤醒。

至顶网副总编赵效民提出了一个非常有意思的观点。他认为:“大数据的出现标志着人类在数据利用方面进入了一个新的阶段,它代表了一种理念(数据能源)、一种思路(从数据搜集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据和语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类认知数据的新能力,也进一步打开了人类在数据利用方面的想象空间。”

赵效民进一步阐述,放眼地球上的各种能源,就会发现大数据与其有太多相似之处。物质成为能源的前提在于人类?它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源。随着人类文明的进步,人类逐渐发现了越来越多的能源,比如煤、天然气、石油和太阳能。它们已经在地球上静静地存在了成万上亿年,只是在人类掌握了相应的科技与工具之后,它们才得到利用。数据也是如此,如果数据存在一个生成/采集—应用/加工—保存/管理—分析/挖掘—再保存或删除这样的一个周期,那么从其生成的那一刻起,它就存在应有的价值,只是在于你是否有能力发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下有石油,也无法开采,对所谓的数据分析,道理也是一样的。

从人类发展的历史来看,不断发现新能源是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的燃料。从这个角度讲,当前的大数据所带来的种种神奇只是人类在数据搜集、管理和分析等领域的一次进步而已,它有出现的必然,而非人类的一种顿悟。

新的数据技术既是数据大爆炸产生的基础,也为应对数据大爆炸提供了解决方案。信息和通信技术的融合与发展,廉价的存储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,是驱动大数据发展的技术基础。这些数据分析技术横跨数据库、统计学和机器学习等交叉学科。

从某种角度讲,大数据其实就是人类能源开拓历史在信息技术领域的一种再现与映射。大数据中谈到的数据搜集、汇总、保存、管理、分析、呈现,与能源的勘探、开采、汇聚、保管、提炼、使用一一对应。在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。它是人类信息技术水平发展到一定阶段的必然结果。它赋予了人类对数据认知的新能力,也进一步打开了人类在数据利用方面的想象空间。

第三次工业革命的战略资源

美国经济学家杰里米·里夫金提出了第三次工业革命的概念。在他看来,通信技术和能源技术的基础设施的变革是工业革命的主要推动力,并引发了经济和社会的转型。互联网技术与可再生能源的结合正在孕育第三次工业革命的基础设施—能源物联网。而第三次工业革命的主要内容便是解决前一次工业革命没有解决的问题。

在农业化浪潮中,一个木匠做家具可以是一把好手,但他在扩大再生产、创造社会化价值上是业余水平。在工业化浪潮中,生产者具有了大规模社会化地生产有用的东西的能力与环境,但是由于信息不对称,生产者的生产和服务经常是盲目的。生产者缺乏信息,不知道消费者需要什么,经常费了很大劲生产出市场不需要的东西,也就是创造了一大堆有价值而无意义的东西,因而实现不了价值。故第三次工业革命的使命便是通过信息化与数据化实现价值的最大化,通过个人对个人的一对一关系发展起来,以数据为中介,在经济上表现为多样化、差异性、个性化体验。

2012年4月21日,《经济学人》专题讨论了大数据分析第三次工业革命,并强调3D(三维)打印是第三次工业革命的核心推动力。如同第一次工业革命实现了机器生产对手工作坊的替代,第二次工业革命实现了规模化生产一样,以3D打印为代表的数字化制造将推进新软件、新工艺、机器人和个性化网络服务的普及,最终实现大规模定制化生产、分散式就近生产。

在第三次工业革命中,数据、计算将成为战略资源,扮演重要角色,如果把计算看作能源,视作能像电能、太阳能一样流通的资源,并以统一的价格收费,我们将来用三步计算、五步计算也就并不在乎计算从哪里来,就像我们不知道今天的5度电是来自大亚湾还是三峡。未来,大数据相关的技术和能力将成为一个国家至关重要的核心战略资源。

为了提升中国在第三次工业革命中的发展速度,为进入下一个经济周期做好准备,我们的每一个企业、科研团队和政府,都有责任通过一些计划,有目的地搜集、处理、分析、索引数据,IBM(国际商业机器公司)设立了“智慧地球”项目,现在,中国也有一些行业(如通信运营商、金融银行企业单位、政府交通部门)在制订类似的行业计划,通过信息化改造实现海量数据的搜集和处理,这些数据在未来可能产生现在所想象不到的价值,也需要现在的企业家、政府部门做好准备。

总之,无论是以智能电网为基础的能源物联网,还是以3D打印为基础的数字化制造,大数据数据分析软件都是以第三次工业革命的“新石油”这一重要战略资源的形态存在。可以想象,未来云计算、物联网和大数据将成为基础设施,移动互联网和3D打印技术将成为共性平台,数据分析和机器人等人工智能控制将成为服务手段,那么数据、知识和价值的按需分配、多次挖掘将成为新经济形态的不竭动力。

【了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com】

时间: 2024-10-05 18:53:40

大数据,第三次工业革命的战略资源的相关文章

大数据的三个入口

大数据的热门使得非常多人都想往这个方向发展,做一些像数据挖掘,数据分析之类的工作.可是该从何開始呢?要如何才干高速学到一些实用的知识,技能呢?我认为有三个切入点,按照个人特点能够自行选择顺序切入. 1机器学习/数据挖掘 数据挖掘主要依赖于大部分机器学习算法,近些年因为深度学习算法的开发以及无人驾驶汽车等应用的实习使得机器学习变得热门,可是机器学习是个非常深的学科,专门讲这门课程的学校也不多,对于硕士生,假设学过最优化等,学起来比較easy,但本科生要学好,就要非常扎实的概率论与数理统计的基础.之

企业存储大数据的三种环境

大数据的部署实施需要结合具体的应用场景.实际上,企业大数据的存储处理可以用 “三只小猪盖房子”(分别使用稻草.木头和砖头)的故事来说明,这个故事能更形象地反映数据存储环境下与交付服务(成本)相对应的不同保护级别(完整性和可靠性). 财务数据.对外报告和法规遵从性数据需在“砖房”(BRICKS)环境中存储处理.这些数据需要可靠的硬件基础设施,并与其原始来源保持一致.企业中多个职能部门使用产品服务定价决策.销售业绩及分析以及至关重要的员工/管理层薪酬激励机制计算等财务数据,这是很常见的情况. 精心设

成功运用大数据的三个原则

现如今,大数据能够帮助企业确定客户的需求,大数据能够确定客户的偏好并且大数据还能确定客户的愿望,大数据能够帮助他们了解如何满足这些不同的需求,大数据能够帮助他们如何满足特点怪癖和特性. 一.基于事实做决策,而不是凭直觉 数据分析为企业带来的最大好处是,可以基于确切数据来作出决策,而不是凭直觉.在企业意识到这一点后,企业会采取具体的步骤来满足企业需求,即客户需求.内部需求.物流需求等. 数据分析可以帮助指导企业的业务决策,通过分析数据,帮助企业决定是否继续提供某种产品或服务,不仅是基于销售数字,还

初识大数据(三. 大数据与人工智能的关系)

大数据与人工智能有什么关系呢?AI本身就是一种大数据的应用,特别是在对于AI系统进行训练的时候,使用的数据越多,AI系统就越先进.也就是说对于人工智能系统进行训练使用的数据量越大,数据质量越好,人工智能系统的质量就越高,从这个意义上来说AI本身也是一种大数据应用.        机器学习是人工智能的子集,深度学习是机器学习的子集,但是深度学习的影响是最大的,比如图像识别.语音识别.语义识别.   常用框架: 1. Scikit-Learn: 基于 Python 语言的机器学习工具, 该算法库显得

大数据开发:(三)flume上传HDFS

开启hadoop:start-dfs.sh 通过浏览器访问node节点,http://IP:50070 检查 (如果无法访问,将防火墙关闭) 如果jps查看缺少了某个节点,首先查看xml文件是否正确,如果正确,删除hadoop/tmp文件夹,然后再次格式化,(格式化会重新创建hadoop/tmp),再次启动 操作分布式文件存储系统HDFS 查看hdfs中的文件内容 hadoop fs -ls / 查看hdfs中的详细内容hadoop fs -ls / 在HDFS中创建文件夹hadoop fs -

初识大数据(三. Hadoop与MPP数据仓库)

MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法. 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果. MPP DBMS是建立在这种方法之上的数据库管理系统.在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程,它们的运行时间比传统的SMP RDBMS系统快得多.该架构的另一个优点是可扩展性,因为可以通过添加新节点扩展网格.为了能够处理大量的数据,这些解决方案中的数据通常在每个节点只处理其本地数据

大数据第三天作业

1.定义一个函数,函数功能是动态提取int[]中元素的最大值. public class Main { /**  * 定义一个函数,函数功能是动态提取int[]中元素的最大值.  */ public static void main(String[] args) { //定义数组 int[] nums = new int[5]; //初始化数组 for(int i= 0;i<5;i++){ nums[i] = i; } int max = getMax(nums); System.out.pri

大数据【三】YARN集群部署

一 概述 YARN是一个资源管理.任务调度的框架,采用master/slave架构,主要包含三大模块:ResourceManager(RM).NodeManager(NM).ApplicationMaster(AM). >ResourceManager负责所有资源的监控.分配和管理,运行在主节点: >NodeManager负责每一个节点的维护,运行在从节点: >ApplicationMaster负责每一个具体应用程序的调度和协调,只有在有任务正在执行时存在. 对于所有的applicati

大数据存储系统三

目录 一.Document Store 1.数据模型 1.1 Json 1.2 Google Protocol Buffer 2.MongoDB 2.1 API and Query Model 2.2 Architecture 二.图存储系统 1.图数据模型 2.Neo4j 3.RDF和Sparql (本文为陈世敏老师课程笔记) ----------------------------------------------------- 一.Document Store 1.数据模型 1.1 Js