时至今日,大数据应用的重要性已经毋庸置疑。8月19日国务院常务会议通过《关于促进大数据发展的行动纲要》,会议认为开发应用好大数据这一基础性战略资源,有利于推动大众创业、万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势。之前,在5月贵阳数博会上国家总理***发贺信强调中国是人口大国和信息应用大国,拥有海量数据资源,发展大数据产业空间无限。
根据美国市场调查公司Wikibon的数据,2014 年全球大数据市场规模同比增长53.2%达到285 亿美元,2017年全球大数据市场将达470亿美元的规模。而国内数据方面,根据国内市场调查公司易观国际,2014 年我国大数据市场规模同比增长28.4%达到75.7 亿元,到2017年我国大数据市场规模将达170亿元规模。
尽管面对如此巨大的市场和举全国之力发展大数据产业的大趋势,大数据目前在我国的发展依然面临较大的瓶颈。最大的瓶颈来自于基础设施建设带来的高速增长已经开始放缓,通过大数据分析来创造价值的需求越来越大。企业现在最大的困惑是积攒了一大堆数据,但却不知道能拿这些数据做什么用。在数据挖掘分析、可视化及大数据整体解决方案等方面,市场上仍然缺乏有效的工具、平台或解决方案商。
大数据产业的核心是数据分析
根据2012年出版的涂子沛的《大数据》一书记载,2010年全球企业一年新存储的数据就超过了7000PB、全球消费者新存储的数据约为6000PB,这相当于十多万个美国国会图书馆的藏书量。最为可怕的是,从2010年至今仍然在不停地出现各种各样的新设备、新机器和新技术,在帮助政府、企业和个人产生更多的数据。无论是越来越便宜的智能手机,还是小到无屏幕的智能玩具;无论是生产线上的智能传感器,还是智能汽车里的车联网设备,都在源源不断24×7地的产生海量数据。
但是,原始的大数据并不会直接转换成商业价值,商业价值必须通过数据分析来实现。中国商业联合会数据分析专业委员会的《中国数据分析行业发展报告(2014)》认为,当前社会对大数据的认知存在误区,这种误区集中体现在一谈起大数据就把大数据当作是IT。无论是各级政府,还是BAT抑或国内外电信运营商、IT厂商等,都借着大数据之风大建特建数据中心。而多名知名学者和院士都指出,大数据的核心价值在于分析,大数据时代的核心在于数据分析能力的提高。
实际上数据分析与可视化在整个大数据生命周期的最上层。大数据生命周期从数据源开始,经过数据获取与治理后进入存储系统,在需要的时候将数据调出进行计算处理,通过数据分析与可视化直接将数据变现或用于数据驱动的决策。可以看到,当前的大数据产业发展集中在数据存储这个环节,数据获取与数据治理以及数据分析和可视化都在起步阶段,特别是数据分析和可视化远远落后于市场需求,这成为一些创业公司的机会。
免费的大数据可视化分析平台
创业公司国云数据经过两年的研发,开发出了一个大数据可视化分析平台:大数据魔镜。这个平台分为云平台版、基础企业版、标准企业版、高级企业版和Hadoop版。其中云平台版为永久免费SaaS版,提供常用数据分析模型和算法,能实现500多种可视化效果。按照公司创始人兼CEO马晓东的说法,就是要实现人人都能上手的大数据分析。
国云数据的大数据可视化分析平台非常奇特,它通过Windows的拖拽方式让用户在不同数据集之间自由组合,探索不同数据集之间的关联和潜在关系。实际上现在很多企业想挖掘大数据这座金矿,但难题在于企业并没有数据分析师。这首先是合格的数据分析师就很难找,而已经找到的数据分析师也很难保留,因为整体数据分析师的稀缺性造成了人才的高成本和高流动性。
根据中国商业联合会数据分析专业委员会下属数据分析师事务所与企业的实际接触来看,很多企业的业务部门不了解数据分析,也不了解数据分析的应用场景和价值,因此难以提出数据分析的准确需求。由于业务部门需求不清晰,数据分析部门又是非盈利部门,导致很多企业在组建数据部门时犹豫不决,或者处于观望尝试的态度,从根本上影响了企业在数据分析方向的应用和发展,也阻碍了企业挖掘自身的数据资产。
国云数据大数据魔镜的免费云平台版恰恰就解决了企业缺乏数据分析师和数据分析部门的困难,任何没有数据分析知识的业务人员能够很快掌握这款SaaS软件。大数据魔镜云平台版的交互界面是类似Windows的图形交互方式,普通用户都能够很容易地明白不同菜单的功能,以及如何把不同数据集放在一起再通过可视化方式找到中间的潜在关系。云平台版自带了多种数据分析算法和模型,用户只需要简单选择算法模型即可,自动机器学习引擎能够跟踪和不断辅助发现潜在数据关联。而可视化的分析结果呈现方式,能让用户简单明了观察到数据之间的关联。
“免费的大数据可视化分析平台让大数据应用的门槛一下了降到了零。”马晓东说。
大数据分析进入秒级时代
过去大数据分析一直难于推进,还有一个很重要的原因是数据处理时间过长。马晓东介绍说,国云数据的大数据分析平台能在2秒钟内处理20亿条数据,这给了大数据应用的极速体验。大数据应用的用户体验进入秒级时代,这是大数据分析能够真正走进千万家企业的关键。
国云数据的大数据分析能做到2秒处理20亿条数据,这直接受益于马晓东之前为谷歌做分布式网格计算以及在阿里负责早期大数据平台的经历。马晓东在湖南大学就读期间就带领百人团队参与了谷歌、IBM合作的大数据分布式计算技术商业项目,同时在国家云计算重点实验室与国内外学者一起参与国家863云计算大数据研发项目。2010年,马晓东大学毕业进入阿里巴巴集团,参与阿里大数据平台大数据框架构建,并担任淘宝大数据项目负责人。2011年底,马晓东从阿里辞职,组建国云数据开始创业。
马晓东是中国早期为数不多把Hadoop全部源代码进行了优化和修正的技术人员。在阿里期间,他参与了阿里大数据部门的组建,当时掌管了包括支付宝、阿里P2P、天猫、淘宝等在内的所有阿里数据。在阿里从事大数据平台搭建和技术开发的时候,马晓东发现市场上都在关注Spark这样的大数据技术,并根据大数据技术反推商业模式,他认为这是对大数据认知的误区。阿里的实践让马晓东理解到数据分析能为企业带来的真正价值,以及为企业搭建一个真正意义上流动的数据价值体系的重要性。
据马晓东回忆,当时阿里已经搭建了数据仓库体系,但业务人员为了要某个数据,需要向技术人员提交申请,再等上几个工作日后才能获得从数据仓库中提取出来的数据,这也是通常企业数据仓库运作的方式。但在分秒必争的商业时代,速度和时间就是核心商业竞争能力,马晓东在大数据魔镜的技术上实现了2秒处理20亿条数据,“IBM等国外厂商既达不到这种速度,也无法处理这个量级的数据。”而大数据魔镜则通过自有知识产权的内存计算,解决了海量数据秒级化处理的难题。
为什么“去IOE”?数据安全固然是考虑的一个因素,但更大程度是因为IOE的技术无法承载当前中国出现的海量规模数据。“以苏宁网商为例,每天的点击量是30亿,这已经远远超出了国外厂商技术的设计上限。” 而这正是大数据技术的门槛所在,研发大数据技术必须要有实验田,而中国是世界是最大的大数据试验田。“我曾经说过,大数据的未来一定在中国,因为数据量足够大、足够丰富,数据的红利比较高。”
大数据魔镜可支持多种数据源,接入各类数据源的方式也非常简单。大数据魔镜的企业版可以按私有云方式部署在企业内部,其中标准企业版还提供了移动BI平台,非常类似微软今年推出的Power BI。而高级企业版则提供了1000多种数据挖掘算法,Hadoop版进一步支持PB级海量数据实时计算,还可接入包括淘宝API、微博API、微信API等90多种数据源。大数据魔镜本身还提供百亿条公共数据,随着供用户接入进行关联分析,比如某款衣服销量与天气的关系等。
IDG 调查显示,2014 年大企业对与大数据有关的项目的平均开支为800 万美元,70%的大企业已经部署或正在计划部署与大数据有关的项目。“我们非常期待遇到华为这样的世界一流客户。因为华为已经把市场上所有的BI工具都买了一遍,买了以后的问题在于接口太多、数据又分散、不同BI工具之间缺乏兼容性与共享性等。我们能通过一整套的大数据解决方案,解决像华为这样大企业的碎片化BI难题。”
自2013年推出第一个版本后,大数据魔镜现在已经有15000家用户,其中包括军工、政府、企业等多种类型。随着云平台免费版的推出,更多的中小企业以及大企业的不同业务部门都能有机会“玩转”大数据,而只有更多的普通业务人员都能上手大数据分析,才能真正让大数据落地、变现为真正的商业价值。(文/宁川)
更多精彩内容尽在《云科技时代》微信号:CloudTechTime