从阿里走出来的创业公司,将如何颠覆大数据产业?

时至今日,大数据应用的重要性已经毋庸置疑。8月19日国务院常务会议通过《关于促进大数据发展的行动纲要》,会议认为开发应用好大数据这一基础性战略资源,有利于推动大众创业、万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势。之前,在5月贵阳数博会上国家总理***发贺信强调中国是人口大国和信息应用大国,拥有海量数据资源,发展大数据产业空间无限。

根据美国市场调查公司Wikibon的数据,2014 年全球大数据市场规模同比增长53.2%达到285 亿美元,2017年全球大数据市场将达470亿美元的规模。而国内数据方面,根据国内市场调查公司易观国际,2014 年我国大数据市场规模同比增长28.4%达到75.7 亿元,到2017年我国大数据市场规模将达170亿元规模。

尽管面对如此巨大的市场和举全国之力发展大数据产业的大趋势,大数据目前在我国的发展依然面临较大的瓶颈。最大的瓶颈来自于基础设施建设带来的高速增长已经开始放缓,通过大数据分析来创造价值的需求越来越大。企业现在最大的困惑是积攒了一大堆数据,但却不知道能拿这些数据做什么用。在数据挖掘分析、可视化及大数据整体解决方案等方面,市场上仍然缺乏有效的工具、平台或解决方案商。

大数据产业的核心是数据分析


根据2012年出版的涂子沛的《大数据》一书记载,2010年全球企业一年新存储的数据就超过了7000PB、全球消费者新存储的数据约为6000PB,这相当于十多万个美国国会图书馆的藏书量。最为可怕的是,从2010年至今仍然在不停地出现各种各样的新设备、新机器和新技术,在帮助政府、企业和个人产生更多的数据。无论是越来越便宜的智能手机,还是小到无屏幕的智能玩具;无论是生产线上的智能传感器,还是智能汽车里的车联网设备,都在源源不断24×7地的产生海量数据。

但是,原始的大数据并不会直接转换成商业价值,商业价值必须通过数据分析来实现。中国商业联合会数据分析专业委员会的《中国数据分析行业发展报告(2014)》认为,当前社会对大数据的认知存在误区,这种误区集中体现在一谈起大数据就把大数据当作是IT。无论是各级政府,还是BAT抑或国内外电信运营商、IT厂商等,都借着大数据之风大建特建数据中心。而多名知名学者和院士都指出,大数据的核心价值在于分析,大数据时代的核心在于数据分析能力的提高。

实际上数据分析与可视化在整个大数据生命周期的最上层。大数据生命周期从数据源开始,经过数据获取与治理后进入存储系统,在需要的时候将数据调出进行计算处理,通过数据分析与可视化直接将数据变现或用于数据驱动的决策。可以看到,当前的大数据产业发展集中在数据存储这个环节,数据获取与数据治理以及数据分析和可视化都在起步阶段,特别是数据分析和可视化远远落后于市场需求,这成为一些创业公司的机会。

免费的大数据可视化分析平台


创业公司国云数据经过两年的研发,开发出了一个大数据可视化分析平台:大数据魔镜。这个平台分为云平台版、基础企业版、标准企业版、高级企业版和Hadoop版。其中云平台版为永久免费SaaS版,提供常用数据分析模型和算法,能实现500多种可视化效果。按照公司创始人兼CEO马晓东的说法,就是要实现人人都能上手的大数据分析。

国云数据的大数据可视化分析平台非常奇特,它通过Windows的拖拽方式让用户在不同数据集之间自由组合,探索不同数据集之间的关联和潜在关系。实际上现在很多企业想挖掘大数据这座金矿,但难题在于企业并没有数据分析师。这首先是合格的数据分析师就很难找,而已经找到的数据分析师也很难保留,因为整体数据分析师的稀缺性造成了人才的高成本和高流动性。

根据中国商业联合会数据分析专业委员会下属数据分析师事务所与企业的实际接触来看,很多企业的业务部门不了解数据分析,也不了解数据分析的应用场景和价值,因此难以提出数据分析的准确需求。由于业务部门需求不清晰,数据分析部门又是非盈利部门,导致很多企业在组建数据部门时犹豫不决,或者处于观望尝试的态度,从根本上影响了企业在数据分析方向的应用和发展,也阻碍了企业挖掘自身的数据资产。

国云数据大数据魔镜的免费云平台版恰恰就解决了企业缺乏数据分析师和数据分析部门的困难,任何没有数据分析知识的业务人员能够很快掌握这款SaaS软件。大数据魔镜云平台版的交互界面是类似Windows的图形交互方式,普通用户都能够很容易地明白不同菜单的功能,以及如何把不同数据集放在一起再通过可视化方式找到中间的潜在关系。云平台版自带了多种数据分析算法和模型,用户只需要简单选择算法模型即可,自动机器学习引擎能够跟踪和不断辅助发现潜在数据关联。而可视化的分析结果呈现方式,能让用户简单明了观察到数据之间的关联。

“免费的大数据可视化分析平台让大数据应用的门槛一下了降到了零。”马晓东说。

大数据分析进入秒级时代


过去大数据分析一直难于推进,还有一个很重要的原因是数据处理时间过长。马晓东介绍说,国云数据的大数据分析平台能在2秒钟内处理20亿条数据,这给了大数据应用的极速体验。大数据应用的用户体验进入秒级时代,这是大数据分析能够真正走进千万家企业的关键。

国云数据的大数据分析能做到2秒处理20亿条数据,这直接受益于马晓东之前为谷歌做分布式网格计算以及在阿里负责早期大数据平台的经历。马晓东在湖南大学就读期间就带领百人团队参与了谷歌、IBM合作的大数据分布式计算技术商业项目,同时在国家云计算重点实验室与国内外学者一起参与国家863云计算大数据研发项目。2010年,马晓东大学毕业进入阿里巴巴集团,参与阿里大数据平台大数据框架构建,并担任淘宝大数据项目负责人。2011年底,马晓东从阿里辞职,组建国云数据开始创业。

马晓东是中国早期为数不多把Hadoop全部源代码进行了优化和修正的技术人员。在阿里期间,他参与了阿里大数据部门的组建,当时掌管了包括支付宝、阿里P2P、天猫、淘宝等在内的所有阿里数据。在阿里从事大数据平台搭建和技术开发的时候,马晓东发现市场上都在关注Spark这样的大数据技术,并根据大数据技术反推商业模式,他认为这是对大数据认知的误区。阿里的实践让马晓东理解到数据分析能为企业带来的真正价值,以及为企业搭建一个真正意义上流动的数据价值体系的重要性。

据马晓东回忆,当时阿里已经搭建了数据仓库体系,但业务人员为了要某个数据,需要向技术人员提交申请,再等上几个工作日后才能获得从数据仓库中提取出来的数据,这也是通常企业数据仓库运作的方式。但在分秒必争的商业时代,速度和时间就是核心商业竞争能力,马晓东在大数据魔镜的技术上实现了2秒处理20亿条数据,“IBM等国外厂商既达不到这种速度,也无法处理这个量级的数据。”而大数据魔镜则通过自有知识产权的内存计算,解决了海量数据秒级化处理的难题。

为什么“去IOE”?数据安全固然是考虑的一个因素,但更大程度是因为IOE的技术无法承载当前中国出现的海量规模数据。“以苏宁网商为例,每天的点击量是30亿,这已经远远超出了国外厂商技术的设计上限。” 而这正是大数据技术的门槛所在,研发大数据技术必须要有实验田,而中国是世界是最大的大数据试验田。“我曾经说过,大数据的未来一定在中国,因为数据量足够大、足够丰富,数据的红利比较高。”

大数据魔镜可支持多种数据源,接入各类数据源的方式也非常简单。大数据魔镜的企业版可以按私有云方式部署在企业内部,其中标准企业版还提供了移动BI平台,非常类似微软今年推出的Power BI。而高级企业版则提供了1000多种数据挖掘算法,Hadoop版进一步支持PB级海量数据实时计算,还可接入包括淘宝API、微博API、微信API等90多种数据源。大数据魔镜本身还提供百亿条公共数据,随着供用户接入进行关联分析,比如某款衣服销量与天气的关系等。

IDG 调查显示,2014 年大企业对与大数据有关的项目的平均开支为800 万美元,70%的大企业已经部署或正在计划部署与大数据有关的项目。“我们非常期待遇到华为这样的世界一流客户。因为华为已经把市场上所有的BI工具都买了一遍,买了以后的问题在于接口太多、数据又分散、不同BI工具之间缺乏兼容性与共享性等。我们能通过一整套的大数据解决方案,解决像华为这样大企业的碎片化BI难题。”

自2013年推出第一个版本后,大数据魔镜现在已经有15000家用户,其中包括军工、政府、企业等多种类型。随着云平台免费版的推出,更多的中小企业以及大企业的不同业务部门都能有机会“玩转”大数据,而只有更多的普通业务人员都能上手大数据分析,才能真正让大数据落地、变现为真正的商业价值。(文/宁川)

更多精彩内容尽在《云科技时代》微信号:CloudTechTime

时间: 2024-10-23 04:06:41

从阿里走出来的创业公司,将如何颠覆大数据产业?的相关文章

阿里,腾讯内部十二个大数据项目,你都有做过吗?

随着社会的进步,大数据的高需求,高薪资,高待遇,促使很多人都来学习和转行到大数据这个行业.学习大数据是为了什么?成为一名大数据高级工程师.而大数据工程师能得到高薪.高待遇的能力在哪?自然是项目经验.下面给大家大概介绍一下在阿里的"双11"."双12"."双旦"即将到来的"618"与腾讯大数据都用上的十二个大数据项目:阿里,腾讯内部十二个大数据项目,你都有做过吗?一个大数据分析项目关键构成如下: 信息采集组.数据清洗组.数据融合

阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻炼.4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献.集团内部超过万台的规模,单集群超过千台,全球领先. 二.HBase技术团队重磅发布X-Pack,重新赋能轻量级大数据平台 阿里云自从17年8月提供HBas

阿里年薪50万的JAVA工程师转大数据学习路线

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机的. Java程序员想转大数据可行吗?Java是全世界使用人数最多的编程语言.不少程序员选择Java做为了自己的编程第一语言,但随之而来的是Java程序员接近饱和的人才市场.由此,随着大数据时代的到来,有很多Java程序员想要转行大数据. 不得不说,大数据行业可以说是为Java程序员量身打造的一个朝阳行业?为什么要这么说呢? 互联网是当下流行趋势,且未来可期.大数据的发展亦是时代发展的必然,如果大家还想要了

阿里爸爸大数据的应用与展望(笔记)

阿里全息大数据构建与应用笔记 阿里全息大数据构建与应用笔记 这个双十一你剁手了吗?→_→反正我的手机是收到了来自阿里爸爸的各种短信轰炸- 然而在购物之余,你又是否能够回答这么几个问题:电商是如何应用在大数据相关技术的?大数据给在线营销带来了怎么样的变革?在线购物体验在过去几年发生了怎么样的变化? 那么接下来就来看看大数据与在线营销能擦出怎样的火花- 1.数据的进化历程 ①大数据与数据的区别 ○量大,如果你只有几千条几百条的数据,还不好意思叫大数据 ○彼此关联,如果你的数据东一个西一个没什么关联,

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(三) 针对在线服务的资源强稳定

免费开通大数据服务:https://www.aliyun.com/product/odps 转载自xingbao 各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第三篇,今天主要介绍针对在线服务的资源强稳定 一.FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所示: 作为调度器,目前FuxiMaster支持的功能主要有: 1.多租户管理 2.支持FIFO/FAIR调度策略 3.针对在线服务保持资源强稳定(

阿里大数据之夏—我的坎坷进阶路

阿里大数据之夏—我的坎坷进阶路 五一节时,经管院的老乡跟我说,阿里有个资金流入流出预测的大赛,要不一起打打.我说我先看看,当天把数据下载下来琢磨了一番. 当时好像是3万用户的数据,数据量还是不小.有很多字段,用户表中有什么性别啊,城市啊,星座啊啥的,用户行为表中也有10来个字段,申购余额宝是从银行卡里来还是从支付宝来的,赎回是消费还是赎回到银行卡还是赎回到支付宝,这么多用户行为数据,想想还是蛮激动的.这么多数据来预测9月份的每一天申购赎回,应该很easy啊. 但是有个问题,他这个不是0-1预测,

阿里的野心:大数据搬家记

进入微软.亚马逊,谷歌等美国IT企业工作人才项目,起薪40万,百度搜索(MUMCS) 这可以看做是阿里实施大数据战略的记事文~希望对关注大数据的朋友有所启发. 作为中国最大的电商集团,阿里巴巴一直善于自省自查.大数据革命的旋风吹到中国,让阿里巴巴得以机会发现自己脚下土地的松动.按照"数据基础决定上层建筑"的逻辑,阿里巴巴祭出一系列数据迁移和优化项目--重塑阿里电商生态系统的生命之树正破土生发.然而,"釜底抽薪"般的大动作可是需要拿出十万分的谨慎和耐心-- 高空任务

阿里怎么“玩”大数据?

当大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河. 500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度. 当大数据开启一个时代时,阿里巴巴集团(下称阿里)从海量交易数据中挖掘有价值的数据,犹如在大海中航行,马云的鸿鹄之志也是那张航海地图.只是哥伦布的目的地是印度,马云的目标是大数据. 马云宣称平台.金融和数据是阿里未来的三大战略方向.其实,“阿里未来本质上是一个数据公司”,电商越来越离不开数据,金融的核心也是数据.

大数据时代的结构化存储—HBase在阿里的应用实践

摘要: # 前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台. 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅. 前言时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台.这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅.从最初的淘宝历史交易记录,到去年的支付宝