阿里ODPS降低大数据应用门槛

阿里云计算的ODPS从内部使用的工具变成了面向社会开放的大数据平台,开创了国内大数据公共服务的先河,降低了大数据在资金、人才和应用方面的门槛。

  小型企业只要花费几百元就能进行海量数据分析,这是真的吗?阿里云计算的大数据平台ODPS可以让你梦想成真。

  今年举行的阿里巴巴大数据竞赛,首次将ODPS和阿里的天池平台开放给参赛的大学生,这可以看成是ODPS商用的前奏。2014年1月,阿里云计算的ODPS服务开始公测。7月,ODSP正式开始商用。阿里云计算总裁王文彬认为,此举标志着中国的大数据已经进入公共服务的新时代。

  大数据平台即开即用

  云计算出现后,人们可以像使用水、电一样自由地取用IT资源。阿里云计算的ODPS就像是大数据时代的生产流水线,“水龙头”里流出的是用户想要的各类数据分析结果。阿里云计算公布的数据显示,ODPS可在6小时内处理100PB数据,这个数据量相当于1亿部高清电影。王文彬表示,目前全球范围内能够掌握这种技术能力的公司屈指可数,阿里云计算就是其中一家。

  人们使用传统解决方案处理大数据,通常要耗巨资自建数据中心,还要请专业的技术人员负责系统维护和运作,而一旦数据总量超过一定界限,比如100TB,那么数据处理就有可能遇到瓶颈。开源的Hadoop虽然提升了大数据处理的效率、降低了成本,但用户自建一个Hadoop集群花费不菲,而且还需要专业的技术人才。王文彬认为,ODPS对于大数据的最大贡献在于,它以公共服务的方式让人们以更低的成本使用大数据平台和工具,从而大大降低了大数据的应用门槛。从公开资料看,ODPS目前采用的是按使用量收费的模式,定价是每GB 0.3元,即开即用,一个月内免费。根据大部分公司的数据使用量来测算,一般用户平均每月只需花费数百元就可以享受到ODPS的服务。

  ODPS在对外商用之前,本来是阿里巴巴集团内部30多家公司自用的一个大数据平台。王文彬介绍说,阿里小贷最先将ODPS应用于商业领域,目前已有超过36万人从阿里小贷借款,最小贷款额仅为1元,并可实现3分钟申请、1秒放款、零人工干预。如果没有ODPS大数据平台,阿里小贷若想实现上述目标几乎是不可能的,因为阿里小贷每天处理的数据达30PB,包含店铺等级、收藏、评价等800亿个信息项,涉及100多个数据模型。

  在阿里小贷成功地作了一次“小白鼠”后,阿里巴巴集团内部的多个公司纷纷开始尝试ODPS,其中包括淘宝、支付宝等阿里巴巴最核心的数据业务。在ODPS趋于成熟后,阿里云计算终于下定决心将自己的大数据处理能力对外开放,以大幅降低社会创新成本。除了阿里巴巴自身以外,华大基因、国内的一些药监部门等也在ODPS大数据平台上进行了测试。

  目前,在国外,只有像Google、亚马逊等少数企业可以提供类似ODPS这样的公共大数据服务。在国内,ODPS公共大数据服务还属于开先河之作。王文彬也表示,阿里云计算有信心让ODPS变得比Google BigQuery更加强大,不仅支持更丰富的SQL语法,还将提供MapReduce编程模型和机器学习建模能力,服务更多的应用场景。

  云与大数据相辅相成

  回顾ODPS的发展,从2010到现在的5年时间里,阿里云计算的工程师们为ODPS贡献了250万行代码,ODPS经过不断打磨和历练,也从一个企业内部使用的大数据工具变成了可以服务于大众的成熟的大数据平台。

  一开始,ODSP只是作为阿里云计算“飞天”平台的一个重要组成模块出现。“飞天”是阿里云计算于2009年开始研发的一款分布式系统软件,主要提供分布式存储和分布式计算的调度和编程框架。ODPS最开始被用于阿里巴巴集团内部的海量结构化数据的处理和分析。

  2010年春节期间,ODPS的前身Sql Engine第一版正式上线,首个应用是支持阿里云金融的信用贷款和订单贷款业务,运行在30台机器的“飞天”集群系统之上。2012年第一季度,“冰火鸟”项目正式启动,研发团队在Data Engine和Moye之间做技术选择,并最终决定使用Moye作为ODPS产品的核心引擎。之后,历经8个月的开发,“冰火鸟”项目一期结束,阿里小贷和淘宝的数据仓库业务正式迁移到ODPS平台上,这标志着ODPS项目正式成形。

  随着技术的不断成熟,目前,ODPS已经运行在由5000台服务器组成的集群系统之上,这种规模在业内也是少有的。

  王文彬归纳了几条ODPS的产品优势。

  第一,高速的海量运算唾手可得。用户不必再关心由于数据持续增加带来的存储规模、计算延迟等方面的挑战,ODPS可以根据用户的数据规模自动扩展集群的存储和计算能力,让用户专心于数据分析和挖掘,从而最大程度发挥数据的价值。

  第二,ODPS服务即开即用。用户不必自己操心集群的配置和运维,仅需简单的几步操作就可以在ODPS中上传数据、分析数据并快速得到分析结果。

  第三,数据存储安全有保障。ODPS采用三重备份、读写请求鉴权、应用沙箱、系统沙箱等多层次的数据存储和访问安全机制,可以保证用户数据不丢失、不泄露、不被窃取。

  第四,实现多用户协作。通过配置不同的数据访问策略,企业用户的多名数据分析师可以协同工作,并且每人仅能访问自己权限许可范围内的数据,在保障数据安全的前提下提升工作效率。

  第五,按使用量付费。ODPS可以根据用户实际使用的存储量和计算消耗收费,从而有效地降低数据使用成本。

  云计算与大数据就像是一个硬币的正反两面。云计算实现了IT架构的变革,而大数据则改变了数据的使用方式,充分展现并挖掘出了数据的价值。“以前,IT可以简单地理解为是硬件加上软件。但是在云计算和大数据时代,IT就是云计算加数据。这对于IT来说是一次翻天覆地的变化。如今,今天再也不用采购IT硬件和软件,只要采用云服务即可。”王文彬告诉记者,“ODPS其实也是一种云服务,它将改变整个IT的使用模式、使用周期。ODPS让大数据可以以一种服务的方式呈现给大众。”

  阿里云目前在北京、杭州、青岛、香港等多地拥有多个数据中心节点,这为大数据公共服务提供了有力支撑。阿里云目前直接或间接服务的客户将近一百万个。“大数据公共服务是大数据发展历程中的一个里程碑。无论企业规模大小,都有数据处理、分析和挖掘的需求,这是业务发展的必然选择。阿里巴巴自身已经验证过ODPS这个大数据平台,并且可以满足企业用户对大数据公共服务水平的要求。”王文彬强调说,“我们希望将大数据处理平民化,让大数据变成人人都可以使用的工具,而不仅仅是大公司的专利。”

  ODSP需要一个生态系统

  ODPS虽然以降低传统大数据处理的资金、人才门槛为己任,但是ODPS本身其实也有一定门槛。王文彬解释说:“ ODPS并不是每个人都可以使用的。就像是编程一样,ODPS只是一个计算平台,用户要通过它上面叠加的多种工具才能实现大数据的处理。我们之所以开放ODPS平台,也是希望能有更多的合作伙伴可以在ODPS平台上进行二次开发,为用户使用大数据提供便利。ODPS的成功要依靠一个庞大的生态圈。”

  ODPS刚刚开始商业化,虽然现在已经有一些合作伙伴在做ODPS代运营的业务,并且开始在ODPS平台之上开放分析、报表工具等。但是要建设一个具有一定规模的生态体系还要花费一段时间。王文彬表示,阿里云计算准备用几个月的时间把这个生态体系的架构搭建好,吸引更多的合作伙伴加入进来。

  大数据有很多分类方法,其中一种分类方式是按照大数据的属性将大数据分成商业大数据、互联网大数据、机器大数据等。ODPS是不是能够处理所有类型的数据呢?王文彬回应说:“作为一个在线大数据平台,ODPS更擅长处理结构化的数据或半结构化的数据,但不能处理非结构化的数据。不过,未来,我们会在非结构化数据的处理方面做更深层次的探索,这主要取决于用户的需求。”

  目前,阿里集团大部分数据业务都运行在ODPS之上,包括阿里小贷、数据魔方、阿里妈妈广告联盟、广告搜索、点击预测模型训练、支付宝的所有业务、淘宝指数、阿里无线、高德、中信21cn等。基于ODPS,阿里云计算为第三方软件服务商和品牌商提供了大数据计算、挖掘、存储的云环境开发平台。通过阿里云的“御膳房”数据市场,数据消费者与数据提供者可以安全地交易、使用海量数据,实现数据价值。

阿里ODPS降低大数据应用门槛

时间: 2024-10-28 11:12:52

阿里ODPS降低大数据应用门槛的相关文章

阿里怎么“玩”大数据?

当大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河. 500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度. 当大数据开启一个时代时,阿里巴巴集团(下称阿里)从海量交易数据中挖掘有价值的数据,犹如在大海中航行,马云的鸿鹄之志也是那张航海地图.只是哥伦布的目的地是印度,马云的目标是大数据. 马云宣称平台.金融和数据是阿里未来的三大战略方向.其实,“阿里未来本质上是一个数据公司”,电商越来越离不开数据,金融的核心也是数据.

Centos7修改yum源为阿里源(大数据预科02_2)

##保证可以上互联网,不知如何联网查看大数据预科02_1 (1).安装wget软件 yum install -y wget 安装完成最后显示Complete,表示安装成功(2). 查看yum源信息: yum repolist 目前yum连接的是国外网站,普通(fq貌似现在管个很严)下载限制多和速度非常!非常!非常慢!(3). 进入安装目录 cd /etc/yum.repos.d (4).备份旧的配置文件 mv CentOS-Base.repo CentOS-Base.repo.bak (5).

大数据-国家发展规划

发展形势 当前全球信息化发展面临的环境.条件和内涵正发生深刻变化.从国际看,世界经济在深度调整中曲折复苏.增长乏力,全球贸易持续低迷,劳动人口数量增长放缓,资源环境约束日益趋紧,局部地区地缘博弈更加激烈,全球性问题和挑战不断增加,人类社会对信息化发展的迫切需求达到前所未有的程度.同时,全球信息化进入全面渗透.跨界融合.加速创新.引领发展的新阶段.信息技术创新代际周期大幅缩短,创新活力.集聚效应和应用潜能裂变式释放,更快速度.更广范围.更深程度地引发新一轮科技革命和产业变革.物联网.云计算.大数据

工信部<<大数据产业发展规划>>

大数据产业发展规划 (2016-2020年) 发布时间:2017-01-17  来源:规划司 数据是国家基础性战略资源,是21世纪的"钻石矿".党中央.国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出"实施国家大数据战略",国务院印发<促进大数据发展行动纲要>,全面推进大数据发展,加快建设数据强国."十三五"时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键时期,全球新一代信息产业处于加速变革期,大数据技

大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】

猛犸大数据平台经过去年一年的快速发展,已成为公司内多个产品的大数据开发工具的首选,作为一个当初定位为开发门户的这样一个平台网站,以调度管理为核心,将公司内已有的大数据工具进行了整合,提供了可视化的操作界面.统一的用户权限管理机制.洞悉原油开发流程的用户可以在猛犸上找到很熟悉的感觉,DS接入,MR任务的上传与调度控制,HIVE的查询等等.随着用户不断反馈,猛犸也在不断的进化,越来越多的组件涵盖了进来,交互和流程在不断改善.然而目前这样的框架这就是猛犸的终极形态吗?答案自然是否定的,可以说,眼前的猛

从阿里走出来的创业公司,将如何颠覆大数据产业?

时至今日,大数据应用的重要性已经毋庸置疑.8月19日国务院常务会议通过<关于促进大数据发展的行动纲要>,会议认为开发应用好大数据这一基础性战略资源,有利于推动大众创业.万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势.之前,在5月贵阳数博会上国家总理***发贺信强调中国是人口大国和信息应用大国,拥有海量数据资源,发展大数据产业空间无限. 根据美国市场调查公司Wikibon的数据,2014 年全球大数据市场规模同比增长53.2%达到285 亿美元,2017年全球大数据市场将达470

阿里的野心:大数据搬家记

进入微软.亚马逊,谷歌等美国IT企业工作人才项目,起薪40万,百度搜索(MUMCS) 这可以看做是阿里实施大数据战略的记事文~希望对关注大数据的朋友有所启发. 作为中国最大的电商集团,阿里巴巴一直善于自省自查.大数据革命的旋风吹到中国,让阿里巴巴得以机会发现自己脚下土地的松动.按照"数据基础决定上层建筑"的逻辑,阿里巴巴祭出一系列数据迁移和优化项目--重塑阿里电商生态系统的生命之树正破土生发.然而,"釜底抽薪"般的大动作可是需要拿出十万分的谨慎和耐心-- 高空任务

看大数据公司如何推动企业发展

看大数据公司如何推动企业发展 互联网时代,以大数据为核心的商业价值将成为各行各业争相开发利用的焦点,因为大数据驱动了一个时代的转型,就像是望远镜的出现让我们可以认识宇宙.显微镜的发明让我们能够观测微生物一样.大数据,是我们认识世界.理解世界以及改造世界的方式的改变,由此而衍生出大量的新发明与新应用,并为世界带来更多的改变和惊喜. 如今,大数据行业刚刚进入起步阶段,就已经革新了许多商业思维.商业模式.现在就让我们从一个宏观的概念,落入实际的应用.看看大数据在初级阶段,是如何推动企业发展的.   B

技术与架构,解析如何将大数据最快落地到实践

免费开通大数据服务:https://www.aliyun.com/product/odps 直播回顾: https://yq.aliyun.com/webinar/history?spm=5176.8067841.wnold.1.rLvSkQ 3月9日14点,业内首个结合技术与应用的在线大数据技术峰会即将展开,届时6位阿里技术大咖与4位行业资深实践者将从技术与业务两个方面,与大家探讨大数据如何最快落地到实践.较为有看点的是: 最深入的实践:本次在线峰会上,6个阿里规模的大数据实践将被深入分享,包