数加平台如何通过Serverless 架构实现普惠大数据

阿里云大数据 Serverless 理念

Serverless是一种架构理念,指的是以服务的形式来提供计算能力而不是以服务器形式,让开发者在构建应用的过程中不用过多考虑基础设施的问题。大数据业务本来就是最典型的计算业务,从计算的场景上来说,涵盖了离线批量计算、实时流计算、在线实时计算等,在很多情况下还需要把这些计算能力组合起来才能满足需求。所以Serverless 的架构天生就能很好的适用于大数据应用的场景,能把数据科学家从底层服务器层的运维管理等解放出来,让数据科学家专注在数据价值的探索挖掘上。

当前大数据云服务商里面只有Google 跟阿里云可以给用户提供完整的大数据Serverless 服务。Google 和阿里巴巴本身都是真正的大数据公司,对大数据的应用代表了行业领先的水平,今天在大数据云服务的提供上都一致的选择Serverless 的架构,也能很好的代表Serverless 架构在大数据应用领域的先进性。

以阿里云最重要的大数据产品MaxCompute 为例,无论是计算还是存储能力都是以服务的形式对外提供的,是典型的Serverless 服务。事实上,阿里云从一开始就坚持要把计算能力做成像水电煤一样的公共服务,而不是卖服务器给客户,这跟当下流行的Serverless 架构理念是一致的。这个理念在数加平台得到了很好的体现,数加平台能工一站式提供完整的大数据能力,离线,在线处理,大规模机器学习等,但没有一个服务以服务器形式提供的。

在更高层面的抽象,阿里云大数据平台今天已经可以提供很多业务场景化的计算服务,比如推荐引擎,规则引擎,以及各种人工智能的服务,甚至可以把数据和计算融合起来提供服务,典型的场景如下:

  • 数据分析服务化:按需组合使用各类Serverless 的服务,将多种数据源集成,清洗转换,关联分析,并以可视化的方式展现数据的洞察。过程中不用关心任何的物理架构,也不用关心各种工具的集成。
  • 数据服务化:指将已有的数据通过Serverless的方式(如API化)提供给使用者,常见的有:气象数据获取,根据地理位置获取对应位置的地点信息,图像识别(指能识别出特定的图片信息),特征新闻抓取服务等。
  • 算法服务化:主要是将输入的数据根据特定的算法进行提炼和运算,然后将结果输出,如人脸特征值提取,基因计算,图像渲染等。开发者无需考虑计算资源,只需将计算代码托管到大数据平台或者通过API接口调用大数据计算服务,由服务商提供计算资源的调度,监控和维护工作,能极大的降低运维工作量,同时具有更好的资源弹性伸缩能力。

阿里云大数据Serverless 实践

大数据应用相比流程性的应用有以下特点,

  • 流程长,从采集,存储,清洗,关联,到分析挖掘,直到变成数据服务
  • 逻辑复杂,大数据的价值就是要关联非常多的维度来分析
  • 不确定性强,数据的应用很多都是探索性质的
  • 技术体系复杂,不存在一个通用的引擎可以解决所有大数据的场景,离线处理,流式处理,在线分析都需要使用不同的引擎来支持

这些特点使得Serverless 的架构对大数据应用尤为重要,如果数据科学家陷入到这么复杂的底层构建和运维的细节,效率会变得非常低,甚至会导致很多的想法无法落地。

数加平台从用户视角来看,输入的是数据,输出的是智慧的服务。数加平台从底层将整个数据应用的链条全部打通,并提供了一系列的Serverless 服务,从数据采集,存储,各种处理,到最终变成数据服务。用户需要做的是开发、配置业务相关的处理逻辑、业务规则和算法等,把所有精力关注在数据价值的实现上,而不用关心底层技术和运维层面的架构,也不用关心系统资源管理等。

案例1:智慧水务

整体架构如下图:

利用IoT 套件采集设备数据,通过简单的配置即可将数据实时对接到大数据平台的DataHub.驱动以下典型的计算场景,

1)        在流计算中自定义SQL 对这些数据做实时的汇总统计,比如流量的统计

2)        在规则引擎中配置业务规则,通过这些规则对数据进行实时分析,判断设备的状态

3)        在规则引擎中配置异常检测的算法对设备状态进行预测,或者利用时间序列算法对管网运行状态进行预测,底层会应用到Maxcompute 对历史数据进行分析,产出的模型对接到StreamCompute,进而对新产生的数据进行实时预测

这个案例里面,利用到了大量的大数据的能力,离线存储和计算,流式计算,机器学习模型训练,数据可视化等等,但对使用者来说,需要做的是流计算SQL 的开发,业务规则的配置,以及偏业务的算法参数配置。而不用去管底层的平台要如何搭建,不同引擎之间的数据如何流转,以及系统的扩展性,稳定性,更不用关心要准备多少的物理资源。

案例2:智能服务机器人

将跟机器人交互的语音数据实时上传到大数据平台,驱动语音识别引擎对交互的内容进行识别,自然语言处理,构建知识库,最终形成一个问答系统。随着数据的积累,问答系统会变得越来越智能。

在这个案例里面,用户只需要将语音数据接入,输出的就是一个智能问答系统,完全不用关心底层的实现,而这个实现是非常复杂的,有能力的用户都需要花很大的成本才能搭建起来。

案例3:参考小红唇 https://yq.aliyun.com/articles/57256

这个案例组合使用数加的各种服务,快速的获得了大数据BI 的能力,所有的投入都是在数据业务价值的发现上,而没有花精力在技术平台的构建上。

上面这些案例都很好的展示了Serverless 架构对于大数据应用的价值:把用户从底层的部署,运维,以及资源管理的复杂性中解放出来,让所有的精力都可以投入在数据业务价值的探索和实现上。并且,利用数加平台,可以大大的提升数据应用的效率,传统的模式要数以月计才能完成的事情,使用Serverless 服务,几天就能完成,甚至可以更快,时效对于数据价值的最大化是至关重要的。

阿里云数加平台简介

阿里云数加平台是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,主要基于大数据基础服务提供用户大数据存储和计算能力。开发者使用数加可以轻松进行各种数据采集、数据加工、BI商业智能、人工智能和数据创新等操作。阿里云数加平台作为大数据Serverless的典范,助力企业在DT时代更敏捷、更智能、更具洞察力。

透过数加平台的数据市场相关API,开发者可以通过几行代码调用数据市场中由第三方提供商开发的各种数据服务(如获取各种交通数据、气象数据、海洋数据、水利数据等),方便快捷的获取各种数据,缩短开发时间,降低开发难度。通过数据市场的各种数据原料、数据API,数据越用越有价值,数据越关联越有价值。用户可以按需以服务的方式调用所需的第三方数据,并结合自有数据实现大数据分析和应用,以得到数据价值的最大化。数据服务化是数加平台的典型特点。

在数加平台,各种计算服务开箱即用,用户不必关心大数据集群的搭建、配置和运维工作,仅需简单的几步操作,用户就可以在数加平台中上传数据、分析数据并得到分析结果。用户不必关心数据规模增长带来的存储困难、运算时间延长等烦恼,数加平台根据用户的数据规模自动扩展大数据集群的存储和计算能力,使用户专心于数据分析和挖掘,最大化发挥数据的价值。

阅读原文请点击

时间: 2024-08-08 22:09:30

数加平台如何通过Serverless 架构实现普惠大数据的相关文章

数加平台——阿里大数据OS实践

数加是什么 在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute.ADS.流计算.大数据开发套件:人工智能部分,机器学习(基础平台是PAI).语音识别.ET等:数据分析展现部分,数据可视化(大屏.BI报表).I+关系网络分析(安全领域用的比较多):数据应用部分,推荐引擎(提供面向终端用户的服务,以大数据中间件存在)等.天池比赛也是基于数加平台,数加数据市场相当于大数据的App Store. 数加是什么?数加=数加平台+数加市场+数加应用.平

系统架构师(java)和大数据架构师

架构师不是一个职业工种,而是一种能力,而且架构师也分很多种,不同领域的架构师是不一样的.比如互联网架构师和物联网架构师,没有什么可对比的.架构要考虑什么1.考虑系统能做什么,不能做什么,就是常说的系统边界2.确定架构内部的模块与模块之间的关系,以及module与外部是什么关系3.确定非功能性需要,架构的可扩展性,可用性,可维护性以及安全性4.架构确定以后要能够指导开发人员根据架构思想去设计和演化,确保开发出来的东西和架构的规划是一致的.Java系统架构师 系统的技术选型以及可行性评估 分布式技术

阿里云数加平台——BI报表使用概述和总结

先声明一点,本人写此文章初衷只为对前段时间的工作做些总结,并做个记录,以备日后查用,此外也顺便与他人分享一下.当然间接上也为阿里云的大数据平台做了个免费广告.以下开始正文. 首先进入数加服务的控制面板,在左侧的面板上点击“BI报表” 进入报表页后,在左侧面板上会有“数据源”和“数据集”.  目前支持的数据源有:ODPS.RDS.ADS三种,后续可能也会支持HBASE.ORACLE.SQLSERVER等,点开某个数据源后,会把该数据源下的资源列出来,一般都是表的形式,也可以是自定义SQL的形式.当

网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。

免费开通大数据服务:https://www.aliyun.com/product/odps "令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的界面快速的开发,几个开发人员很快的掌握,甚至我们把阿里云的开发端给了业务部门,他们一些稍微资深一点的业务人员也可以使用,所以我们初步估计了一下,给我们节省的价值至少是千万级的."--网鱼网咖CTO楚发 关于网鱼网咖 网鱼网咖成立于1998年,致力于打造多人游戏空间,为顾客提供极致的游戏上网体验.网鱼

数道云大数据平台解决方案,Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

波若大数据平台(BR-odp)Hadoop + HDFS+Hive+Hbase大数据开发工具剖析: HDFS:分布式.高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,大规模的波若大数据平台(BR-odp)用户部署上1000台的HDFS集群.数据规模高达50PB以上 HDFS和MR共同组成Hadoop分布式系统体系结构的核心.HDFS在集群上实现了分布式文件系统,MR在集群上实现了分布式计算和任务处理.HDFS在MR任务处理过程中提供了文件操作和存储等支持,MR在HDF

Serverless 架构:用服务代替服务器

Serverless 架构:用服务代替服务器 转载本文需注明出处:EAII企业架构创新研究院(微信号:eaworld),违者必究.如需 加入微信群参与微课堂.架构设计与讨论直播请直接回复此公众号:"加群 姓名 公司 职位 微信号 ". 还记得在十多年前,SaaS鼻祖SalesForce喊出的口号『No Software』吗?SalesForce在这个口号声中开创了SaaS行业,并成为当今市值520亿美元的SaaS之王.今天谈谈『No Server』有关的事, 继OpenStack.Do

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为<企业大数据平台仓库架构建设思路>.本次分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

阿里数加(1-2)api调用分析

https://data.aliyun.com/product/nls?spm=5176.doc30437.2.1.UPDABu 下面以最常用的"一句话识别"服务给大家做一个入门级的示例,为您介绍如何快速使用"智能语音交互"的各种服务. 1. 账号和服务申请,获取Access Key ID和Access Key Secret两个数加认证参数. 2. 语音识别服务下的"一句话识别"服务支持的app_key如下表,选择"社交领域"