下一代大数据处理引擎,阿里云实时计算独享模式重磅发布

摘要: 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级。(观看实时计算发布会直播:https://yq.aliyun.com/live/591) 独享模式优点更加突出1、UDX开放:实时计算的共享模式是多个用户共享一个物理机群,在网络/磁盘层面没有办法做到完全隔离。

11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级。
(观看实时计算发布会直播:https://yq.aliyun.com/live/591

独享模式优点更加突出
1、UDX开放:实时计算的共享模式是多个用户共享一个物理机群,在网络/磁盘层面没有办法做到完全隔离。因此,基于安全考虑,共享模式下无法对您开放UDX/DataStream更灵活、更底层的API。在某些场景下,无法满足您的业务需求。独享模式在网络及物理机层面,有完全的隔离,因此可以开通UDF等更底层的API,满足您的业务需求。

2、丰富的硬件:业务越来越丰富,对底层机器的配置会有更多样化需求,比如CPU:MEM配比,以及GPU、FPGA等硬件的需求。实时计算独享集群可充分复用阿里云在硬件层面做的各种优化,为您解决各种硬件适配问题。

3、用户间的隔离:对于ECS独享集群,您能够独享一批计算资源,且从网络上进入您的VPC。既满足了您专网专用、资源独享的需求,也可以跟您的IDC打通,更贴近您的业务需求。

4、更丰富的功能:Data Lake场景下的ETL:通过SQL+UDF的方式,使ETL任务开发更加便利。异构数据源计算:支持从异构数据源读取数据做分析。例如,远程从OSS读取数据归档日志,并join hbase中高危ip,做网络***分析等等。支持30+数据源的源表和结果表。

2018年双11,实时计算完成三项世界级挑战
双11是购物狂欢,也是对阿里技术的“大考”。天猫“双11”的成交额冲破100亿元只花了2分05秒,而突破千亿大关,仅仅花了1小时47分钟,比2017年快了7个多小时。这种疯狂带来了阿里史上最大的双11流量洪峰,实时计算处理能力已经相当于一秒钟内读完120万本2018年新版的《新华字典》。

2013年双11购物狂欢节第一分钟成交破亿,一千多万人同时涌入天猫。这些数据在杭州淘宝城内的数据大屏准实时播报。大屏上跳动的每个数字,来自于阿里集团内部几十个系统间的紧密合作,当在以最快速度秒杀到双11热卖商品的同时,这些系统已经完成了无数轮的数据采集、传输、加工、计算以及反馈到页面的工作。这也是阿里云实时计算技术的首次亮相。

在2018年的双11中,实时数据处理技术,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。可以说,实时计算完成了三项世界级的挑战:
1、低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程延时控制在3秒以内;
2、实时计算处理峰值达到17.2亿条/秒,实时计算的整体性能比去年提升了N倍;
3、高可用,全天服务不降级、无故障,扛下了高峰期所有的流量。

一站式、高性能实时大数据处理平台
阿里云实时计算是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛应用于流式数据处理、离线数据处理、DataLake计算等场景,助力企业向实时化、智能化大数据计算升级转型。

基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,在阿里云上的产品命名为时时计算,以Flink SQL为主要API,致力于打造一款全球领先的实时计算引擎。

据了解,阿里云实时计算脱胎于阿里集团内部双11实时大屏业务,历经长期摸索和发展,将阿里集团本身沉淀多年的实时计算产品、架构、业务能够以云产品的方式对外提供服务,用户可以完全享受到阿里集团最新最前沿的计算引擎能力,业务上可规避阿里集团多年在流式大数据的试错和教训,更快、更轻松地实时化大数据处理流程,助力业务发展。

经过多年沉淀,目前,阿里云实时计算产品已具有国际领先的产品优势,在吞吐/时延、SQL支持、开发体验、窗口支持、乱序支持、上下游对接等多方面都优于其他云厂商的相关产品。相对spark、storm等,阿里云实时计算人力成本低,开发运维更加便利,还可以无缝对接阿里云数据存储。用户可以充分利用阿里云实时计算提供的产品优势,方便快捷的解决自身业务实时化大数据分析的问题。

切实解决用户痛点
阿里云实时计算可以提供FlinkSQL协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,阿里云实时计算同时为部分授信用户提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用FlinkSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的实时计算更擅长于做流式数据分析、统计、处理。主要解决了用户的三大痛点:

1、流式数据的及时性
数据的业务价值随着时间的流失而迅速降低,因此在数据发生后必须尽快对其进行计算和处理。而传统的大数据处理模式对于数据加工均遵循传统日清日毕模式,即以小时甚至以天为计算周期对当前数据进行累计并处理,显然这类处理方式无法满足数据实时计算的需求。在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而实时计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2、一站式的流式数据处理
不同于开源或者自建的流式处理服务,阿里云实时计算是完全托管的流式计算引擎,阿里云可针对流数据运行查询,无需预置或管理任何基础设施,用户可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据开发、数据运维、监控预警等服务,方便用户最小成本试用和迁移流式计算产品。

3、SQL化的流式分析
支持标准SQL(产品名称为:FlinkSQL),提供内建的字符串处理、时间、统计等各类计算函数,替换业界低效且复杂的Flink开发,让更多的BI人员、运营人员通过简单的FlinkSQL可以完成实时化大数据分析和处理,让实时大数据处理普适化、平民化。

同时,实现实时的数据监控/分析。比如BI人员可以看到自己网站实时的访客数据变化,购买情况,交易额波动等,不需要一段时间后才能做统计和分析。之前150人/月的工作,现在只需3个人/月就可以轻松解决,效率提升了50倍。

使用场景广泛
实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

大体分为四种典型场景:
互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;
金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;
物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;
电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

用户案例丰富
经过两年的发展,实时计算在集团内,淘宝、天猫、蚂蚁金服、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术。今年以来,众安保险、全民TV、千寻、新华智云等集团外部客户也上线了诸多实时计算的典型场景和应用。

独享模式应运而生

实时计算今年4月份商业化以来,一直以“共享模式”的形式对外输出,在批处理领域,SQL 已经经历了几十年的考验,是公认的经典。但另一方面也对用户造成两大困扰:

1.仅使用 SQL难以描述自己的业务逻辑;
2.将某些已有的存在于代码中的业务逻辑翻译成SQL,烦不胜烦。

因此,实时计算独享模式应运而生。独享模式,是实时计算在原有共享模式基础上的补充。用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立。具备UDX开放、丰富的硬件、用户间的隔离等特性。

使用流程简洁方便
实时计算的基本计量单位为CU(Compute Unit,即计算资源),一个CU对应于实时计算底层系统是一个CPU的计算能力。实时计算底层使用虚拟化技术进行资源隔离,保证一个基本的CU消费且最大消费仅能为一个CPU的计算能力。

产品的具体使用也十分方便,具体来说有以下几步:

原文地址:http://blog.51cto.com/14031893/2317446

时间: 2024-09-29 08:18:34

下一代大数据处理引擎,阿里云实时计算独享模式重磅发布的相关文章

回顾 | 阿里云实时计算专场 · 北京站

6 月 30 日,阿里云实时计算专场北京站,由来自格灵深瞳的大数据总监与阿里巴巴产品专家.技术专家一起与大家探讨实时计算的应用实践与场景化解决方案. 实时计算是基于 Apache Flink 构建的一站式高性能实时大数据处理平台,在 PB 级别的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行业解决方案.2019 年 6 月阿里云实时计算通过数据中心联盟最新制定的大数据分布式流处理平台基础能力评测,成为国内首批通过流计算产品能力评测的产品. <Flink在人脸识别实时业务中的

阿里云实时计算的前世“功”今生“能”

前言:不修内功,难成大器.为了将Apache Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,在阿里云上的产品正式命名为实时计算,以Flink SQL为主要API,致力于打造一款全球领先的实时计算引擎. 正文:阿里云实时计算大可成稻草,小亦是利器在光明日报近期的文章中,回首互联网接入中国的二十多年,特别是最近五年,被互联网之光照耀的地方,许多人的命运因互联网而发生改变,人们可以通过一个鼠标.一根网线或者一部手机就能与广阔的世界相连. 有了互联网,陕西省山阳县贫困山区的孩子可

Spark与Flink大数据处理引擎对比分析!

大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop.Storm,还是后来的Spark.Flink.然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个.今天,将从几个项出发着重对比Spark与Flink这两个大数据处理引擎,探讨其两者的区别. 一.Spark与Flink几个主要项目的对比与分析 1.性能对比 测试环境: CPU:7000个 内存:单机128GB 版本:Hadoop 2.3.0,Spark 1.4,F

新一代大数据处理引擎 Apache Flink

https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html 大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展.Spark 的火热或多或少的掩盖了其他分布式计算的系统身影.就像 Flink,也就在这个时候默默的发

大数据处理的关键架构

大数据如火如荼的火热着,互联网上资源又让人眼花缭乱不知如何下手,对于新手和准备成为大数据工程师的童鞋更是如此,此博文总结了网上一些知识,希望对大家有帮助. 下图是大数据处理的各个架构层: 以下一一简介各个层,使大家对这块知识有个总体把握: 一.数据存储层 宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营. ACID是指数据库事务具有的四个特性:原子性(Atomicity).一致性(Consistency).隔离性(Isolatio

上:Spark VS Flink – 下一代大数据计算引擎之争,谁主沉浮?

作者简介 王海涛,曾经在微软的 SQL Server和大数据平台组工作多年.带领团队建立了微软对内的 Spark 服务,主打 Spark Streaming.去年加入阿里实时计算部门,参与改进阿里基于 Apache Flink 的Blink 平台. 导读: 做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就不得不提 Spark 和 Flink.Spark 从 2014 年左右开始迅速流行,刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外,

权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

王峰,淘宝花名"莫问",2006年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在计算平台事业部,负责实时计算北京研发团队. 在阿里巴巴的11年工作期间,持续专注大数据计算与存储技术领域,基于Hadoop开源生态打造的数据基础设施一直服务于搜索.推荐等阿里核心电商业务场景,最近一年带领团队对Apache Flink进行了大量架构改进.功能完善和性能提升,打造出了阿里新一代实时计算引擎: Blink.目前数千台规模的Blink生产集群已经开始在线支持搜索.推荐.广告

Apache Beam: 下一代的大数据处理标准

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区的又一个非常大的贡献.Apache Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK.Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执

阿里开发者们的第15个感悟:做一款优秀大数据引擎,要找准重点解决的业务场景

1月10日,做一款优秀大数据引擎,要找准重点解决的业务场景.这是我们送给开发者的第15个感悟. 沐远在社区分享了他的博文,<使用spark分析云HBase的数据><hive数据导入云hbase>,粉丝评论说请收下我的膝盖. 李伟(沐远)阿里云数据库技术专家专注大数据分布式计算数据库领域, 研发Spark及自主研发内存计算,目前为广大公有云用户提供专业的云HBase数据库及计算服务. 做一款优秀大数据引擎,要找准重点解决的业务场景,打磨一套易用的API,构架与上下游联动的生态. 推荐