新一代大数据引擎操作系统:DataWorks V2.0重磅来袭

摘要: 众所周知,MaxComput与Blink分别是阿里巴巴自主研发的离线计算、实时计算大数据计算引擎,不仅拥有多项国家专利技术,而且多项关键指标已远超业内开源引擎平均能力,名副其实地成为了阿里巴巴大数据之路上的领航者。

认识DataWorks:新一代大数据引擎操作系统

众所周知,MaxComput与Blink分别是阿里巴巴自主研发的离线计算、实时计算大数据计算引擎,不仅拥有多项国家专利技术,而且多项关键指标已远超业内开源引擎平均能力,名副其实地成为了阿里巴巴大数据之路上的领航者。

如果把阿里巴巴大数据计算引擎比作一台PC的CPU,GPU,SSD等硬件设备,那么DataWork就是这台大数据PC的Window操作系统。专业地讲,DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。她不仅能令用户通过全可视化的方式调度MaxCompute和Blink开展研发工作,还对租户,账户,计量,计费,调度,运维,监控,安全、质控、分享等功能作了封装,让用户几乎通过零研发成本即可完成所有大数据研发流程的闭环体验。

DataWorks基于MaxCompute、Blink作为核心计算存储引擎,统一集成了任务调度、元数据管理、权限管理、智能运维于DataOS Kernel,不仅为用户提供了结构化、半结构化、无结构化海量数据的集成传输、离线加工、数据挖掘、数据(安全)治理的能力,而且完美结合了阿里云机器学习PAI平台与云市场,让众多智能数据应用得以普惠大众企业。

DataWorks V2.0功能亮点

(1)更科学的研发理念
提供标准项目模式,也称之为“双项目模式”,即:一个Dataworks项目对应两个MaxCompute项目,其中一个MaxCompute项目作为开发环境,另一个MaxCompute作为生产环境。
在标准模式下,代码调试、任务配置等工作无法在生产环境进行修改,仅能在开发环境调试完成后提交至生产环境调度运行,有效保证了生产环境代码稳定性;同时标准模式可对表权限进行严格管控,禁止随意操作生产环境的表,保证生产表的数据安全,通过产品化的方式为用户落实安全生产方法论。

(2)更爽快的SQL代码编辑器
DataWorks新一代智能SQL编辑器提供了十分爽朗的SQL体验,用户不仅能在编写代码的过程中体验代码格式化、代码补齐、关键词高亮、错误提示、表结构浮动显示的开发体验,而且能通过“结构”功能直观查看并点击定位SQL内部结构,提升研发人员分析SQL语句的效率。

(gif动图:SQL格式化+补齐+高亮+错误提示+表结构浮动显示)

(jpg:SQL内部结构展示)

(3)更人性化的开发体验
数据研发模块旧貌焕新颜,发布诸多创新功能提升数据研发工作体验。
◆业务流程:引入业务流程概念取代工作流概念,让用户从业务视角科学管理开发任务。

◆解决方案:有机组织同类型业务流程,赋予用户从更高视角横向管理开发任务的能力,全新定义开发流程。
◆依赖升级:实现独立配置同一业务流程内依赖任务的独立周期配置,解决更多复杂依赖场景。
◆SQL组件:提供自定义SQL代码过程模板的功能,让用户无需进行重复开发即可高效复用相似SQL代码,有效减少用户重复研发成本。
◆回收站:提供删除后还原功能为用户解决误删任务后无法恢复的后顾之忧。
◆SQL电子表格:页面执行SQL产出结果接入电子表格功能,方便用户对数据结果进行筛选、排序等操作,并提供搜索和下载结果等功能。

◆运行历史:保留近三天内页面执行SQL结果,便于研发人员在无需重复执行代码的情况下,反复对比SQL测试结果。
◆代码全局搜索:实现了通过关键字形式对代码进行全局搜索的功能,让用户快速定位到所需操作的节点任务。
◆表分层管理:用户可对项目下所有表进行文件夹命名归类,同时可通过图形化界面进行表物理模型设计与结构设计,实现了更科学的表管理方式。
(4) 更智能的业务监控
通过人工定义某层曾节点的产出时间即可打通后端监控系统对上游所有节点任务的全链路智能监控,从而实现“是否报警”、“何时报警”、“如何报警“以及“给谁报警”的功能,彻底为用户降低监控配置成本并杜绝无效报警。
(5) 更完备的数据研发闭环体验
◆数据质量(DQC):支持MaxCompute数据表与DataHub实时数据流的质量校验、通知、管理功能,实现当数据发生变化时对数据进行校验, 并在满足质控规则条件时将报警推送给相关责任人,进而推动研发人员达成不断改进数据质量的正向循环。

◆数据保护伞:提供数据资产识别、敏感数据发现、数据分级分类、脱敏、访问监控、风险发现预警与审计能力,让用户无需显著投入即可落实科学数据安全管理规范。

◆数据服务:通过Serverless助力用户几乎通过零成本即可快速将数据表构建为数据API,并提供成熟的API鉴权、发布、管理、生命周期管理功能,让用户不费吹灰之力即可快速将API集成至自有APP或发布至云市场进行数据能力售卖,搭建企业统一数据服务总线
(6) 完美结合人工智能
DataWorks完美集成了阿里云机器学习(PAI)平台,为用户提供数据处理、建模、离线预测、在线预测为一体的机器学习处理能力。同时封装了阿里巴巴集团内成熟的算法,向机器学习用户提供了更简易的操作体验,真正做到让人工智能×××。

DataWorks获奖经历

2017年,DataWorks获得国际软博会金奖;2018年,DataWorks + MaxCompute获得著名分析评测机构Forrester的Cloud Data Warehouse云数据仓库世界排名第二的成绩,是唯一入选的中国产品。
DataWorks始终致力于Make Data Work,欢迎广大开发者一起在DataWorks V2.0上畅游大数据的世界!

了解更多大数据家族产品详情,欢迎点击:
https://et.aliyun.com/bigdatarelease
点击观看大数据家族产品发布会:
https://yq.aliyun.com/webinar/play/508
【阿里云新品发布】开启新一代数据智能开发之路:
https://yq.aliyun.com/roundtable/325525

原文链接

本文为云栖社区原创内容,未经允许不得转载。

原文地址:http://blog.51cto.com/13952056/2171785

时间: 2024-08-24 19:24:30

新一代大数据引擎操作系统:DataWorks V2.0重磅来袭的相关文章

关于开发新一代大数据分布式关系数据库的倡议

李万鸿 当今时代已进入大数据时代,而nosql数据库对sql和事物的支持不给力,因此,开发新一代大数据分布式关系数据库迫在眉睫,这是一个新的历史机遇,笔者建议全国的it人士组织起来从事这一伟大的工程. 开源精神推动了软件的发展,我们应该发扬开源精神,大家群策群力一起动手搞架构,写代码,把这个数据库搞起来.建议这个工程命名为gospelLight----真理之光,表达对真理的追求和奉献.这是一个国际化的时代,我们欢迎外国的工程师加入这一工程,大家齐心协力把新一代数据库设计出来,共享共担!建议用ja

大数据引擎,李彦宏的新大陆

摘要 : 百度将用互联网的方式来做开放的大数据引擎.它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作.而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需.而它的首要目的是获取数据,然后是考虑变现. 百度在大数据领域迈出一大步.在昨天的百度技术开放日上,李彦宏现身并推出了百度大数据引擎.简单地将,大数据引擎将百度在大数据的数据.能力和技术开放给行业,行业尝尝距离甚远的大数据盛宴,百度则寻到了一个新的增长点. 大数据引擎三件套 一年前,BAT纷纷开

阿里开发者们的第15个感悟:做一款优秀大数据引擎,要找准重点解决的业务场景

1月10日,做一款优秀大数据引擎,要找准重点解决的业务场景.这是我们送给开发者的第15个感悟. 沐远在社区分享了他的博文,<使用spark分析云HBase的数据><hive数据导入云hbase>,粉丝评论说请收下我的膝盖. 李伟(沐远)阿里云数据库技术专家专注大数据分布式计算数据库领域, 研发Spark及自主研发内存计算,目前为广大公有云用户提供专业的云HBase数据库及计算服务. 做一款优秀大数据引擎,要找准重点解决的业务场景,打磨一套易用的API,构架与上下游联动的生态. 推荐

大数据篇:DolphinScheduler-1.2.0.release安装部署

大数据篇:DolphinScheduler-1.2.0.release安装部署 1 配置jdk #查看命令 rpm -qa | grep java #删除命令 rpm -e --nodeps xxx 将oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm上传至每个节点安装 rpm -ivh oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm 修改配置文件 vim /etc/profile #添加 export JAVA_H

新一代大数据处理引擎 Apache Flink

https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html 大数据计算引擎的发展 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展.Spark 的火热或多或少的掩盖了其他分布式计算的系统身影.就像 Flink,也就在这个时候默默的发

开源大数据引擎:Greenplum 数据库架构分析

Greenplum 数据库是最先进的分布式开源数据库技术,主要用来处理大规模的数据分析任务,包含数据仓库.商务智能(OLAP)和数据挖掘等.自2015年10月正式开源以来.受到国内外业内人士的广泛关注.本文就社区关心的Greenplum数据库技术架构进行介绍. 一. Greenplum数据库简单介绍 大数据是个炙手可热的词.各行各业都在谈.一谈到大数据,好多人觉得就是Hadoop.实际上Hadoop仅仅是大数据若干处理方案中的一个.如今的SQL.NoSQL.NewSQL.Hadoop等等.都能在

引爆Spark大数据引擎的七大工具

原文名称:7 tools to fire up Spark's big data engine Spark正在数据处理领域卷起一场风暴.让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具. Spark生态系统众生相 Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单.功能更强大.更方便.Spark并非只是一项技术,它结合了诸多部分,新的功能和性能改进不断添加进来,每个部分都在不断完善之中. 本文介绍了Spark生态系统的每个主要部分:每个部分的功

共筑Spark大数据引擎的七大工具

Spark正在数据处理领域卷起一场风暴.让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具. Spark生态系统众生相Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单.功能更强大.更方便.Spark并非只是一项技术,它结合了诸多部分,新的功能和性能改进不断添加进来,每个部分都在不断完善之中.本文介绍了Spark生态系统的每个主要部分:每个部分的功能,为什么很重要,是如何发展的,在哪方面不尽如人意,以及可能会往哪个方向发展. ?Spark Cor

大数据引擎分代

大致可以将大数据的计算引擎分成了 4 代. 1.第一代的计算引擎,无疑就是Hadoop承载的MapReduce.它将每个JobApp都被设计为两个阶段,分别为Map和Reduce.对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个App的串联,才能完成一个完整的算法,例如迭代计算,不够灵活,中间计算结果涉及到磁盘shuffle,影响效率. Hadoop设计理念来自Google的三篇论文的启发催生了下列组件 HDFS:分布式存储[在役] MapReduce:分布式结算[退