新一代大数据引擎操作系统：DataWorks V2.0重磅来袭

摘要：众所周知，MaxComput与Blink分别是阿里巴巴自主研发的离线计算、实时计算大数据计算引擎，不仅拥有多项国家专利技术，而且多项关键指标已远超业内开源引擎平均能力，名副其实地成为了阿里巴巴大数据之路上的领航者。

认识DataWorks：新一代大数据引擎操作系统

众所周知，MaxComput与Blink分别是阿里巴巴自主研发的离线计算、实时计算大数据计算引擎，不仅拥有多项国家专利技术，而且多项关键指标已远超业内开源引擎平均能力，名副其实地成为了阿里巴巴大数据之路上的领航者。

如果把阿里巴巴大数据计算引擎比作一台PC的CPU，GPU，SSD等硬件设备，那么DataWork就是这台大数据PC的Window操作系统。专业地讲，DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。她不仅能令用户通过全可视化的方式调度MaxCompute和Blink开展研发工作，还对租户，账户，计量，计费，调度，运维，监控，安全、质控、分享等功能作了封装，让用户几乎通过零研发成本即可完成所有大数据研发流程的闭环体验。

DataWorks基于MaxCompute、Blink作为核心计算存储引擎，统一集成了任务调度、元数据管理、权限管理、智能运维于DataOS Kernel，不仅为用户提供了结构化、半结构化、无结构化海量数据的集成传输、离线加工、数据挖掘、数据（安全）治理的能力，而且完美结合了阿里云机器学习PAI平台与云市场，让众多智能数据应用得以普惠大众企业。

DataWorks V2.0功能亮点

（1）更科学的研发理念
提供标准项目模式，也称之为“双项目模式”，即：一个Dataworks项目对应两个MaxCompute项目，其中一个MaxCompute项目作为开发环境，另一个MaxCompute作为生产环境。
在标准模式下，代码调试、任务配置等工作无法在生产环境进行修改，仅能在开发环境调试完成后提交至生产环境调度运行，有效保证了生产环境代码稳定性；同时标准模式可对表权限进行严格管控，禁止随意操作生产环境的表，保证生产表的数据安全，通过产品化的方式为用户落实安全生产方法论。

（2）更爽快的SQL代码编辑器
DataWorks新一代智能SQL编辑器提供了十分爽朗的SQL体验，用户不仅能在编写代码的过程中体验代码格式化、代码补齐、关键词高亮、错误提示、表结构浮动显示的开发体验，而且能通过“结构”功能直观查看并点击定位SQL内部结构，提升研发人员分析SQL语句的效率。

（gif动图：SQL格式化+补齐+高亮+错误提示+表结构浮动显示）

（jpg：SQL内部结构展示）

（3）更人性化的开发体验
数据研发模块旧貌焕新颜，发布诸多创新功能提升数据研发工作体验。
◆业务流程：引入业务流程概念取代工作流概念，让用户从业务视角科学管理开发任务。

◆解决方案：有机组织同类型业务流程，赋予用户从更高视角横向管理开发任务的能力，全新定义开发流程。
◆依赖升级：实现独立配置同一业务流程内依赖任务的独立周期配置，解决更多复杂依赖场景。
◆SQL组件：提供自定义SQL代码过程模板的功能，让用户无需进行重复开发即可高效复用相似SQL代码，有效减少用户重复研发成本。
◆回收站：提供删除后还原功能为用户解决误删任务后无法恢复的后顾之忧。
◆SQL电子表格：页面执行SQL产出结果接入电子表格功能，方便用户对数据结果进行筛选、排序等操作，并提供搜索和下载结果等功能。

◆运行历史：保留近三天内页面执行SQL结果，便于研发人员在无需重复执行代码的情况下，反复对比SQL测试结果。
◆代码全局搜索：实现了通过关键字形式对代码进行全局搜索的功能，让用户快速定位到所需操作的节点任务。
◆表分层管理：用户可对项目下所有表进行文件夹命名归类，同时可通过图形化界面进行表物理模型设计与结构设计，实现了更科学的表管理方式。
（4）更智能的业务监控
通过人工定义某层曾节点的产出时间即可打通后端监控系统对上游所有节点任务的全链路智能监控，从而实现“是否报警”、“何时报警”、“如何报警“以及“给谁报警”的功能，彻底为用户降低监控配置成本并杜绝无效报警。
（5）更完备的数据研发闭环体验
◆数据质量（DQC）：支持MaxCompute数据表与DataHub实时数据流的质量校验、通知、管理功能，实现当数据发生变化时对数据进行校验，并在满足质控规则条件时将报警推送给相关责任人，进而推动研发人员达成不断改进数据质量的正向循环。

◆数据保护伞：提供数据资产识别、敏感数据发现、数据分级分类、脱敏、访问监控、风险发现预警与审计能力，让用户无需显著投入即可落实科学数据安全管理规范。

◆数据服务：通过Serverless助力用户几乎通过零成本即可快速将数据表构建为数据API，并提供成熟的API鉴权、发布、管理、生命周期管理功能，让用户不费吹灰之力即可快速将API集成至自有APP或发布至云市场进行数据能力售卖，搭建企业统一数据服务总线
（6）完美结合人工智能
DataWorks完美集成了阿里云机器学习（PAI）平台，为用户提供数据处理、建模、离线预测、在线预测为一体的机器学习处理能力。同时封装了阿里巴巴集团内成熟的算法，向机器学习用户提供了更简易的操作体验，真正做到让人工智能×××。

DataWorks获奖经历

2017年，DataWorks获得国际软博会金奖；2018年，DataWorks + MaxCompute获得著名分析评测机构Forrester的Cloud Data Warehouse云数据仓库世界排名第二的成绩，是唯一入选的中国产品。
DataWorks始终致力于Make Data Work，欢迎广大开发者一起在DataWorks V2.0上畅游大数据的世界！

了解更多大数据家族产品详情，欢迎点击：
https://et.aliyun.com/bigdatarelease
点击观看大数据家族产品发布会：
https://yq.aliyun.com/webinar/play/508
【阿里云新品发布】开启新一代数据智能开发之路：
https://yq.aliyun.com/roundtable/325525

原文链接

本文为云栖社区原创内容，未经允许不得转载。

原文地址：http://blog.51cto.com/13952056/2171785

时间： 2024-10-24 23:49:47

新一代大数据引擎操作系统：DataWorks V2.0重磅来袭

新一代大数据引擎操作系统：DataWorks V2.0重磅来袭的相关文章

关于开发新一代大数据分布式关系数据库的倡议

大数据引擎，李彦宏的新大陆

阿里开发者们的第15个感悟：做一款优秀大数据引擎，要找准重点解决的业务场景

大数据篇：DolphinScheduler-1.2.0.release安装部署

新一代大数据处理引擎 Apache Flink

开源大数据引擎：Greenplum 数据库架构分析

引爆Spark大数据引擎的七大工具

共筑Spark大数据引擎的七大工具

大数据引擎分代