深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估。

1.前言

本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)进行了分析,文中内容仅代表个人观点。

2018年3月13日Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告。报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大巨头杀入全球一线阵营。阿里云DataWorks+MaxCompute成为唯一入选的中国产品。

报告中,Forrester强调了CDW的四方面核心能力:

·灵活部署。CDW应具有多种灵活的部署模式。针对小型客户,CDW应可提供在线多租户的模式,使客户有能力快速调集计算资源,在数分钟内完成数据仓库的部署。针对大中型客户,CDW应提供独占式或本地部署的模式,提供强大的计算性能和绝对的安全保障,同时屏蔽复杂的技术细节;

·高效数据上云。对于未将数据仓库云化的客户,或者采用线上-线下混合架构的客户,CDW应提供快速、低成本的方式,帮助用户完成数据集成。

·多样化分析手段。CDW应提供多种技术手段,帮助用户在各种业务场景中,获得想要的数据加工能力。

·安全性。CDW的安全性应全面考虑数据加密、审计、脱敏、访问控制等各方面。

DataWorks(https://data.aliyun.com/product/ide)作为阿里巴巴CDW服务能力的核心,为何能获得Forrester的青睐呢?今天我们来做一个解读

2.DataWorks产品架构

在正式开始解读之前,我们先来了解一下DataWorks在阿里云CDW服务体系中的角色,以及DataWorks的产品架构。

在阿里云的众多产品中,DataWorks和MaxCompute共同构成了CDW服务能力的核心。其中,MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色,为使用者提供了海量可靠的大数据表存储,以及SQL执行的能力。但是,仅仅有了MaxCompute是不够的。为了让大数据技术能真正的给客户赋能,还需要数据开发、数据集成等一系列CDW服务,而DataWorks就提供了较为完整的解决方案。

具体来看,她包含8个主要模块:

  • 数据集成:异构数据集成,将海量的数据从各种源系统汇集到大数据平台
  • 数据开发:数据仓库设计和ETL开发过程
  • 监控运维:ETL线上作业的运维监控
  • 实时分析:实时探查和分析数据
  • 数据资产管理:元数据管理、数据地图、数据血缘、数据资产大图等
  • 数据质量:数据质量探查、监控、校验和评分体系
  • 数据安全:数据权限管理,数据的分级打标、脱敏,以及数据审计
  • 数据服务:数据共享和数据交换,数据API服务

3.灵活部署

Forrester在报告中大篇幅的阐述了多种部署形态的必要性,并对多家CDW进行了对比,而DataWorks是第一阵营中为数不多的提供多种部署方式的产品。

首先,作为阿里巴巴集团数据中台体系的核心,DataWorks从2009年开始便支持阿里集团、蚂蚁金服、菜鸟等全集团业务。只要使用了淘宝、天猫、蚂蚁金服等产品的数据服务,就有可能间接使用了DataWorks的计算服务。

其次,DataWorks已在公有云中开放。截止目前,DataWorks已服务4000+公有云客户,支撑了新浪微博、人人车、天弘基金等重要客户。

最后,DataWorks还支持专有云输出。作为大数据能力赋能的重要手段,DataWorks出现在了Apsara Enterprise等阿里云专有云解决方案中。从2015年至今,已支撑了包括“城市大脑”、“最多跑一次”等重量级政企项目。

通过灵活的部署方式,DataWorks可以满足多种不同形态的客户需求。对于小型用户,可以通过公有云方式灵活支撑;对于大中型客户,专有云或混合云的解决方案也完全可以满足客户需求。

4.高效数据上云

高效的数据集成方式对企业数据上云的意义不言而喻。在初始上云阶段,企业需要把自己的数据资产快速安全的迁移到云上;在持续运营阶段,企业需要将各种形态的数据输入到CDW中,并将CDW中加工完成的数据结果输出到各个业务单元。

DataWorks的数据集成提供了对多种类型数据源进行读写的能力,包括对关系型数据库、NoSQL数据库、大数据数据库、文本存储(FTP)等,能对数据源头的数据资源能够进行统一清点,并能够在复杂网络情况下对异构的数据源进行数据同步与集成。在具体的导入任务编排上,DataWorks支持离线数据的批量、全量、增量同步,支持分钟、天、小时、周、月来自定义同步时间。

DataWorks的数据集成还具有数据流管控的能力,能够从脏数据、数据流速、并发线程数等多个维度管控数据流的行为,多方位节约用户成本,实现精益化管理。

5.多样化分析手段

DataWorks提供了强大的数据开发IDE,支持从SQL代码编辑、集成任务编辑到业务流程DAG图的可视化编辑。而多人在线协作功能和任务脚本的版本管理功能也非常切合企业级数据开发的实际需求。除了常规的离线处理任务外,DataWorks还提供了轻量级工具“数据分析工作台”,充分利用MaxCompute的计算能力,满足用户即席数据分析的需求。

据悉,DataWorks近日还更新了拖曳式业务流程编辑功能,进一步改善用户体验,打造可能是最好用的数据开发IDE。

6.安全性

DataWorks将数据安全能力视为重中之重,敏感数据防护更需要符合行业规定和数据隐私法律等规定。DataWorks提供了数据安全模块,通过以下几方面提供了全方位的数据安全保护:

·多租户隔离。DataWorks拥有自己的多租户权限模型。租户可按需申请资源配额,独立管理自己的资源;租户也可以独立管理自有的数据、权限、用户、角色,彼此隔离,以确保数据安全。

·数据安全等级设定。通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝密、机密、正常等等级进行对应安全规则保障。

·数据访问审计。DataWorks对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为的出现,进而保证数据系统的安全。

·数据脱敏。DataWorks能够在在不确定能够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信息进行动态访问遮蔽,从而达到保护数据安全的目的。

目前,DataWorks已通过了公安部信息安全等级保护三级认证。

7.总结

随着社会各行各业“互联网+”改革的深入,企业对数据资产的管理、加工、利用的诉求越来越强烈。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。这也是在Forrester的榜单中,全球主要的四家云服务公司,得以超越Oracle、IBM等老牌数仓技术公司,成为一线CDW供应商的原因。

得益于阿里巴巴多年的数据利用经验沉淀,DataWorks在部署模式、数据集成、分析手段、数据安全等各方面都实现了与企业级需求的高度契合。

据了解,DataWorks还会持续输出更多先进的数据管理理念,包括实时数据集成、数据资产分析等。将云计算技术与数仓管理方法论有机结合,保持不断迭代,致力于打造“最适合于大数据数仓建设的平台”,我想这正是DataWorks入选Forrester CDW榜单的原因。

原文链接

阅读更多干货好文,请关注扫描以下二维码:

原文地址:http://blog.51cto.com/13641484/2091201

时间: 2024-08-03 13:48:47

深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力的相关文章

[转帖]分层存储超详细解读,为什么大数据时代它已不可或缺

分层存储超详细解读,为什么大数据时代它已不可或缺 http://www.itpub.net/2019/10/16/3467/ 如今,分层存储已成为了一种常见的存储方法,它将数据存储在具有不同特性(如性能.成本和容量)的不同存储介质上.不同的存储媒介被分配到不同的层次结构中,其中最高性能的存储媒介被认为是第0层或第1层,然后是第2层.第3层等等. 0层或1层通常是由闪存或基于3D Xpoint技术的固态硬盘(SSD)组成,以此往下的存储层可能涉及高性能光纤通道或SAS驱动器(或RAID阵列),较低

权威解读BI与大数据

BI与大数据已经是现代社会的热词,但很多人并不能区别两者之间的关系.本文就请来权威解读关于它们的定义,两者间的区别与联系,以及相关的工作职责. 一.名词解释 BI,英文是Business Intelligence中文被解释为商业智能,是一种帮助企业更好地利用数据来提高决策质量的技术集合,是一个从大量数据中挖掘信息和知识的过程.简单地说,它是应用业务.数据和数据值的过程. 大数据,英文是Big Data,通过算法直接分析来自不同渠道和格式的海量数据,发现数据之间的相关性. 二.两者的区别 数据利用

(已实现)相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

需求,最近实现了文章的原创度检测功能,处理思路一是分词之后做搜索引擎匹配飘红,另一方面是量化词组,按文章.段落.句子做数据库查询,功能基本满足实际需求. 接下来,还需要在海量大数据中快速的查找到与一句或者一段话最相关的文章.段落. 上一篇随笔里记录有当时的一些想法,今天下午按想法具体实现并测试了一次,速度比直接分组查询肯定快了很多很多,回顾下我的实现步骤: 压缩"语料库,即提取特征词或词频,做量化处理之后以“列向量”形式保存到数据库:然后按前N组词拼为向量组,以供查询使用,即组合为1到N字的组合

大数据时代,市场对企业级云存储的需求更加迫切

随着移动互联网的迅速发展,智能终端.可穿戴设备.智能家居.物联网以及基因测序正在快速普及.企业和用户每天接触的数据吞吐量呈现出指数级的增长趋势,我国社会正在步入大数据爆炸的时代. 大数据时代降临的今天,个人云存储服务早已迈向免费时代,而中国各行各业的互联网化与现实世界数据化的趋势,计算和应用都更加需要集中化,使得市场对企业级别云存储的需求更加迫切. 企业级数据的大爆发 IBM商业研究院与牛津大学的合作调研研究报告称,整个人类文明所获得的全部数据中,有 90%是过去两年内产生的.而到了 2020

Shell在大数据的魅力时代:从一点点思路百度大数据面试题

供Linux开发中的同学们,Shell这可以说是一个基本功. 对于同学们的操作和维护.Shell也可以说是一种必要的技能,Shell.对于Release Team,软件配置管理的同学来说.Shell也起到了非常关键的数据.尤其是分布式系统发展的如火如荼,非常多开源项目都开展的如火如荼(好像不是分布式的系统都不好意思拿出来说事).分布式系统的配置.管理,Shell也起到了非常关键的数据,尽管仅仅是简单的文件拷贝,可是谁让Shell天生是做这些的呢? 当然了,以上不是本文的主题.本文的主题是Shel

大数据笔记08:云计算(云)

1. 什么是云计算?(通俗一点) (1)说的明白一点: 云计算其实就是最大限度得发挥网络的资源   (2)为什么叫云,为什么不叫互联网计算? 大多数计算的网络拓扑图都是使用一块"云"来表示互联网.于是就形成了云计算的说法.   (3)使用案例:用户本地没有QQ软件,但是可以使用WebQQ,腾讯它把服务放到自己的服务器上,任何用户通过网络就可以使用(充分使用网络的资源,这就是云计算) 2.云计算相关概念 (1)云计算:是为了给用户提供无限计算资源的商业服务,是能够自我管理计算资源的系统平

RDS恢复数据到本地mysql(阿里云)

一.准备mysql环境 1.1.安装mysql依赖软件 [[email protected] src]# yum install -y gcc* gcc-c++* autoconf* automake* zlib* libxml* ncurses-devel* libgcrypt* libtool* cmake bison bison-devel* [[email protected] src]# wget http://www.cmake.org/files/v2.8/cmake-2.8.8.

看大数据公司如何推动企业发展

看大数据公司如何推动企业发展 互联网时代,以大数据为核心的商业价值将成为各行各业争相开发利用的焦点,因为大数据驱动了一个时代的转型,就像是望远镜的出现让我们可以认识宇宙.显微镜的发明让我们能够观测微生物一样.大数据,是我们认识世界.理解世界以及改造世界的方式的改变,由此而衍生出大量的新发明与新应用,并为世界带来更多的改变和惊喜. 如今,大数据行业刚刚进入起步阶段,就已经革新了许多商业思维.商业模式.现在就让我们从一个宏观的概念,落入实际的应用.看看大数据在初级阶段,是如何推动企业发展的.   B

网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。

免费开通大数据服务:https://www.aliyun.com/product/odps "令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的界面快速的开发,几个开发人员很快的掌握,甚至我们把阿里云的开发端给了业务部门,他们一些稍微资深一点的业务人员也可以使用,所以我们初步估计了一下,给我们节省的价值至少是千万级的."--网鱼网咖CTO楚发 关于网鱼网咖 网鱼网咖成立于1998年,致力于打造多人游戏空间,为顾客提供极致的游戏上网体验.网鱼