基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。 本次分享嘉宾是来自阿里云大数据的技术专家祎休 背景与总体思路 数据仓库是一个面向主题的、集成的、非易失的、反映历史变化的数据集合用于支持管理决策。

原文链接:http://click.aliyun.com/m/43803/

数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。

本次分享嘉宾是来自阿里云大数据的技术专家祎休!

背景与总体思路

数据仓库是一个面向主题的、集成的、非易失的、反映历史变化的数据集合,用于支持管理决策。其结构图如下所示:

随着大数据、云计算等技术的应用和普及,互联网环境下数据处理呈现出新的特征:业务变化快;数据来源多;系统耦合多;应用深度深。业务变化加快导致数据来源增多,以前的数据大多来自于应用系统数据库,基本为结构化数据,比如Oracle、MySQL等数据。现在的互联网环境下有了更多的数据,比如网站的点击日志、视频数据、语音数据,这些数据都需要通过统一的计算来反映企业的经营状况。在互联网环境下,系统耦合也相对比较多,最重要的是要注重如何在这样的环境下加深数据整合、提升应用深度。从应用深度上来说,之前更多专注于报表分析,在大数据环境下则更多地进行算法分析,通过建立数据模型去预测和研判未来趋势。所以在这种境况下,对于系统的需求也更高:

要求结果数据尽可能快的获取;

实时性需求增多;

访问、获取途径多样便捷;

安全要求高。

在高需求下,传统仓库必然面临着挑战:数据量增长过快导致运行效率下降;数据集成代价大;无法处理多样性的数据;数据挖掘等深度分析能力欠缺。基于这些特征,用户该如何构建大数据仓库?在阿里云的数据仓库构建过程中,总结出了以下四个衡量标准:

稳定——数据产出稳定并有保障,维护系统的稳定性;

可信——数据干净,数据质量足够高,带来更高效的应用服务;

丰富——数据涵盖的业务面足够广泛;

透明——数据的构成体系要足够透明,使得用户放心。

一个完备的大数据仓库应该具备海量的数据存储及处理能力、多样的编程接口和计算框架、丰富的数据采集通道、多种安全防护措施及监控等特征,所以在架构构建时需要遵循一定的设计准则:

自上而下+自下而上地设计,数据驱动和应用驱动整合;

在技术选型上注重高容错性,保证系统稳定;

数据质量监控贯穿整个数据处理流程;

不怕数据冗余,充分利用存储交换易用,减少复杂度和计算量。

架构及模型设计

一般来说,数据仓库的构建需要经历以上几个过程。好的架构设计,在功能架构、数据架构、技术架构上,都能够很好满足需求:

功能架构示例:结构层次清晰


数据架构示例:注重数据流向,数据质量有保障

技术架构示例:易扩展、易用

构建数仓的首要任务就是模型设计,业界一般采用的建模方法有两种:

维度建模:结构简单;便于事实数据分析;适合业务分析报表和BI。

实体建模:结构复杂;便于主题数据打通;适合复杂数据内容的深度挖掘。

用户可以根据实际情况进行区分,而在实际数据仓库中,星型模型和雪花模型是并存的,有利于数据应用和减少计算资源消耗。

在数据处理分层上,一般采用较多的是上下三层结构:

这样设计是为了压缩整体数据处理流程的长度,扁平化的数据处理流程有助于数据质量控制和数据运维;把流式处理作为数据体系的一部分,能够更加关注数据的时效性,使得数据价值更高。

基础数据层

数据中间层

围绕实体打通行为,能将数据源进行整合;从行为抽象关系,则是未来上层应用一个很重要的数据依赖。此外,冗余是个好手段,能够保证主题的完整性,提高数据易用性。

数据集市层

需求场景驱动的集市层建设,各集市之间是垂直构建的,需要能够快速试错,深度挖掘数据价值。

基于阿里云数加搭建大数据仓库

基于阿里云数加搭建大数据仓库的整个业务流程如下所示:

阿里云的数加架构主要分为数据整合、数据体系、数据应用三个层次,如下图:

结构化数据采集通常涉及到全量采集和增量采集。全量采集是整个数仓的数据初始化,将历史数据快速地同步到计算平台;增量采集是初始化之后的数据同步。但在数据量巨大、增量数据同步资源消耗严重,或者后续的数据应用需要用到准实时数据的情况下,还会采用实时采集的方法,这种方法对采集端系统有一定的要求,而且采集质量最难控制。

事实上,日志原始结构越规范,解析的成本越低。在日志采集到平台之前,建议尽量不做结构化,后续再通过UDF或MR计算框架实现日志结构化。

数据仓库与阿里云数加产品的对应关系

离线数仓:MaxCompute数据共享的安全性

数仓的安全性是最为重要的话题。基于MaxCompute的多租户数据授权模型,是安全性非常之高的数据共享机制,在数据流、访问限制等方面能够有效防治。

架构设计中的一些最佳实践


数据表命名规范

分区表、工作流设计

计算框架应用、优化关键路径

实际开发中的一些友好案例


用大数据治理大数据

数据治理分为保障机制、管理、内容建设几个方面,并且贯穿数据开发的整个过程:

为了有效衡量数据治理的效果,阿里云使用的数据管理健康评估体系能够正确认识数据管理的健康性,给出数据管理健康分。

在数据治理过程中,比较重要的一点是重复数据治理。重复数据治理有多种表现:

相同源头:重复拖取同一张表;

计算相似:读取表相同且处理特征相似;

简单加工:简单转换、裁剪后保存至新表;

同表同分区:数据保持不更新或业务已停止;

空跑表:运算结果数据持续为空;

命名相似:表名或字段名相似度较高;

特殊规则:通过已知业务规则识别。

数据质量管理体系

数据生命周期管理


总结:阿里大数据实践之路

识别以下二维码,阅读更多干货

原文地址:http://blog.51cto.com/13641484/2087107

时间: 2024-08-24 15:58:01

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路的相关文章

Flume在企业大数据仓库架构中位置及功能

Flume在企业大数据仓库架构中位置及功能 hadoop 数据仓库 flume 数据仓库架构 1.如下图所示,外部数据中,关系型数据库导入到HDFS用sqoop,由Nginx产生的文件实时监控用Flume获得. 在HDFS或Hbase中,如果要进行实时查询用Impala(内存),如果是分析可以用Hive,Mapreduce分析.用Oozie来调用工作流执行任务. 2.左边是数据的来源:系统日志文件,应用文件(应用系统收集APP产生的日志),点击流(点击产生的日志),销售点(订单信息).通过Flu

阿里云数加平台——BI报表使用概述和总结

先声明一点,本人写此文章初衷只为对前段时间的工作做些总结,并做个记录,以备日后查用,此外也顺便与他人分享一下.当然间接上也为阿里云的大数据平台做了个免费广告.以下开始正文. 首先进入数加服务的控制面板,在左侧的面板上点击“BI报表” 进入报表页后,在左侧面板上会有“数据源”和“数据集”.  目前支持的数据源有:ODPS.RDS.ADS三种,后续可能也会支持HBASE.ORACLE.SQLSERVER等,点开某个数据源后,会把该数据源下的资源列出来,一般都是表的形式,也可以是自定义SQL的形式.当

如何基于阿里云搭建适合初创企业的轻量级架构?

摘要: 在项目的初期往往存在很多变数,业务逻辑时刻在变,而且还要保证快速及时,所以,一个灵活多变.快速部署.持续集成并可以适应多种情况的架构便显得尤为重要.本文主要介绍基于阿里云搭建适合项目初期的后端架构 ----基于阿里云搭建的适合初创企业的轻量级架构 前言在项目的初期往往存在很多变数,业务逻辑时刻在变,而且还要保证快速及时,所以,一个灵活多变.快速部署.持续集成并可以适应多种情况的架构便显得尤为重要.本文主要介绍基于阿里云搭建适合项目初期的后端架构,至于细节操作不作描述,比如nginx配置优

基于阿里云ECS的phpwind网站备案前如何远程访问调试?

基于阿里云ECS的phpwind网站部署非常方便,但云主机的外网IP绑定域名却比较复杂.先要申请域名,成功后还需要备案.尤其是企业网站备案,需要提交的资料较多,准备资料以及审批的时间较长.这段时间在外网采用IP访问是不行的,显示的是主机宝服务器默认页. 即使域名已经绑定成功,但若未备案的话,采用域名访问也会出现以下“温馨提示”: 那么有没有办法在网站备案批准之前就能远程访问,以便尽早调试?经过摸索,基于阿里云ECS的phpwind网站可以采用以下步骤,在网站域名备案前修改默认的80端口以便使用I

基于阿里云Ubuntu14.04 64bit部署WordPress博客系统

环境:基于阿里云Ubuntu14.04  64bit服务器系统 1, 安装apache2+mysql5+php5+php5-mysql sudo apt-get install apache2 sudo apt-get install php5 sudo apt-get install mysql-server sudo apt-get install php5-mysql sudo /etc/init.d/apache2 restart 至此重启了apache后应该就已经配置好服务器了,对此先

在基于阿里云服务器CentOS6.5下安装Subversion 1.6.5服务

最近阿里云搞了个1元免费提供云服务器的活动,偶心痒痒就申请了一个. 正好可以作为团队的SVN服务器了,下面就来部署SVN服务吧. 一.安装基础环境 apr-1.5.0.tar.gz apr-util-1.5.3.tar.gz pcre-8.35.tar.gz zlib-1.2.8.tar.gz subversion-1.5.6.tar.gz tar -xzvf apr-1.5.0.tar.gz cd apr-1.5.0 ./configure --prefix=/usr/local/apr ma

(二)基于阿里云的MQTT远程控制(购买阿里云,在云端安装MQTT,测试MQTT远程通信)

QQ名称为Friday~的网友把他自己买MQTT的过程截图发给了我,今天就说一下如何购买阿里云,安装MQTT可以参考 http://www.cnblogs.com/yangfengwu/p/7764667.html https://blog.csdn.net/frankcheng5143/article/details/52045501 如果有什么问题可以在上面的群里面向他请教 基于阿里云的远程控制,其实就是在云端安装服务器,然后我们的WiFi设备和手机都去连接云端服务器(云端服务器就相当于云端

云上拍客梨视频 基于阿里云的技术实践分享

摘要: 梨视频大部分的业务都选择了阿里云,其中一个主要原因是阿里云提供基于钉钉群构建的24贴身技术支持,刘隽表示,这种服务模式可以更充分.高效的对接需求,快速得到反馈,这也让梨视频的同学有信心去尝试一些新的方案. 在上海云栖大会视频专场中,梨视频CTO刘隽先生分享了梨视频拍客生产全流程及其背后的技术,同时作为业务使用方,向现场嘉宾阿里云产品的使用实践. 云上拍客梨视频 梨视频是全球第一资讯短视频内容生产和消费平台,拥有5万名全球核心拍客,遍布全球七大洲,覆盖525个国际主要城市和2000多个国内

阿里云短信验证_基于阿里云OpenAPI实现

阿里云短信服务 背景简介: 短信验证以及短信通知,目前已经应用的非常广泛,最近因项目需要,需要将原来的短信接口换成阿里云的的短信服务,原项目集成的短信服务能够实现短信的发送以及短信的验证整个过程,简单的来说,原来的短息服务,只需应用申请获取短信,短息服务器会发送短信到指定的手机,用户将验证码发送到短信服务商的服务器,服务器做出验证返回是否通过,而阿里云仅提供短信发送服务,需要自己开发短信的验证.下面简单的介绍一下: 1.获取阿里云AccessKey 用户->Accesskeys:需要自己创建一个