数据仓库系列之关于数据仓库自动化技术

  目前市面上的BI工具都在提及敏捷BI解决方案。敏捷BI解决方案所提供的自动化技术支持主要是从数据源取数到BI前端工具展现。这样的敏捷BI解决方案在企业数据量不是很庞大的情况下,还是很好的支撑运行。PowerBI可以支持大量的数据处理,但是对于硬件设备的要求也是非常高的。但是数据量变得越来越庞大就会导致BI报表出现运行缓慢,大屏展现出现数据延迟等等现象。

  如果项目较小例如上图中的动态销售报告,只是为了展现EXCEL中少量的数据。使用PowerBI工具完全可以满足大家的需要。真正要做到敏捷BI整体数仓解决方案,还是需要在数据源和BI前端工具的中间加入数据仓库。在数据仓库中处理数据对于源数据没有任何侵入性,也不会对源数据系统造成影响。数据仓库的搭建可能大家用过SSDT工具应该知道,搭建数据仓库还是很繁琐的。搭建数据仓库还是需要借助数据仓库自动化工具。

  数据仓库自动化的工具正变得越来越主流,现在他们明显的好处:

  1、  快速交付

  2、  开发成本较低

  3、  开发周期短对于一个商业智能项目完成,不再需要等待三至六个月。

  4、  维护成本低,无需投入大量的技术人员维护

  市面上已经有的ETL工具具有自动化技术,我在前面的ETL过程和ETL工具介绍已经提及了,这里就不再做过多的描述。有一些事情你应该知道,评估来自不同供应商的产品的维度。

  一、有些工具数据仓库的自动化程度较低。

  一些数据仓库自动化工具就存在不能够自动化处理模型,大多数开发商在做示例都是使用一个简单的星型模式报告。这是一个简单的数据源,但是当你需要将数据从多个数据源整合,事情就变得复杂了。有些工具带你通过一个错综复杂的过程,升级到数据生成星型模式之前结合。这是不是很自动化。数据仓库的自动化工具应该可以处理70%的工作,而不需要额外的数据建模工作或ETL编程。除非客户存在定制化的需求,再进行建模和编程。

  二、一些工具需要大量的咨询工作实现结果。

  问问你的数据仓库的自动化软件供应商的这个简单的问题: “你们实施BI项目有多少实施顾问,实施需要的周期?”一个健全的实施BI项目的团队,如果已经做到了工具大部分自动化处理。实际具有成熟自动化技术的供应商,他们更多的是在做客户报表指标的梳理,适配公司模型库中的指标数据。更多的工作是在前期的需求调研确认模型阶段,实施部署BI项目实际是非常快速的。

  三、雪花模型和星形模型

  如果您正计划建立自己的数据仓库,那么你所选择的数据仓库自动化工具应该自动执行任何上述的部分或全部。一些数据仓库的自动化工具仍需要您手动设计目标模型,并用自己的工具来填充它。这不是自动化,你还不如回去使用ETL工具。一个好的数据仓库自动化工具将自动完成了模型设计和填充它的代码 。让你在雪花模型和星型模形之间进行选择。

  四、目标数据库的数据仓库。

  许多数据仓库的自动化工具限制你只是一个目标数据库平台,而其他人将让你在更多的创建数据仓库。你可能希望,在未来,移动到不同的数据库平台(例如,从S??QL Server到Oracle,或从S??QL Server到S??QL Server其他版本),所以你可能需要一个数据仓库的自动化工具,它为您提供了将来的迁移选项。

  五、调度依赖

  对于任何数据仓库项目,需要数据在特定的时间,并在一定的顺序进行装载。例如,当来自多个来源的数据相结合,你可能需要有所有加载之前,首先你可以开始建立你表中的数据,而且他们必须更新之前,您可以更新您的星型模型的报告。一个企业级的数据仓库的自动化工具将了解这些依赖关系,自动执行并自动完成所有必要的流程和正确的顺序运行它们。

  六、数据仓库自动化工具的功能

  数据仓库自动化工具主要包括系统管理、业务总线管理、维度模型管理、作业管理、应用管理、元数据管理、数据标准管理和行业指标库等模块。 个人认为真正健全软件应该具备上图的功能特点或者实现维度建模工具箱中提及的34个子系统。

  系统管理:这个模块主要管理各个系统的信息包括源系统信息、数据仓库系统、作业调度系统、报表浏览系统。通过源系统信息可以自动导入源系统的元数据,为维度建模和检查数据结构变化提供数据。

  业务总线管理:每个源系统都有多个业务过程,每个业务过程都会涉及多个维度实体。业务过程和维度实体组成总线结构,统一管理每个源系统的业务总线。

  维度模型管理:根据命名规范进行物理模型和映射关系设计,保证命名的统一。可以自动生成建表脚本,自动在数据仓库执行脚本。

  作业管理:根据查询脚本和程序模板自动生成ETL程序,自动生成作业的依赖关系。保证程序代码的统一,规范。

  应用管理:统一管理报表、接口业务元数据信息。

  数据标准管理:统一管理代码命名规范、数据类型映射关系、常用单词库、指标定义、ETL程序模板。

  元数据管理:在开发的过程中,会存储各种元数据信息,可以根据这些元数据进行代码规范检查、数据影响分析、数据异常监控。

  项目文档管理:可以在BI项目实施时进行自动生成数据处理过程的备注信息,可以详细描述知道字段的转换,抽取规则等等

  行业指标库:通过公司积累的行业数据指标进行适配客户数据,实现低成本敏捷交付BI项目。

  七、总结

  ETL工具引入了很多时间的延误和风险到您的商业智能项目。更糟的是,他们期待您的业务用户能够学习掌握数据仓库中的表和字段,真正业务用户时不理解数据仓库的,所以不可避免的变化将要花费很长的时间来解决。真正可以让业务用户理解的只有业务术语,利用语义模型才是解决该类问题的最好方法。你能用敏捷的ETL工具,来完成模型的设计。如果您估计传统的数据仓库项目,需要半年,同样的项目在具有良好和高度配置化的数据仓库自动化工具来完成只需要几个星期处理好。时间对于任何公司和个体都是十分重要的,所以选型数据仓库工具也是需要非常谨慎小心。

原文地址:https://www.cnblogs.com/fly-bird/p/11442884.html

时间: 2024-11-06 14:50:54

数据仓库系列之关于数据仓库自动化技术的相关文章

数据仓库系列--(1) 数据仓库普及

数据仓库介绍 良好的数据仓库设计是BI分析基石. 在企业看来,数据的两种形式:操作数据.分析数据.与操作型数据相对应的系统:联机事务处理[OLTP ],称为数据库:与后者相对应的系统:联机分析处理[OLAP],称为数据仓库[DW]. 数据仓库:支持管理决策过程.面向主题.集成.渐变.持久的数据集合. 与传统数据库不同,DW是多维数据库. 数据仓库存储的两个基本的元素是维度表和事实表. 事实表:是反映业务核心的表,表中存储了与该业务相关的关键数据,我们称其为"度量值",是今后用来计算及统

Hadoop系列之Hive(数据仓库)安装配置

Hadoop系列之Hive(数据仓库)安装配置1.在NameNode安装  cd /root/soft  tar zxvf apache-hive-0.13.1-bin.tar.gz   mv apache-hive-0.13.1-bin /usr/local/hadoop/hive2. 配置环境变量(每个节点都需要增加) 打开/etc/profile #添加以下内容: export HIVE_HOME=/usr/local/hadoop/hive export PATH=$HIVE_HOME/

数据仓库系列之维度建模

上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库.学习数据仓库,你一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball.Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展,其中Inmon主张自上而下的架构,不同的OLTP数据集中到面向主题.集成的.不易失的和时间变化的结构中,用于以后的分析;且数据可以通过下钻到最细层,或者上卷到汇总层;数据集市应该是数据仓库的子集;每个

数据仓库系列 - 缓慢渐变维度

在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以满足这些需要. 很显然在业务数据库中数据的变化是非常自然和正常的,比如顾客的联系方式,手机号码等信息可能随着顾客的所在地的更改发生变化,比如商品的价格在不同时期有上涨和下降的变化.那么在业务数据库中,

数据仓库系列文章

数据仓库元数据管理 OLAP的基本特征 维(Dimension)和立方(Cube) 数据立方体与OLAP 数据仓库的多维数据模型 数据仓库的基本架构 数据仓库的源数据类型 数据仓库的价值 出处:http://webdataanalysis.net/category/web-data-warehouse/

《自动化技术中的进给电气运动》及学科学习笔记二

<自动化技术中的进给电气运动> 阅读内容:第1.3节 知识要点: 本节主要以不可调节电气传动系统为例,介绍了系统在时间域的静态和动态特性以及电气系统对于简单信号的响应. 1.采用微分方程分析系统 对于只有一个输入和输出的线性系统都可表示成如下的微分方程形式.其中u为输入,v为输出,且对于实际系统有m≤n. 以不可调电气传动系统为例,列出系统的机械和电气微分方程. (1)JGes=JM+JL (2)uA-eM=RAiA+LAdiA/dt (3)eM=cMωM (4)MM=ML+MB=ML+JGe

舍本求末的运维自动化技术热潮

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://caoyameng.blog.51cto.com/4975863/1359732 运维自动化是2010年开始炒得很热的一个概念,也让很多工程师.用人单位瞎激动了很久,我也跟风学过puppet和python,求职双方也经常在面试时花大量时间谈运维自动化. 但冷静下来想想,所谓自动化,只是让培训机构赚钱的噱头而已. 一句话概括运维自动化 单说“运维自动化”几个字太抽象容易被主观塞进去

【ABAP系列】SAP Web Dynpro 技术简介

公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP Web Dynpro 技术简介 前言部分 大家可以关注我的公众号,公众号里的排版更好,阅读更舒适. 正文部分 AP webdynpro是为SAP NetWeaver战略UI编程模型. 它是用于创建平台并独立于语言,基于WEB的用户界面. Web Dynpro可用于SAP NetWeaver Application Serv

数据仓库系列之元数据管理

元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计.部署.操作和管理能达成协同和一致.元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化. 构建数据仓库的主要步骤之一是 ETL.这时元数据