《数据仓库工具箱》——如何做好数据仓库

最近打算阅读一下数据仓库相关的书籍,百度了一下,有两本必读书《数据仓库工具箱》和《数据仓库》。简单介绍一下,《数据仓库》这本书更像是一本教材,里面的内容很经典;《数据仓库工具箱》看书名是一本单纯的工具书,其实里面都是实战。两本书各有千秋,我决定主要阅读《数据仓库工具箱》,今天分享第一章的内容,以后会做系列分享。

第一章主要介绍了维度建模的好处,Kimball的历史和技术架构,以及与其他类似架构的优劣,但其核心议题是:“如何做好数据仓库?”

说实话这个议题很没意思,有些枯燥,可是如果你遇到:“如何才能做好数据?为什么需求一直做不完?数据的价值到底有多大?”那么这下面全是干货。

1.1 数据仓库与商业智能的目标

  1. DW/BI系统要能方便地存取信息。
  2. DW/BI系统必须以一致的形式展现信息。
  3. DW/BI系统必须能够适应变化。
  4. DW/BI系统必须能够及时展现信息。
  5. DW/BI系统必须成为保护信息财富的安全堡垒。
  6. DW/BI系统必须成为提高决策制定能力的权威和可信的基础。
  7. DW/BI系统成功的标志是业务群体接受DW/BI系统。

上面7点是数据仓库设计的目标,不过重点是最后两点

1.1.1 DW/BI系统必须成为提高决策制定能力的权威和可信的基础。

这个是核心,我刚开始做数据仓库的时候,设定的目标是:满足业务查询数据的需求。结果我在这个目标上不断的奔跑,差点累死。暂且不提几十个维度做笛卡尔积的查询能否实现,就算做出来了,价值是什么哪?为公司带来了多少收益?如果自己的价值不能量化,那么结果是可以想象的。所以一定要数据仓库一定要支持决策,并且知道自己支持了哪些决策。下面是书中原文:

数据仓库需要正确的信息以支持决策制定。DW/BI系统最重要的输出是基于分析证据所产生的决策。这些决策体现了数据仓库的影响和价值。早期用于表示DW/BI系统的称谓--决策支持系统,仍可作为开展系统设计的最好描述。

1.1.2 DW/BI系统成功的标志是业务群体接受DW/BI系统。

技术方案不重要,落地才重要,这里我想说的是:可以不用那些高大上的技术方案,但是不能不知道它的原理。要即知道它的优点,也知道它的不适用。

是否使用最佳组合产品或平台来构建您的体面的解决方案其实并不重要。如果业务群体不能接受DW/BI环境并积极使用它,就难言成功。对操作型系统来说,用户无法对其加以选择,只能使用新系统,而对DW/BI系统来说,与操作型系统不同的是,它是可选的。只有当DW/BI系统真正成为用于构建可付诸实现的信息的"简单快捷"的资源时,用户才会接受它。

1.1.3 数据仓库管理者的责任

这里的责任大都是如何满足用户的需求,满足用户的需求不等于他提的需求都要做,而是充分理解他的kpi,理解他的目标,从这个方面入手满足他的需求,下面是原文:

一、理解业务用户
1.1 理解他们的工作责任、目标和任务。
1.2 确定商业用户在制定哪些决策时需要DW/BI系统的帮助。
1.3 识别出那些制定出高效率、高影响的决策的"最佳"用户。
1.4 发现潜在的新用户,并让他们意识到DW/BI系统能够给他们带来什么能力。
二、对业务用户发布高质量、相关的、可访问的信息和分析
2.1 选择最健壮的、可操作的数据放入DW/BI系统中,从组织机构的各种数据源中仔细选择
2.2 简化用户接口和应用,采用模板驱动方式,与用户的认知过程轮廓匹配
2.3 确保数据精确、可信,使其标识在整个企业具有一致性。
2.4 不间断地监控数据和分析的准确性。
2.5 适应用户不断变化的思维方式、需求和业务优先级,及新数据源的可用性。
三、维护DW/BI环境
3.1 采用DW/BI系统制定的成功的业务决策,验证人员配置及要投入的开支。
3.2 定期对DW/BI系统进行更新。
3.3 保持业务用户的信任。
3.4 保持业务用户、执行赞助商和IT管理层满意度。
时间: 2024-10-29 05:17:00

《数据仓库工具箱》——如何做好数据仓库的相关文章

数据仓库系列之关于数据仓库自动化技术

目前市面上的BI工具都在提及敏捷BI解决方案.敏捷BI解决方案所提供的自动化技术支持主要是从数据源取数到BI前端工具展现.这样的敏捷BI解决方案在企业数据量不是很庞大的情况下,还是很好的支撑运行.PowerBI可以支持大量的数据处理,但是对于硬件设备的要求也是非常高的.但是数据量变得越来越庞大就会导致BI报表出现运行缓慢,大屏展现出现数据延迟等等现象. 如果项目较小例如上图中的动态销售报告,只是为了展现EXCEL中少量的数据.使用PowerBI工具完全可以满足大家的需要.真正要做到敏捷BI整体数

《数据仓库工具箱》——建模四步骤

Kimball建模方法的精髓,就是简单.使用,建模这四步骤是它的核心部分.用术语表达是:始终一致的四步设计维度模型. 一.选择业务过程 业务过程是由组织完成的一系列微观活动,例如:完成下单.完成支付.发放代金券.上线产品等等.充分理解它们,有助于辨别组织中的不同业务过程,它一般具有这些特性: 用行为动词表示:它们通常表示业务过程的活动,比如用户下单.用户支付.商家退款等 一般由某个操作系统支持:比如下单由tts支持.产品上架由产品中心支持等 生成度量:度量一般由操作过程直接生成,比如用户支付金额

《数据仓库工具箱》——事实表

事实表分成三种:事务事实表.周期快照事实表.累计快照事实表 事务事实表 官方定义是:发生在某个时间点上的一个事件.比如以订单为例:下单是一个事实.付款是一个事实.退款是一个事实,所有事实的累计就是事务事实表 周期快照事实表 如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如:以天举例,财务报表一般都是周期快照事实表,它的最细粒度主键就是:日期+订单 累计快照事实表 累计快照表,一般都是订单表,它记录的是某个时间一个订单最终的状态 三种事实表的区别

数据仓库之父——Bill Inmon(转载)

从此处转载 http://blog.sina.com.cn/s/blog_615f9dba0100f67p.html 比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验.他是"企业信息工厂"的合作创始人与"政府信息工厂"的创始人. 比尔·恩门的思想与见识在所有重量级的计算机协会.许多产业会议.技术研讨会上,都博得了无比的敬重.他写过650多篇文章,大多发布在世界最知名的IT刊物里,D

几本不错的数据仓库和Hadoop书籍

<<Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案>>, Matt Casters等著,初建军翻译<<Hadoop应用架构>> Mark Grover编著, OREILLY出版<<Hadoop权威指南>> Tom White编著, OREILLY出版<<数据仓库工具箱 --维度建模权威指南>>, Ralph Kimballz著, 王念滨等译 原文地址:https://www.cnblog

数据仓库系列之维度建模

上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库.学习数据仓库,你一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball.Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展,其中Inmon主张自上而下的架构,不同的OLTP数据集中到面向主题.集成的.不易失的和时间变化的结构中,用于以后的分析;且数据可以通过下钻到最细层,或者上卷到汇总层;数据集市应该是数据仓库的子集;每个

数据仓库之架构发展

数据仓库有很多类型的架构方式,按照发展的历程上,主要有如下几类标志性. 独立的数据集市架构. 在最早期的数据仓库建设中,大多是以部门为单位搭建数据仓库,也就是数据集市,供整个部门使用.这样能够很快的构建好数据仓库,但是缺点是很容易产生不同部门因数据计算口径不同而导致的数据产出结果不一致.当然对于小公司来讲,构建一个公司级的数据集市也是能够满足需求的. 联邦式的数据仓库架构.不同的部门构建出不同的数据集市,数据集市之间不能很好的进行整合,只能通过建立一定的映射关系来进行数据的交换,所以通过构建这种

第二章:数据仓库与数据集市建模

前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列文章中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术. 本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市. 维度建模的基本概念 维度建模(dimensional modeling)是专门用于分析型数据库.数据仓库.数据集市建模的方法. 它本身属于一种关系建模方法,但和之前在操作型数据库中介绍的关系建模方法相比增

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫"数据仓库"的地方. 数据仓库的基本概念: 数据仓库的定义--面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库--为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构--三层体系结构:底层(数据仓库服务器)--中间层(OLAP服务器)--顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库--关于数据的数据 理解OLAP,数据