数据仓库专题(6)-数据仓库、主题域、主题概念与定义

一、数据仓库

关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:

中文定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

英文定义:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.

二、主题

主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式, 就是在较高层次上对分析对象数据的一个完整并且一致的描 述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相
对面向应用的数据组织方式而言的, 是指按照主题进行数据组织的方式具有更高的数据抽象 级别。 与传统数据库面向应用进行数据组织的特点相对应, 数据仓库中的数据是面向主题进行组织的。主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。

三、主题域

  主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户数据仓库的设计人员共同完成。

四、主题域、主题、实体间关系

  主题设计是对主题域进一步分解,细化的过程。主题域下面可以有多个主题,主题还可以划分成更多的子主题,而实体则是不可划分的最小单位。主题域、主题、实体的关系如下图所示:

五、关于主题域的争议

  曾经在看到过关于主题域的另外一个定义方式:“主题域是对某个主题进行分析后确定的主题的边界”。相关内容如下文所示:

主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是 信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的 选择过程。主题域的确定必须由最终用户和数据仓库的设计人员共同完成

比如,对于Adventure Works Cycle这种类型的公司管理层需要分析的主题一般包括供应商主题、商品主题、客户主题和仓库主题。其中商品主题的内容包括记录超市商品的采购情况、商品 的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况;仓库主题包括仓库中商品的存储情况和仓库的管理情况等,如图3-31所示。

图3-31  根据业务情况确定的分析主题

确定主题边界实际上需要进一步理解业务关系,因此在确定整个分析主题后,还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。对于图3-31的4个主题及其在企业中的业务关系可以确定边界如图3-32所示。

图3-32  主题域的划分

经过对以上内容深入分析,发现此定义与:”主题域通常是联系较为紧密数据主题的集合“并不矛盾,只是所站的视角不同,“数据主题集合”的观点从数据着眼,前提是已经经过分析、梳理列出所有可能的数据主题,此处数据主题是细粒度的,是从微观到宏观;“边界论”的观点中,某个主题是分析的主题,是宏观概念,而非数据主题。

六、未完待续

  分布式数据仓库数据存储模型设计进行中,后续会持续更新,请关注QQ群:分布式数据仓库建模 398419457。

时间: 2024-08-03 19:18:49

数据仓库专题(6)-数据仓库、主题域、主题概念与定义的相关文章

数据仓库专题(5)-如何构建主题域模型原则之站在巨人的肩上(一)IBM-FSDM主题域模型划分

一.前言 如何构建主题域模型原则是构建企业级数据仓库重要的议题,最好的路径就是参照成熟的体系.IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型划分的重要依据.本文就IBM FSDM主题域模型进行初步的介绍. 二.模型结构 三.标准定义 关系人 IP 银行的业务开展过程中的相关各方,个人.机构.柜员.. 合约 AR 参与者之间达成的 合约.合同.协议等 条件 CD 描述银行的业务正常开展,所需要的前提条件.资格标准和要求 产品 PD

数据仓库主题与主题域

什么是数据仓库主题 自从学习数据仓库以来,对数据仓库“面向主题”的概念始终比较模糊,理解不够深刻.透彻. 昨天晚上翻开课本温习一下,仍然不能领悟其本质思想.很是困惑,后来从网上找了一些资料,细细着磨一下. 1.主题的概念 主题(Subject)是在较高层次上将企业信息系统中的数据进行综合.归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域.在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象.例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”.

数据仓库专题(3)-分布式数据仓库事实表设计思考

一.前言 最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造.设计出一套真正适合分布式数据仓库的数据存储模型. 二.事实表设计基础 事实表记录发生在现实世界中的操作型事件,其所产生的可度数值.事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响.事实表中,除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也可以包含退化的维度键和日期/时间戳. 三.传统模式 以FS-LDM数据存储模型Ev

数据仓库专题(24)-数据仓库架构体系总结

一.数据仓库架构 二.数据主题域设计 三.星型模型设计  四.数仓技术架构

数据仓库专题(4)-分布式数据仓库事实表设计思考---讨论精华

一.前言 上一篇分享博文<数据仓库专题(3)--分布式数据仓库事实表设计思考>后,陆续有各位兄弟参加大讨论,提出了各种问题,关于分布式环境下,维表和事实表设计,进行了比较深入的探讨,在此汇集整理,分享给大家.希望能有更多人参与尽力啊,共同探索分布式数据仓库数据模型的设计. 二.纪要 [活跃]北京-RTB-胖哥(1106110976) 10:21:36 分布式模式下事实表设计思考: 做大做强事实表,做小做弱维表: [冒泡]杭州-电子病历<[email protected]> 10:2

数据仓库专题(2)-Kimball维度建模四步骤

一.前言 四步过程维度建模由Kimball提出,可以做为业务梳理.数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程.本文就相关流程及核心问题进行解读. 二.数据仓库建设流程 以下流程是根据业务系统.组织结构.团队结构现状设定的数据仓库系统建设流程,适合系统结构复杂,团队协作复杂,人员结构复杂的情况,并且数据仓库建设团队和业务系统建设团队不同的情况.具体流程如下图所示: 图1 数据仓库系统建设流程 三.四步维度建模 Kimball四步建模流程适合上述数据仓库系统建设

数据仓库专题(16)-分布式数据仓库实践指南-目录篇

前言: 准备系统化整理一套分布式数据仓库建模实践指南,先把目录列出来吧,算是给自己设计一个目标吧. 第一部分 基础篇 第一章 数据仓库概念与定义 1.1 数据管理体系 1.2 数据仓库概念 1.3 数据仓库职责 第二章 数据仓库体系结构 2.1 Inmon CIF 2.2 Kimball 2.3 对于与分析 第三章 维度建模基础 3.1 kimball四步建模法 3.2 维度设计 3.3 事实表设计 第二部分 实践篇 第一章 路线图 第二章 业务分析-深浅有度 第三章 数据分析-区别对待 第四章

数据仓库系列--(1) 数据仓库普及

数据仓库介绍 良好的数据仓库设计是BI分析基石. 在企业看来,数据的两种形式:操作数据.分析数据.与操作型数据相对应的系统:联机事务处理[OLTP ],称为数据库:与后者相对应的系统:联机分析处理[OLAP],称为数据仓库[DW]. 数据仓库:支持管理决策过程.面向主题.集成.渐变.持久的数据集合. 与传统数据库不同,DW是多维数据库. 数据仓库存储的两个基本的元素是维度表和事实表. 事实表:是反映业务核心的表,表中存储了与该业务相关的关键数据,我们称其为"度量值",是今后用来计算及统

windows server域的概念以及wmic(centos上命令)

wmic访问在域中的计算机.其中ops\administrator为域用户名,也可以写作ops.com\administrator.ops是域名ops.com的简写,是MS的NetBIOS一套吗? ./wmic -U 192.168.0.120/ops\\administrator%[email protected] //192.168.0.120 "select * from Win32_ComputerSystem" ./wmic -U 192.168.0.120/ops.com\