数据仓库主题与主题域

什么是数据仓库主题

自从学习数据仓库以来,对数据仓库“面向主题”的概念始终比较模糊,理解不够深刻、透彻。 昨天晚上翻开课本温习一下,仍然不能领悟其本质思想、很是困惑,后来从网上找了一些资料,细细着磨一下。

1.主题的概念

主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。

面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。例如,一个生产企业的数据仓库所组织的主题可能有产品订货分析和货物发运分析等。而按应用来组织则可能为财务子系统、销售子系统、供应子系统、人力资源子系统和生产调度子系统。

主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。如在生产企业中,同样是材料供应,在操作型数据库系统中,人们所关心的是怎样更方便和更快捷地进行材料供应的业务处理;而在进行分析处理时,人们就应该关心材料的不同采购渠道和材料供应是否及时,以及材料质量状况等。

数据仓库面向在数据模型中已经定义好的公司的主要主题领域。典型的主题领域包括顾客、产品、订单和财务或是其他某项事务或活动。

2.主题域的获取

主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

比如,对于Adventure Works Cycle这种类型的公司管理层需要分析的主题一般包括供应商主题、商品主题、客户主题和仓库主题。其中商品主题的内容包括记录超市商品的采购情况、商品的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况;仓库主题包括仓库中商品的存储情况和仓库的管理情况等,如图3-31所示。

图3-31  根据业务情况确定的分析主题

确定主题边界实际上需要进一步理解业务关系,因此在确定整个分析主题后,还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。对于图3-31的4个主题及其在企业中的业务关系可以确定边界如图3-32所示。

图3-32  主题域的划分

3.确定主题的内容

主题虽然在信息包图中只占据标题的位置,但是却是信息打包方法中最重要的部分,当主题定义好之后,数据仓库中的逻辑模型也就基本成形了。此时,需要在主题的逻辑关系模式中包含所有的属性及与系统相关的行为。数据仓库中的数据存储结构也需要在逻辑模型的设计阶段完成定义,需要向里面增加所需要的信息和能充分代表主题的属性组。以Adventure Works Cycle这类公司数据仓库为例,如表3-7所示可以分别在“商品”、“销售”和“客户”主题上增加能够进一步说明主题的属性组。

表3-7  主题的详细描述


主  题  名


公 共 码 键


属  性  组


商品


商品号


商品固有信息:商品号,商品名,类型,颜色等

商品采购信息:商品号,供应商号,供应价,供应日期,供应量等

商品库存信息:商品号,库房号,库存量,日期等


销售


销售单号


销售单固有信息:销售单号,销售地址等

销售信息:客户号,商品号,销售价,销售量、销售时间等


客户


客户号


客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等

客户经济息:客户号,年收入,家庭总收入等

4.主题的使用

由于数据仓库的设计是一个螺旋发展的过程,在刚开始,没有必要在数据仓库的数据库中体现所有的主题,选择最重要的主题作为数据仓库设计的试金石是很有必要的。因此使用主题首先是找到需要分析的主题域。

例如在AdventureWorksDW数据仓库的概念模型设计中,在对需求进行分析后,认识到“商品”主题既是一个销售型企业最基本的业务对象,又是进行决策分析的最主要领域,因而把“销售分析”主题域定义为要首先建立的主题。通过“商品”主题的建立,经营者就可以对整个企业的经营状况有较全面的了解。先实施“商品”主题可以尽快地满足企业管理人员建立数据仓库的最初要求,所以先选定“商品”主题进行实施。

通过将主题边界的划分应用到已经得到的关系模型上还能形成原始的概念模型。这一模型是把主题域的划分和事务处理数据库中的表结合起来的模型,例如在上面的例子中,商品主题可能涵盖的关系表有商品表、供应关系表、购买关系表和仓储关系表;仓库主题可能涵盖的关系表有仓库关系表、仓库表、仓库管理关系表和管理员表。把这些表的键和字段联系起来,就可以形成如图3-33所示的原始概念模型图。


图3-33  划分了主题域的原始概念模型

时间: 2024-08-28 13:05:29

数据仓库主题与主题域的相关文章

Windows Server 2008 R2英文版修改桌面主题(Win7主题)

1:首先打开Server Manager(凡是不知道在那里开发均可像Win7一样在运行里面搜索) 2:然后在左边的树形菜单中选择:Feature 点击右边页面中的:Add Features 这时候会出现一个界面: 3:将“Desktop Experience”勾上 接下来就是下一步安装完成. 完成后系统会提示重启来完成安装,听话照做. 4:重启后还有一件事需要做:打开Server Manager 选择左边树形菜单中的:Configuration-->Services   在众多服务中找到:The

mac下phpstrom安装主题和主题推荐

phpstorm主题 在mac下finder下command+shift+G键到~/Library/Preferences/PhpStorm2016.2/colors,我的路径可能和你的不同,但是大同小异,你自己注意一下应该能够找到,然后是不是发现是不是没有colors这个文件夹,没事,添加colors文件夹,然后导入你的主题.xml文件,然后重启你的phpstorm在字体下设置就oK了! 参考: http://www.cnsecer.com/8159.html

TopicModel主题模型 - 主题模型的应用

http://blog.csdn.net/pipisorry/article/details/45665779 应用于推荐系统 在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度.比如,如果两个物品的话题分布相似,则认为两个物品具有较高的相似度,反之则认为两个物品的相似度较低.计算分布的相似度可以利用KL散度来计算: DKL(p||q)=∑i∈Xp(i)ln(p(i)/q(i

Ubuntu18.04美化主题(mac主题)

前端时间Ubuntu18.04LTS发布,碰巧之前用的Ubuntu16.04出了一点问题,懒得解决,索性就换了Ubuntu18.04. 成果: 参考博客:https://www.cnblogs.com/feipeng8848/p/8970556.html 下面开始进行美化配置: 安装主题工具:GNOME Tweaks (Ubuntu18.04对软件中心也做了强化,也可以去软件中心进行下载) sudo apt-get update sudo apt-get install gnome-tweak-

TopicModel主题模型 - 主题模型可视化

http://blog.csdn.net/pipisorry Browse LDA Topic Models This package allows you to create a set of HTML files to browse a topic model.It creates a word cloud and time-graph per topic, and annotates a selection of documents with the topic for each word

数据仓库专题(6)-数据仓库、主题域、主题概念与定义

一.数据仓库 关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的"Building the Data Warehouse"(<建立数据仓库>)一书中所提出: 中文定义:数据仓库是一个面向主题的.集成的.相对稳定的.反映历史变化的数据集合,用于支持管理决策. 英文定义:A data warehouse is a subject-oriented, integrated, nonvolatile, and time

数据仓库主题设计及元数据设计

明确仓库的对象:主题和元数据 大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据.现阶段流行的有2种方 法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象:另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高. 信息包图实际上是自上而下数据建模方法的一个很好的工具.自上而下的建模技术从用户的观点开始设计.用户的观点是通过与用户交流得到的,可以进

如何用Python从海量文本抽取主题?

摘自https://www.jianshu.com/p/fdde9fc03f94 你在工作.学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略.本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力.想不想试试呢? 淹没 每个现代人,几乎都体会过信息过载的痛苦.文章读不过来,音乐听不过来,视频看不过来.可是现实的压力,使你又不能轻易放弃掉. 假如你是个研究生,教科书和论文就是你不得不读的

转载:如何在wordpress主题中添加设置页面

将自己设计的题发布或是销售是一件很棒的事情,但并不是每一个主题使用者都有很熟练的HTML/CSS技巧.但是如果在主题中整合一个设置选项页面,就可以使那些完全不懂代码的用户能够很容易地根据他们的喜好来修改主题.下面我将告诉大家如何从零开始做一个最简单的主题选项页(下图为最终效果). 我们的最终目的是什么? 在开始之前,要先了解我们的最终目的是什么?我们主题可以自行定制哪些内容?这些是需要你在设计主题前就应该考虑好的. 每个主题都可以有很多的可编辑元素,本例中我将通过实现下面这三个方面的定制来说明如