数据仓库的多维数据模型

可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。

多维数据模型的定义和作用

  多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)。

  当然,通过多维数据模型的数据展示、查询和获取就是其作用的展现,但其真的作用的实现在于,通过数据仓库可以根据不同的数据需求建立起各类多维模型,并组成数据集市开放给不同的用户群体使用,也就是根据需求定制的各类数据商品摆放在数据集市中供不同的数据消费者进行采购。

多维数据模型实例

  在看实例前,这里需要先了解两个概念:事实表和维表。事实表是用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情;维表则是对事实表中事件的要素的描述信息。比如一个事件会包含时间、地点、人物、事件,事实表记录了整个事件的信息,但对时间、地点和人物等要素只记录了一些关键标记,比如事件的主角叫“Michael”,那么Michael到底“长什么样”,就需要到相应的维表里面去查询“Michael”的具体描述信息了。基于事实表和维表就可以构建出多种多维模型,包括星形模型、雪花模型和星座模型。这里不再展开了,解释概念真的很麻烦,而且基于我的理解的描述不一定所有人都能明白,还是直接上实例吧:

  这是一个最简单的星形模型的实例。事实表里面主要包含两方面的信息:维和度量,维的具体描述信息记录在维表,事实表中的维属性只是一个关联到维表的键,并不记录具体信息;度量一般都会记录事件的相应数值,比如这里的产品的销售数量、销售额等。维表中的信息一般是可以分层的,比如时间维的年月日、地域维的省市县等,这类分层的信息就是为了满足事实表中的度量可以在不同的粒度上完成聚合,比如2010年商品的销售额,来自上海市的销售额等。

  还有一点需要注意的是,维表的信息更新频率不高或者保持相对的稳定,例如一个已经建立的十年的时间维在短期是不需要更新的,地域维也是;但是事实表中的数据会不断地更新或增加,因为事件一直在不断地发生,用户在不断地购买商品、接受服务。

多维数据模型的优缺点

  这里所说的多维模型是指基于关系数据库的多维数据模型,其与传统的关系模型相比有着自身的优缺点。

优点:

  多维数据模型最大的优点就是其基于分析优化的数据组织和存储模式。举个简单的例子,电子商务网站的操作数据库中记录的可能是某个时间点,某个用户购买了某个商品,并寄送到某个具体的地址的这种记录的集合,于是我们无法马上获取2010年的7月份到底有多少用户购买了商品,或者2010年的7月份有多少的浙江省用户购买了商品?但是在基于多维模型的基础上,此类查询就变得简单了,只要在时间维上将数据聚合到2010年的7月份,同时在地域维上将数据聚合到浙江省的粒度就可以实现,这个就是OLAP的概念,之后会有相关的文章进行介绍。

缺点:

  多维模型的缺点就是与关系模型相比其灵活性不够,一旦模型构建就很难进行更改。比如一个订单的事实,其中用户可能购买了多种商品,包括了时间、用户维和商品数量、总价等度量,对于关系模型而言如果我们进而需要区分订单中包含了哪些商品,我们只需要另外再建一张表记录订单号和商品的对应关系即可,但在多维模型里面一旦事实表构建起来后,我们无法将事实表中的一条订单记录再进行拆分,于是无法建立以一个新的维度——产品维,只能另外再建个以产品为主题的事实表。

  所以,在建立多维模型之前,我们一般会根据需求首先详细的设计模型,应该包含哪些维和度量,应该让数据保持在哪个粒度上才能满足用户的分析需求。

  这里对数据仓库的多维模型进行了简单的介绍,你是不是想到了其实你在分析数据的时候很多的数据就是复合多维模型的结构的,或者你已经用自己的方法构建出了多维模型或者实现的数据的多维化展示,欢迎与我分享。

时间: 2024-09-29 05:41:26

数据仓库的多维数据模型的相关文章

数据挖掘学习笔记 多维数据模型-数据立方体

多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing). 其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如count或sum.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据. <数据挖掘:概念与技术>中例举如下模型 数据立方体允许以多维数据建模和观察.它由维和事实定义.维是关于一个组织想要记录的视角或观点.每个维都有一

数据挖掘概念与技术--多维数据模型

1.数据立方体的构建 数据立方体允许从多维对数据建模和观察. 维:透视图或实体,一个维对应维表. 事实:多维数据模型由事实表表示,表项称为事实一个事实表对应一个主题.例如数据仓库sales的事实包括:销售额,销售量,预算量等.一般事实由数值标志,从而更好的分析维之间的关系.注:事实是多维数据模型中的概念,维对应数据立方体中的概念,实际二者表示同意物体. 2.星形,雪花形,事实星座形模式:多维数据库模式. 星形:一个事实表,多个维表(每维一个). 雪花形:一个事实表.为减少冗余(关系数据库中的规范

数据仓库系列文章

数据仓库元数据管理 OLAP的基本特征 维(Dimension)和立方(Cube) 数据立方体与OLAP 数据仓库的多维数据模型 数据仓库的基本架构 数据仓库的源数据类型 数据仓库的价值 出处:http://webdataanalysis.net/category/web-data-warehouse/

Oracle按不同时间分组统计

Oracle按不同时间分组统计 Oracle按不同时间分组统计的sql 如下表table1: 日期(exportDate) 数量(amount) -------------- ----------- 14-2月 -08 20 10-3月 -08 2 14-4月 -08 6 14-6月 -08 75 24-10月-09 23 14-11月-09 45 04-8月 -10 5 04-9月 -10 44 04-10月-10 88 注意:为了显示更直观,如下查询已皆按相应分组排序 1.按年份分组 sel

数据立方体----维度与OLAP

前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念.多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processing,联机分析处理). 数据立方体 关于数据立方体(Data Cube),这里必须注意的是数据立方体只是多维模型的一个形象的说法.立方体其本身只有三

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫"数据仓库"的地方. 数据仓库的基本概念: 数据仓库的定义--面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库--为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构--三层体系结构:底层(数据仓库服务器)--中间层(OLAP服务器)--顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库--关于数据的数据 理解OLAP,数据

数据仓库与数据挖掘的一些基本概念

下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line Transaction Processing):联机事务处理 也称为面向交易的处理系统,其基本特征是顾客的原始数据能够马上传送到计算中心进行处理,并在非常短的时间内给出处理结果.这样做的最大长处是能够即时地处理输入的数据,及时地回答.也称为实时系统(Real time System).衡量联机事务处理

有赞大数据实践: 敏捷型数据仓库的构建及其应用

有赞大数据实践: 敏捷型数据仓库的构建及其应用 有赞大数据实践: 敏捷型数据平台的构建及其应用 前言 数据仓库设计 总体架构 数据仓库实例 基础指标层 分层的好处 数仓工具 数据仓库与数据分析 即席查询系统 多维分析系统 搜索分析系统 固定报表系统 数据仓库在信息检索中的应用 小结 前言 互联网公司一般发展迅速. 一方面, 业务飞速发展, 当前应用的形式和模型每天都在变化; 企业的产品也在经历不断的下线上线过程. 数据仓库如何拥抱变化, 是难点之一. 互联网的运营人员从了解经营状况转化为精细化运

《数据挖掘概念与技术》——第四章 数据仓库与联机分析处理

一.基本概念 1.宽泛概念:数据仓库是一种数据库,它与的那位的操作数据库分别维护.数据仓库系统允许将各种应用系统集成在一起,为同一的历史数据分析提供坚实的平台,对信息处理提供支持. 另一种说法: 数据仓库是一个面向主题的.集成的.时变的.非易失的数据集合,支持管理者的决策过程. 1)面向主题的:数据仓库围绕一些重要的主题,如顾客.供应商.产品和销售组织.关注点是决策者的数据建模与分析,不是在日常操作和事务处理上. 2)集成的:构造数据仓库是将多个易购数据源,如关系数据库.一般文件.联机事务处理记