数据挖掘概念与技术--多维数据模型

1.数据立方体的构建

    数据立方体允许从多维对数据建模和观察。

    维:透视图或实体,一个维对应维表。

    事实:多维数据模型由事实表表示,表项称为事实一个事实表对应一个主题。例如数据仓库sales的事实包括:销售额,销售量,预算量等。一般事实由数值标志,从而更好的分析维之间的关系。注:事实是多维数据模型中的概念,维对应数据立方体中的概念,实际二者表示同意物体。

2.星形,雪花形,事实星座形模式:多维数据库模式。

    星形:一个事实表,多个维表(每维一个)。

    雪花形:一个事实表。为减少冗余(关系数据库中的规范化),维表中数据可能进一步分解到附加的表中。但由于查询需要大量的连接操作,所以雪花模型可能降低浏览的性能并且节省的空间相对于庞大的事实表可忽略,所以星形模型更加实用。

    事实星座形:复杂的应用可能多个事实表共享某些维表。

    注:此处解释数据仓库和数据集市的:数据仓库多用事实星座形,收集的是多个主题的信息,是企业级别的。数据集市多用星形或雪花形,只针对单个主题建模,是部门级别的。

3.使用数据挖掘查询语言(DMQL),进行数据立方体和维的定义。

4.度量的分类和计算

    度量:这里的度量为名词,是一个数值函数。在上例中事实表sales中的dollars_sold和units_sold是度量。改词在前面数据汇总度量计算时有提到(均值,中位数,众数,最大最小值等)。

    分类:根据所用的聚集函数的类型分类。

      a.分布的。例如count,max,min.先计算局部,然后合并所有局部的结果值得到的整体结果如果等于直接对整体进行计算的结果值,则为分布。

      b.代数的。代数一般只方程函数。即:度量有某些变量通过计算得到。例如均值=sum/n;

      c.整体的。自聚集无法完成的,即只能通过对整体进行计算得到。例如:中位数,众数。

  注:度量不仅仅可为数值型数据,也可以是空间的,多媒体,文本数据。

5.概念分层

    前面以讨论,就是分层。

6.多维数据模型的OLAP操作

  上卷,下钻,切片(对某一维进行选择),切块(对两个以上维进行选择),转轴等。

  其他操作:钻过:执行涉及多个事实表的查询。

       钻透:使用关系SQL机制,钻透数据立方体的底层,使用后端关系表。

    OLAP提供分析建模机制,包括推到比率,方差;也支持预测,趋势分析,统计分析等。

7.查询多维数据库的星形网查询模型

    多维数据库的查询可以基于星形网模型进行(上卷,下钻等造不同粒度下进行操作)。

    模型的构建:由中心店发出多条射线组成。其中:射线指的是维的概念分层。线上的点叫做脚印,是概念分层的每一个抽象级。例如location(street,city,province).

    

时间: 2024-10-12 16:06:51

数据挖掘概念与技术--多维数据模型的相关文章

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫"数据仓库"的地方. 数据仓库的基本概念: 数据仓库的定义--面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库--为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构--三层体系结构:底层(数据仓库服务器)--中间层(OLAP服务器)--顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库--关于数据的数据 理解OLAP,数据

《数据挖掘概念与技术》——第四章 数据仓库与联机分析处理

一.基本概念 1.宽泛概念:数据仓库是一种数据库,它与的那位的操作数据库分别维护.数据仓库系统允许将各种应用系统集成在一起,为同一的历史数据分析提供坚实的平台,对信息处理提供支持. 另一种说法: 数据仓库是一个面向主题的.集成的.时变的.非易失的数据集合,支持管理者的决策过程. 1)面向主题的:数据仓库围绕一些重要的主题,如顾客.供应商.产品和销售组织.关注点是决策者的数据建模与分析,不是在日常操作和事务处理上. 2)集成的:构造数据仓库是将多个易购数据源,如关系数据库.一般文件.联机事务处理记

《数据挖掘概念与技术》学习笔记

1.Chapter1 引论: (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 联机事物处理,就是我们常常说的关系数据库的主要应用,主要是主要的.日常的事务处理,比如银行交易.比如:mysql OLAP(on-line analytical processing) 联机分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,側重决策支持,而且提供直观易懂的查询结果.比如:hive+hdfs. (2) 数据仓库概念: 数据仓库是一个面

《数据挖掘概念与技术》--第三章 数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

【炼数成金 RapidMiner 一 】数据挖掘概念与技术原书第三版(第一章)1.9节的习题解

1.数据挖掘是指从大量的数据中提取有用的知识信息的一种模式. (1)因为现在的生活工作中随时随刻都在产生大量的数据和都需要将这些数据转变为有用的信息和知识,是因为需求的不断增加才会突显出数据挖掘技术的重要性,所以数据挖掘应该是信息技术发展带来的结果. (2)数据挖掘应该是这些技术融合而不是简单的变革. (3)数据库技术带动了数据收集技术的发展和数据库建立的机制,有了有效的数据管理,包括数据存储.检索.查询和事务处理机制.大量的数据库系统提供的查询和事务处理,自然地产生了对数据分析和理解的必要性,

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规

数据挖掘概念与技术--数据仓库的概念

1.数据仓库的定义 数据仓库是一个面向主题的,集成的,时变的和非易失的数据集合,支持管理部门的决策过程. 面向主题的:数据仓库都围绕一些主题来组织:如顾客,供应商,产品和销售等某一特定的目的,而非组织机构的日常操作和事务管理.即:数据仓库排除对于决策无用的数据,它提供的是特定主题的简明视图. 集成的:构建数据仓库是将多个数据源的数据集成在一起,数据源可以是:关系数据库,一般文件,联机事务记录.在此处用到前面所述数据清理和数据集成技术. 时变的:数据存储从历史的角度提供信息(例如过去3个月,5-1

【读书笔记-数据挖掘概念与技术】高级聚类分析

1   基于概率模型的聚类 例子: a.评论产品,一个评论可能设计多种产品,如一个评论谈论摄像机与计算机的兼容性,怎么办?该评论与这两个簇相关,而并不互斥地属于任何一个簇. b.用户在购买商品时,检索的信息中既订购了一部数据相机,并且同时比较了多种笔记本电脑,怎么办?这种会话应该在某种程度上数据这两个簇. 1.1   模糊簇 这节的例子还不错. 1.2   基于概率模型的聚类 对象以概率的方法参与多个簇. 混合模型假定观测对象集是来自多个概率簇的实例的混合. 以单变量高斯混合模型为例,假定每个簇