【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方。

数据仓库的基本概念:

  • 数据仓库的定义——面向主题的、集成的、时变的、非易失的

  • 操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP  VS  OLTP)
  • 数据仓库体系结构——三层体系结构:底层(数据仓库服务器)——中间层(OLAP服务器)——顶层(前段工具)
  • 三种数据仓库模型
  1. 企业模型

  2. 数据集市(只针对某一部门)
  3. 虚拟仓库
  • 元数据库——关于数据的数据

理解OLAP,数据仓库,数据挖掘的联系与区别,参考:http://hi.baidu.com/hhhqpfnybgbfqrd/item/784f2d14b46c3106b98a1a83

http://blog.csdn.net/cuipower/article/details/342070

————————————————————————————————————————————————————————————————————————————

数据仓库建模:数据立方体与OLAP

参考:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/

  • 数据立方体——多维数据模型

  • 星形、雪花型和事实星座——多维数据模型的模式
  • 维——概念分层的作用
  • 度量的分类和计算

分类——根据其所用的聚集函数

  1. 分布的

  2. 代数的
  3. 整体的
  • 典型的OLAP操作——上卷、下钻、切片和切块、转轴等

  • 查询多维数据库的星网查询模型

————————————————————————————————————————————————————————————————————————————

数据仓库的实现

  • 数据立方体的有效计算——数据仓库包含海量数据,查询要迅速,因此要用到高效的数据立方体技术

什么是数据立方体?

数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(维度)。
当我们试图从一堆数据中提取信息时,我们需要工具来帮助我们找到那些有关联的和重要的信息,以及探讨不同的情景。一份报告,不管是印在纸上的还是出现在屏幕上,都是数据的二维表示,是行和列构成的表格。在我们只有两个因素要考虑时,这就足矣,但在真实世界中我们需要更强的工具。
数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样。 “立方体”这个词让我们想起三维的物体,我们也可以把三维的数据立方体看作是一组类似的互相叠加起来的二维表格。
但是数据立方体不局限于三个维度。大多数在线分析处理( OLAP)系统能用很多个维度构建数据立方体,例如,微软的SQL Server 2000 Analysis Services工具允许维度数高达64个(虽然在空间或几何范畴想像更高维度的实体还是个问题)。
在实际中,我们常常用很多个维度来构建数据立方体,但我们倾向于一次只看三个维度。数据立方体之所以有价值,是因为我们能在一个或多个维度上给立方体做索引。

操作:

∵维灾难:概念分层太多,没地方存储

∴预计算部分方体——部分物化

  • 索引又分为:位图索引和连接索引
  • OLAP查询的有效处理:细——》粗

  • OLAP服务器——为商务用户提供数据仓库或数据集市的多维数据,不必关心数据如何存放和存放在何处。

————————————————————————————————————————————————————————————————————————————

数据泛化:面向属性的归纳

什么叫数据泛化?

数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。对大量数据进行有效灵活的概述方法主要有两种:(1)数据立方(data cube)方法;(2)基于属性的归纳方法。

数据立方体方法:基于数据的物化视图,通常在数据仓库中预先计算

面向属性的归纳:面向查询的、基于泛化的、联机的数据分析处理技术

注:两者没有固有界限

∵数据立方体技术不足以完成所有的大型数据集的概念描述任务

∴引出数据特征的面向属性的归纳

概念描述——以简洁汇总的形式描述给定的任务相关数据集,提供数据的有趣的一般性质。由特征和比较组成。

时间: 2024-10-10 13:31:14

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)的相关文章

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

【读书笔记-数据挖掘概念与技术】高级聚类分析

1   基于概率模型的聚类 例子: a.评论产品,一个评论可能设计多种产品,如一个评论谈论摄像机与计算机的兼容性,怎么办?该评论与这两个簇相关,而并不互斥地属于任何一个簇. b.用户在购买商品时,检索的信息中既订购了一部数据相机,并且同时比较了多种笔记本电脑,怎么办?这种会话应该在某种程度上数据这两个簇. 1.1   模糊簇 这节的例子还不错. 1.2   基于概率模型的聚类 对象以概率的方法参与多个簇. 混合模型假定观测对象集是来自多个概率簇的实例的混合. 以单变量高斯混合模型为例,假定每个簇

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规

【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:基本概念和方法

频繁模式:频繁出现的模式(可以是项集.子序列或子结构) 基本概念 支持度:support 置信度:confidence 关联规则:association 找出所有的频繁项集:出现次数≥最小支持计数 由频繁项集产生强关联的规则(定义最小支持度和最小置信度) 频度(支持度计数):出现的次数 频繁项集:项集I的相对支持度满足预定义的最小支持度阈值 闭频繁项集:不存在真超项集Y使得Y与X在D中具有相同的支持度计数 X是D中的极大频繁项集:X是D中的极大频繁项集或极大项集,如果X是频繁的,并且不存在超项集

【读书笔记-数据挖掘概念与技术】分类:基本概念

数据分类的两个阶段:学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)和分类阶段(使用模型预测给定数据的类标号). 决策树归纳 构造一颗树,从根到叶子节点的路径,该叶子节点就存放着该元组的预测类. 决策树分类器的构造不需要任何领域知识和参数设置,因此适合于探测式知识发现.决策树可以处理高维数据. 分裂节点时,关于选择什么样的度量标准,主要分为三类: 1.ID3:信息增益: 2.C4.5:信息增益率: 3.基尼系数: 如何防止过拟合? 树剪枝:剪掉最不靠谱的分支: 方法:a)先剪枝

【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用

【读书笔记-数据挖掘概念与技术】认识数据

属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性--"与名称相关",它的值是一些符号或事物的名称. eg.头发颜色(黑色.棕色.淡黄色.红色) 婚姻状况(单身.已婚.离异.丧偶) 二元属性--标称属性的一种,只有两个类别或状态:0或1(布尔属性). 有对称与非对称之分,对称--两种状态具有同等价值并且携带相同的权重eg.性别 非对称--其状态的结果不是同样重要eg.化验结果(阴性0.阳性1) 序数属性--它的值之间具有有意义的序或秩评定,但相

【读书笔记-数据挖掘概念与技术】高级模式挖掘

模式挖掘是一个比频繁挖掘模式更一般的术语,因为前者还涵盖了稀有模式和负模式.然而,在没有歧义时,两者可以互换地使用. 模式挖掘路线图 分类 基本模式 基于模式所涉及的抽象层 基于规则或模式所涉及的维数 基于规则或模式中所处理的值类型 基于挖掘选择性模式的约束或标准 基于所挖掘的数据类型和特征 多层.多维空间中的模式挖掘 挖掘多层关联规则 对于所有层使用一致的最小支持度--一致支持度 在较低层使用递减的最小支持度--递减支持度 使用基于项或基于分组的最小支持度--基于分组的支持度 挖掘多维关联规则

【读书笔记-数据挖掘概念与技术】离群点检测

1   离群点和离群点分析 1.2    离群点的类型 a.全局离群点 显著偏离数据集中的其余对象,最简单的一类离群点. 检测方法:找到一个合适的偏离度量 b.情境离群点 离群点的值依赖于情境.分为情境属性(定义对象的情境)和行为属性(定义对象的特征) c.集体离群点 数据对象的子集形成集体离群点,如果这些对象作为整体显著偏离整个数据集. 1.3   离群点检测的挑战 正常数据与异常数据的界限不明显: 离群点≠噪声 2   离群点检测方法 两大类:         a.根据用于分析的数据样本是否