【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念:

  • 基本单元:基本方体的单元

  • 聚集单元:非基本方体的单元
  • 冰山立方体:部分物化的立方体
  • 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围)

∵冰山立方体仍有大量不感兴趣的单元需要计算

∴引入——闭覆盖——一个单元没有后代或者它的后代的度量值与其不同

法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳

  • 计算的一般策略:四种优化技术

1.    排序、散列和分组

2.    同时聚集和缓存中间结果

3.    当存在多个子女方体时,由最小的子女聚集

4.    先验剪枝法

—————————————————————————————————————————————————————————————————————————————

数据立方体的计算方法

  • 多路数组聚集

计算以2-D平面为例:

维的大小:A——40;B——400;C——4000

1.    扫描次序为1~64

2.  扫描次序为1,17,33,49,5,21,37,53

特点:

1.    数组可以直接寻址

2.    将表转换成数组,用数据计算立方体,然后再把结果转换成表。(当然这并不意味着慢)

3.    可能仅对具有相对较少维的立方体才有效,因为需要计算的方体个数随维数指数增长

  • BUC(Bottom-Up Construction):从顶点方体向下计算稀疏冰山立方体

主要思想
  • 首先计算整个数据立方体的度量值,然后沿着每个维度进行划分,同时检查冰山条件,对不满足条件的分支进行剪枝操作,对满足的在下一个维度进行递归搜索

  • 计算流程:

特点:

1.    采用了分治策略,优点在于能够分担划分开销,减少不必要的计算消耗;

2.    性能容易受到韦德次序以及不平衡数据的影响,应当以维基数的递减顺序进行划分(优化:排序、散列、分组);

3.    不能利用父子关系共享聚集计算,不像MultiWay;

eg2:

  • Star-Cubing:使用动态星树结构计算冰山立方体

注:维的基数就是指这个属性的不同取值的个数

最小支持度min_sup(阀值):相同的取值至少出现多少次

概念

星节点:单个维在属性值p上的聚集不满足冰山条件(可用于剪枝)

主要思想
  • 集成自顶向下和自底向上,结合多路数据聚集的同时聚集和BUC中的Apriori剪枝策略

  • 利用星型树数据结构进行存储,核心是引入共享维。如果共享维的聚集值不满足冰山条件,则共享维向下的所有单元都不满足冰山条件

为快速高维OLAP预计算壳片段

一个问题:

为什么会对数据立方体预计算感兴趣?

因为数据立方体有利于多维数据空间的快速OLAP

尽管冰山立方体可以让我们在更短的时间内得到结果,但是,它并不是最终的解。

so,一个可能得解就是计算一个很薄的立方体外壳

又因为立方体外壳有两个缺点:

  1. 不支持高维OLAP

  2. 不支持下钻

so,我们只计算它的一部分或片段

外壳片段方法涉及两个算法:一个计算外壳片段立方体;另一个用立方体片段处理查询。外壳片段方法能够处理维度非常高的数据库,并且可以快速联机计算小的局部立方体。它利用信息检索和基于Web的信息系统中很流行的倒排索引结构。

———————————————————————————————————————————————————————————————————————

使用数据立方体技术处理高级查询(http://blog.csdn.net/mamianskyma/article/details/15494471)

基本数据立方体已经进一步扩充到各种复杂的数据类型和新的应用。如,用于地理数据仓库设计与实现的空间数据立方体,用于多媒体数据多维分析的多媒体立方体;RFID数据立方体处理射频(RFID)的压缩和多维分析,文本立方体和论题立方体是分别为多维文本数据库(包括结构属性和叙事文本属性)中向量空间模型和生成语言模型的应用开发的。

  • 抽样立方体:样本数据上基于OLAP的挖掘
      • 在收集数据时,常常只收集我们想要收集数据的一个子集,结果数据称为样本数据。

      • 如果试图把传统的OLAP工具用于样本数据,则将遇到两个挑战:第一,在多维意义下,样本数据往往过于稀疏。当用户在数据上下钻时,很容易钻到只有很少样本或没有样本的点。基于小样本推断对于总体回答可能产生误导:样本中的单个离群点或微小偏倚都可能显著地扭曲回答。第二,使用样本数据,统计学方法将用来提供可靠性度量(如置信度),指出关于总体,查询回答的质量。而传统的OLAP没有配备这样的工具。
      • 抽样立方体是一种存储样本数据和它们多维聚集的数据立方体结构。它支持样本数据上的OLAP。它计算置信区间,作为多维查询的质量度量。置信区间用于指示估计的可靠性,如样本数据中观众平均年龄为35岁,但35岁是也是总体数据的平均年龄的把握有多大?因此需要某种方法限定我们的估计,指导出误差的一般幅度。置信区间是一个以给定的高概率涵盖真正总体值估计的值域。置信区间总是被一个置信水平限制。例:“在95%时,实际均值变化不会超过+/-两个标准差”,置信水平是95%。置信区间的计算方法见《数据挖掘概念与技术》142页。
      • 如果置信区间很大,则可靠性就成为一个问题。影响置信区间大小的两个因素:样本数据的方差和样本大小。首先,很大的单元方差表明所选单元很差,更好的解可能是在查询单元下钻到更细节的单元时;其次,小样本可能导致大的置信区间。解决小样本问题的最好方法是获取更多数据,立方体中通常有充足的数据,这些数据不能精确地匹配查询单元,然而,可以考虑“邻近”单元中的数据,有两种方法获取这种数据,以增强查询回答的可靠性:1)方体内查询扩展考虑同一方体内的邻近单元;2)方体间查询扩展考虑查询单元的更一般版本(来自父母方体)。
        • 方体内查询扩展:通过包括与查询单元处于同一方体的邻近单元来扩大样本,新样本旨在提高回答的置信度,而不改变查询的语义。1)应该扩展哪些维:与度量值(待预测的值)不相关或弱相关的值。为了精确地度量维与立方体值的相关性,计算维值与它们聚集立方体之间的相关性,通常对数值数据使用皮尔逊相关系数,对标称数据使用X^2相关检验,尽管也可以使用其他度量如协方差。2)选择用于扩展的维后,扩展应该使用这些维中的哪些值:选择语义类似的值,使得改变最终结果的风险最小。

        • 方体间查询扩展:通过考察更一般的单元进行扩展。
    • 排序立方体:top-k查询的有效计算
      • 数据立方体不仅有助于多维查询的联机分析处理,而且有助于搜索和数据挖掘。top-k查询(或排序查询)根据用户指定的优选条件,只返回最好的K个结果作为查询的回答,而不是返回大量不加区分的结果。结果按排定的序返回,使得最好结果在顶部。通常,用户指定的优选条件由两部分组成,一个选择条件和一个排序函数。top-k查询在许多应用中很常见,如搜索web数据库、使用近似匹配的k-最近邻搜索、多媒体数据库的相似性查询。

      • OLAP需要脱机预计算,以便多维分析可以联机进行,但是临时设定的排序函数又阻完全物化。一种自然的折中是采用半脱机物化和半联机计算模式。
      • 排序立方体的一般原理是物化选择属性集上的立方体。使用排序维上基于区间的划分使得排序立方体可以有效而灵活地支持用户的临时查询。
  1. 数据立方体空间的多维数据分析
    • 预测立方体:立方体空间的预测挖掘

      • 多维数据挖掘,发现变化的维组合和变化的粒度的知识,这种挖掘又称为探索式多维数据挖掘或联机分析挖掘。

      • 预测立方体是一种立方体结构,它存储多维数据空间中的预测模型,并以OLAP方式支持预测。预测立方体是多维数据挖掘的一个范例。在数据立方体中,每个单元值都是在该单元中数据子集上计算的聚集值,而预测立方体每个单元值都是通过对建立在该单元数据子集上的预测模型求值计算的,因此代表对该数据子集行为的预测。
    • 多特征立方体:多粒度上的复杂聚集
      • 传统的数据立方体是在通常使用的维上,使用简单的度量构建。多特征立方体计算更复杂的查询,其回答依赖于变化粒度层上多个聚集的分组。

      • 多特征立方体使得用户可以灵活地定义复杂的、面向特定任务的立方体,在该立方体上可以进行多维聚集和基于OLAP的挖掘。
      • 多特征立方体的计算依赖于该立方体所使用的聚集函数的类型。聚集函数可以分为分布的、代数的和整体的。
    • 基于异常的、发现驱动的立方体空间探查
      • 一个数据立方体可能具有大量方体,且每个方体可能包含大量(聚集)单元。对用户页言,即使只是浏览立方体也成为一种负担。需开发一些工具,帮助用户智能地探查数据立方体巨大的聚集空间。

      • 异常指示符指示数据异常的预计算的度量,在所有的聚集层用来指导用户的数据分析过程。异常是一个数据立方体单元值,基于某种统计模型,它显著地不同于预期值。该模型在单元所属的所有维上考虑度量值的变化和模式。该模型考虑隐藏在数据立方体的所有分组聚集中的异常。
时间: 2024-08-01 17:04:37

【读书笔记-数据挖掘概念与技术】数据立方体技术的相关文章

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫"数据仓库"的地方. 数据仓库的基本概念: 数据仓库的定义--面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库--为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构--三层体系结构:底层(数据仓库服务器)--中间层(OLAP服务器)--顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库--关于数据的数据 理解OLAP,数据

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规

【读书笔记-数据挖掘概念与技术】高级模式挖掘

模式挖掘是一个比频繁挖掘模式更一般的术语,因为前者还涵盖了稀有模式和负模式.然而,在没有歧义时,两者可以互换地使用. 模式挖掘路线图 分类 基本模式 基于模式所涉及的抽象层 基于规则或模式所涉及的维数 基于规则或模式中所处理的值类型 基于挖掘选择性模式的约束或标准 基于所挖掘的数据类型和特征 多层.多维空间中的模式挖掘 挖掘多层关联规则 对于所有层使用一致的最小支持度--一致支持度 在较低层使用递减的最小支持度--递减支持度 使用基于项或基于分组的最小支持度--基于分组的支持度 挖掘多维关联规则

【读书笔记-数据挖掘概念与技术】认识数据

属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性--"与名称相关",它的值是一些符号或事物的名称. eg.头发颜色(黑色.棕色.淡黄色.红色) 婚姻状况(单身.已婚.离异.丧偶) 二元属性--标称属性的一种,只有两个类别或状态:0或1(布尔属性). 有对称与非对称之分,对称--两种状态具有同等价值并且携带相同的权重eg.性别 非对称--其状态的结果不是同样重要eg.化验结果(阴性0.阳性1) 序数属性--它的值之间具有有意义的序或秩评定,但相

【读书笔记-数据挖掘概念与技术】高级聚类分析

1   基于概率模型的聚类 例子: a.评论产品,一个评论可能设计多种产品,如一个评论谈论摄像机与计算机的兼容性,怎么办?该评论与这两个簇相关,而并不互斥地属于任何一个簇. b.用户在购买商品时,检索的信息中既订购了一部数据相机,并且同时比较了多种笔记本电脑,怎么办?这种会话应该在某种程度上数据这两个簇. 1.1   模糊簇 这节的例子还不错. 1.2   基于概率模型的聚类 对象以概率的方法参与多个簇. 混合模型假定观测对象集是来自多个概率簇的实例的混合. 以单变量高斯混合模型为例,假定每个簇

【读书笔记-数据挖掘概念与技术】分类:基本概念

数据分类的两个阶段:学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)和分类阶段(使用模型预测给定数据的类标号). 决策树归纳 构造一颗树,从根到叶子节点的路径,该叶子节点就存放着该元组的预测类. 决策树分类器的构造不需要任何领域知识和参数设置,因此适合于探测式知识发现.决策树可以处理高维数据. 分裂节点时,关于选择什么样的度量标准,主要分为三类: 1.ID3:信息增益: 2.C4.5:信息增益率: 3.基尼系数: 如何防止过拟合? 树剪枝:剪掉最不靠谱的分支: 方法:a)先剪枝

【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用

【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:基本概念和方法

频繁模式:频繁出现的模式(可以是项集.子序列或子结构) 基本概念 支持度:support 置信度:confidence 关联规则:association 找出所有的频繁项集:出现次数≥最小支持计数 由频繁项集产生强关联的规则(定义最小支持度和最小置信度) 频度(支持度计数):出现的次数 频繁项集:项集I的相对支持度满足预定义的最小支持度阈值 闭频繁项集:不存在真超项集Y使得Y与X在D中具有相同的支持度计数 X是D中的极大频繁项集:X是D中的极大频繁项集或极大项集,如果X是频繁的,并且不存在超项集

【读书笔记-数据挖掘概念与技术】离群点检测

1   离群点和离群点分析 1.2    离群点的类型 a.全局离群点 显著偏离数据集中的其余对象,最简单的一类离群点. 检测方法:找到一个合适的偏离度量 b.情境离群点 离群点的值依赖于情境.分为情境属性(定义对象的情境)和行为属性(定义对象的特征) c.集体离群点 数据对象的子集形成集体离群点,如果这些对象作为整体显著偏离整个数据集. 1.3   离群点检测的挑战 正常数据与异常数据的界限不明显: 离群点≠噪声 2   离群点检测方法 两大类:         a.根据用于分析的数据样本是否