数据挖掘-概念与技术-第10章聚类作业题

介绍基于划分的聚类方法

给定n个对象的集合,将对象划分成K个簇。每个簇至少包含一个对象。

K-Means伪代码

输入:k:簇的数目

D: 包含n个对象的数据集

输出:k个簇的集合

方法:

(1) 从D中任意选择K个对象作为初始簇的中心。

(2) repeat

a) 根据簇中对象的均值,将每个对象分配到最相似的簇。

b) 更新簇的均值,计算每个簇中对象的均值。

until 每个簇的对象情况不再发生变化

介绍基于层次的聚类方法

有两种基于层次的聚类方法,层次聚类可以是凝聚的或者是分裂的。

凝聚是自底向上的聚类,每个对象形成自己的簇开始,迭代地把簇合成越来越大的簇。直到所有对象合并到统一个簇之中,或者满足相应的条件为止。

分裂的层次聚类方法使用的是自顶向下的策略,从把所有对象置于一个簇之中开始,把根上的簇划分成多个较小的子簇,并且递归的把这些粗划分成更小的簇。知道最低层的簇足够凝聚为止。

基于密度的聚类方法

不同于基于层次的和基于划分的只能生成球状簇,基于密度的方法能识别任意形状的簇。

DBSCAN

邻域的密度可以简单地用邻域类的对象数量度量。

介绍基于网格的聚类方法

这种方法,把输入空间划分成独立于输入对象的分布的单元。

  1. STING : 基于网络的多分辨率的聚类技术。
  2. CLIQUE:基于网格和密度的聚类方法。

STING

基于网格的多分辨率的聚类技术,将输入对象的空间区域划分成矩形单元。每个网格单元的属性的统计星系(均值,最大值)等被作为参数预先计算和存储。

优点:

  1. 基于网格的计算是独立于查询的。
  2. 网格结构有利于并行处理和增量更新
  3. 效率高。

CLIQUE

如果数据对象的属性的值差异很大,可鞥很难在整个数据空间之中找出簇。这种情况下,在数据的不同自空间之中搜索簇可能更有意义。

CLIQUE 是一种简单的基于网格的聚类方法,用于发现子空间之中基于密度的簇。它把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。使用一个密度阈值识别稠密但愿和稀疏单元。

一个k-维单元c至少有l个点,仅当c的每个(k-1)-维投影至少有l个点。

 

具体工作过程如下:

  1. COLQUE把d-维数据空间划分成若干个互不重叠的矩形单元,并且从中识别出稠密单元。CLIQUE把每个维度都划分成区间,并识别至少包含l个点的区间。l是密度阈值。
  2. 迭代的连接子空间的稠密但愿。连接操作产生空间中的k+1为款候选单元。检查c中的点数是否满足密度阈值。
  3. 使用最大区域来覆盖连接的稠密单元。采用的是一种贪心算法。

 

 

聚类评估

  1. 估计聚类趋势。
  2. 确定数据集之中的簇数。
  3. 测定聚类的质量。

10.4K-Means++ 算法

这个算法和K-Means的主要区别在于初始中心的选择问题。

首先随机选择k个中心,随后迭代,对每个维被选中为中心的对象p,选择一个座位新的中心,该对象以正比于dist(p)^2的概率随机选取。dist(p) 是p到已经选定的最近中心的距离。这个方法能够加快k-均值的收敛速度,能保证最终聚类结果的质量。

原因是这种方法能够保证初始聚类的中心尽可能的远。

  1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心
  2. 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
  3. 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大
  4. 重复2和3直到k个聚类中心被选出来
  5. 利用这k个初始的聚类中心来运行标准的k-means算法
时间: 2024-10-21 04:08:21

数据挖掘-概念与技术-第10章聚类作业题的相关文章

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

【炼数成金 RapidMiner 一 】数据挖掘概念与技术原书第三版(第一章)1.9节的习题解

1.数据挖掘是指从大量的数据中提取有用的知识信息的一种模式. (1)因为现在的生活工作中随时随刻都在产生大量的数据和都需要将这些数据转变为有用的信息和知识,是因为需求的不断增加才会突显出数据挖掘技术的重要性,所以数据挖掘应该是信息技术发展带来的结果. (2)数据挖掘应该是这些技术融合而不是简单的变革. (3)数据库技术带动了数据收集技术的发展和数据库建立的机制,有了有效的数据管理,包括数据存储.检索.查询和事务处理机制.大量的数据库系统提供的查询和事务处理,自然地产生了对数据分析和理解的必要性,

《数据挖掘概念与技术》--第三章 数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

《数据挖掘概念与技术》——第四章 数据仓库与联机分析处理

一.基本概念 1.宽泛概念:数据仓库是一种数据库,它与的那位的操作数据库分别维护.数据仓库系统允许将各种应用系统集成在一起,为同一的历史数据分析提供坚实的平台,对信息处理提供支持. 另一种说法: 数据仓库是一个面向主题的.集成的.时变的.非易失的数据集合,支持管理者的决策过程. 1)面向主题的:数据仓库围绕一些重要的主题,如顾客.供应商.产品和销售组织.关注点是决策者的数据建模与分析,不是在日常操作和事务处理上. 2)集成的:构造数据仓库是将多个易购数据源,如关系数据库.一般文件.联机事务处理记

《数据挖掘 概念与技术》读书笔记 - 第一章 引论

1.1 为什么进行数据挖掘 数据挖掘把大型数据集转化成知识. 数据仓库是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策. 联机分析处理(OLAP)是一种分析技术,具有汇总.合并和聚集以及从不同的角度观察信息的能力.(注:与联机事务处理OLTP不同) 1.2 什么是数据挖掘 数据挖掘是从大量数据中挖掘有趣模式和知识的过程. 数据挖掘过程: 数据清洗(消除噪声和删除不一致数据) 数据集成(多种数据源可以组合在一起) 数据选择(从数据库中提取与分析任务相关的数据) 数据变换(通过汇

《数据挖掘概念与技术》学习笔记

1.Chapter1 引论: (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 联机事物处理,就是我们常常说的关系数据库的主要应用,主要是主要的.日常的事务处理,比如银行交易.比如:mysql OLAP(on-line analytical processing) 联机分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,側重决策支持,而且提供直观易懂的查询结果.比如:hive+hdfs. (2) 数据仓库概念: 数据仓库是一个面

数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理 数据质量的三个要素:准确性.完整性和一致性. 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据. 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局常量填充缺失值 4.使用属性的中心度量填充缺失值:中位数 5.使用与给定元组属同一类的所有样本的属性均值或中位数 6.使用最可能的值填充缺失值:回归/贝叶斯/决策树 第6种是最流行的策略 3.2.2

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫"数据仓库"的地方. 数据仓库的基本概念: 数据仓库的定义--面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库--为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构--三层体系结构:底层(数据仓库服务器)--中间层(OLAP服务器)--顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库--关于数据的数据 理解OLAP,数据

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规