西瓜书机器学习算法脉络梳理之聚类

什么是聚类任务

“无监督学习”中研究最多,应用最广的学习任务,除此之外,还有密度估计(density estimation)和异常检测(anomaly detection)。在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习揭示数据的内在性质及规律,为进一步的数据分析提供基础。

聚类(clustering)将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”(cluster),每个簇可能对应一个潜在的概念(类别)。这些概念对聚类算法而言,事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者把握和命名。

聚类能做什么,如何用?

聚类既能作为一个单独过程,找寻数据内在的分布结构;也可作为分类等其他学习任务的前驱过程:根据聚类结果,将每个簇定义为一个类,然后再基于这些类训练分类模型。

如何判别聚类的好坏?

即采用什么样的性能度量指标?

比较好的距离结果满足同一簇的样本近可能彼此相似,不同簇样本尽可能不同。即聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。

聚类性能度量也称聚类“有效性指标”(validity index)。大致有两类:一类将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal index)。

常用的外部指标

Jaccard 系数(Jaccard Coefficient,简称JC)

FM指数(Fowlkes and Mallows Index,简称 FMI)

Rand指数(Rand Index,简称 RI)

常用的内部指标

DB指数(Davies-Bouldin Index,简称DBI)

Dunn指数(Dunn Index,简称DI)

在使用内部指标度量聚类结果时,需要使用样本间的距离度量。

常用距离度量:

闵可夫斯基距离(Minkowski distance):针对连续属性(continuous attribute)和有序属性(ordinal attribute)

VDM 距离(Value Difference Metric):针对无序属性(non-ordinal)

注:属性分为连续属性和离散属性,离散属性又分为有序属性和无序属性。

聚类算法的分类

聚类算法大体可分为三类:原型聚类、密度距离和层次聚类。其基本思想具体如下:

原型聚类

亦称“基于原型的聚类”(prototype-based clustering),此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方法,将产生不同的算法。常见的原型聚类算法有K均值算法、学习向量量化(Learning Vector Quantization, LVQ)和高斯混合聚类(Mixture of Gaussian)。

密度聚类

亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连续性,并基于可连续样本不断扩展聚类簇,以获得最终的聚类结果。常见的密度聚类算法有DBSCAN(Density-Based Spatial Clustering of Application with Noise)

层次聚类

层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。

AGNES(Agglomerative NESting)是一种采用自底向上聚合策略的层次聚类算法。它将数据集中的每个样本看作是一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。

参考资料

[1] 周志华. 机器学习. 北京:清华大学出版社. 2016.197~217

原文地址:https://www.cnblogs.com/klchang/p/11482157.html

时间: 2024-07-30 21:16:00

西瓜书机器学习算法脉络梳理之聚类的相关文章

机器学习算法脉络梳理之集成学习

集成学习(ensemble learning)通过构建并结合多个学习器完成任务.也可称为多分类器系统(multi-classifier system).基于委员会的学习(committee-based learning)等.其一般结构是先生成一组“个体学习器”(individual learner),再用某种策略将它们结合起来. 若“个体学习器”均为同种类型,则为同质集成(homogeneous ensemble): 若“个体学习器”不是同一种类型,则为异质集成(heterogenous ).

【转】《西瓜书机器学习详细公式推导版》发布

转自:https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的<机器学习>(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,

简单易学的机器学习算法——基于密度的聚类算法DBSCAN

一.基于密度的聚类算法的概述 最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks>引起了大家的关注(在我的博文"论文中的机器学习算法--基于密度峰值的聚类算法"中也进行了中文的描述).于是我就想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域.与基于距离的聚

西瓜书经典算法推导(三)对数几率回归(逻辑回归)

原文地址:https://www.cnblogs.com/orangecyh/p/11939150.html

转:图解十大经典机器学习算法入门

原文:https://blog.csdn.net/jrunw/article/details/79205322 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将

机器学习---基础----图解十大经典机器学习算法入门

转自:https://blog.csdn.net/jrunw/article/details/79205322 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将

图解十大经典机器学习算法

图解十大经典机器学习算法 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将对常用算法做常识性的介绍,没有代码,也没有复杂的理论推导,就是图解一下,知道这些算法是

机器学习&amp;数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

http://www.cnblogs.com/tornadomeet/p/3395593.html 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大.

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector: