聚类算法小结

看了些论文,小结一下,分享给大家!

聚类算法主要可以分为以下几类:

1)基于划分的方法

划分方法的主要思想是:给定要构建的划分数目k,在数据库中随机选择k个对象,每个对象代表一个类的平均值或中心,根据剩余的对象到类中心的距离将其划分到最近的类,然后重新计算每个类的中心,不断重复这个过程,直到所有的对象都不能再分配为止.

典型的划分方法包括:K一Means、K一Medoids、CLARA、CLARANS、FCM等

2)基于层次的方法

基于层次方法的主要思想是:对给定数据对象的集合进行层次的分解。根据层次分解的形成方式,层次的方法分为凝聚法(自底向上)和分裂法两种(自顶向下)。

基于层次聚类的算法主要有:CURE算法、BIRCH、ROCK算法、Chameleon等。

3)基于密度的方法

基于密度的方法的主要思想是:只要临近区域的密度超过某个事先给定阈值就继续聚类。这样的方法可以发现任意形状的类,并过滤“噪声”点。

基于密度的聚类算法主要有:DBSCAN、OPTICS、DENCLUE等。

4)基于网格的方法

基于网格的方法的主要思想是:把对象空间量化为有限数目的单元,形成了一个网格结构,在这个网格结构上进行所有的聚类操作。 基于网格的方法有:STING、CLQUE、WaveCluster。

5)基于模型的方法

基于模型方法的主要思想是:为每个类假定一个模型,寻找数据对给定模型的最优拟合。基于模型的算法定位聚类是通过构建反映数据点空间分布的密度函数来实现,它也是通过标准的统计数字自动决定聚类的数目,并且考虑噪声数据或孤立点,从而生成健壮的聚类方法。     基于模型方法的算法主要有:COBWEB、CLASSIT等。

时间: 2024-10-05 14:38:36

聚类算法小结的相关文章

【转载】聚类算法小结

聚类算法总结:---------------------------------------------------------聚类算法的种类: 基于划分聚类算法(partition clustering) k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和K-M

BIRCH聚类算法原理

在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理.这里我们再来看看另外一种常见的聚类算法BIRCH.BIRCH算法比较适合于数据量大,类别数K也比较多的情况.它运行速度很快,只需要单遍扫描数据集就能进行聚类,当然需要用到一些技巧,下面我们就对BIRCH算法做一个总结. 1. BIRCH概述 BIRCH的全称是利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using H

DBSCAN密度聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集.下面我们就对DBSCAN算法的原理做一个总结. 1. 密度聚类原理 DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定.同一类别的样本,他们

K-Means聚类算法原理

K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法.包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法. 1. K-Means原理初探 K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇.让簇内的点尽量紧密的连在一

LDA主题聚类学习小结

最近学习了LDA Topic聚类算法,里面涉及到许多概率论的知识,需要回过头去学习,这里做个小结,方便记忆,同时也希望能把它讲明白. LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m:然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p:这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm):同样的文档中的所有词也会求出 它对应每个Topic的概率,wi = (wp1,wp2,wp3

18大经典数据挖掘算法小结

18大经典数据挖掘算法小结 本文所有涉及到的数据挖掘代码的都放在了我的github上了. 地址链接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面.也算是对数据挖掘领域的小小入门了吧.下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习. 1.C4.5算法.C4.5算法与ID3

K-Means 聚类算法原理分析与代码实现

前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经典的聚类问题展开讨论.所谓聚类,就是事先并不知道具体分类方案的分类 (允许知道分类个数). 本文将介绍一个最为经典的聚类算法 - K-Means 聚类算法以及它的两种实现. 现实中的聚类分析问题 - 总统大选 假设 M 国又开始全民选举总统了,目前 Mr.OBM 的投票率为48%(投票数占所有选民人数的百分比

机器学习实战笔记-利用K均值聚类算法对未标注数据分组

聚类是一种无监督的学习,它将相似的对象归到同一个簇中.它有点像全自动分类.聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好 簇识别给出聚类结果的含义.假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么.聚类与分类的最大不同在于,分类的目标事先巳知,而聚类则不一样.因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类(unsupervised classification ). 聚类分析试图将相似对象归人同一簇,将不相似对象归到不

异常点检测算法小结

异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法,这里就对异常点检测算法做一个总结. 一.1.?异常点检测算法使用场景 什么时候我们需要异常点检测算法呢?常见的有三种情况.一是在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响.二是对没有标记输出的特征数据做筛选,找出异常的数据.三是对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考