看了些论文,小结一下,分享给大家!
聚类算法主要可以分为以下几类:
1)基于划分的方法
划分方法的主要思想是:给定要构建的划分数目k,在数据库中随机选择k个对象,每个对象代表一个类的平均值或中心,根据剩余的对象到类中心的距离将其划分到最近的类,然后重新计算每个类的中心,不断重复这个过程,直到所有的对象都不能再分配为止.
典型的划分方法包括:K一Means、K一Medoids、CLARA、CLARANS、FCM等
2)基于层次的方法
基于层次方法的主要思想是:对给定数据对象的集合进行层次的分解。根据层次分解的形成方式,层次的方法分为凝聚法(自底向上)和分裂法两种(自顶向下)。
基于层次聚类的算法主要有:CURE算法、BIRCH、ROCK算法、Chameleon等。
3)基于密度的方法
基于密度的方法的主要思想是:只要临近区域的密度超过某个事先给定阈值就继续聚类。这样的方法可以发现任意形状的类,并过滤“噪声”点。
基于密度的聚类算法主要有:DBSCAN、OPTICS、DENCLUE等。
4)基于网格的方法
基于网格的方法的主要思想是:把对象空间量化为有限数目的单元,形成了一个网格结构,在这个网格结构上进行所有的聚类操作。 基于网格的方法有:STING、CLQUE、WaveCluster。
5)基于模型的方法
基于模型方法的主要思想是:为每个类假定一个模型,寻找数据对给定模型的最优拟合。基于模型的算法定位聚类是通过构建反映数据点空间分布的密度函数来实现,它也是通过标准的统计数字自动决定聚类的数目,并且考虑噪声数据或孤立点,从而生成健壮的聚类方法。 基于模型方法的算法主要有:COBWEB、CLASSIT等。
时间: 2024-10-05 14:38:36