笔记Clustering by fast search and find of density peaks

We propose an approach based on the idea that cluster centers are characterized
by a higher density than their neighbors and by a relatively large distance from points with
higher densities. This idea forms the basis of a clustering procedure in which the number of
clusters arises intuitively, outliers are automatically spotted and excluded from the analysis, and
clusters are recognized regardless of their shape and of the dimensionality of the space in which
they are embedded.

想法来源是直接:1、cluster的中心密度要高;2、高密度的中心点之间的距离应该相对远一些。异常点都会被排除,同时也和形状无关。

问题来了,密度怎么定义?

dc是阶段距离,阈值啦。就是这个范围内有多少个点啦。后面就说这个值的选取鲁棒性不错。

简而言之,寻找比i节点密度大同时距离最近的点的距离为i的距离。

所以说如果密度大,同时又和其他密度比他大的点距离远,那么他很可能就是一个cluster的中心。

对于那个密度最大的点,定义 也就是离他最远的点的距离,默认他就是一个cluster的中心。

明天继续补充。

时间: 2024-08-27 02:10:00

笔记Clustering by fast search and find of density peaks的相关文章

Science论文"Clustering by fast search and find of density peaks"学习笔记

"Clustering by fast search and find of density peaks"是今年6月份在<Science>期刊上发表的的一篇论文,论文中提出了一种非常巧妙的聚类算法.经过几天的努力,终于用python实现了文中的算法,下面与大家分享一下自己对算法的理解及实现过程中遇到的问题和解决办法. 首先,该算法是基于这样的假设:类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点有相对较大的距离.对于每一个数据点,要计算两个量:点的局部密度和

Science14年的聚类论文——Clustering by fast search and find of density peaks

这是一个比较新的聚类方法(文章中没看见作者对其取名,在这里我姑且称该方法为local density clustering,LDC),在聚类这个古老的主题上似乎最近一些年的突破不大,这篇文章算是很好的了,方法让人很有启发(醍醐灌顶),并且是发表在Science上,受到的关注自然非常大. 本文的核心亮点:1是用比较新颖的方法来确定聚类中心,2是采用距离的local density来进行聚类的划分.在这两点中,常见的Kmeans算法采用的方法是:用每一类的均值作为中点,用距离的最近的点来确定聚类划分

Clustering by fast search and find of density peaks

"Clustering by fast search and find of density peaks"是20114年6月份在<Science>期刊上发表的的一篇论文,论文中提出了一种非常巧妙的聚类算法. 首先,该算法是基于这样的假设: (1)聚类中心密度要高 (2)高密度中心点之间的距离应该相对远一些. 异常点都会被排除,同时也和形状无关. 首先,这种方法不像原先的Kmeans那样随机初始种子点然后迭代,它是根据样本的密度峰值来确定聚类中心的,当然聚类中心确定之后,后面

Hadoop实现Clustering by fast search and find of density peaks

Hadoop实现Clustering by fast search and find of density peaks 本篇博客参考:Clustering by fast search and find of density peaks论文以及http://www.cnblogs.com/peghoty/p/3945653.html. Hadoop版本:2.6.0,Myeclipse:10.0 代码可在https://github.com/fansy1990/fast_cluster下载. 1.

Clustering by fast search and find of density peaks代码详解

 发表在2014年Science上的聚类方法Clustering by fast search and find of density peaks,不在这赘述介绍了,其matlab代码详细注释下面给出,如果想看该方法的详细解释说明,推荐在阅读原文的基础上,参考这位博主的博文 http://blog.csdn.net/itplus/article/details/38926837 本文版权所有  转载请注明出处 http://blog.csdn.net/mxlmhgzw 无法看清的,请见我博客

Hadoop实现Clustering by fast search and find of density peaks (2)

本篇博客参考:Clustering by fast search and find of density peaks论文以及http://www.cnblogs.com/peghoty/p/3945653.html. 使用版本: Hadoop版本:2.6.0,Myeclipse:10.0 本地集群情况: node101  (主节点,namenode,datanode,ResourceManager,NodeManager,SecondaryNamenode,3.7G,2核) node102  (

Clustering by fast search and find of desity peaks(基于快速搜索与寻找密度峰值的聚类)

基于快速搜索与寻找密度峰值的聚类(Alex Rodriguez and Alessandro Laio) 摘要:聚类分析目的是基于元素之间的相似度对其进行分类,应用范围从天文学到生物信息学.文献计量学到模式识别.我们提出一种方法,思想基于簇中心具有比其邻居更大密度的特点以及与更大密度点之间有一个相对较大的距离(1.簇中心点有相对高的密度 2.簇中心点之间距离一般较大,即不同类别之间一般距离较远),这种思想形成了簇数目直观出现的聚类机制的基础,自动发现和排除异常点,同时在识别簇时,不用关心其形状和

一种新型聚类算法(Clustering by fast search and find of density peaksd)

最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方,比如k值的确定,初始结点选择,而且还不能检测费球面类别的数据分布,对于第二个问题,提出了Kmean++,而其他不足还没有解决,dbscan虽然可以对任意形状分布的进行聚类,但是必须指定一个密度阈值,从而去除低于此密度阈值的噪音点,这篇文章解决了这些不足. 本文提出的聚类算法的核心思想在于,对聚类中心的刻画上,而且认为聚类中心同时具有以下两种特点: 本身的密度大,即它被密度均不超过它的邻

cluster by fast search and find of density peaks

This paper proposed a new cluster idea. The idea is that the cluster center is characterrized by a higher density than their neighbors and by a relatively large distance from points with highter density(1.一个类中的聚类中心的点的密度较高,2.不同聚类中心的距离较大). Based on thi