聚类(Clustering)

简介

这大概是我第一次涉及到跟智能算法相关的东西——聚类。无奈,老师布置的作业,要求2-3天看完然后汇报。毕竟第一次看这一类的文章,如果理解有偏见,欢迎指出。我的邮箱:[email protected]。

先介绍一下什么是聚类(Clustering)吧。简单地说就是把相似的数据分到一组。比如你把人进行分组,如果是按性别分,那很容易,只有俩点。如果你按年龄或者身高分组,定义一下高的还是矮的进行分组就可以了。但是我们常常会遇到很多复杂的情况,比如人的健康情况,你要把健康情况不一样的进行分组。这个涉及到的数据维数就比较庞大了。因为健康跟人的年龄、身高体重比、血液成分含量等等都相关,人的不同器官的健康情况也可能不一样。这就需要对点进行复杂的聚类分析与处理了。

http://www.cnblogs.com/CVFans/p/4103430.html 看到有大神把一些聚类算法讲述的非常详细,这里就不一一介绍,主要介绍一种聚类方式——Border-Peel Clustering(我称为去皮聚类),简单地说就是一层层地把外面关系小(密度小)的点剥开,直到剩下中间密度足够大的点。这种方式跟k-means方式相比,最大的有点在于没有输入参数,k-means可能因为初始参数输入的不合适导致某几个类可能没有点收敛得到。废话不多说,下面我们直接来讨论算法。

顾名思义,“去皮”实际上就是去处边界点。那么什么是边界点呢?如何分离边界点和非边界点呢?所以,我们的任务就是:1、定义什么是边界点。2、定义边界点和它相邻的非边界点的关联。

边界点的定义

给定有$n$个点的点集$X=\left \{ x_{1},x_{2},\cdots,x_{n} \right \}\subset R^{d}$和描述点相似性的函数$d$:$R^{d}\times R^{d} \mapsto R$作为输入。$X^{1}=X$,我们用$X^{t}$表示第$t-1$次去皮后剩下的点,用$X^{T+1}$表示最终剩下的点(“核”)。

下面我们给出几个定义。

$N_{k}^{t}(x_{i})$,它包含k-最近邻点集合。

$b_{i}^{t}$,边界值。

$B_{i}^{t}$,边界分类值。如果$x_{i}$是边界点就定义为1,否则定义为0。

$RNN_{k}^{t}(x_{i})=\left \{ x_{j}\mid x_{i}\in N_{k}^{t}(x_{j}) \right \}$,表示$x_{i}$迭代$t$次之后的k-最近邻。

时间: 2024-12-22 04:10:59

聚类(Clustering)的相关文章

Stanford机器学习笔记-9. 聚类(Clustering)

9. Clustering Content 9. Clustering 9.1 Supervised Learning and Unsupervised Learning 9.2 K-means algorithm 9.3 Optimization objective 9.4 Random Initialization 9.5 Choosing the Number of Clusters 9.1 Supervised Learning and Unsupervised Learning 我们已

机器学习课程-第8周-聚类(Clustering)

1. 聚类(Clustering) 1.1 无监督学习: 简介 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数.与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的数据就是这样的: 在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据.我们可能需要某种算法帮助我们寻找一种结构.图上的数

聚类:(K-means)算法

1.归类: 聚类(clustering) 属于非监督学习 (unsupervised learning) 无类别标记(class label) 2.举例: 3. K-means 算法: 3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一      3.2 算法接受参数 k :然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一            聚类中的对象相似度较高:而不同聚类中的对象相似度较小.      3.3 算法思想: 以空间中k个点(可随机

Stanford机器学习---第九讲. 聚类

本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.内容大多来自Standford公开课machine learning中Andrew老师的讲解和其他书籍的借鉴.(https://class.coursera.org/ml/c

聚类-分类-回归 每天积累 每天进步 不要浪费时间了

从 coursa 上面学的是说,监督学习是指我们来教计算机如何"学习",非监督学习是指让计算机自己学习.监督学习又有两个大的分支,一个是 regression,另一个是 classification 既然是我们来教计算机如何学习那就必定有一个"标准答案".regression 是说,这个标准答案是连续的. 比如说,对三个月销售量的估计.classification 是说,这个标准答案是离散的.比如说,对是否患有cancer的判断.非监督学习就没有标准答案了.比如说,

(数据挖掘-入门-9)聚类

主要内容: 1.动机 2.聚类 3.python实现 一.动机 之前我们实现的分类器都是基于带标签或类别的数据集,这种学习方法叫做有监督的学习,这些数据一般都是通过人工标注的,成本和代价比较高. 而实际中的原生数据都是没有标注的,如果没有标签,是否也能为这些数据进行分类呢? 答案是肯定的,那就是本文要介绍的无监督学习方法——聚类. 有监督学习:对带类别标签的数据集进行学习,训练出一个分类模型对新来的样本进行预测 无监督学习:对无类别标签的数据集进行学习,以发现训练集中数据的类别归属. 二.聚类C

探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类

聚类分析 什么是聚类分析? 聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大.所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量. 其实聚类是一个人们日常生活的常见行为,即所谓"物以类聚,人以群分",核心的思想也就是聚类.人们总是不断地改进下意识中的聚类模式来学习如何区分各个事物和人.同时,聚类分析已经广泛的应用在许多应用中,包

模式识别:k-均值聚类的研究与实现

本实验的目的是学习和掌握k-均值聚类算法.k-均值算法是一种经典的无监督聚类和学习算法,它属于迭代优化算法的范畴.本实验在MATLAB平台上,编程实现了k-均值聚类算法,并使用20组三维数据进行测试,比较分类结果.实验中初始聚类中心由人为设定,以便于实验结果的比较与分析. 一.技术论述 1.无监督学习和聚类 在之前设计分类器的时候,通常需要事先对训练样本集的样本进行标定以确定类别归属.这种利用有标记样本集的方法称为"有监督"或"有教师"方法.这一类方法的使用固然十分

推荐引擎算法学习导论:协同过滤、聚类、分类

作者:July.出处:结构之法算法之道 本文转自互联网,仅供学习收藏只用,如有侵权,请联系本人删除. 引言 昨日看到几个关键词:语义分析,协同过滤,智能推荐,想着想着便兴奋了.于是昨天下午开始到今天凌晨3点,便研究了一下推荐引擎,做了初步了解.日后,自会慢慢深入仔细研究(日后的工作亦与此相关).当然,此文也会慢慢补充完善. 本文作为对推荐引擎的初步介绍的一篇导论性的文章,将略去大部分的具体细节,侧重用最简单的语言简要介绍推荐引擎的工作原理以及其相关算法思想,且为了着重浅显易懂有些援引自本人1月7

图像检索(2):均值聚类-构建BoF

在图像检索时,通常首先提取图像的局部特征,这些局部特征通常有很高的维度(例如,sift是128维),有很多的冗余信息,直接利用局部特征进行检索,效率和准确度上都不是很好.这就需要重新对提取到的局部特征进行编码,以便于匹配检索. 常用的局部特征编码方法有三种: BoF VLAD FV 本文主要介绍基于k-means聚类算法的BoF的实现. BoF的原理 k均值聚类概述 使用OpenCV实现的BoF BoF 该方法源自于文本处理的词袋模型.Bag-of-words model (BoW model)