模式识别课堂笔记之聚类(1)

1.定义 :将数据分成多个类别,在同一个类内,对象(实体)之间具有较高的相似性,不同类对象之间的差异性较大。

对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也称为无监督分类。

2.结果取决于两个因素:第一个是任务的选择,同样的样本不同的任务会得到不同的聚类效果;第二个是相似度度量标准的选择,选择不同的相似度度量直接影响聚类效果的好坏。

3.分类:

按聚类标准分:统计聚类方法 ,概念聚类方法;

按数据类型分:数值型数据聚类、离散型数据聚类、混合型数据聚类;

按照度量准则:

基于距离的聚类方法:基于各种不同的距离或者相似性来度量点对之间的关系,如K-means等。

基于密度的聚类方法:基于合适的密度函数来对样本进行聚类。

基于连通性的聚类方法:主要包含基于图的方法。高度连通的数据通常被聚为一簇,如谱聚类。

按照不同的技术路线:

划分法:采用一定的规则对数据进行划分,如K-means等。

层次法:对给定样本进行层次划分,如层级聚类。

密度法:对数据的密度进行评价,如高斯混合模型。

网格法:将数据空间划分为有限个单元网络结构,然后基于网络结构进行聚类

模型法:为每一个簇引入一个模型,然后对数据进行划分,使其满足各自分派的模型。

4.距离与相似性度量

参见:http://www.cnblogs.com/simayuhe/p/5297560.html

注意:所谓距离要满足一下四个条件,我们才能称之为距离:

5.混合密度函数

***混合密度估计可为数据聚类提供方法论上的指导***

注意:这里讨论的是一种可推广的聚类形式,高斯混合只是一个较为常见的例子而已,并不是唯一的。

假设:

–样本来自于 c 个不同类别, c 是已知的。

–每一个类出现的先验概率  是已知的, j = 1, 2, …, c。

–类条件概率密度函数  的形式是已知的。

–c 个参数向量 , j = 1, 2, …, c, 是未知的。

–样本的类别标签也是未知的。

先讨论数据的生成过程:先从c个类别中选择一个类,然后从这个类中按条件概率密度抽样一个样本。

然后我们要做的任务是与生成过程相反的,也就是说,我们得到了一堆没有标签的样本,虽然我们也假设样本服从混合密度分布,即

但是,我们并不知道每一个类别所占的比例,和每一个类别的条件概率密度中的参数,要通过最大似然估计的方法把它们估计出来。(c还是已知的)

具体过程参见 《模式识别》张学工 第三版 p187

对数似然:

,由于有约束条件:,解决等式约束的优化问题通常使用拉格朗日乘子法:

最后得到:

综上:两个条件为:

以上是普遍意义上的推导,接下来把推导的结果应用在高斯混合上:

高斯混合中的每一个成分都符合多维正态分布形式如下

当方差已知均值未知的时候

带到条件2当中得到

注x应该有角标k的;

把均值从这个式子中解出来:

打开,写成权重的形式:

上式表明,类均值的最大似然估计为样本的加权平均。权值表明样本 xk 属于第 i 类的可能性。

注意到权重只与i类样本有关,对以上式子进行简化

由上式引进一个更加具体的桔类方法——K-means聚类,这里的K 指的是上面提到的给定类别个数C,对上面的简化做一个转述

这里所谓的nearest是需要给定一种距离度量方法的,比如 欧式距离

算法描述:

时间: 2024-10-27 20:53:35

模式识别课堂笔记之聚类(1)的相关文章

模式识别课堂笔记 ——深度学习

引言:深度学习的浪潮开始于Hinton 的一篇文章 Reducing the Dimensionality of Data with Neural Networks: 代表人物:Geoffery Hinton  链接 :http://www.cs.toronto.edu/~hinton/ Yann LeCun 链接:http://yann.lecun.com/ex/index.html Yoshua Bengio 链接:http://www.iro.umontreal.ca/~bengioy/y

SVM(1)模式识别课堂笔记

引言:当两类样本线性可分时,针对我们之前学习的感知机而言,存在多个超平面能将数据分开,这里要讨论什么样的分类面最好的问题.为此,我们形式化的定义了最优分类超平面,他有两点特征:1.能将训练样本没有错误的分开:2.在样本中距离超平面最近的样本与超平面之间的距离最大. 1.没有错误的分开: 对尺度影响的消除,可以将第一行式子中的0看成1e-6这种很小的数,而后下一个是式子则是对其进行放缩到1而得到的结果. 2.如果想要距离最大,首先要知道某一个样本点到分类面的距离表达式,(在线性判别函数那章讲过)

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

九章算法系列(#2 Binary Search)-课堂笔记

前言 先说一些题外的东西吧.受到春跃大神的影响和启发,推荐了这个算法公开课给我,晚上睡觉前点开一看发现课还有两天要开始,本着要好好系统地学习一下算法,于是就爬起来拉上两个小伙伴组团报名了.今天听了第一节课,说真的很实用,特别是对于我这种算法不扎实,并且又想找工作,提高自己的情况. 那就不多说废话了,以后每周都写个总结吧,就趁着这一个月好好把算法提高一下.具体就从:课堂笔记.leetcode和lintcode相关习题.hdu和poj相关习题三个方面来写吧.希望自己能够坚持下来,给大家分享一些好的东

2017年5月12号课堂笔记

2017年5月12号 星期五 空气质量:轻度污染(昨天的北风转今天的南风) 内容:html表格的基本使用,表格跨行跨列,高级表格,播放音乐,播放视频,网页布局,iframe内联框架: 文本框,密码框,单选按钮,复选框,下拉框  备注:周日晚想起来补上的周五课堂笔记(一带一路今天开会天气好晴朗) 一.html表格的基本使用 模仿老师代码: <!DOCTYPE html><html><head lang="en"> <meta charset=&q

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(三)

照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projective geometry. They don't know any probability but want to use graphical models. They don't understand stats at all but still do machine learning like c

线程(java课堂笔记)

1.两种方式的差异 2.线程的生命周期 3.线程控制(线程的方法) 4.线程同步 5.线程同步锁 一. 两种方式的差异 A extends Thread :简单 不能再继承其他类了(Java单继承)同份资源不共享 B implements Runnable:( 推荐) )多个线程共享一个目标资源,适合多线程处理同一份资源. 该类还可以继承其他类,也可以实现其他接口. 二. 线程的生命周期 新建:当程序使用new创建一个线程后,该线程处于新建状态,此时他和其他java对象一样,仅仅由Java虚拟机

CSS基础入门 第4天课堂笔记

CSS基础入门 第4天课堂笔记(本课程共6天) 前端与移动开发学院 http://web.itcast.cn 目录 目录 2 一.复习 3 二.浮动性质的复习 4 三.浮动的清除 5 3.1 清除浮动方法1:给浮动的元素的祖先元素加高度. 5 3.2 清除浮动方法2:clear:both; 6 3.3 清除浮动方法3:隔墙法 7 3.4 清除浮动方法4:overflow:hidden; 8 3.5 清除浮动总结与案例 9 3.6 浏览器兼容问题 11 四.margin 13 4.1 margin

SQL课堂笔记

--注释 公司里一般而是用绝不重复的guid()做主键(web项目不常用) 如null参与运算,结果都是null 在数据库中创建索引能提高查询效率,)只在经常要检索的字段创建索引) sql查询null的数据 selsct * from table where name is null 查询年龄介于20到30的数据 selsct * from table where age between 20 and 30 查询年龄是20,22,32,46的数据 selsct * from table wher