评价聚类结果之entropy（熵值）和purity（纯度）

使用k-means算法对数据进行聚类之后，通常需要验证一下聚类的效果。常用的验证方法包括entropy、purity、precious、F-measure、Recall，本文只介绍entropy和purity算法。

Entropy：

对于一个聚类i，首先计算。指的是聚类
i 中的成员（member）属于类（class）j 的概率，。其中是在聚类
i 中所有成员的个数，是聚类 i 中的成员属于类 j 的个数。每个聚类的entropy可以表示为，其中L是类（class）的个数。整个聚类划分的entropy为，其中K是聚类（cluster）的数目，m是整个聚类划分所涉及到的成员个数。

Purity：

使用上述Entropy中的定义，我们将聚类 i 的purity定义为。整个聚类划分的purity为，其中K是聚类（cluster）的数目，m是整个聚类划分所涉及到的成员个数。

下表是对取自洛杉矶时报的3204篇文章进行的k-means划分的结果，共分为6个cluster。这些文章取自娱乐、金融等六个类别。理想情况下每个cluster只含有某一特定类别的文章。其中，cluster 3 与体育类别吻合的比较好，所以其entropy很低，purity很高。

entropy和purity的核心代码（Python version）如下：

e_i = [0 for x in range(0,6)]
p_i = [0 for x in range(0,6)]
for i in range(0,cluster_num):
	wr_line_part = ","
	for j in range(0,6):
		wr_line_part += str(M_aggregate[i][j]) + ','
		p_i_j = M_aggregate[i][j]*1.0/m_i[i]  + 0.00000001
		print (p_i_j)
		e_i[i] += 0 - p_i_j*math.log2(p_i_j)
		if (p_i[i] < p_i_j):
			p_i[i] = p_i_j
	print (e_i[i])
	print (p_i[i])

e = 0
p = 0
for i in range(0,6):
	e += m_i[i]/m*e_i[i]
	p += m_i[i]/m*p_i[i]

时间： 2024-10-07 01:55:11

评价聚类结果之entropy（熵值）和purity（纯度）的相关文章

opencv之纹理特征(熵值)的提取

ID3很不错的讲解（matlab程序实现）

1)决策树之ID3 决策树算法是分类算法的一种,基础是ID3算法,C4.5.C5.0都是对ID3的改进.ID3算法的基本思想是,选择信息增益最大的属性作为当前的分类属性. 看Tom M. Mitchell老师的<Machine Learing>第三章中的例子: 我们先解释一下这张表,表中有14条实例数据,就是我们的训练数据,其中 Outlook,Temperature,Humidity ,Wind 称作条件属性,PlayTennis 称作是决策属性(标签). 每一个属性都有各自的值记做:Val

K-均值聚类——电影类型

K-均值聚类 K-均值算法试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数),其形式化的目标函数称为类簇内的方差和(within cluster sum of squared errors,WCSS).K-均值聚类的目的是最小化所有类簇中的方差之和.标准的K-均值算法初始化K个类中心(为每个类簇中所有样本的平均向量),后面的过程不断重复迭代下面两个步骤.(1) 将样本分到WCSS最小的类簇中.因为方差之和为欧拉距离的平方,所以最后等价于将每个样本分配到欧拉距离最近的类中心.(2) 根

机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法

摘要聚类是一种无监督的学习(无监督学习不依赖预先定义的类或带类标记的训练实例),它将相似的对象归到同一个簇中,它是观察式学习,而非示例式的学习,有点像全自动分类.说白了,聚类(clustering)是完全可以按字面意思来理解的--将相同.相似.相近.相关的对象实例聚成一类的过程.机器学习中常见的聚类算法包括 k-Means算法.期望最大化算法(Expectation Maximization,EM,参考"EM算法原理").谱聚类算法(参考机器学习算法复习-谱聚类)以及人工神经网络算法

kmeans 聚类 k 值优化

kmeans 中k值一直是个令人头疼的问题,这里提出几种优化策略. 手肘法核心思想 1. 肉眼评价聚类好坏是看每类样本是否紧凑,称之为聚合程度: 2. 类别数越大,样本划分越精细,聚合程度越高,当类别数为样本数时,一个样本一个类,聚合程度最高: 3. 当k小于真实类别数时,随着k的增大,聚合程度显著提高,当k大于真实类别数时,随着k的增大,聚合程度缓慢提升: 4. 大幅提升与缓慢提升的临界是个肘点: 5. 评价聚合程度的数学指标类似 mse,均方差,是每个类别的样本与该类中心的距离平方和比上样

《机器学习实战》之K-均值聚类算法的python实现

<机器学习实战>之K-均值聚类算法的python实现最近的项目是关于"基于数据挖掘的电路故障分析",项目基本上都是师兄们在做,我只是在研究关于项目中用到的如下几种算法:二分均值聚类.最近邻分类.基于规则的分类器以及支持向量机.基于项目的保密性(其实也没有什么保密的,但是怕以后老板看到我写的这篇博文,所以,你懂的),这里就不介绍"基于数据挖掘的电路故障分析"的思路了. 废话不多说了,开始正题哈. 基本K-均值聚类算法基本K均值算法的基本思路为:首先选择

模式识别：k-均值聚类的研究与实现

本实验的目的是学习和掌握k-均值聚类算法.k-均值算法是一种经典的无监督聚类和学习算法,它属于迭代优化算法的范畴.本实验在MATLAB平台上,编程实现了k-均值聚类算法,并使用20组三维数据进行测试,比较分类结果.实验中初始聚类中心由人为设定,以便于实验结果的比较与分析. 一.技术论述 1.无监督学习和聚类在之前设计分类器的时候,通常需要事先对训练样本集的样本进行标定以确定类别归属.这种利用有标记样本集的方法称为"有监督"或"有教师"方法.这一类方法的使用固然十分

机器学习（二）——K-均值聚类（K-means）算法

最近在看<机器学习实战>这本书,因为自己本身很想深入的了解机器学习算法,加之想学python,就在朋友的推荐之下选择了这本书进行学习,在写这篇文章之前对FCM有过一定的了解,所以对K均值算法有一种莫名的亲切感,言归正传,今天我和大家一起来学习K-均值聚类算法. 一 K-均值聚类(K-means)概述 1. 聚类 “类”指的是具有相似性的集合.聚类是指将数据集划分为若干类,使得类内之间的数据最为相似,各类之间的数据相似度差别尽可能大.聚类分析就是以相似性为基础,对数据集进行聚类划分,属于无监督学

多核模糊C均值聚类

摘要: 针对于单一核在处理多数据源和异构数据源方面的不足,多核方法应运而生.本文是将多核方法应用于FCM算法,并对算法做以详细介绍,进而采用MATLAB实现. 在这之前,我们已成功将核方法应用于FCM算法,在很大程度上解决了样本线性不可分的情况.但是这种单一核局限于对数据的某一特征进行有效提取,若一个样本含有多个特征,且遵循不同的核分布,单一核学习就不适用,所以说单一核在处理多数据源以及异构数据源的不足是越发明显. 针对于单一核学习不足,我们可以同时结合多个核函数对数据的多种特征进行同步描述,并

猜你喜欢

windows 任务栏图标宽度固定

这个需要修改注册表. win+r regedit ->enter 找到以下项 HKEY_CURRENT_USER-Control Panel-Desktop-WindowsMetrics 新建字 ...

命题逻辑重要知识点笔记

^ : 合取联结词.p^q,命题p,q同时为真 : 析取联结词. pq,命题p,q至少有一个为真 →:蕴含联结词.p→q,"如果p,则q","只有q,才p". ...

2.Class文件结构

1.magic:魔数用于识别Class文件,占用4个字节,值为0xCAFEBABE. 2.minor_version:小版本数该class文件的小版本号,占用2个字节. 3.major_versi ...

就看见了客服就会立刻就看了就立刻就疯了快的话科技开发

http://www.jieberu.com/User/ZiLiao?uid=565755 http://www.jieberu.com/User/ZiLiao?uid=565738 http://w ...

POJ 1273

一道裸的网络流求最大流问题 1 //一般增广路,每次不断在生于网络找层次网络,直到找不到说明已找到最大流量 2 #include <cstdio> 3 #include <cstri ...

mysql存储引擎的一点学习心得总结

首先我们应该了解mysql中的一个重要特性--插件式存储引擎,从名字就可以看出在mysql中,用户可以根据自己的需求任意的选择存储引擎,实际上也是这样,即使在同一个数据库中,不同的表也可以使用不同的存 ...

UFLDL实验报告2：Sparse Autoencoder

Sparse Autoencoder稀疏自编码器实验报告 1.Sparse Autoencoder稀疏自编码器实验描述自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值, ...

算法导论学习之堆+堆排序+堆构成优先队列

注:堆分为最大堆和最小堆两种,下面我们讨论的堆都是指的最大堆,最小堆的性质与其是类似的. 堆数据结构是一种数组对象,可以被视为一棵完全二叉树(这棵二叉树除最后一层外,其余每层都是填满的):我们用一个数 ...

组员博客园链接

黄静怡 http://www.cnblogs.com/huangjingyi/ 丁兆鹏 http://www.cnblogs.com/dzp4032/ 赵彤 http://www.cnblogs.co ...

转：WebCruiser Web Vulnerability Scanner 3.1.0 测评

WebCruiser是一款轻量级的Web高危漏洞扫描器,相对于其它大型扫描器,WebCruiser的典型特点是只扫高危漏洞,并且可以只扫指定的漏洞类型,可以只扫指定的URL,可以只扫指定的页面.当然也 ...

Flexslider - 响应式的 jQuery 内容滚动插件

FlexSlider 是一款轻量的响应式 jQuery 内容滚动插件,能够帮助你在项目轻松的创建漂亮的内容滚动效果.这款插件曾经连续多年入选 WDL 的年度最佳 jQuery 插件,值得大家在网站开发 ...

《java编程思想》学习笔记一

1. 对象 (1) 所有东西都是对象 (2) 程序是一大堆对象的组合 (3) 每个对象都有自己的存储空间,可容纳其他对象 (4) 每个对象都有一种类型,"类"(class)和&qu ...

JSP中文乱码问题《转》

之前总是碰到JSP页面乱码的问题,每次都是现在网上搜,然后胡乱改,改完也不明白原因. 这次正好作下总结,中文乱码就是因为编码不符,可能出现乱码有四个地方: 1 JSP编码乱码 2 HTML编码乱码 3 ...

内核升级和救援模式

内核的升级和应用程序的升级大同小异,但是在使用rpm命令升级时,还是建议-i选项的升级,这样升级后出现问题,也能够避免损失. 以下操作均在vm12版本的虚拟机中进行,Linux是CentOS6.8,内 ...

How to push your code in git

1. display all the branches git branch -a 2. delete branches git br -d <branch> # 删除某个分支 git b ...

leetcode || 120、Triangle

problem: Given a triangle, find the minimum path sum from top to bottom. Each step you may move to a ...

oracle获取连续时间

SELECT rownum, (to_date('2015-01-01', 'yyyy-mm-dd') + rownum - 1) AS show_time FROM dualCONNECT BY r ...

设计模式学习---UML常见关系的实现

一.UML基本构造 UML的基本构造含3种: (1) 事物(4种):结构事物,行为事物,分组事物,注释事物 (2) 关系(4种):泛化关系,实现关系,依赖关系,关联关系 (3) 图(10种):用例图, ...

Java学习之道：Java构造器和方法的区别

摘要要学习Java,你必须理解构造器.因为构造器可以提供许多特殊的方法,这个对于初学者经常混淆.但是,构造器和方法又有很多重要的区别. 原作者:Robert Nielsen 原站:www.javaw ...

【转】Maven的安装与使用(ubuntu)

原文: http://www.cnblogs.com/yunwuzhan/p/5900311.html https://maven.apache.org/guides/getting-started/ ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.