特征选择（四）-分散度

度量类别可分离性的量主要有：

欧氏距离（正态分布，协方差相等，且为单位阵）

是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。

马氏（Mahalanobis）距离（正态分布，协方差相等）

它用来描述两个具有相同的协方差矩阵C，不同的期望值和的类别之间的不相似性，具体表达式是：

Mahalanobis距离

巴氏（Bhattacharyya）距离（正态分布，协方差不等）

它描述了两个协方差矩阵和期望值都不相同的类别之间的不相似性：

Bhattacharyya距离

本节介绍分散度（广义距离），之所以是广义距离，因为其不满足三角不等式。

设有未知模式x，可能来自第i类，也可能来自第j类，并且概率密度分布分别为：

在贝叶斯决策中，对数似然比是用来决定最后分类的指标

绘制似然比的密度函数可见，如果密度函数期望值相隔越远，分类器效果会更好。

如图1所示。

图1

因此可以用两个期望值之差来表示两个类别间的差异：

这就是分散度的定义了。

正态分布下的分散度公式

在两个类别都具有正态分布时，分散度可以有明确的表达式，概率密度分别为：

对数似然比为：

可以得到正态分布下的分散度为：

这个式子是配凑出来的，为了分离出两个重要的指标：

前一部分是由协方差不等引起的分散，后面一部分是由期望不等引发的分散。

1. 等协方差时

分散度蜕化成了马氏距离。

2.等期望时

当两个类别协方差距离不同时期望值之差的影响可以用一个等效的协方差矩阵来计算。

Bhattacharyya距离的计算中，是用算术平均作为这个等效协方差矩阵：

而在分散度的计算中，则是用它们的几何平均作为这个等效协方差矩阵：

分散度的性质

其中：

由此可知

2.对称性

3.若各个分量独立，则分散度为各个分量分散度之和。

4.若各个分量不独立，则加一个分量，分散度只增不减。

如何将分散度应用与特征选择？

分散度特征选择优于聚类变换和最优描述的K-L变换。下面分三种情况讨论。

其一：简单从n个特征中挑选m个

这种方式直接挑就好了，不用做任何坐标变换。

首先，假设有n维、M类，先分别求出其对应的M个期望和协方差矩阵。

由于分散度只能计算2个类之间的关系，因此要重复计算次。

把最小的找出来，相对应于最近的2类。

因为如果最近的2类都能分开，其他的类别分开也就不成问题了。如图2所示。

图2

其次，看看要求是什么，要从原来的n维降到多少维，例如要想降到k维，则咱们继续排列组合了。

把所有的降维组合列出来，共有多种。

再来计算所有组合情况下，降维后的分散度。取

取分散度最大的k个维度保留下来，因为这些维度的对分类的效果最好。

但是如果发现分散度已经很小了，那么就要降低要求了，少降几维。

如果分散度下降不多，那么其他的维度直接扔掉就好，不用可惜。

这个方法特点就是特别方便，而且还很有效，对于正态分布是这样的，如图3所示。

图3

其二：正态分布、各类的协方差相等

此时使用了分散度分类方法，本质是把坐标转到C的特征向量位置后进行降维。

同时，分散度蜕化成为了Mahalanobis距离

取协方差矩阵的特征向量和特征值，取其中m个特征向量，构成变换矩阵：

变换之后的马氏距离变为

又有

则得到

取大的即可。

注意观察此式：

如果不考虑分子。那么就等同于越小那么区分度越大，等同于与聚类变换。

为在方向上投影长度的平方。

举个例子，如图4所示。

图4

两中心距离为，从这个例子可以看出分散度优于聚类变换。

其三：最佳变换阵A的求法

前面讨论的所有降维方法都有一个问题，不知道大家是否发现了。

当我们从n维降到m时，都是直接扔掉不要的向量。剩下的分量都没动，这不科学啊。

3为直角坐标系降1维后，一定是平面直角坐标系么？就不能降成2为斜角坐标系么？

这说明，降维后，可以用新的基向量来张成新的空间了。

原来，一般的问题是这样的：寻找A的原则是寻找一个矩阵A，使得降为m维后，分散度为最大。即

直接上结论，这个A矩阵应当满足下式：

即为满足G矩阵为零矩阵，这个方程只能用数值方法求解，没有解析解。

其中的各个参数含义如下：

①和是的特征值和特征向量，而且已进行了归一；

②和是的特征值和特征向量，且已进行了归一；

③和是的特征值和特征向量，且已进行了归一；

仅讨论两种最特殊的情况：

1.协方差相等，期望不等

可以降到1维都不减少分散度。

其中a是的非零特征值对应的特征向量。

2.期望相等，协方差不等

其中变换矩阵由中任取m来构成。

但是为了保证分散度最大，应当取中使得

最大的m个特征值构成A.

特征选择（四）-分散度

时间： 2024-09-29 00:58:47

特征选择（四）-分散度的相关文章

机器学习：特征工程

特征选择直接影响模型灵活性.性能及是否简洁. 好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护. 特征选择四个过程:产生过程,评价函数,停止准则,验证过程. 目的:过滤特征集合中不重要特征,挑选一组最具统计意义的特征子集,从而达到降维的效果. 选择标准:特征项和类别项之间的相关性(特征重要性). - - -搜索特征子空间的产生过程- - - 搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic), 随机搜索(Random) 3大类. 完全

机器学习之（四）特征工程以及特征选择的工程方法

关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已".由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键.纵观Kaggle.KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能.遗憾的是,在很多的书籍中并没有直接

（7）文本挖掘（四）——特征选择

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征.通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率. 文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根据预先设定好的阈值来选择出所有其值超过这个阈值的单词. 根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为过滤.封装和嵌入. (1)过滤方法(Filter Approach):使用某种独立于数据挖掘任务的

浅谈关于特征选择算法与Relief的实现

一. 背景 1) 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: 1. 特征个数越多,分析特征.训练模型所需的时间就越长,模型也会越复杂. 2. 特征个数越多,容易引起“维度灾难”,其推广能力会下降. 3. 特征个数越多,容易导致机器学习中经常出现的特征稀疏的问题,导致模型效果下降. 4. 对于模型来说,可能会导致不适定的情况,即是解出的参数会因为样本的微小变化而出现大的波动. 特征选择,能

【特征工程】特征选择与特征学习

http://www.jianshu.com/p/ab697790090f 特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题.特征选择通常选择与类别相关性强.且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现.在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性.人工选取出来的特征依赖人力和专业知识,不利于推广.于是我们需要通过机器来学习和抽取特征,促进特征工程的工作更加快速.有效. 特征选

文本分类入门-特征选择算法之开方检验

http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html 前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法. 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法.(什么?你是文史类专业的学生,没有学过数理统

机器学习系列(5)_从白富美相亲名单看特征选择与预处理(上)

作者:龙心尘 &&寒小阳时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50471682, http://blog.csdn.net/han_xiaoyang/article/details/50481967 声明:版权所有,转载请联系作者并注明出处 1. 引言再过一个月就是春节,相信有很多码农就要准备欢天喜地地回家过(xiang)年(qin)了.我们今天也打算讲一个相亲的故事. 讲机器学习为什么要

[转化率预估-4]特征选择－简介

原文:http://www.flickering.cn/ads/2014/08/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0-4%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9%EF%BC%8D%E7%AE%80%E4%BB%8B/ 在机器学习中从原始信息中生成和选择特征被称为特征工程(Feature Egineering)或者特征抽取(Feature Extraction).将事物分门别类一直是人类观察和认识世界的基本手段.

[模式识别].(希腊)西奥多里蒂斯<第四版>笔记10之__聚类：基本概念

一,引言之前几个章节讨论的都是监督聚类,从本章开始讨论非监督聚类,即训练模式不带标签的情形. 聚类的步骤: 1,特征选择.选取最能够表示我们目标物体信息的特征. 2,相似性度量.给出两个特征量相似点或者不想似的地方. 3,聚类标准.聚类标准.可能由损耗函数(cost function)或者其他形式表达. 4,聚类算法.根据相似性度量和聚类标准,阐明数据的结构. 5,结果验证. 6,解释结果. 不同的特征.相似性度量.聚类标准和聚类算法会导致完全不同的结果. 主观性会一直伴随我们.(Subjec