机器学习中的度量——统计上的距离

??????机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种“度量”来得到不同样本数据的差异度或者不同样本数据的相似度。良好的“度量”可以显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种“度量”,“度量”主要由两种,分别为距离、相似度和相关系数,距离的研究主体一般是线性空间中点;而相似度研究主体是线性空间中向量;相关系数研究主体主要是分布数据。本文主要介绍统计上的距离。

1 马哈拉诺比斯距离——向量到某个分布的距离

??????马哈拉诺比斯距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的,即独立于测量尺度。对于一个均值为u=(u1,u2,…, un),协方差为Σ的分布,多变量向量x=(x1, x2, …, xn)到此分布的马哈拉诺比斯距离为:

\[{D_M}\left( x \right) = \sqrt {{{\left( {x - u\,} \right)}^T}{\Sigma ^{ - 1}}\left( {x - u} \right)} \]

??????马哈拉诺比斯距离在某些情况下比欧几里得距离更符合实际,如图8所示:从二元正态分布中叠加100个随机抽取的散点图的等值线图,这个二元正态分布是均值为(0,0),每个维度方差为1,且相关系数为0.5的二元正态分布。正态分布的质心点用蓝色表示,三个兴趣点分别为橙色方块、红色三角形和紫色圆圈。
计算三个兴趣点和质心点的欧几里得距离可知橙色方块<紫色圆圈<红色三角形,但从数据分布来看红色三角形从统计分布意义上应该比紫色圆圈更靠近蓝色质心点。因此欧几里得距离在这里就失效了,如果我们用马哈拉诺比斯距离计算三个兴趣点和质心点的距离,可得橙色方块的马哈拉诺比斯距离为0.94,红色三角形的马哈拉诺比斯距离为0.04,紫色圆圈马哈拉诺比斯距离<0.01,那么三个兴趣点和蓝色质心点距离排序应该是橙色方块<红色三角形<紫色圆圈。

图1 马氏距离的物理意义(图源自《Integrative set enrichment testing for multiple omics platforms》

2 巴塔恰里雅距离——两个分布的距离

??????巴塔恰里雅距离 (Bhattacharyya distance)。在统计学中,巴塔恰里雅距离测量两个概率分布的相似性。 它与巴塔恰里雅系数密切相关,巴塔恰里雅系数是两个统计样本或群体之间重叠量的度量。此距离以1930年代在印度统计研究所工作的统计学家Anil Kumar Bhattacharya的名字命名。对于数据集X上两个概率分布p和q, 若数据集X对应的是离散分布它们的巴塔恰里雅距离定义为

\[ {D_B}\left( {p,q} \right) = - \ln \left( {\sum\limits_{x \in X} {\sqrt {p\left( x \right)q\left( x \right)} } } \right)\]

??????若数据集X对应的是连续分布,它们的巴塔恰里雅距离定义为

\[{D_B}\left( {p,q} \right) = - \ln \left( {\int {\sqrt {p\left( x \right)q\left( x \right)} dx} } \right)\]

??????巴塔恰里雅距离可用于确定所考虑的两个样本的相对接近程度。 它用于测量分类中类别的可分性,并且被认为比巴塔恰里雅距离更可靠,因为当两个类别的标准偏差相同时,马哈拉诺比斯距离(见2.2章)是巴塔恰里雅距离距离的特定情况。因此,当两个类具有相似的平均值但标准偏差不同时,马哈拉诺比斯距离将趋向于零,而巴塔恰里雅距离则根据标准偏差之间的差异而增长。

原文地址:https://www.cnblogs.com/Kalafinaian/p/10993987.html

时间: 2024-10-28 11:27:20

机器学习中的度量——统计上的距离的相关文章

机器学习中的度量——字符串距离

??????机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量"可以显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种"度量","度量"主要由两种,分别为距离.相似度和相关系数,距离的研究主体一般是线性空间中点:而相似度研究主体是线性空间中向量:相关系数研究主体主要是分布数据.本文主要介绍字符串距离. 1 汉明

机器学习中的度量——相关系数

??????机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量"可以显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种"度量","度量"主要由两种,分别为距离.相似度和相关系数,距离的研究主体一般是线性空间中点:而相似度研究主体是线性空间中向量:相关系数研究主体主要是分布数据.本文主要介绍相关系数. 1 皮尔逊

关于机器学习中规则与统计方法的思考

最近工作了一段时间,今天跟大家讨论一下关于“规则与模型”的问题. 大家肯定都知道,机器学习方法主要分两类,一类是基于统计的方法,比如贝叶斯.KNN等,都是对数据的某种特征进行归类计算得到数据划分的依据的:另一类是基于规则的方法,比如,语义规则,语法规则或者业务规则等等,这些规则主要是根据数据本身的特征人为地对分类细节进行限定,没有什么太高深的理论,但是实用性很强.当然,我觉得还有第三种方法,就是基于统计与基于规则相结合的方法,比如关联规则,apriori方法,或者决策树方法.这些方法在分类或者求

ML 07、机器学习中的距离度量

机器学习算法 原理.实现与实践 —— 距离的度量 声明:本篇文章内容大部分转载于July于CSDN的文章:从K近邻算法.距离度量谈到KD树.SIFT+BBF算法,对内容格式与公式进行了重新整理.同时,文章中会有一些对知识点的个人理解和归纳补充,不代表原文章作者的意图. 1. 欧氏距离 欧氏距离是最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 $x = (x_1,\cdots,x_n)$ 和$y = (y_2,\cdots,y_n)$之间的距离为: $$

机器学习中的距离度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance).采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离

【Matlab开发】matlab中bar绘图设置与各种距离度量

[Matlab开发]matlab中bar绘图设置与各种距离度量 标签(空格分隔): [Matlab开发] [机器学习] 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ Matlab Bar图如何为每个bar设置不同颜色 data = [3, 7, 5, 2;4, 3, 2, 9;6, 6, 1, 4]; b = bar(data); 使用bar绘制非常直观简单,但有时需要突出显示某一个bar,比如该bar是一个标杆,用来衡量其bar的高度,所以可以用醒目

图像检索中相似度度量公式:各种距离(1)

基于内容的图像检索(Content-Based Image Retrieval)是指通过对图像视觉特征和上下文联系的分析,提取出图像的内容特征作为图像索引来得到所需的图像. 相似度度量方法 在基于内容的图像检索中需要通过计算查询和候选图像之间在视觉特征上的相似度匹配.因此需要定义一个合适的视觉特征相似度度量方法对图像检索的效果无疑是一个很大的影响.提取的视觉特征大都可以表示成向量的形式,事实上,常用的相似度度量方法都是向量空间模型,也就是把视觉特征看作是向量空间中的点,通过计算两个点之间的接近程

机器学习中的数据清洗与特征处理综述

背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富.通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向.目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐.筛选排序.搜索排序.用户建模等等,为公司创造了巨大的价值.本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法.主要内容已经在内部公开课"机器学习InAction系列"讲过,本博客的内容主要是

(转)机器学习中的损失函数

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好.损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分.模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子: 其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的ΦΦ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或