相似性度量方法

http://blog.csdn.net/pipisorry/article/details/45651315

cosin余弦相似度

两个向量间的余弦值可以很容易地通过使用欧几里得点积和量级公式推导:

鉴于两个向量的属性, AB的余弦相似性θ用一个点积形式来表示其大小,如下所示:

产生的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中度的相似性或相异性。 对于文本匹配,属性向量AB 通常是文档中的词频向量。余弦相似性,可以被看作是一个规范比较文件长度的方法。 在信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。

[余弦相似性]

kl散度/相对熵

相对熵(relative entropy)又称为KL散度Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。

KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

定义

对于离散随机变量,其概率分布PQ的KL散度可按下式定义为

即按概率P求得的PQ对数差的平均值。KL散度仅当概率PQ各自总和均为1,且对于任何i皆满足时,才有定义。式中出现的情况,其值按0处理。

特性

相对熵的值为非负数:

吉布斯不等式en:Gibbs‘
inequality
)可知,当且仅当P = QDKL(P||Q)为零。

尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距离。因为KL散度不具有对称性:从分布PQ的距离(或度量)通常并不等于从QP的距离(或度量)。

[相对熵]

from:http://blog.csdn.net/pipisorry/article/details/45651315

ref:如何计算两个文档的相似度

时间: 2024-10-24 13:34:19

相似性度量方法的相关文章

漫谈:机器学习中距离和相似性度量方法

作者:daniel-D 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等.根据数据特性的不同,可以采用不同的度量方法.一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0                    // 到自己的距离为02) d(x,y) >= 0                  //

几种相似性度量(Similarity Measurement)

前言 在图论之中,衡量两个点之间的距离可以用多种测量方法.本文主要是总结几种相似性度量方法,主要内容参考自Wiki和Tsingke的博客(见参考部分). 目录 1.欧式距离 2.标准化欧式距离 3.曼哈顿距离 4.切比雪夫距离 5.闵可夫斯基距离 6.马氏距离 7.夹角余弦 8.汉明距离 9.杰卡德距离 10.相关系数 11.信息熵 具体内容 1. 欧氏距离 (Euclidean distance) 欧式距离是用来衡量定义在欧式空间的两个点之间的距离.比较基础和常用. 公式:,其中 p = (p

离散序列的一致性度量方法:动态时间规整(DTW)

动态时间规整:Dynamic Time Warping(DTW),是一种衡量两个离散时间序列相似度的方法,主要特点是在序列长度不一或x轴无法完全对齐的情况下,用满足一定条件的的时间规整函数描述两者之间的时间对应关系.DTW算法在各种模式匹配任务中被广泛使用,如语音识别.动态手势识别和信息检索等中. 一.算法简述 在数字信号处理领域中,时间序列是数据的一种常见表示形式.对于时间序列处理来说,对于许多的信号处理任务,如图像匹配.视频跟踪和姿态识别等,通常需要度量两个离散序列的相似性.而这一步骤说难不

模式识别之相似度计量---常用相似度计量方法

常用相似性度量(距离 相似系数) 在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法. 令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance) ‍ 相当于高维空间内向量说表示的点到点之间的距离.由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准

直方图相似性度量函数

最近做目标跟踪时,需要度量两个模板的相似性,来寻找目标,当跟踪的目标的特征选取后,相似性度量函数,就是影响跟踪效果的关键因素了,对比了几种相似性度量函数,最终选取了一种方法----直方图欧氏距离的相似性度量方法. 理论公式为: matlab代码为: function comFit = comFitness(target1,target2,N) %target1和target2表示两个模板的直方图,N为直方图的大小 comFit = 0; for i = 1 : N max_feature = m

SimRank--基于结构的相似度度量方法学习笔记

详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity? 一.简介 目前主要有两大类相似性度量方法: (1) 基于内容(content-based)的特定领域(domain-specific)度量方法,如匹配文本相似度,计算项集合的重叠区域等: (2) 基于链接(对象间的关系)的方法,如PageRank.SimRank和PageSim等.最近的研究表明,第二类方法度量出的对象间相似性更

初学数据挖掘——相似性度量(二)

上一篇中介绍了四个算法,并用四个算法分别计算了两个人的相似度.这篇就来讲讲相似性算法在实际当中怎么用.第一:将指定的人与其他人作相似性比较,并从高到低进行排序:第二:对指定的人推荐未看过的电影.同样还是先给出具体分析,然后给出相应算法,再最后一起给出代码. 根据相似性从高到底排序. def topMatchs(prefs, person, n=5, similarity=sim_pearson): scores=[(similarity(prefs, person, other), other)

机器学习相似度计算方法选择理论依据

在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法. 令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance)-EuclideanDistanceMeasure. ? 相当于高维空间内向量说表示的点到点之间的距离. 由于特征向量的各分量的量纲不一致,通常需

【转载】机器学习头条 2015-01-11

机器学习头条 2015-01-11 2015年1月12日 09:41 机器学习头条 2015-01-11 机器学习速查手册 Elements of machine learning @爱可可-爱生活 Python 实现的随机森林 @机器学习的那个男人 88页的深度学习文献综述和索引 @我爱机器学习 机器学习中的相似性度量方法汇总 @数盟社区 <Data Science at the Command Line> @爱可可-爱生活 内容更丰富,链接可点击的加长版见 http://memect.co