科普:浅谈 Hellinger Distance

浅谈 Hellinger Distance

2016.05.24

  最近在看 Hellinger Distance(海林格距离), 平时看多了欧式距离,马氏距离等等,貌似介绍这个的材料不是很多,例如:维基百科上的一些,和 下列这个链接上的pdf材料:http://www.tcs.tifr.res.in/~prahladh/teaching/2011-12/comm/lectures/l12.pdf  大家凑合着看看吧,我这里简要的介绍下,有理解不对的地方,烦劳指点下。

  Hellinger Distance 又称 Bhattacharyya distance,因为作者的姓氏叫 Anil Kumar Bhattacharya。在概率和统计学中,Hellinger Distance 被用来衡量两个概率分布之间的相似性,属于 f-divergence 的一种。而 f-divergence 又是什么呢?一个 f-divergence 是一个函数 Df(P||Q) 用来衡量两个概率分布P and Q 之间的不同。

  我们假设基于[n],有两个概率分布 P = {pi}i∈[n], Q = {qi}i∈[n] 。一个很自然的方法来定义两者之间的距离就是考虑两个概率向量 P and Q 之间的 L1-distance:

  

时间: 2024-10-25 11:24:33

科普:浅谈 Hellinger Distance的相关文章

浅谈流形学习(转)

http://blog.pluskid.org/?p=533 总觉得即使是“浅谈”两个字,还是让这个标题有些过大了,更何况我自己也才刚刚接触这么一个领域.不过懒得想其他标题了,想起来要扯一下这个话题,也是因为和朋友聊起我自己最近在做的方向.Manifold Learning 或者仅仅 Manifold 本身通常就听起来颇有些深奥的感觉,不过如果并不是想要进行严格的理论推导的话,也可以从许多直观的例子得到一些感性的认识,正好我也就借这个机会来简单地谈一下这个话题吧,或者说至少是我到目前为止对这它的

浅谈文本的相似度问题

今天要研究的问题是如何计算两个文本的相似度.正如上篇文章描述,计算文本的相似度在工程中有着重要的应用, 比如文本去重,搜索引擎网页判重,论文的反抄袭,ACM竞赛中反作弊等等. 上篇文章介绍的SimHash算法是比较优秀的文档判重算法,它能处理海量文本的判重,Google搜索引擎也正是用这 个算法来处理网页的重复问题.实际上,仅拿文本的相似度计算来说,有很多算法都能解决这个问题,并且都达到比 较满意的效果.最常见的几种方法如下 (1)基于最长公共子串 (2)基于最长公共子序列 (3)基于最少编辑距

[转]浅谈ACM ICPC的题目风格和近几年题目的发展

斯坦福大学 王颖 ACM ICPC的比赛形式一般是五个小时八个题目,综合考察选手的数学能力.算法能力.coding能力和debug能力,还有团队配合能力.数学方面主要强调组合数学.图论和数论这三个方面的能力:而算法的覆盖范围很广,涉及了大部分经典的算法,和少量较前沿的算法.由于每道题目都需要通过所有的测试数据才能得分,并且需要精确解,这限制了Approximation algorithm在一些NP-hard的题目中的运用,从而使得搜索和剪枝策略对于NP-hard的题目非常重要. Final的题目

浅谈天线的选择与效果

很多朋友问,是不是换个增益高的天线好,极路由的天线为啥这么短,增益只有2.5-3db左右. 天线这个方向很专,不懂得人只会直接理解:大=好,越大=越好. 其实,这种理解是片面的, 凡事都有原理,我们需要以原理看问题,才能得到真知灼见. 现在在路由器上的天线都是无源天线,即自己不产生任何功率,通过电磁特性,将设备发出的信号改变场型图,来完成发射.与之对比,有种天线叫做有源天线,是把信号受到后,可以加电放大,类似音箱的原理. 因此,既然都是无源天线,那么到底哪种天线更好呢,是3db好,还是5db好,

浅谈流形学习

转载自:http://blog.pluskid.org/?p=533 总觉得即使是“浅谈”两个字,还是让这个标题有些过大了,更何况我自己也才刚刚接触这么一个领域.不过懒得想其他标题了,想起来要扯一下这个话题,也是因为和朋友聊起我自己最近在做的方向.Manifold Learning 或者仅仅 Manifold 本身通常就听起来颇有些深奥的感觉,不过如果并不是想要进行严格的理论推导的话,也可以从许多直观的例子得到一些感性的认识,正好我也就借这个机会来简单地谈一下这个话题吧,或者说至少是我到目前为止

浅谈项目经理的职能

浅谈项目经理的职能 引子 话说,这不是干货或者科普文章.一直在写关于产品经理的职能跟素质要求的文章,感觉身为项目经理的我有点不务正业.于是乎,这周开讲PM(Project managment)的职能,还有如何"控制"一个项目. 一切源于身边的人最近都在讨论矩阵的团队管理模式.我对矩阵式管理没有什么方案的,十多年前我还没听说过,但早几年也有看到过有公司是这么管理的(当时不知道叫这个名字).在早几年的管理模式下我觉的大多数公司都是销售型的管理方式,也可能那个时候技术人才没有什么管理办法,老

【算法微解读】浅谈01分数规划

浅谈01分数规划 所谓01分数规划,看到这个名字,可能会想到01背包,其实长得差不多. 这个算法就是要求"性价比"最高的解.sum(v)/sum(w)最高的解. 定义 我们给定两个数组,a[i]表示选取i的收益,b[i]表示选取i的代价.如果选取i,定义x[i]=1否则x[i]=0.每个物品只有选和不选的两种方案,求一个选择的方案使得R=sigma(a[i]x[i])/sigma(b[i]x[i]),也就是选择物品的总收益/总代价最大或者最小. 01分数规划问题主要包含以下几个问题:

开发技术--浅谈python数据类型

开发|浅谈python数据类型 在回顾Python基础的时候,遇到最大的问题就是内容很多,而我的目的是回顾自己之前学习的内容,进行相应的总结,所以我就不玩基础了,很多在我实际生活中使用的东西,我会在文章中提一下.并且我自己会根据这些内容进行相应的补充与扩展. 文章定位:不是科普文,是自己对于自己学习的总结. 前言 目前所有的文章思想格式都是:知识+情感. 知识:对于所有的知识点的描述.力求不含任何的自我感情色彩. 情感:用我自己的方式,解读知识点.力求通俗易懂,完美透析知识. 正文 正文的主要内

.net中对象序列化技术浅谈

.net中对象序列化技术浅谈 2009-03-11 阅读2756评论2 序列化是将对象状态转换为可保持或传输的格式的过程.与序列化相对的是反序列化,它将流转换为对象.这两个过程结合起来,可以轻松地存储和传输数 据.例如,可以序列化一个对象,然后使用 HTTP 通过 Internet 在客户端和服务器之间传输该对象.反之,反序列化根据流重新构造对象.此外还可以将对象序列化后保存到本地,再次运行的时候可以从本地文件 中“恢复”对象到序列化之前的状态.在.net中有提供了几种序列化的方式:二进制序列化