where are the exemplars?

科学、医疗实验和研究获取大量数据,渴望更有效的计算方法去组织和分析,当处理大量的有噪数据集,科学家经常使用一种计算方法寻找数据簇。Frey和Dueck提出一种新的方法找最优簇集合,他们的算法检测特殊数据点叫做exemplars,并且联系每一个点到exemplar,该exemplar能够最好的表达该数据点,原则上,找到最优exemplars的集合是很困难的,但是该算法可以有效并且快速处理非常大的问题(如75000片段DNA分为2000簇),一个正常需要几千小时的计算时间,现在只需要几分钟。

在简单的簇下,检测exemplars,正如exemplars他们自身存储着压缩的信息。广泛的应用可能性中举例:语言的统计分析学,以你上一篇paper为例,考虑所有的句子为数据点,两个句子之间的相似度用标准信息论方法计算(也就是在两个句子包含一样的单词时,相似度会增加)知晓相似度,就可以检测文章中的exemplary 句子,该句子提供了一个最佳压缩描述。假使你只想略读,你可以直接读图4中Frey和Dueck的报告,发现他们文章最佳总结为四句话,但是理解这个方法需要更多的努力。

该方法起始于构造一个相似矩阵,一组数字建立每个数据与其他数据之间的关系,正如语义学中的例子,S(B,A)衡量数据A有多适合来表示B(S(B,A)≠S(A,B)),最优的exemplars的集合,是每一个数据点到它exemplar的similarity的和最大。一般的聚类方法中,有决定一个数据exemplars数目的先验知识,然后试图去找到它们,从一个随机初始化的选择开始,通过每一次迭代提纯的方法。

Frey和Dueck提出的方法叫做affinity propagation,并不固定exemplars的数目,相反,需要给B一个值P(B)去表示一个先验知识,B有多合适作为一个exemplar,在大部分情况下,所有点都是同等适合的,所以所有的P取同样的大小值,这个性质提供了一个可控的参数,P越大,更exemplar的那个则更容易找到。

AP在计算机科学中以消息传递算法而闻名,其目标是最大化网络相似度。实际上也是一个belief propagation的一个应用,该方法至少被创造了两次,一次是在通信理论,现在是最佳纠错机智的核心,随后是在推理问题的研究中。

消息传递可以通过采取拟人化的观点来理解,想像你是一个数据点,你希望得到一个exemplar和你最相像,但是你的选择是有约束的。如果你选择其他点A作为一个exemplar,那么A必须是其自己的exemplar,这就对每一个数据点做了一个约束,建立了一个大的约束网络,即所有点都必须符合该要求,当网络相似度达到最大时,并且所有约束满足,实际的exemplars集合就出现了。

想像每一数据点旁边站了一个守护天使,告知是否其他点选择了该点作为exemplar,那么冲突约束的复杂网络的可以在所有characters(天使)都已经和其他点说过话后获得一个近似解。在一个给定的时间,所有天使传送消息到所有数据点,所有数据点回答所有天使,一个数据点告诉其他数据点的天使,它喜好exemplars的排名列表,一个天使告诉所有其他点在天使的约束下,他的列表的匹配程度。每一个发送的消息通过一个基于接受消息和相似度矩阵的简单计算来评估,在几个消息传递的回合中,所有characters达成一致,每一个点知道了它的exemplar,在实际中,算法运行时间与相似度的数目成线性扩展关系(就是线性相关?).

作为一个例子,AP可以是一种有力是方法去获取画廊图片的代表性人脸,输入为数值相似度(成对数据),可能使用一个模型来测量、计算得到,或者在当前例子中,设置为视觉检查(缺失的相似性值表明,在问题标记下,可通过算法获得)。每一张脸都是一个数据点,与其他人脸和守护天使交换信息。在一些消息传递的迭代后,一个全局的协议达成,即exemplars的集合。

这样的消息传递方法已经在很多很困难的问题,包括纠错显示出卓著有效的结果,神经网络学习、计算机视觉和确定逻辑的可满足公式。在很多场合,他们是最好的可获得算法,以及这个新的应用到聚类分析看起来很强大,了解他们的极限是一个主要公开的挑战,这种方法的最低水平是控制收敛性或者谈找到近似解的质量,一个更有野心的目标是特征化(characterize)问题,他们更有用。这些概念和方法在统计物理学中发展,去研究集合行为,在这方面提供最有希望的前景,belief propagation(这里是affinity propagation)是一个均值域型(mean field-type)方法,也就是,给出目标(一个数据点)的复杂迭代,在所有其他点是一个平均有效迭代的近似。尽管这些在很多应用的很好,它在系统靠近相位过度时,会陷入问题,一些统计相关变得极其远程控制(?)。恰当的修正需要更复杂的信息,在一些特殊的领域已经解决,但是其适用性的变化一直在找。

消息传递拟人化的解释主要的特征

  • 困难的问题,该策略使用简单的方法可以找到一个极佳的近似解
  • 分布式系统中嘻嘻交换,简单的更新规则(局部更新)
  • 在实际中实现了一个新的计算体制:

分布式元素   平行操作  神经计算精神

希望找到规则,在活的生物或者社会系统中可以有用,消息传递的每一个新的应用,如AP,都会增加我们对复杂系统的理解。

时间: 2024-11-03 03:26:36

where are the exemplars?的相关文章

三支一扶成绩什么时候出来?

三支一扶考试成绩是各位考生在参加了三支一扶考试之后关注的第一件事,那么在三支一扶考试之后到底三支一扶成绩什么时候出来[gwy.kaoshib.com/szyf/cjcx/52863.html]呢?今天小编就为大家介绍一下. 三支一扶成绩什么时候出来这个问题使参加完考试之后的一个重大问题,三支一扶成绩一般会在考试进行的半个月之后进行考试成绩的发布,但是也有一些省份会在考试结束之后的第二天发布此次的考试成绩. 因为三支一扶考试不是统一进行考试,考试时间不一样,当然三支一扶成绩什么时候出来的时间也就不

苹果三星新“机皇”遇冷,国产手机该高兴吗?

几年前这还是让人不敢想象的情景:安卓与iOs两大阵营的"机皇"---Note8和iPhoneX,在中国"手机春晚"的年度压轴表演,就真的仅仅是"表演"而已.整个中国手机产业界完全是冷眼旁观.这旁观不是羡慕和嫉妒,而是真的有点漠不关心. 原因简单明了:Note8与iPhoneX刚一发布就已经被所有人认定,在中国市场没有前途.而主流消费者几乎可以肯定地说,将会在一阵感慨之后立刻转身投入国产手机的怀抱. 手机市场的竞争,无非 硬件性价比 + 软件生态

三百六十度全景图如何拍摄?

三百六十度全景图如何拍摄?随着全景技术的发展,全景拍摄也成为了一种十分新潮的摄影方式.全景摄影也有很多学问,而且随着全景照片的用途越来越多,拍摄全景的设备也越来越多.今天我们就介绍几种十分另类的360全景图拍摄方法,这些酷雷曼360全景图拍摄方法让你大开眼界. 工具/原料 相机 鱼眼镜头 云台 三角支架 方法/步骤 1 吊锤辅助360全景图拍摄方法 吊线保证拍摄时相机以节点旋转,使用吊线进行全景拍摄线不要太长,50CM以内比较容易控制,有时也到一米多在胸口位置进行拍摄,重锤容易晃动,很难对准.吊

张书乐:BATJ联姻银行:智慧银行会来的更猛烈些吗?

几乎一夜之间,一直有些势成水火的主流互联网金融平台,都分别和四大国有银行牵上了手. 2017年3月28日,阿里巴巴集团.蚂蚁金服集团和中国建设银行签署了三方战略合作协议:6月16日,工商银行牵手京东刘强东进行全面合作,6月20日,百度与农业银行宣布达成战略合作:6月22日,腾讯则下了个"双黄蛋",同一天与中国银行和华夏银行均签战略合作协议-- 至此,互联网(不限于金融)领域俗称的BATJ(百度.阿里.腾讯.京东)与四大国有银行工.农.中.建,均结成了互助对子. 科技金融还是金融科技,这

如何上传代码到github?

如何上传代码到github? 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可: https://git-for-windows.github.io/ 1.进入Github首页,点击New repository新建一个项目  2.填写相应信息后点击create即可 Repository name: 仓库名称 Description(可选): 仓库描述介绍 Public,

张书乐:无人便利店 有风无浪新蓝海,怎么闯?

进店扫码获得电子入场码,选好货物后自动结算,节约下排队和结账的时间,快速离开没有一个售货员的便利店.这样颇有点小科幻的场景,在当下中国已经出现. "F5未来商店"对外宣称,获创新工场3000万元A+轮投资:国内首个商用可规模化复制的24小时无人便利店"缤果盒子"宣布完成A轮系列融资,融资额超过1亿元:阿里首家无人超市"淘咖啡"也在7月第二届淘宝造物节上与首次亮相. 又一个互联网+的大风口来临了吗?有可能成为颠覆实体零售的新势力吗?或许答案是,想得

产品规划:如何规划代金券系统?

ps:此代金券系统的规划是建立在SDK的产品上 一.代金券需求 近期,公司的游戏产品需要做折扣系统,目的提高付费率.简单来说就是玩家购买游戏商品获得一定的折扣. 二.关于折扣形式 这里折扣形式可以有: 直接在产品进行打折: 发放活动券: 提供充值返利: 代币等. 1.直接在产品进行折扣处理 这种方法最为简单,无论是技术实现还是产品角度都是最方便的,但是用户体验感也是最不好的.用户很直观看到有打折,打折仅仅打折并没有拿到实际的东西,用户得不到真实的感知质量,这就是用户感知性: 2.发放活动券形式

DEDE5.7如何制作网站地图?

DEDE用的人很多,可能大家在使用的过程中会碰到一些问 题,这很正常的,今天我们来讲讲DEDE5.7如何制作网站地图,其实网站地图分两种,一种做给网友看的,方便网友可以方便地找到自己想浏览的内容,另外 一种是做给搜索引擎蜘蛛看,方便蜘蛛在你网站上面抓取内容.    当然,我们这里讲的主要是针对蜘蛛的,因为DEDE默认的就有针对用户的网站地图,主要是以栏目的形式展现,这个可以在DEDE后台自行生成.其实大家印象当中的网站地图是XML格式的,一般命名成sitemap.xml,接下来进入正题.    

苹果不再“雁过拔毛”的背后:利益博弈下谁是赢家?

自从库克成为苹果大当家后,苹果似乎就一直奔着利润一股脑地扎进去了.iPhone万年不变样,就连有所改变的iPhone X在售价上也是"穷凶极恶",吃相极其难看.而在今年4月份腾讯微信官方发布通告,更是将苹果推上风口浪尖.微信官方表示,由于受苹果公司新规定影响,iOS 平台的微信客户端关闭公众号打赏功能. 至于微博问答.知乎问答.今日头条及众多直播平台等在内,都逃不过苹果的"雁过拔毛"--苹果认为应用上的打赏属于"内购"行为,去抽取30%的分成.但