Locality Sensitive Hash 局部敏感哈希

Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。请看下图：

参考上图，如果我们要返回距离中心为r的点，LSH会返回给我们范围更远、更多的点，也就是说，LSH返回的结果会带有一定的false positive。我们或许需要使用linear search进行二次筛选，但这毕竟大大减少了计算的时间。

由此可见，LSH与一般的加密型哈希函数有很大的区别，参见下图：

一种实现LSH的最简单的方式是采用random bits sampling的方式，即将待索引的多维整型向量转化为0或1的字符串；再采用随机选取其中的K位拼接成新的字符串；最后再采用常规的哈希函数（例如MD5）等算法获取带索引向量的LSH Code。这样的Hash Code有一个特点，就是Hamming Distance相近的两个向量，其冲突的概率越大，即结果相等的可能性越大。为了减少增强KNN搜索的能力，与Bloom Filter类似，采用多个Hash Table增加冲突的概率，参见下图：

来看一下LSH的复杂度：

可见，与各种其它的数据结构相比，基于lsh的索引结构的query时间复杂度，可以做到与向量维度无关，有效地克服了维度灾难的问题，因此更适合高维向量的索引。

基于LSH实现的图像近似检索，其原理也很类似，如下图所示：

时间： 2024-12-11 13:39:54

Locality Sensitive Hash 局部敏感哈希的相关文章

局部敏感哈希(Locality Sensitive Hashing)

比较不同的文章.图片啊什么的是否相似,如果一对一的比较,数据量大的话,以O(n2)的时间复杂度来看,计算量相当惊人.所以如果是找相同就好了,直接扔到一个hashmap中即可.这样就是O(n)的复杂度了.不过相同的字符串一定会得到相同的hash,而不同的字符串,哪怕只有一点点不同,也极可能得到完全不同hash.很自然的想到,要是相似的object能够得到相似的hash就好了.局部敏感哈希就是这样的hash,实现了相似的object的hash也是相似的. 定义相似要找相似,首先是要定义什么事相似.

局部敏感哈希简介

上一年记录的东西,整理下... LSH,是Locality Sensitive Hashing的缩写,也翻译为局部敏感哈希,是一种通过设计满足特殊性质即局部敏感的哈希函数,提高相似查询效率的方法. 虽然从正式提出距今不过十余年,由于其局部敏感的特殊性质,以及在高维数据上相当于k-d树等方法的优越性,LSH被广泛地运用于各种检索(包括并不仅限于文本.音频.图片.视频.基因等)领域. 一.哈希检索概述 1.1 检索分类在检索技术中,索引一直需要研究的核心技术.当下,索引技术主要分为三类:基于树的索

Java实现LSH（Locality Sensitive Hash ）

在对大批量数据进行图像处理的时候,比如说我提取SIFT特征,数据集为10W张图片,一个SIFT特征点是128维,一张图片提取出500个特征点,这样我们在处理的时候就是对5000万个128维的数据进行处理,这样处理所需要的耗时太长了,不符合实际生产的需要.我们需要用一种方法降低运算量,比如说降维. 看了一些论文,提到的较多的方法是LSH(Locality Sensitive Hash),就是局部敏感哈希.我们利用LSH方法在5000万个特征点中筛选出极少量的我们需要的特征点,在对这些极少量的数据进

局部敏感哈希LSH

之前介绍了Annoy,Annoy是一种高维空间寻找近似最近邻的算法(ANN)的一种,接下来再讨论一种ANN算法,LSH局部敏感哈希. LSH的基本思想是: 原始空间中相邻的数据点通过映射或投影变换后,在新空间中仍然相邻的概率很大,而不相邻的数据点映射后相邻的概率比较小. 也就是说,我们对原始空间中的数据进行hash映射后,希望相邻的数据能够映射到Hash的同一个桶内. 对所有的原始数据进行hash映射后,就会得到一个hashtable,这个hashtable同一个桶内的数据在原始空间中相邻的概率

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍（转）

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术--局部敏感哈希(Locality-Sensitive Hashing, LSH),内容包括了LSH的原理.LSH哈希函数集.以及LSH的一些参考资料. 一.局部敏感哈希LSH 在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题.

局部敏感哈希(Locality-Sensitive Hashing, LSH)

转自局部敏感哈希(Locality-Sensitive Hashing, LSH) 一.局部敏感哈希LSH 在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题.如果是低维的小数据集,我们通过线性查找(Linear Search)就可以容易解决,但如果是对一个海量的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,我们需要采用一些类似索引的技术来加快查找过程

R语言实现︱局部敏感哈希算法（LSH）解决文本机械相似性的问题（二，textreuse介绍）

上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢? 于是在网上搜索了一下,真的发现了一个叫textreuse的包可以实现这样的功能,而且该包较为完整,可以很好地满足要求. 现在的版本是 0.1.3,最近的更新的时间为 2016-03-28. 国内貌似比较少的用这个包来实现这个功能,毕竟R语言在运行大规模数据的性能比较差,而LSH又是处理大规模数据的办法,所以可能国内比较少的用R来执

为什么要用局部敏感哈希

一.题外话虽然是科普,不过笔者个人认为大道至简,也就是说越简单的东西很可能越值得探讨,或者另外一种说法越简单的东西越不好讲解:其实笔者认为这就是<编程之美>所要传递的——大道至简. 软件构建老师给我推荐的<走出软件作坊>还没看呢. 二.概述高维数据检索(high-dimentional retrieval)是一个有挑战的任务.对于给定的待检索数据(query),对数据库中的数据逐一进行相似度比较是不现实的,它将耗费大量的时间和空间.这里我们面对的问题主要有两个,第一,两个高维向

基于局部敏感哈希的协同过滤算法之simHash算法

搜集了快一个月的资料,虽然不完全懂,但还是先慢慢写着吧,说不定就有思路了呢. 开源的最大好处是会让作者对脏乱臭的代码有羞耻感. 当一个做推荐系统的部门开始重视[数据清理,数据标柱,效果评测,数据统计,数据分析]这些所谓的脏活累活,这样的推荐系统才会有救. 求教GitHub的使用. 简单不等于傻逼. 我为什么说累:我又是一个习惯在聊天中思考前因后果的人,所以整个大脑高负荷运转.不过这样真不好,学习学成傻逼了. 研一的最大收获是让我明白原来以前仰慕的各种国家自然基金项目,原来都是可以浑水摸鱼忽悠过去

猜你喜欢

Maven中手动安装或部署jar

一些第三方jar包我们需要手动进行安装部署,另外如果使用nexus时索引未更新下来急于使用时也可以进行安装或部署.安装(install)仅将相应jar包安装到了本地仓库,而部署(deploy)则将ja ...

一个犯过的编程错误

为了得到周期一定的时序,我们总是用定时器产生,C51中最常见的用法就是: void tim0_IRQHandler(void) interrupt 1 { static unsigned int c ...

Delphi 屏幕抓图技术的实现

摘要:本文以Delphi7.0作为开发平台,给出了网络监控软件中的两种屏幕抓图技术的设计方法和步骤.介绍了教师在计算机机房内教学时,如何监控学生计算机显示器上的画面,以保证教学的质量和效果. 引言 ...

软考初级程序员考试大纲

一.考试说明 1．考试目标通过本考试的合格人员能根据软件开发项目管理和软件工程的要求按照程序设计规格说明书编制并高度程序,写出相应的程序文档,产生符合标准规范的.实现设计要求的.能正确可靠运行的程序 ...

Y460/Y470 Nvidia optirum solution : switch off the nvidia card and solve screen flash problem

i have such a long time fall in love with ubuntu , but i found it's much unconfortable for me with a ...

张高兴的 Windows 10 IoT 开发笔记：使用 ULN2003A 控制步进电机

GitHub:https://github.com/ZhangGaoxing/windows-iot-demo/tree/master/ULN2003A

如何打印Qt中的枚举所对应的字符串

int index = QAbstractSocket::staticMetaObject.indexOfEnumerator("SocketState"); QString aa ...

结对开发（求二维首尾相接数组的最大子数组和）

一.题目要求输入一个二维整形数组,数组里有正数也有负数. 二维数组首尾相接,象个一条首尾相接带子一样. 数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和. 求所有子数组的和的最大值. ...

图形搜索

1.通过搜索形式仿人眼选择性. 通过搜索,看某个图对应的文字标签出现的频率直方图,当某个直方图特别高时,这个图片就最有可能是这个名字. 2.通过统计直方图判断图形新增. 当识别出某个图形时,此这 ...

用正则表达式给字符串属性值都加上双引号

需要处理的字符串 [{columnDisplaySize=8, columnName=WARD_CODE, columnTypeName=varchar}, {columnDisplaySize=11 ...

安装 whmcs

1.下载下来后(自己百度网盘),用scp 上传, 在网站能访问的地方新建目录,例如 whmcs 目录,解压到内 2.网站访问 http://ip/whmcs/index.php 提示需要安装 ionc ...

java基础知识点罗列

1:Java泛型 2:clone Java中的深拷贝(深复制)和浅拷贝(浅复制) Java中对Clone的理解

Matplotlib中文显示的问题

#Matplotlib中文显示有问题,当然可以修改配置文件matplotlibrc ,不过较为麻烦.其实只要在代码中指定字体就可以了 #第一种方法: # -*- coding: utf-8 -*- f ...

7.02 求某列中的最小、最大值

问题:计算给定列中的最大值和最小值.例如,计算所有职员的最高工资和最低工资,以及每个部门的最高工资和最低工资. 解决方案:要查所有职员的最低工资和最高工资,只需分别使用函数MIN和MAX:SELECT ...

C#如何判断两个数组相等

/// <summary> /// 数组比较是否相等 /// </summary> /// <param name="bt1">数组1</ ...

[网站公告]17:55-18:20阿里云SLB故障造成网站不能正常访问

(注:由于阿里云SLB管理控制台监控数据不准,实际故障时间是18:07-18:20.) 17:55-18:2018:07-18:20,我们使用的阿里云SLB(负载均衡)中有3台出现突发故障,造成全站无 ...

株洲小巨蛋项目之心态总结

1.一开始做的时候没大局观,都是从上往下做的,导致后面布局做的很痛苦,后面也是参考了别人做的网站后再重新做的. 2.喜欢边切一张照片边编辑网页,但这样做很低效,时间也浪费很多.正确的做法是,观察整个P ...

iOS 数组越界 Crash处理经验

我们先来看看有可能会出现的数组越界Crash的地方: - (void)tableView:(UITableView *)tableView didSelectRowAtIndexPath:(NSInd ...

[转载]上百部BBC经典纪录片在线欣赏

对于纪录片爱好者来说,追BBC(英国广播公司,比较权威的高知名度的媒体)题材广泛.制作精良的纪录片是人生一大乐事.看BBC的纪录片,既可以追溯上下数千年的历史文化,也可以欣赏从宇宙到地信深处的奇妙境界 ...

[转]监控windows服务，当服务停止后自动重启服务

近期花时间研究了一下windows和linux下某服务停了后自动重启的功能,在网上收集了些资料,并经过测试,在此整理一下.这里介绍的是windows服务的监控,是通过批处理来实现的.本例是监控wind ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.