Bloom Filter 算法详解

Bloom Filter 算法

Bloom filter是由Burton Bloom 在1970年提出的,其后在P2P上得到了广泛的应用。Bloom filter 算法可用来查询某一数据是否在某一数据集合中。其优点是查询效率高、可节省空间,但其缺点是会存在一定的错误。因此Bloom filter 算法只能应用于那些允许有一定错误的场合。可使用Bloom filter 算法的场合包括字典软件、分布式缓存、P2P网络和资源路由等等。

使用Bloom Filter我们可以判断一个元素是否在某一个集合中。如果这个集合是使用线性结构存储的话,其查找的时间复杂度是O(n);使用像二叉树或B-tree这样的树形结构存储的话其查找的时间复杂度是O(logn);而使用Bloom Filter在可以容忍一定错误率的情况下,其时间复杂度是O(1)。因此,与传统的权衡空间或时间的算法不同,Bloom Filter 极其巧妙,通过引入一定的错误率来换取时间和空间,在某些应用大大提高了性能。

Bloom Filter 算法应用

使用Bloom Filter算法查找某个元素是否属于某个集合是常数时间,并且Bloom Filter使用的是位数组,大大减少了空间。虽然有一定的错误率,但对于那些允许有一定错误的场合则十分有效。

使用Bloom Filter还可以进行垃圾邮件过滤。由于垃圾邮件的数量是非常巨大的,如果将所有的垃圾邮件的地址都存到数据库再进行垃圾邮件过滤,则其性能会非常低下。此时如果通过垃圾邮件的地址创建Bloom Filter,并把Bloom Filter的位数组放到内存中,那么在进行垃圾邮件过滤时就非常高效了。

在HTTP缓存服务器中,可以使用Bloom Filter来加快判断Url是否在代理服务器的缓存中。在代理服务器中,首先用缓存页面的Url通过哈希算法创建一个Bloom Filter的位数组。如果有多个代理服务器,还可以将自己的位数组传送给其他代理服务器,以加快缓存查询速度。当有HTTP请求来时,就先在代理服务器中查看是否有此Url的缓存,如果没有,则查看是否在其它代理服务器中,再没有的话才会去主服务器提取页面。可以看出,使用Bloom Filter查询某Url是否在缓存中非常快,如果出现错误的情况则最多到主服务器提取页面。而且由于Bloom Filter大大减少了空间的使用,使其在网络上传输更加快速。

在web爬虫中,也可使用Bloom Filter。当web爬虫处理了一个页面时,首先会通过Bloom Filter判断这个页面是否已经处理过,如果没处理过就对其进行处理并将其加到Bloom Filter中。在web爬虫如果出现误判,则最多对同一个Url多处理几次,并不影响web爬虫的性能。通过Bloom Filter反而大大提高了web爬虫的性能。

总而言之,Bloom Filter近些年来得到了广泛的应用,通过使用Bloom Filter可以加快对海量数据的查询,提高应用的性能。

Bloom Filter算法思想

Bloom Filter算法就是对于有n个元素的集合S={x1, x2,……,xn},我们用k个哈希函数(h1,h2,……,hn),分别将S中的每个元素映射到一个m位的位数组(bm-1bm-2……b1b0)中。该位数组在初始化时全部置为0,每当用哈希函数映射到该位时则将该位置为1,对于已经置为1的位则不在重复置1。

例如,将S={x1,x2,x3}这个集合用3个哈希函数映射到一个14位的位数组中,如图所示:

可以看出,如果要查找一个元素是否在这个集合中,则只要将该元素进行k次哈希,如果其对应的位全部为1的话则说明该元素在这个集合中。否则,只要有其中一位为0,则说明该元素不在这个集合中。如图所示,x2在集合中,而x4不在集合中。

Bloom Filter会产生错误也就是因为对某个元素进行k次哈希后对应的位全部为1,因此错误地将这个元素判定为在这个集合中,但实际上这个元素并不在这个集合中。如图所示,x5实际并不是这个集合的元素:

要将一个元素加入这个集合很容易,只要将这个元素进行k次哈希后将对应的位置1就行了。但如果要从这个集合中删除一个元素,那么使用上面的位数组就不行了。因为如果只是简单地将k次哈希后对应的位置0,而其它在这个集合中的元素也可能会映射到该位,这样这个集合就出错了。因此,对于要进行删除的情况,则应该使用Bloom Filter的变体算法:计数Bloom Filter。

计数Bloom Filter位数组的每个元素并不是只有1位,而可能是2位或更多位(视情况而定)。如图就是使用2位位数组的例子:

在这种情况下,如果要删除一个元素,则只要将对应位的计数减1就行了。删除了x2之后如图所示:

Bloom Filter算法分析

现在来分析一下标准的Bloom Filter的错误率。刚开始时,m位的位数组初化为0,进行一次哈希并设某一位为1后位数组中某一位为0的概率为:(m-1)/m,而当对n个元素进行k次哈希后位数组中某一位为0的概率为:

p = ((m-1)/m)kn = (1 – 1/m)kn,

一个不在集合中的元素进行k次哈希后对应的位都为1,因此,Bloom Filter的错误率为:

f = (1 – (1 - 1/m)kn)k ,

由于

因此:

p = (1 – 1/m)kn = e-kn/m

即 k = -m·ln(p)/n,

f = (1 – e-kn/m)k

= exp(ln(1-e-kn/m)k)

= exp(kln(1-e-kn/m))

= exp(-m·ln(p)·ln(1-p)/n)

因为exp(x)是一个递增函数,为了使错误率f最小,那么-m·ln(p)·ln(1-p)/n就应该取最小值。根据对称性法则可以看出,当p = 1/2时-m·ln(p)·ln(1-p)/n取得最小值,即k = -m·ln(p)/n = m·ln2 / n。

所以当哈希函数的个数k = m·ln2 / n时,可以使得错误率最小。又因为p=1/2是对n个元素进行k次哈希后位数组中某一位为0的概率,此时位数组中0和1各占一半。即当让位数组有一半是空的时,可以使错误率最低。

时间: 2024-10-05 08:14:19

Bloom Filter 算法详解的相关文章

EM算法(3):EM算法详解

目录 EM算法(1):K-means 算法 EM算法(2):GMM训练算法 EM算法(3):EM算法详解

[转] KMP算法详解

转载自:http://www.matrix67.com/blog/archives/115 KMP算法详解 如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段.    我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法.KMP算法是拿来处理字符串匹配的.换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串).比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串.

Bloom Filter算法

<?php /*Bloom Filter算法来去重过滤. 介绍下Bloom Filter的基本处理思路:申请一批空间用于保存0 1信息,再根据一批哈希函数确定元素对应的位置,如果每个哈希函数对应位置的值为全部1,说明此元素存在.相反,如果为0,则要把对应位置的值设置为1.由于不同的元素可能会有相同的哈希值,即同一个位置有可能保存了多个元素的信息,从而导致存在一定的误判率. 如果申请空间太小,随着元素的增多,1会越来越多,各个元素冲突的机会越来越来大,导致误判率会越来越大.另外哈希函数的选择及个数

[搜索]波特词干(Porter Streamming)提取算法详解(3)

 接上 [搜索]波特词干(Porter Streamming)提取算法详解(2) 下面分为5大步骤来使用前面提到的替换条件来进行词干提取. 左边是规则,右边是提取成功或者失败的例子(用小写字母表示). 步骤1 SSES -> SS                   caresses  ->  caress IES  -> I                          ponies    ->  poni ties      ->  ti SS   -> S

KMP算法详解(图示+代码)

算法过程非常绕,不要企图一次就能看明白,多尝试就会明白一些.下面试图用比较直观的方法解释这个算法,对KMP算法的解释如下: 1. 首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符,进行比较.因为B与A不匹配,所以搜索词后移一位. 2. 因为B与A不匹配,搜索词再往后移. 3. 就这样,直到字符串有一个字符,与搜索词的第一个字符相同为止. 4. 接着比较字符串和搜索词的下一个字符,还是相同. 5. 直到字

安全体系(三)——SHA1算法详解

本文主要讲述使用SHA1算法计算信息摘要的过程. 安全体系(零)—— 加解密算法.消息摘要.消息认证技术.数字签名与公钥证书 安全体系(一)—— DES算法详解 安全体系(二)——RSA算法详解 为保证传输信息的安全,除了对信息加密外,还需要对信息进行认证.认证的目的有两:一是验证信息的发送者是合法的,二是验证信息的完整性.Hash函数就是进行信息认证的一种有效手段. 1.Hash函数和消息完整性 Hash函数也称为杂凑函数或散列函数,函数输入为一可变长度x,输出为一固定长度串,该串被称为输入x

php 二分查找法算法详解

一.概念:二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好:其缺点是要求待查表为有序表,且插入删除困难.因此,折半查找方法适用于不经常变动而查找频繁的有序列表.首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功:否则利用中间位置记录将表分成前.后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表.重复以上过程,直到找到满足条件的记录,使查找成功,或直到子表不存在为止,此时查找不成功. 二.代

【转】AC算法详解

原文转自:http://blog.csdn.net/joylnwang/article/details/6793192 AC算法是Alfred V.Aho(<编译原理>(龙书)的作者),和Margaret J.Corasick于1974年提出(与KMP算法同年)的一个经典的多模式匹配算法,可以保证对于给定的长度为n的文本,和模式集合P{p1,p2,...pm},在O(n)时间复杂度内,找到文本中的所有目标模式,而与模式集合的规模m无关.正如KMP算法在单模式匹配方面的突出贡献一样,AC算法对于

支持向量机(SVM)(五)-- SMO算法详解

一.我们先回顾下SVM问题. A.线性可分问题 1.SVM基本原理: SVM使用一种非线性映射,把原训练            数据映射到较高的维.在新的维上,搜索最佳分离超平面,两个类的数据总可以被超平面分开. 2.问题的提出: 3.如何选取最优的划分直线f(x)呢? 4.求解:凸二次规划 建立拉格朗日函数: 求偏导数: B.线性不可分问题 1.核函数 如下图:横轴上端点a和b之间红色部分里的所有点定为正类,两边的黑色部分里的点定为负类. 设: g(x)转化为f(y)=<a,y> g(x)=