布隆过滤器(Bloom Filter)

在大数据的实时处理系统中,累加型的计算(PV统计)可以使用累加器解决;非累加型的计算(UV统计),需要损失一定准确率来保证执行效率,对最终值进行估算。其中一种估算方法便是布隆过滤器。

BF是一种二进制向量数据结构,拥有很高的空间和时间效率。其基本原理是使用长度为m的位数组M存储集合信息,同时使用k个相互独立的哈希函数K将数据集D映射到位数组空间。通过K的映射,D的每个元素在M中都占有k位,对应的位置置1。计算是个元素是否在D中时,通过K计算映射位置,k个位置全部为1时,表示该元素已存在。否则,表示该元素不在数据D中,此时可以考虑将新增元素加入D,并将M的对应位置置1;也可以不做任何操作,只返回过滤结果(具体视业务情况而定)。

BF的优点是空间效率和查询效率都远远超过一般的算法,缺点是有一定的误判率(假正例False positives)和删除困难,但是没有漏判的情形(即假反例False negatives),所以,使用BF算法的UV会比真实UV要小。鉴于BF的特点,该算法的使用场景需要允许误判的产生。1)BF为什么会有误判的情况?D通过K映射到M时,某个元素的k个映射值可能会和已有的元素映射完全重叠(不需要和单个元素的映射位置完全重叠),这是该元素就会被误判为已存在。2)BF为什么不会漏判?因为BF不存在将1改为0的操作,所以不会将已加入的元素的映射位置赋值为0。

说到这里,该说说误差率的问题。实际的应用中往往希望误差率控制在一定的范围,这个应该如何保证呢?首先说说影响误差率的几个因素:数据集大小d,哈希函数K的个数k以及位数组大小m。d越小,m越大,误差率就越小,这两个因素的影响,比较好理解。k对误判率的影响比较复杂:一方面,k越大,有更多的位数组元素置为1,新进入元素被误判的概率就越大;另一方面,一个元素对应的多个位全部为1时才表示为存在,所以k越大,误差率应该越小。数学分析之后的关系如下:Pfp≈(1-e-kd/mk,如果d、m已知,使得Pfp最小的k为k=m/d*ln2。通过公式便可以计算出对应的误判率。

现实的工程应用中,常常是划定了误差率Pfp,已知了数据集规模d,计算需要多少的硬件资源(这里是内存资源),也就是需要计算出映射空间M的大小m,m=-(d*lnp)/(ln2)2  

谈到这里,BF的基本思想算是说完了。但是有几个问题需要引申一下:哈希函数应该如何设计?如果只是用来技术,BF算法是否可以改进?

待续....

时间: 2025-01-02 01:37:31

布隆过滤器(Bloom Filter)的相关文章

基于BitSet的布隆过滤器(Bloom Filter)

布隆过滤器 Bloom Filter 是由Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测结果为是,该元素不一定在集合中:但如果检测结果为否,该元素一定不在集合中.因此Bloom filter具有100%的召回率.这样每个检测请求返回有"在集合内(可能错误)"和"不在集合内(绝对不在集合内)"两种情况,可见 Bloom filter 是牺牲了正确率和时间以节省空间. 当

布隆过滤器(Bloom Filter)详解

布隆过滤器(Bloom Filter)详解 2012-07-13 18:35 by Haippy, 29358 阅读, 6 评论, 收藏, 编辑   布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Fi

布隆过滤器(Bloom Filter)的原理和实现

什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 常规思路 数组 链表 树.平衡二叉树.Trie Map (红黑树) 哈希表 虽然上面描述的这几种数据结构配合常见的排序.二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求.但是当集合里

[转载] 布隆过滤器(Bloom Filter)详解

转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一

探索C#之布隆过滤器(Bloom filter)

阅读目录: 背景介绍 算法原理 误判率 BF改进 总结 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是否属于这个集合.BF其优点在于: 插入和查询复杂度都是O(n) 空间利用率极高. 例子1: 像Yahoo这类的公共邮件服务提供商,总是需要过滤垃圾邮件. 假设有50亿个邮件地址,需要存储过滤的方法有: 所有邮件地址都存储到数据库. 缺点:每次都需要查询数据库,效率低. 使用Hashtable保存到内

一个用于白名单服务的布隆过滤器(bloom filter)

bloom filter这种数据结构用于判断一个元素是否在集合内,当然,这种功能也可以由HashMap来实现.bloom filter与HashMap的区别在于,HashMap会储存代表这个元素的key自身(如key为"IKnow7",那么HashMap将存储"IKnow7"这12个字节(java),其实还需要包括引用大小,但java中相同string只存一份),而bloom filter在底层只会使用几个bit来代表这个元素.在速度上,bloom filter对比

url去重 --布隆过滤器 bloom filter原理及python实现

https://blog.csdn.net/a1368783069/article/details/52137417 # -*- encoding: utf-8 -*- """This module implements a bloom filter probabilistic data structure and an a Scalable Bloom Filter that grows in size as your add more items to it withou

布隆过滤器(Bloom Filter)

一.概念 1. 布隆过滤器是一个数据结构:bit数组+随机映射函数 2. 作用:高效判断某个元素是否在给定的集合中 3. 缺点:有一定的错误识别率,随着数据量越大,错误识别率越大:并且不容易删除 二.原理 1. 加入元素: a. 使用布隆过滤器中的哈希函数,计算元素的哈希值,可能有多个哈希函数,对应多个哈希值 b. 根据所有哈希值,把bit数组中对应下标的值设置为1:如果设置时发现已经全部为1,表示元素重复 2. 判断元素: a. 计算哈希值 b. 判断是否所有对应的下标都为1,都为1存在布隆过

Bloom Filter布隆过滤器

http://blog.csdn.net/pipisorry/article/details/64127666 Bloom Filter简介 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复 布隆过滤器(Bloom Filter)详解 基本概念 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定.链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢.不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构.它可以通过一