Bloom Filter的基本原理和变种

学习一个东西首先要知道这个东西是什么，可以做什么，接着再了解这个东西有什么好处和优势，然后再学习他的工作原理。下面我们分别从这三点简单介绍一下bloom filter，以及和他的变种。

What：在允许一定的错误率的情况下，用于判断一个元素是否属于一个集合，Bloom Filter可能会将一个不属于集合的元素误判为属于这个集合，即false positive。可以应用于检查一个URL是否已经被爬虫爬过、网络缓存共享、字符串匹配等等
Why：时间和空间效率较高（与hash比较）
How：
- 存储元素：用一个m位的数组和k个hash函数，对一个元素用k个hash函数映射出k个值（范围是(0~m-1)，即数组下标），对数组的这m个下标位置为1
- 查询元素：同上获得一个元素的m个下标位置，如果这m个下标位置都为1，说明元素属于该集合
- 优点：时间、空间效率高，只需k次hash就能找到元素，只需m位空间大小，时间、空间复杂度都是常数
- 缺点：有一定错误率、无法删除元素、无法恢复原来元素的值（因为不直接存储元素值）
从hash到bloom filter：
1. 传统hash：
  - 存储元素：开辟h个格子，对集合中的每个元素，hash出格子的下标，将元素存于格子中。存在hash冲突的情况，用hash链表、再hash的方法解决。
  - 查找：hash出格子下标、同格子下标位置存储的元素值比较
  - 缺点：需要存储所有集合的值，空间占用大；遇到hash冲突需要再查找链表或者再hash，时间复杂度不确定
2. 改进hash：
  1. 存储元素：开辟h个格子，对集合中的每个元素，hash出格子的下标，不直接存储元素的值，而是存储元素的编码，通常编码的位数比元素值的位数小，把元素值映射成新的编码（hash）可能会有冲突（不同元素的编码相同）
  2. 查找：同传统hash
  3. 优点：较传统hash空间复杂度低
  4. 缺点：存在一定的错误率，用正确率换取空间；无法恢复原来元素的值
3. bloom filter：
  1. 存储和查找童第3点
  2. 优点：不用考虑冲突的情况，因为允许一定的错误率，时空效率高
Bloom Filter的变种
1. Counting Bloom Filter：原始的bloom filter不支持删除操作，CBF通过对位数组进行扩展，把原来1位扩展为t位用于计数。每次存储时将对应k个hash下标的位计数+1，删除时相应的对k个hash下标计数-1，从而支持集合删除操作
2. Partial Bloom Filter：原始bloom filter的hash函数值的范围是0~m-1，即整个位数组的下标范围，而在PBF中每个hash函数的取值范围较小，相互间没有交集，位数组被分成 k个区域，每个hash函数值负责一个区域。好处是准确率比原始的高，且可以并行访问数组，优化程序性能
3. Compressed Bloom Filter：对原始的bloom filter进行压缩，用于网络传输应用。好处是经过压缩的bloom filter的错误率更低、所需位数更少、所需hash函数更少

时间： 2024-10-24 23:39:49

Bloom Filter的基本原理和变种的相关文章

Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive).因此,Bloom Filter不适合那些“零错误”的应用场合.而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省. 集合表示和元素查询下面我们具体来看Bloom

bloom filter 详解［转］

Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive).因此,Bloom Filter不适合那些“零错误”的应用场合.而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空

Bloom filter(布隆过滤器)概念与原理

写在前面在大数据与云计算发展的时代,我们经常会碰到这样的问题.我们是否能高效的判断一个用户是否访问过某网站的主页(每天访问量上亿)或者需要统计网站的pv.uv.最直接的想法是将所有的访问者存起来,然后每次用户访问的时候与之前集合进行比较.不管是将访问信息存在内存(或数据库)都会对服务器造成非常大的压力.那是否存在一种方式,容忍一定的错误率,高效(计算复杂度.空间复杂度)的实现访问量信息的跟踪.统计呢?接下来介绍的布隆过滤器(BloomFilter)就可以满足当前的使用场景(注释:基数计数法同样

基于BitSet的布隆过滤器(Bloom Filter)

布隆过滤器 Bloom Filter 是由Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测结果为是,该元素不一定在集合中:但如果检测结果为否,该元素一定不在集合中.因此Bloom filter具有100%的召回率.这样每个检测请求返回有"在集合内(可能错误)"和"不在集合内(绝对不在集合内)"两种情况,可见 Bloom filter 是牺牲了正确率和时间以节省空间. 当

Bloom Filter 算法简介 (增加 Counting Bloom Filter 内容)

Bloom Filter的中文翻译叫做布隆过滤器,是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难.如文章标题所述,本文只是做简单介绍,属于科普文章. 应用场景在正式介绍Bloom Filter算法之前,先来看看什么时候需要用到Bloom Filter算法.1. HTTP缓存服务器.Web爬虫等主要工作是判断一条URL是否在现有的URL集

Bloom Filter布隆过滤器

http://blog.csdn.net/pipisorry/article/details/64127666 Bloom Filter简介 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定

Bloom Filter概念和原理【转】

Bloom Filter概念和原理 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive).因此,Bloom Filter不适合那些“零错误”的应用场合.而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省. 集合表示和元

利用bloom filter算法处理大规模数据过滤

Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内.可以用于网络爬虫的url重复过滤.垃圾邮件的过滤等等. 它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在. 只需要对应的位段来标记是否存在就行了,所以想当节省内存,特别适合海量的数据处理.并且由于省去了存储元素和比较操作,所以性能也比基于hash容器的高了很多. 但是由于bloom filter没有去比较元素,只通过多个has

布隆过滤器(Bloom Filter)的原理和实现

什么情况下需要布隆过滤器? 先来看几个比较常见的例子字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 常规思路数组链表树.平衡二叉树.Trie Map (红黑树) 哈希表虽然上面描述的这几种数据结构配合常见的排序.二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求.但是当集合里