【数据挖掘】布隆过滤器

网上教程一抓一把,跟风来一发。

首先有几个重点:

1.存在过滤器名单中的在过滤过程中一定会被查出来,但是不在名单的也有很小的几率被拦下来

换言之,该拦的都被拦了,不该拦的也可能被拦

操作原理:

对于一个字符串,根据不同的hash函数将Bitvector中的不同位置1,检测时,将一个字符串走相同的n个hash函数,看是不是所有该置为1的部分都被置1了,只要有一个没被置为1,那么这个字符串就没被记录过。

关于误判率之流请见网上各种资料

直接上代码或许更直接?

 1 #************************************************************BloomFiter********************************************************
 2 import os
 3 import sys
 4 from BitVector import BitVector
 5
 6 class HashGenerator(object):#本类代表一个hash函数,参数是过滤器的总位数,hash的种子
 7     def __init__(self, capability,seed):
 8         self.capability=capability;#定义过滤器总位数
 9         self.seed=seed;#定义这个hash函数的生成种子,关于种子为什么要选质数,请作解答
10
11     def hash(self,value):
12         result=0
13         for i in value:
14             result+=self.seed*result+ord(i)#对字符串内的每个单字计算
15         return (self.capability-1)&result#这个地方是参考来的,没搞明白为毛要做个位与
16
17 class BloomFilter(object):
18     def __init__(self):
19         self.size=1<<25#位运算
20         self.seed=[5,7,11,13,31,37,61]#8个种子,8个hash函数
21         self.hashfunlist=[];#存8个hash类
22         self.container=BitVector(size=self.size)#存下位向量
23         for i in self.seed:
24             self.hashfunlist.append(HashGenerator(self.size,i))
25
26     def insert(self,value):
27         for item in self.hashfunlist:
28             index=item.hash(value)
29             self.container[index]=1;
30
31     def iscontained(self,value):
32         if value==None:
33             return False
34         for i in range(len(self.seed)):
35             if(self.container[self.hashfunlist[i].hash(value)]==0):
36                 return False
37         return True;
38
39 def Test():
40     testlist=["www.baidu.com",‘www.sina.com‘,‘www.baidu.com‘,‘www.gamersky.com‘,‘www.google.jp‘,‘www.google.jp‘]
41     Filter=BloomFilter()
42     for i in testlist:
43         if Filter.iscontained(i):
44             print("The item is in"+i.__str__())
45         else:
46             Filter.insert(i)
47
48 Test()
49
50 #************************************************************BloomFiter********************************************************

最后几个问题,留以后解决:

1.hash函数类的那个hash函数生成原理是嘛?还有为什么要用质数做种子?

2.hash类中的那个谜一样的位与是个什么鬼?

3.Vector的大小怎么确定比较好?hash函数的个数怎么判定比较好?数学之美上好像没说。。。。。

时间: 2024-10-12 00:40:18

【数据挖掘】布隆过滤器的相关文章

布隆过滤器(Bloom Filter)的原理和实现

什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 常规思路 数组 链表 树.平衡二叉树.Trie Map (红黑树) 哈希表 虽然上面描述的这几种数据结构配合常见的排序.二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求.但是当集合里

[转载] 布隆过滤器(Bloom Filter)详解

转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一

布隆过滤器的简易实现

布隆过滤器(Bloom Filter): 是由布隆(Burton Howard Bloom)提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器用于检索一个元素是否在一个集合中.底层是利用哈希表来实现的,它可以通过一个Hash函数将一个元素映射成一个位阵列(Bit Array)中的一个点.这样一来,我们只要看看这个点是不是 1 就知道可以集合中有没有它了.这就是布隆过滤器的基本思想. 优点:空间效率和查询时间相比于其他数据结构有很大的优势 缺点:有一定的误识别率,删除困难

网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用

前言: 最近被网络爬虫中的去重策略所困扰.使用一些其他的"理想"的去重策略,不过在运行过程中总是会不太听话.不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法. 如果,你说URL去重嘛,有什么难的.那么你可以看完下面的一些问题再说这句话. 关于BloomFilter: Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测

Bloom Filter(布隆过滤器)

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制矢量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难. 如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定.链表.树.散列表(又叫哈希表,Hash table)等等数据结构都是这种思路.但是随着集合中元素的增加,我们需要的存储空间越来越大.同时检索速度也越来

布隆过滤器(Bloom Filter)

在大数据的实时处理系统中,累加型的计算(PV统计)可以使用累加器解决:非累加型的计算(UV统计),需要损失一定准确率来保证执行效率,对最终值进行估算.其中一种估算方法便是布隆过滤器. BF是一种二进制向量数据结构,拥有很高的空间和时间效率.其基本原理是使用长度为m的位数组M存储集合信息,同时使用k个相互独立的哈希函数K将数据集D映射到位数组空间.通过K的映射,D的每个元素在M中都占有k位,对应的位置置1.计算是个元素是否在D中时,通过K计算映射位置,k个位置全部为1时,表示该元素已存在.否则,表

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复 布隆过滤器(Bloom Filter)详解 基本概念 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定.链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢.不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构.它可以通过一

剖析布隆过滤器

布隆过滤器(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一元素存在于某集合中,但是实际上该元素并不在集合中)和删除困难,但是没有识别错误的情形(即假反例False negatives,如果某个元素确

位图与布隆过滤器

给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中.这个问题怎么解决呢? [位图方法]: 位图(BitMap) 是用一个数组中的每个数据的每个二进制位表示一个数是否存在.1表示存在,0表示不存在. 相当于把数组分成很多块的空间,每一块是32个比特位. 原来32个比特位放一个数据,现在一个位就可以放一个数据.16GB/32=0.5GB=512MB. #ifndef __BITMAP_H__#define __BITMAP_H__#include<ios

Bloom filter(布隆过滤器)概念与原理

写在前面 在大数据与云计算发展的时代,我们经常会碰到这样的问题.我们是否能高效的判断一个用户是否访问过某网站的主页(每天访问量上亿)或者需要统计网站的pv.uv.最直接的想法是将所有的访问者存起来,然后每次用户访问的时候与之前集合进行比较.不管是将访问信息存在内存(或数据库)都会对服务器造成非常大的压力.那是否存在一种方式,容忍一定的错误率,高效(计算复杂度.空间复杂度)的实现访问量信息的跟踪.统计呢?接下来介绍的布隆过滤器(BloomFilter)就可以满足当前的使用场景(注释:基数计数法同样