布隆过滤器总结

一:布隆过滤器简介：

　　Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。

二：优势和劣势

1：优势：

①：仅仅保留数据的指纹信息，空间效率极高

②：信息安全性极高

③：查询效率极高，时间复杂度为O(N)

2：劣势：

①：存在一定的误判

②：删除数据困难

三：常用API总结：

引入Google的guava java API包，常用方法有：create(Funnel<? super T> funnel, int expectedInsertions, double fpp)； put(T object)； mightContain(T object) ；

四：使用场景：

　　布隆过滤器在redis集群的上一步，主要是判断数据是否存在于布隆过滤器中，这样减少对redis服务器的压力。布隆过滤器其原理就是把大数据量加载到内存中，判断数据是否存在。大数据量加载到内存中，这样容易导致OOM。一般是在应用启动的时候，进行初始化把数据加载到布隆过滤器中。布隆过滤器所需要占内存公式为：设bit数组大小为m，样本数量为n，失误率为p。由题可知 n = 500万，p = 3%（Google布隆过滤器默认为3%，我们也可以修改），公式为：

原文地址：https://www.cnblogs.com/jelly12345/p/12079128.html

时间： 2024-11-08 11:07:05

布隆过滤器总结的相关文章

布隆过滤器(Bloom Filter)的原理和实现

什么情况下需要布隆过滤器? 先来看几个比较常见的例子字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 常规思路数组链表树.平衡二叉树.Trie Map (红黑树) 哈希表虽然上面描述的这几种数据结构配合常见的排序.二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求.但是当集合里

[转载] 布隆过滤器(Bloom Filter)详解

转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html 布隆过滤器［1］(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一

布隆过滤器的简易实现

布隆过滤器(Bloom Filter): 是由布隆(Burton Howard Bloom)提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器用于检索一个元素是否在一个集合中.底层是利用哈希表来实现的,它可以通过一个Hash函数将一个元素映射成一个位阵列(Bit Array)中的一个点.这样一来,我们只要看看这个点是不是 1 就知道可以集合中有没有它了.这就是布隆过滤器的基本思想. 优点:空间效率和查询时间相比于其他数据结构有很大的优势缺点:有一定的误识别率,删除困难

网络爬虫：URL去重策略之布隆过滤器(BloomFilter)的使用

前言: 最近被网络爬虫中的去重策略所困扰.使用一些其他的"理想"的去重策略,不过在运行过程中总是会不太听话.不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法. 如果,你说URL去重嘛,有什么难的.那么你可以看完下面的一些问题再说这句话. 关于BloomFilter: Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测

Bloom Filter（布隆过滤器）

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制矢量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难. 如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定.链表.树.散列表(又叫哈希表,Hash table)等等数据结构都是这种思路.但是随着集合中元素的增加,我们需要的存储空间越来越大.同时检索速度也越来

布隆过滤器（Bloom Filter）

在大数据的实时处理系统中,累加型的计算(PV统计)可以使用累加器解决:非累加型的计算(UV统计),需要损失一定准确率来保证执行效率,对最终值进行估算.其中一种估算方法便是布隆过滤器. BF是一种二进制向量数据结构,拥有很高的空间和时间效率.其基本原理是使用长度为m的位数组M存储集合信息,同时使用k个相互独立的哈希函数K将数据集D映射到位数组空间.通过K的映射,D的每个元素在M中都占有k位,对应的位置置1.计算是个元素是否在D中时,通过K计算映射位置,k个位置全部为1时,表示该元素已存在.否则,表

第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定.链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢.不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构.它可以通过一

剖析布隆过滤器

布隆过滤器(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一元素存在于某集合中,但是实际上该元素并不在集合中)和删除困难,但是没有识别错误的情形(即假反例False negatives,如果某个元素确

位图与布隆过滤器

给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中.这个问题怎么解决呢? [位图方法]: 位图(BitMap) 是用一个数组中的每个数据的每个二进制位表示一个数是否存在.1表示存在,0表示不存在. 相当于把数组分成很多块的空间,每一块是32个比特位. 原来32个比特位放一个数据,现在一个位就可以放一个数据.16GB/32=0.5GB=512MB. #ifndef __BITMAP_H__#define __BITMAP_H__#include<ios

Bloom filter(布隆过滤器)概念与原理

写在前面在大数据与云计算发展的时代,我们经常会碰到这样的问题.我们是否能高效的判断一个用户是否访问过某网站的主页(每天访问量上亿)或者需要统计网站的pv.uv.最直接的想法是将所有的访问者存起来,然后每次用户访问的时候与之前集合进行比较.不管是将访问信息存在内存(或数据库)都会对服务器造成非常大的压力.那是否存在一种方式,容忍一定的错误率,高效(计算复杂度.空间复杂度)的实现访问量信息的跟踪.统计呢?接下来介绍的布隆过滤器(BloomFilter)就可以满足当前的使用场景(注释:基数计数法同样

猜你喜欢

西部开源学习笔记BOOK2《ldap网络帐号》

############################## ##### unit8.ldap网络帐号 ###### ############################## ####1.ldap ...

woshiyigeshen,niyaoduiwo hao

将github上的项目源码导入到eclipse中

1.注册github帐号在github上注册一个自己的帐号. 2.安装git插件egit 在eclipse中安装git插件egit,安装方法可以参考这篇文章: http://www.cnblogs. ...

更换 mac时开发证书

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; line-height: 18.0px; font: 16.0px ".PingFang SC"; ...

Oracle —— 几种分页方式

数据结构与算法-线性表

近期在学习数据结构,反反复复已经看过几遍了,也做了一些练习题,但总感觉不记录一下,思路就不是很清晰,所以,从今天开始总结这段时间对数据结构的学习. 无论学习什么,基础知识都是最总要的,数据结构也不例外 ...

3.变量的存储以及变量的几种类型

存储变量的语法: (1): 变量类型变量名; 变量名=值; (2): 变量类型变量名=值; 赋值符: "="号,在C#语言中并不是表示为等号,而是表示为赋值的意思是一个赋值 ...

linux-(fg_jobs)

在启动程序后,往往需要查看启动日志是否正常,有无报错,而有时日志量很大(刷屏),不易看清楚日志,这时就需要停下来,之前一直使用CRTL+C 直接退出,而后想看接下来的日志的话,日志已经刷好远了.... ...

ecshop, Ectouch电子商务平台兼容PHP5.6.X完整包.

ecshop编译更新日志: 1: 加入最新官方补丁. 2: 修改数据库连接底层为mysqli, 现在完美无缺了. 3: 再次对所有代码进行细节修复. 4: adminers更新至1.1.2, 在线管理 ...

浅谈神经网络（二）

神经网络中可以改变的有: 1.各神经元的权值 2.bias,广义上,也是权值 3.激活函数 4.神经网络的层数 5.各层神经元的个数 6.神经网络的连接结构 7.输入输出的格式和质量下面我们一项一项 ...

关于js原型的面试题

今天遇到关于javascript原型的一道面试题,现分析下: 原题如下: function A(){ } function B(a){ this.a = a; } function C(a){ if( ...

拖拽至购物车

此需求用到了四大功能点,1.重构alert,confirm:2.拖拽功能:3.读取静态json:4.ajax提交产品信息: 此需求要求安装在客户方互动茶几终端上,要求尽量方便,无需配置相关语言环境,纯 ...

Apache: You don't have permission to access / on this server

当我们需要使用Apache配置虚拟主机时,有可能会出现这个问题:Apache: You don't have permission to access / on this server # 同IP不同 ...

category中添加属性的简单方式

一.概念扩充: 1.如我们所知,使用category是用来对现有类进行功能扩展,或者将类分成多模块的一种方式.由声明和实现两部分组成.可以单独写成Objiective-C File类型文件(包含.h和 ...

【Java】 Thinking in Java 2-11 练习10

题目: 编写一个程序,打印出从命令行获得的三个参数.为此,需要确定命令行数组中String的下标. 该题旨在考察:public static void main(String[] args){}; p ...

Iptables 规则基础笔记

Iptables规则: Firewall:工作在主机或网络边缘,对进出的保温按事先定义的规则进行检查,并有匹配到的规则进行处理的一组硬件或者软件. 用户请求进来,先到本地的route路由判断是否访问的 ...

python学习之路-day7

本节内容: 面向对象高级语法部分静态方法.类方法.属性方法类的特殊方法反射异常处理 Socket开发基础面向对象高级语法部分静态方法 ...

设置MySql远程访问

MySql 安装完成后,默认不允许远程访问,修改User表里的LocalHost为 % 即可,需重启MySql服务后生效.

燎星赜儡勤kgyj8j1jyrx3yim

在不久前落幕的2016年全国两会上,国务院国有企业改革领导小组组长马凯对外界表示:"去年是国企改革方案制定的一年,今年是扎扎实实的落实年." 员工持股启动随着国企改革的深入,201 ...

iOS 面试题（一）：寻找最近公共 View --转自唐巧

题目:找出两个 UIView 的最近的公共 View,如果不存在,则输出 nil . 分析:这其实是数据结构里面的找最近公共祖先的问题. 一个 UIViewController 中的所有 view 之 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.