Hbase中的BloomFilter（布隆过滤器）

（1） Bloomfilter在hbase中的作用

　　　　Hbase利用bloomfilter来提高随机读（get）的性能，对于顺序读（scan）而言，设置Bloomfilter是没有作用的（0.92版本以后，如果设置了bloomfilter为rowcol，对于执行了qualifier的scan有　　　　一定的优化）

（2） Bloomfilter在hbase中的开销

　　　　Bloomfilter是一个列族(cf)级别的配置属性，如果在表中设置了bloomfilter，那么hbase会在生成storefile时包含一份bloomfilter结构的数据，称其为MetaBlock与DataBlock（真实的KeyValue　　　　数据）一起由LRUBlockCache维护。所以开启bloomfilter会有一定的存储及内存cache开销。

（3） Hbase中的bloomfilter的类型及使用

　　　　a) ROW，根据KeyValue中的row来过滤storefile。举例：（该情况可以针对列族和列都相同，只有rowkey不同的情况下，可以使用ROW来过滤。）

　　　　　　　　如：假设有2个storfile文件sf1和sf2，

　　　　　　　　sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　　　　　　　sf2包含kv3（r3 cf:q2 v）、kv4（r4 cf:q2 v）

　　　　　　　　如果设置了cf属性的bloomfilter为ROW，那么get（r1）时会过滤sf2，get（r3）时会过滤sf1.

　　　　b) ROWCOL，根据KeyValue中的row+qualifier来过滤storefile。举例：（该情况是针对列族相同，列和rowkey不同的情况，可以用ROWCOL来过滤。）

　　　　　　　　如：假设有2个storefile文件sf1和sf2，

　　　　　　　　Sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　　　　　　　Sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）

　　　　　　　　如果设置了cf属性中的bloomfilter为ROW，无论get（r1，q1）还是get（r1，q2）都会读取sf1+sf2；而如果设置了cf属性中的bloomfilter为ROWCOL，那么get（r1，q1）就会过滤　　　　　　　　　sf2，get（r1，q2）就会过滤sf1。

（4）ROWCOL与ROW对比

i. ROWCOL只对指定列（Qualifier）的随机读取Get有效，如果应用中的随机读取Get只含有row，而且没有指定读取哪个qualifier，那么设置ROWCOL是没有效果的，这种场景就应该使用ROW。

ii. 如果随机读中指定的列（Qualifier）的数目大于等于2，在0.9版本中ROWCOL是无效的，0.9版本以后是有效的。

iii. 如果同一个row多个列的数据在应用上是同一时间put的，那么ROW与ROWCOL的效果近似相同，而ROWCOL只对指定了列的随机读才会有效，所以设置为ROW更佳。

iv. ROWCOL与ROW只在名称上有联系，ROWCOL并不是ROW的扩展，不能取代ROW。

时间： 2024-10-07 17:22:16

Hbase中的BloomFilter（布隆过滤器）的相关文章

第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定.链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢.不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构.它可以通过一

Hbase的Bloomfilter（布隆过滤器）

(1)Bloomfilter在Hbase中的作用 Hbase利用Bloomfilter来提高随机读(get)的性能,对于顺序读(scan)而言,设置Bloomfilter是没有作用的(0.92版本以后,如果设置了bloomfilter为rowcol,对于执行了qualifier的scan有一定的优化) (2)Bloomfilter在Hbase中的开销 Bloomfilter是一个列簇(cf)级别的配置属性,如果在表中设置了Bloomfilter,那么Hbase会在生成storefile时包含一份

Spark布隆过滤器(bloomFilter)

数据过滤在很多场景都会应用到,特别是在大数据环境下.在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的.很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性能和计算性能可以达到几何级别的提升.很多第三方框架也实现了相应的功能,比如hbase框架实现的布隆过滤器性能是非常的棒,redis也可以实现相应的功能.这些需要借助于第三方框架,需要维护第三方框架.如果公司没有部署相应架构,单独为使用布隆过滤器部署一套集群,代价还是非常大的. 我们在做流式计算时需要

布隆过滤器 - 如何在100个亿URL中快速判断某URL是否存在？

题目描述一个网站有 100 亿 url 存在一个黑名单中,每条 url 平均 64 字节.这个黑名单要怎么存?若此时随便输入一个 url,你如何快速判断该 url 是否在这个黑名单中? 题目解析这是一道经常在面试中出现的算法题.凭借着题目极其容易描述,电面的时候也出现过. 不考虑细节的话,此题就是一个简单的查找问题.对于查找问题而言,使用散列表来处理往往是一种效率比较高的方案. 但是,如果你在面试中回答使用散列表,接下来面试官肯定会问你:然后呢?如果你不能回答个所以然,面试官就会面无表情的通

Bloom Filter(布隆过滤器)原理

Bloom Filter(布隆过滤器)主要用于判断某个元素是否属于集合内,但是这种判断不是一定正确的. 经典问题: 假设你有数量非常庞大的URL集合,现在给你一个新的URL,要你快速判断这个URL是否在上述的URL集合中. 解决这个问题比较原始的方法是:先用一个数组把所有URL存起来,然后再扫描这个数组,判断里面是否有元素与新的这个URL相同.这样做会耗费非常大的空间和时间,是非常不妥的一种做法. 另一种非常快速的方法就是使用布隆过滤器了.如果布隆过滤器说一个元素在某个集合内,那么这个元素是很有

布隆过滤器的方式解决缓存穿透问题

1.原理布隆过滤器的巨大用处就是,能够迅速判断一个元素是否在一个集合中.因此他有如下三个使用场景: 网页爬虫对URL的去重,避免爬取相同的URL地址反垃圾邮件,从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱(同理,垃圾短信) 缓存穿透,将所有可能存在的数据缓存放到布隆过滤器中,当黑客访问不存在的缓存时迅速返回避免缓存及DB挂掉. OK,接下来我们来谈谈布隆过滤器的原理其内部维护一个全为0的bit数组,需要说明的是,布隆过滤器有一个误判率的概念,误判率越低,则数组越长,所占空间越大.误判率越

布隆过滤器：高效、大概的判断数据是否存在

1 什么是布隆过滤器本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,或者说“判断一个元素是否存在一个集合中”,比如: 字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能相比于传统的 List.Set.Map 等

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py import scrapy from cnblogs_crawl.items import CnblogsCrawlItem from scrapy.http import Request class

Bloom Filter布隆过滤器

http://blog.csdn.net/pipisorry/article/details/64127666 Bloom Filter简介 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定