Hbase的Bloomfilter（布隆过滤器）

（1）Bloomfilter在Hbase中的作用

Hbase利用Bloomfilter来提高随机读（get）的性能，对于顺序读（scan）而言，设置Bloomfilter是没有作用的（0.92版本以后，如果设置了bloomfilter为rowcol，对于执行了qualifier的scan有一定的优化）

（2）Bloomfilter在Hbase中的开销

Bloomfilter是一个列簇（cf）级别的配置属性，如果在表中设置了Bloomfilter，那么Hbase会在生成storefile时包含一份bloomfilter结构的数据，称其为MetaBlock与DataBlock(真实的keyvalue数据)一起由LRUBlockCache维护。所以开启bloomfilter会有一定的存储及内存cache开销。

（3）Hbase中的Bloomfilter的类型及使用

a）ROW ，根据keyvalue中的row来过滤storefile。举例：（该情况可以针对列族和列都相同，只有rowkey不同的情况下，可以使用ROW来过滤。）

如：假设有2个storefile文件sf1和sf2,

sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　sf2包含kv3（r3 cf:q2 v）、kv4（r4 cf:q2 v）

如果设置了cf属性的Bloomfilter为Row，那么get（r1）时会过滤sf2，get（r3）时会过滤sf1.

b) ROWCOL，根据KeyValue中的row+qualifier来过滤storefile。举例：（该情况是针对列族相同，列和rowkey不同的情况，可以用ROWCOL来过滤。）

　　如：假设有2个storefile文件sf1和sf2，

　　Sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　Sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）

如果设置了cf属性中的bloomfilter为ROW，无论get（r1，q1）还是get（r1，q2）都会读取sf1+sf2；而如果设置了cf属性中的bloomfilter为ROWCOL，那么get（r1，q1）就会过滤sf2，get（r1，q2）就会过滤sf1。

(4 )ROWCOL 和ROW对比

rowcol只对指定列（Qualifier）的随机读取Get有效，如果应用中的随机读取Get只含有row，而且没有指定读取哪个qualifier，那么设置ROWCOL是没有效果的，这种场景就应该使用ROW。

如果随机读中指定的列（Qualifier）的数目大于等于2，在0.9版本中ROWCOL是无效的，0.9版本以后是有效的

如果同一个row多个列的数据在应用上是同一时间put的，那么ROW与ROWCOL的效果近似相同，而ROWCOL只对指定了列的随机读才会有效，所以设置为ROW更佳。

ROWCOL与ROW只在名称上有联系，ROWCOL并不是ROW的扩展，不能取代ROW

原文地址：https://www.cnblogs.com/18800105616a/p/11649335.html

时间： 2024-10-09 21:54:08

Hbase的Bloomfilter（布隆过滤器）的相关文章

第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定.链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢.不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构.它可以通过一

Bloom Filter(布隆过滤器)原理

Bloom Filter(布隆过滤器)主要用于判断某个元素是否属于集合内,但是这种判断不是一定正确的. 经典问题: 假设你有数量非常庞大的URL集合,现在给你一个新的URL,要你快速判断这个URL是否在上述的URL集合中. 解决这个问题比较原始的方法是:先用一个数组把所有URL存起来,然后再扫描这个数组,判断里面是否有元素与新的这个URL相同.这样做会耗费非常大的空间和时间,是非常不妥的一种做法. 另一种非常快速的方法就是使用布隆过滤器了.如果布隆过滤器说一个元素在某个集合内,那么这个元素是很有

布隆过滤器：高效、大概的判断数据是否存在

1 什么是布隆过滤器本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,或者说“判断一个元素是否存在一个集合中”,比如: 字处理软件中,需要检查一个英语单词是否拼写正确在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能相比于传统的 List.Set.Map 等

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py import scrapy from cnblogs_crawl.items import CnblogsCrawlItem from scrapy.http import Request class

Hbase的Bloomfilter（布隆过滤器）

Hbase的Bloomfilter（布隆过滤器）的相关文章

第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

Bloom Filter(布隆过滤器)原理

布隆过滤器：高效、大概的判断数据是否存在

爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考

Hbase中的BloomFilter（布隆过滤器）

Spark布隆过滤器(bloomFilter)

网络爬虫：URL去重策略之布隆过滤器(BloomFilter)的使用

hbase中的位图索引--布隆过滤器

布隆过滤器简述及应用