hbase中的位图索引--布隆过滤器

在hbase中,读业务是非常频繁的。很多操作都是客户端根据meta表定位到具体的regionserver然后再查询region中的具体的数据。

但是现在问题来了,一个region由一个memstore以及多个filestore组成,memstore类似缓存在服务器内存中,可以提高插入的效率,当memstore达到一定大小(由hbase.hregion.memstore.flush.size设置)或者说用户手动flush之后,就会固化存储在hdfs之类的磁盘系统上。也就是说一个region可以对应很多有着有效数据的文件,虽然文件内的数据是按照rowkey进行排序的,但是文件之间的rowkey并没有任何顺序(除非经过一次major_compact合并为一个文件)。

如果用户现在提出的请求是查看一个rowkey(row1)的随意某个列(cf1:col1)

即使用 get ‘tab‘,‘row1‘,‘cf1:col1‘这样命令

很有可能的一种现象是,row1在每个文件的startkey以及endkey之间,因此regionserver需要扫描每个文件的相关数据块,进行多次物理IO。可是并不能确保每个文件中一定有row1这样的行健,很多物理IO都是无效的,这样以来对性能就有很大的影响。于是乎就有了布隆过滤器,在一定程度上判别文件中是否有指定的行健。

布隆过滤器分为row以及rowcol两种,原理差不多,以rowcol类型为例:

在memstore写入到hdfs形成文件时,文件内有一个部分叫做meta,在写入的过程中遵循如下算法:

1.首先会初始化一个比较长的bit数组不妨叫做bit arr[n]={0};

2.利用k个hash函数(k<n),对单个(row:cf:col)这样的数据进行k次hash运算,保证计算结果在[0,n-1]之间;

3.假设某个hash函数的运算结果为r,则设置arr[r]=1,这样每个(row:cf:col)差不多都可以有k个结果,并将arr数据相应位置设置为1;

4.如此反复知道所有的数据都被写入文件,然后将arr写入文件中的meta部分

由于位图索引本身的结构特点,可以保证arr[n]不会很大;所以即使被缓存到内存中(不是memstore)也不会占用太大空间,虽然在关系型数据库中,尤其是oltp系统,位图索引会造成大量锁现象,但是在hbase中,已经写入的文件除非compact否则几乎不会修改。

现在再来看 get ‘tab‘,‘row1‘,‘cf1:col1‘,在判断某个文件是否含有(row1:cf1:col1)时,只需要将row1:cf1:col1进行k个hash运算,并判断是否每个结果对应的arr数组值是不是1,如果有一个不是,则可以表明文件中不存在这一列数据(当然即使全部都是1也不一定代表就有),这样可以避免读不必要的文件,提高查询效率。

从上可见布隆过滤器可以在一定程度上避免读不必要的文件,可是由于是基于hash函数的,所以也不能说是完全准确的,而且对于大规模的scan这样的操作,完全没有必要使用布隆过滤器。

2017.1.15

时间: 2024-12-15 06:55:03

hbase中的位图索引--布隆过滤器的相关文章

Hbase中的BloomFilter(布隆过滤器)

(1)     Bloomfilter在hbase中的作用 Hbase利用bloomfilter来提高随机读(get)的性能,对于顺序读(scan)而言,设置Bloomfilter是没有作用的(0.92版本以后,如果设置了bloomfilter为rowcol,对于执行了qualifier的scan有 一定的优化) (2)     Bloomfilter在hbase中的开销 Bloomfilter是一个列族(cf)级别的配置属性,如果在表中设置了bloomfilter,那么hbase会在生成sto

位图与布隆过滤器

给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中.这个问题怎么解决呢? [位图方法]: 位图(BitMap) 是用一个数组中的每个数据的每个二进制位表示一个数是否存在.1表示存在,0表示不存在. 相当于把数组分成很多块的空间,每一块是32个比特位. 原来32个比特位放一个数据,现在一个位就可以放一个数据.16GB/32=0.5GB=512MB. #ifndef __BITMAP_H__#define __BITMAP_H__#include<ios

位图与布隆过滤器简明介绍

一个由1亿个数组成的集合M,数的范围从1~10亿 新来一个数n,如何快速且省内存地判断是否存在M中? 方法一: 将集合M的数用散列表保存,然后对数n判断是否在散列表中即可 消耗内存:假设一个数用4字节保存,1亿个数至少要381M内存,不过由于实际上由于有装载因子,散列冲突解决等,实际内存远远不止381M 方法二: 申请一个大小为10亿,数据类型为布尔的"特殊"散列表,将这一亿个数作为散列表下标,将值设成True 不过很多语言的布尔大小是1字节,并不能节省很大空间,实际上只需要使用1个二

位图&布隆过滤器

位图定义: 利用位的状态来存放一个数是否存在,其实就是把一个数映射成一个简单的数用以标记他是否存在,一般使用情况为查找一个数是否存在. 数据结构: 1/8=0    1%8=1   1<<1(第二个bit位置1) 2/8=0    2%8=2   1<<2(第3个bit位置1) 3/8=0    3%8=3  1<<3(第4个bit位置1) 4/8=0    .... 查找这个数是否存在: 先算出这个数的存在位置,然后找这个位置是否为1,如果是则存在否则不存在. 缺点:

[转载] 布隆过滤器(Bloom Filter)详解

转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一

布隆过滤器的简易实现

布隆过滤器(Bloom Filter): 是由布隆(Burton Howard Bloom)提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器用于检索一个元素是否在一个集合中.底层是利用哈希表来实现的,它可以通过一个Hash函数将一个元素映射成一个位阵列(Bit Array)中的一个点.这样一来,我们只要看看这个点是不是 1 就知道可以集合中有没有它了.这就是布隆过滤器的基本思想. 优点:空间效率和查询时间相比于其他数据结构有很大的优势 缺点:有一定的误识别率,删除困难

位图与布隆及大数据处理题型分析

1.位图 由题引入: [腾讯]:2.给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中. 如果将40亿个数按整型放入内存,显然不科学,就算内存足够,这样做也是浪费空间. 解决思路:用一个比特位表示一个数,存在的话该位上就置为1,不在的话置为0:这样40亿个数需要40亿个比特位,换算一下也就是500M,相对于16G来说,大大节省了空间. 注意:位图只适合判断,查找数据是否存在,且只能对整数进行处理. 代码如下: 1 class BitMap 2 { 3

布隆过滤器(Bloom Filter)详解

布隆过滤器(Bloom Filter)详解 2012-07-13 18:35 by Haippy, 29358 阅读, 6 评论, 收藏, 编辑   布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Fi

海量数据处理利器之布隆过滤器

看见了海量数据去重,找到停留时间最长的IP等问题,有博友提到了Bloom Filter,我就查了查,不过首先想到的是大叔,下面就先看看大叔的风采. 一.布隆过滤器概念引入 (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的.它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom