hbase 各个概念，region，storefile

HBase中有两张特殊的Table，-ROOT-和.META.

.META.:记录了用户表的Region信息，它可以有多高region（这的意思是说.META.表可以分裂成多个region，和用户表一样）

-ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region(也就是说它不可分割)

Zookeeper中记录了-Root-表的location

region大小：

更大的Region可以使你集群上的Region的总数量较少。一般来言，更少的Region可以使你的集群运行更加流畅。(你可以自己随时手工将大Region切割，这样单个热点Region就会被分布在集群的更多节点上)。默认情况下单个Region是256MB.你可以设置为1G。有些人使用更大的，4G甚至更多。可以调整hbase-site.xml中的hbase.hregion.max.filesize属性.

storefile:

hbase.hregion.max.filesize

默认值：256M

说明：在当前ReigonServer上单个Reigon的最大存储空间，单个Region超过该值时，这个Region会被自动split成更小的region。

调优：

小region对split和compaction友好，因为拆分region或compact小region里的storefile速度很快，内存占用低。缺点是split和compaction会很频繁。

特别是数量较多的小region不停地split, compaction，会导致集群响应时间波动很大，region数量太多不仅给管理上带来麻烦，甚至会引发一些Hbase的bug。

一般512以下的都算小region。

大region，则不太适合经常split和compaction，因为做一次compact和split会产生较长时间的停顿，对应用的读写性能冲击非常大。此外，大region意味着较大的storefile，compaction时对内存也是一个挑战。

当然，大region也有其用武之地。如果你的应用场景中，某个时间点的访问量较低，那么在此时做compact和split，既能顺利完成split和compaction，又能保证绝大多数时间平稳的读写性能。

既然split和compaction如此影响性能，有没有办法去掉?

compaction是无法避免的，split倒是可以从自动调整为手动。

只要通过将这个参数值调大到某个很难达到的值，比如100G，就可以间接禁用自动split(RegionServer不会对未到达100G的region做split)。

再配合RegionSplitter这个工具，在需要split时，手动split。

手动split在灵活性和稳定性上比起自动split要高很多，相反，管理成本增加不多，比较推荐online实时系统使用。

内存方面，小region在设置memstore的大小值上比较灵活，大region则过大过小都不行，过大会导致flush时app的IO wait增高，过小则因store file过多影响读性能。

时间： 2024-07-28 13:50:16

hbase 各个概念，region，storefile

hbase 各个概念，region，storefile的相关文章

HBase原理–所有Region切分的细节都在这里了

HBase原理 – 解析Region切分的所有细节

HBase基本概念

HBase基本概念与基本使用

【转帖】HBase基本概念与基本使用

HBase 优化插入 Region预分配

hbase优化之region合并和压缩

HBase基本概念和hbase shell常用命令用法

hadoop学习记录（三）HBase基本概念