HBase解决Region Server Compact过程占用大量网络出口带宽的问题

HBase 0.92版本之后，RegionServer的Compact过程根据待合并的文件大小分为smallcompaction和large compaction两种，由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解决方法。

1. 发现问题

HBase集群（版本为0.94.0）运行过程中，发现5台Region Server的网络出口带宽经常维持在100MB/s以上，接近到网卡的极限；同时Region Server的机器load负载也很高，高峰时候能够达到30~50。

2. 排查问题

1、集群实际运行过程中，观察到RegionServer服务端的网卡，平均每台写入流量大概60MB/s（此时写入量已经很大了）；读出流量90MB/s，有时甚至突破100MB/s（注：每台机器都是千兆网卡）；

2、观察实际的写入数据量在每秒5w tps左右，单条记录平均大小为1KB，大概会占用50MB/s左右的网卡入口带宽请求量，和观察到的现象一致；

3、观察查询量在每秒6w qps左右，单条记录平均大小为1KB，大概会占用60MB/s左右的网卡出口带宽请求量，奇怪的是实际观察到有接近甚至超过100MB/s的网络出口带宽请求量，多出了40MB/s左右的网络出口带宽；

4、经分析排查确定导致上述过程的原因，可能是HBase服务端由于写入量过大频繁触发compaction过程，而compaction是需要读HBase数据的，因此占据了相当部分的网络出口带宽；

5、结合对相关源码org/apache/hadoop/hbase/regionserver/CompactSplitThread.java的分析，决定对HBase集群配置做出变更（具体见下一小节），主要目的是减少compaction的发生；

6、接下来，观察到RegionServer的网络利用率明显降低，一般进出口带宽能维持在70MB/s以下。

3. 解决问题

HBase 0.92版本之后增加了关于compact的配置选项，compact分为small compaction和large compaction两个线程池执行（默认都是各有1个线程，具体源代码见：org/apache/hadoop/hbase/regionserver /CompactSplitThread.java），由于compact过程需要从HBase集群读取数据，因此实际运行中导致了compact占用大量网络出口流量，解决方案为选择性地关闭smallcompaction或large compaction。有以下两种变更方式均可解决：

1）方案一

（1）修改hbase.regionserver.thread.compaction.throttle为一个很大的值（如50GB），强制让所有compact都变为small compaction，减少compact的压力；

（2）将smallcompaction和large compaction线程数均设置为1，减少compact的压力（可不配置，系统默认也会将其初始化为1）。

操作步骤：

准备hbase-site.xml文件，添加或修改如下选项：

<name>hbase.regionserver.thread.compaction.throttle</name>

</property>

<name>hbase.regionserver.thread.compaction.small</name>

</property>

<name>hbase.regionserver.thread.compaction.large</name>

</property>

重启集群使配置生效。

2）方案二

将small compaction线程数均设置为0，从而关闭small compaction，只剩下large compaction，也可减少compact的压力。

操作步骤：

准备hbase-site.xml文件，添加或修改如下选项：

<name>hbase.regionserver.thread.compaction.small</name>

</property>

重启集群使配置生效。

更多精彩内容请关注：http://bbs.superwu.cn

关注超人学院微信二维码：

时间： 2024-10-11 18:45:12

HBase解决Region Server Compact过程占用大量网络出口带宽的问题

HBase解决Region Server Compact过程占用大量网络出口带宽的问题的相关文章

解决adb server端口被占用的问题

Hbase合并Region的过程中出现永久RIT的解决

Hbase Region Server整体架构

hbase源码系列（三）Client如何找到正确的Region Server

关于hbase的read操作的深入研究 region到storefile过程

Hbase 操作表时，连接超时，或者找不到对应的region Server

HBase Region的flush过程

解决VS2010在新建实体数据模型出现“在 .NET Framework Data Provider for Microsoft SQL Server Compact 3.5 中发生错误。请与提供程序供应商联系以解决此问题。”的问题

三 Client如何找到正确的Region Server