HBase自动分区

HBase扩展和负载均衡的基本单位是Region。Region从本质上说是行的集合。当Region的大小达到一定的阈值,该Region会自动分裂(split),当然也可能是合并(merge),合并可以减少Region和相应存储文件的数量(请注意目前HBase[0.94版]不支持在线的Region合并,当然你可以使用工具离线合并,在线和离线可以视为enable,disable状态)。

Bigtable Paper认为一台Server上保有10到1000个Region为佳,每个Region的大小在100~200MB。这个数据是基于2006年之前的硬件情况而言。目前来说,对于HBase,每台Server上的Region数仍然是10~1000,但是单Region的容量已经增加到3GB。

对于一张表(HTable)而言,初始时只会有一个Region。表的数据量不断增加,系统会监控此表以确保数据量不会超过一个配置的阈值。如果系统发现表容量超过了限制,该Region会被一分为二。分裂主要看行键(row key),从Region正中的键开始分裂,并创建容量大致相等的两个Region。

Region和Region Server的关系是多对一。一个Region只能位于一台Region Server之上,而一台Region Server可以服务多个Region。

分裂和服务这些Region可以视为自动分片。HBase的设计考虑到Region的快速恢复和细粒度的负载均衡问题。当服务于某些Region的Region Server压力过大、退役(decommission,这个概念之后会详细阐述)或者干脆出问题时,这些Region会被移动到其他的Server上。

分裂非常快速,几近于瞬间,因为分裂的Region只是简单地读取原来的存储文件的数据。但是,压缩并重写这些数据到分裂后的Region中是需要时间的,当然,这是一个异步的过程。具体的过程也将在以后的文章中详细描述。

摘录自:http://blog.sina.com.cn/s/blog_8c6d7ff60101blhi.html

时间: 2024-10-10 13:25:24

HBase自动分区的相关文章

磁盘自动分区

#!/bin/bash##########################################Function:    auto fdisk#Usage:       bash auto_fdisk.sh#Author:      Customer service department#Company:     Alibaba Cloud Computing#Version:     2.0######################################### count

MySql自动分区

自动分区需要开启MySql中的事件调度器,可以通过如下命令查看是否开启了调度器 show variables like '%scheduler%'; 如果没开启的话通过如下指令开启 SET GLOBAL event_scheduler = 1; 1.创建一个分区表 CREATE TABLE sales ( id INT AUTO_INCREMENT, amount DOUBLE NOT NULL, createTime DATETIME NOT NULL, PRIMARY KEY(id, cre

为已有表快速创建自动分区和Long类型like 的方法-Oracle 11G

对上一篇文章进行实际的运用.在工作中遇到有一张大表(五千万条数据),在开始的时候忘记了创建自动分区,导致现在使用非常不方便,查询的速度非常的满,所以就准备重新的分区表,最原始方法是先创建新的分区表,然后将数据依次插入到新的表中,但是我们的表的数据比较的大,如果这样做可能导致效率相对较低,经过寻扎发现了上一篇文章,这篇文章有三个方法,第一个就是最原始的方法,我没有进行实验,第二种(交换分区)和第三种的(在线重定义)我都进行了测试,第三种方法,我初以为会比较快速,但是经过测试需要超过2个小时的时间,

Timestamp 与 Date 变量绑定与Oracle的自动分区

好久没有更新博客了,其实是工作中遇到的很多问题在Google上都能找到答案,也就没有记录下来的必要了.今天主要想聊一下在实际的系统中遇到的Oracle数据库的问题,希望对大家有一点点帮助就好. 我首先描述一下我所遇到的场景:我们的数据库用的是Oracle 11g,我想大家立马就对它的自动分区(Interval)有了基本的认识了,这是一个非常棒的功能,免除了在建表时弄一大堆建Range分区的代码,也免除了以后对数据库进行分区扩充的麻烦.当然利用JOB也是可以完成分区扩展的,但是既然Oracle提供

自动分区、格式化、挂载脚本

功能:自动检测是否有尚未分区的数据盘,格式化新的数据盘并自动挂载 解决了什么问题:一键式检测是否有尚未分区的数据盘,并能对其格式化和自动挂载,省去了复杂的命令和步骤 执行方法:以root身份执行命令 wget http://mirrors.linuxeye.com/scripts/auto_fdisk.sh chmod +x auto_fdisk.sh ./auto_fdisk.sh 结果:出现如下即自动分区.格式化.挂载成功: 脚本内容如下: #!/bin/bash # Author: yeh

Hbase预分区种子生成

提前生成Hbase预分区种子,在创建Hbase表时也进行相应的预分区,同时设置预分区的个数,预分区的范围对应Hbase监控页面的Region Server的start key与End key,从而使数据能够均匀的分布于各个Region中. private static final String[] PARTITIONS = generatPartitionSeed(); //生成3844个分区种子 public static String[] generatPartitionSeed(){ Li

39、Parquet数据源之自动分区推断&合并元数据

一.自动分区推断 1.概述 表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性.在一个分区表中,不同分区的数据通常存储在不同的目录中, 分区列的值通常就包含在了分区目录的目录名中.Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息. 例如,如果将人口数据存储在分区表中,并且使用性别和国家作为分区列.那么目录结构可能如下所示: tableName |- gender=male |- country=US ... ... ... |- country=CN ..

Linux自动分区挂载

使用 fdisk 分区 通过 fdisk -l 命令查看挂载的硬盘,假设为 /dev/sdc # fdisk -l ... Disk /dev/sdc: 10.7 GB, 10737418240 bytes 64 heads, 32 sectors/track, 10240 cylinders, total 20971520 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 byt

多磁盘自动分区自动挂载脚本

起源: 准备测试tfs分布式存储,发现一台服务器24块大盘,还有好几台服务器, 想想那么碰分区格式化,UUID自动挂载,还好有自动脚本. 1,yes能在你需要输入y时帮你操作,要不一台服务器不间断24次y还不知道什么时候敲击 2,UUID也能自动获取,这样才能自动挂载且盘符能固定 #!/bin/bash #mkfs.ext4 mkdir /data/disk{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24} yes |