HBase自动分区

HBase扩展和负载均衡的基本单位是Region。Region从本质上说是行的集合。当Region的大小达到一定的阈值，该Region会自动分裂(split)，当然也可能是合并(merge)，合并可以减少Region和相应存储文件的数量(请注意目前HBase[0.94版]不支持在线的Region合并，当然你可以使用工具离线合并，在线和离线可以视为enable,disable状态)。

Bigtable Paper认为一台Server上保有10到1000个Region为佳，每个Region的大小在100~200MB。这个数据是基于2006年之前的硬件情况而言。目前来说，对于HBase，每台Server上的Region数仍然是10~1000，但是单Region的容量已经增加到3GB。

对于一张表(HTable)而言，初始时只会有一个Region。表的数据量不断增加，系统会监控此表以确保数据量不会超过一个配置的阈值。如果系统发现表容量超过了限制，该Region会被一分为二。分裂主要看行键(row key)，从Region正中的键开始分裂，并创建容量大致相等的两个Region。

Region和Region Server的关系是多对一。一个Region只能位于一台Region Server之上，而一台Region Server可以服务多个Region。

分裂和服务这些Region可以视为自动分片。HBase的设计考虑到Region的快速恢复和细粒度的负载均衡问题。当服务于某些Region的Region Server压力过大、退役(decommission，这个概念之后会详细阐述)或者干脆出问题时，这些Region会被移动到其他的Server上。

分裂非常快速，几近于瞬间，因为分裂的Region只是简单地读取原来的存储文件的数据。但是，压缩并重写这些数据到分裂后的Region中是需要时间的，当然，这是一个异步的过程。具体的过程也将在以后的文章中详细描述。

摘录自：http://blog.sina.com.cn/s/blog_8c6d7ff60101blhi.html

时间： 2024-10-10 13:25:24

HBase自动分区的相关文章

磁盘自动分区

#!/bin/bash##########################################Function: auto fdisk#Usage: bash auto_fdisk.sh#Author: Customer service department#Company: Alibaba Cloud Computing#Version: 2.0######################################### count

MySql自动分区

自动分区需要开启MySql中的事件调度器,可以通过如下命令查看是否开启了调度器 show variables like '%scheduler%'; 如果没开启的话通过如下指令开启 SET GLOBAL event_scheduler = 1; 1.创建一个分区表 CREATE TABLE sales ( id INT AUTO_INCREMENT, amount DOUBLE NOT NULL, createTime DATETIME NOT NULL, PRIMARY KEY(id, cre

为已有表快速创建自动分区和Long类型like 的方法-Oracle 11G

对上一篇文章进行实际的运用.在工作中遇到有一张大表(五千万条数据),在开始的时候忘记了创建自动分区,导致现在使用非常不方便,查询的速度非常的满,所以就准备重新的分区表,最原始方法是先创建新的分区表,然后将数据依次插入到新的表中,但是我们的表的数据比较的大,如果这样做可能导致效率相对较低,经过寻扎发现了上一篇文章,这篇文章有三个方法,第一个就是最原始的方法,我没有进行实验,第二种(交换分区)和第三种的(在线重定义)我都进行了测试,第三种方法,我初以为会比较快速,但是经过测试需要超过2个小时的时间,

Timestamp 与 Date 变量绑定与Oracle的自动分区

好久没有更新博客了,其实是工作中遇到的很多问题在Google上都能找到答案,也就没有记录下来的必要了.今天主要想聊一下在实际的系统中遇到的Oracle数据库的问题,希望对大家有一点点帮助就好. 我首先描述一下我所遇到的场景:我们的数据库用的是Oracle 11g,我想大家立马就对它的自动分区(Interval)有了基本的认识了,这是一个非常棒的功能,免除了在建表时弄一大堆建Range分区的代码,也免除了以后对数据库进行分区扩充的麻烦.当然利用JOB也是可以完成分区扩展的,但是既然Oracle提供

自动分区、格式化、挂载脚本

功能:自动检测是否有尚未分区的数据盘,格式化新的数据盘并自动挂载解决了什么问题:一键式检测是否有尚未分区的数据盘,并能对其格式化和自动挂载,省去了复杂的命令和步骤执行方法:以root身份执行命令 wget http://mirrors.linuxeye.com/scripts/auto_fdisk.sh chmod +x auto_fdisk.sh ./auto_fdisk.sh 结果:出现如下即自动分区.格式化.挂载成功: 脚本内容如下: #!/bin/bash # Author: yeh

Hbase预分区种子生成

提前生成Hbase预分区种子,在创建Hbase表时也进行相应的预分区,同时设置预分区的个数,预分区的范围对应Hbase监控页面的Region Server的start key与End key,从而使数据能够均匀的分布于各个Region中. private static final String[] PARTITIONS = generatPartitionSeed(); //生成3844个分区种子 public static String[] generatPartitionSeed(){ Li

39、Parquet数据源之自动分区推断&合并元数据

一.自动分区推断 1.概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性.在一个分区表中,不同分区的数据通常存储在不同的目录中, 分区列的值通常就包含在了分区目录的目录名中.Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息. 例如,如果将人口数据存储在分区表中,并且使用性别和国家作为分区列.那么目录结构可能如下所示: tableName |- gender=male |- country=US ... ... ... |- country=CN ..

Linux自动分区挂载

使用 fdisk 分区通过 fdisk -l 命令查看挂载的硬盘,假设为 /dev/sdc # fdisk -l ... Disk /dev/sdc: 10.7 GB, 10737418240 bytes 64 heads, 32 sectors/track, 10240 cylinders, total 20971520 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 byt

多磁盘自动分区自动挂载脚本

起源: 准备测试tfs分布式存储,发现一台服务器24块大盘,还有好几台服务器, 想想那么碰分区格式化,UUID自动挂载,还好有自动脚本. 1,yes能在你需要输入y时帮你操作,要不一台服务器不间断24次y还不知道什么时候敲击 2,UUID也能自动获取,这样才能自动挂载且盘符能固定 #!/bin/bash #mkfs.ext4 mkdir /data/disk{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24} yes |

猜你喜欢

java堆内存，栈内存

栈内存栈内存中储存基本类型的变量(int a =3:)和引用类型的变量(Car car).当在一段代码块中定义一个变量时,java就在栈中为这个变量分配内存空间,当超过变量的作用域后,java会自 ...

ASP.NET MVC 中 ActionResult

ActionResult 是一个抽象(abstract)类,ViewResult 只是ActionResult 的一个实现(implementation).如果你确认你返回的是一个视图(view),你 ...

python基础-列表

列表中的操作获取列表中的值 list1 = ['跑男','蜜蜂少女',2015,2016] list2 = [1,2,3,4,5,6,7] print("list1[0]:",l ...

jqery实现一个图标上下滑动效果

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...

Docker4Windows -- 从外部（非本机host）访问由docker container运行的程序

背景当我们在windows 上面运行docker container的时候,我们需要借助于模拟器(例如,Virtual box/Hyper V),她的目的主要是在我们的windows系统上面模拟出一 ...

MFC通过txt查找文件并进行复制-备忘

MFC基于对话框的Demo txt中每行一个23位的卡号. 文件夹中包含以卡号命名的图像文件.(fpt或者bmp文件) 要求遍历文件夹,找到txt中卡号所对应的图像文件,并复制出来. VC6.0写的. ...

初始C#中的Attribute类

最近做项目过程中遇到了这个类,查了下MSDN,是这么说的. Attribute类:表示自定义属性的基类. 看到了就有点蒙圈了,这到底是用来干什么的呢? Attribute类从网上查了一些资料后,就有 ...

坠走抓踪纵赚装装咨诅仔滋奏总转捉租谆

http://club.jd.com/CommunityGroupDetail/21594538_1.html http://club.jd.com/CommunityGroupDetail/2 ...

数据结构-复杂链表的复杂

题目:请实现函数ComplexListNode* Clone(ComplexListNode* pHead),复杂一个复杂链表.在复杂链表中,每个节点除了有一个Next指针指向下一个节点外,还有一个 ...

mysql 5.0存储过程学习总结

mysql存储过程的创建,删除,调用及其他常用命令本人qq群也有许多的技术文档,希望可以为你提供一些帮助(非技术的勿加). QQ群: 281442983 (点击链接加入群:http://jq.q ...

Informatica 一

Install & Concept 1.1 Powercenter 的安装,架构,组件及其主要功能: 1. 安装Powercenter 7.12,8.11客 ...

React半科普文

React半科普文什么是React getting started 文件分离 Server端编译定义一个组件使用property 组件嵌套组件更新 Virtual DOM react nati ...

一场武林盟主争霸赛-观察者模式PK委托事件技术

设计模式中提到观察者模式又叫做发布-订阅(Publish-订阅)模式.它定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象.这个主题对象在状态发生变化时,会通知所有观察者对象,使它们 ...

Zabbix-server自动发现,批量添加主机,并链接模板

zabbix可以手动添加agent客户端,当主机数量比较多时,这时手工重复工作会大大增加.zabbix的自动发现功能可以帮我们解决这个问题. 准备条件: 1. 被监控主机都装上zabbix-agent ...

Interface Attributes != Class Attributes

问题事情来源于很早之前Team成员一个不规范的设计,在MVC3的项目上,由于所有的Model都需要有一些基本的名称或者操作,加之应用了DI,所以就想当然地定义了一个接口,里面包含了一些接口属性和方法 ...

jenkins持续集成配置备忘

配过好几次,但是老忘记.记录备忘. 安装下列插件: ssh和git插件用来下载源码 publish over ssh 插件用来发布代码到测试环境. email插件用来更强大的email配置. 在jen ...

RAC处理节点运行问题

srvctl status database -d 发现有个实例没有运行 srvctl status database -d abc实例 q1 没有在ora1节点上运行实例 q2 正在节点 ora2上 ...

jquery源码之缓存系统--$.data

jQuery内置了一个缓存系统,它做的事情可就多了,动画模块,事件模块等非常有用的模块都是依赖它实现的. 其实说到底,就是在jQuery的命名空间下开辟了一个cache的对象. 将数据以一定得规则存放 ...

buffer cache 和shared pool 详解（之三，shared pool原理）

[深入解析--eygle] 学习笔记 1.2 shared pool原理 Shared Pool是Oracle SGA设置中最复杂也是最重要的一部分内容,Oracle通过Shared Pool来实现S ...

简单的时间显示

效果图: 实现代码: /************************/ /* 简单的时间显示 */ /**********************/ #include <stdio.h> ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.028 s.