hbase meta表的结构

下面看下hbase:meta 表的结构,hbase:meta表中,保存了每个表的region地址,还有一些其他信息,例如region的名字,HRegionInfo,服务器的信息。hbase:meta表中每一行对应一个单一的region。例如我们现在创建一个表名叫"t"。hbase:meta中对应的行会像下面这个样子。


Row


Column Family


Column Qualifier


Value


t,,1351700811858


info


regioninfo


NAME =>
‘t,,1351700811858.
90a3b2353709773ebc2423.
04a79dcbbc90a3b23
53709773ebc2423.’,
STARTKEY => ”,
ENDKEY => ”,
ENCODED => 04a79
dcbbc90a3b23537
09773ebc2423,

   
server


10.7.73.121:64782

   
serverstartcode


1351986939360

具体含义:

rowKey:([table],[region start key],[region id]),
  • rowkey中第一个分隔符前存的是表名;
  • 第二分隔符前存的是region的第一个rowKey,这里两个需要注意,1.如果这个地方为空的话,表明这是table的第一个region。并且如果一个region中startkey和endkey都为空的为,表明这个table只有一个region。2.在mata表中,startkey 靠前的region会排在startkey 靠后的region前面。(Hbase中的keys是按照字段顺序来排序的)
  • region id就是region的id,通常来说就是region创建的时候的timestamp
  • regioninfo 是HRegionInfo的序列化值。
  • server是指服务器的地址和端口
  • serverstartcode 是服务开始的时候的timestamp

根据meta表查找key对应的region

当有一个key需要做put操作的时候,会先扫描meta表,找到对应region,然后进行插入操作。

例如:有一个table具有三个region,每个region的startkey分别是 空,bar,foo,如下图:

1 table,,1351700811858
2 table,bar,1351700819876
3 table,foo,1351700829874

如果我们需要插入key ‘baz’ ,我们能找meta表中对应的rowkey为(table,bar,1351700819876)。

这个查找完之后会缓存在客户端,下次查询的时候会根据缓存来直接去访问region。

自动split

当不断的往一个table增加数据的时候,最终region会分裂。这样hbase就能保证可以横向的增长了。一个parent region会split两个child region。

在child regions 上线之前我们需要做两件事:

  • 下线parent
    region
  • 把child
    regions的相关信息增加到parent info中

首先是更新meta表中parent
region的info:regioninfo列的值,然后增加两列info:splitA(top child 的HRegionInfo,这里约定top为startkey较小的HReginInfo,bottom则反),和info:splitB(bottom child 的HRegionInfo)。这个操作能保证我们能跟踪到region到底做了写什么,方便后续的操作,以及后续如果操作被迫终端了,也有个凭证,能够根据这些来恢复。最后parent region会被CatalogJanitor清理掉。

更新meta表

在更新完meta表中parent
region的记录的时候,就需要把child region相关插入到meta表中,top child region 的startkey 和paretn的startkey
是一样的,这个时候regionId就发挥他的作用了,如果没有regionId,当meta表中有top region和parent
region的时候,我们就知道需要选择哪个了,因为他们的startkey都一样。而我们使用timestamp作为region的id(如果top region和parent region的timestamp一样的时候,top的region
id 取timestamp+1)。这样我们就能保证child
region总是排在parent region之后。

还有一个比较重要的就是,bottom child必须要先插入到meta表,然后top child才能插入。否则就会出现,在meta表中,bottom region里面的key找到不到对应的region的情况。举个例子还是以上面的例子为基础 meta中rowkey为(table,bar,1351700819876)的region分裂成两个region的meta rowkey分别是(table,bar,1351700819810)和(table,belong,1351700819810),如果这个时候先插入top child:

1 table,,1351700811858
2 table,bar,1351700819876 <---- offline!
3 table,bar,1351700819810 <---- top child
4 table,foo,1351700829874

例如这个时候我需要找key为bgood,我最终会找到这里的第三行top region里面,但是top region里面并不包含bgood。bgood这个这个key是在bottom region里面的。如果先加入bottom就没有这个问题,如下

table,,1351700811858
table,bar,1351700819876 <---- offline!
table,belong,1351700819810 <---- bottom child
table,foo,1351700829874

出错恢复 

一般来说,Hbase可以很好的恢复服务器错误,但是有时候还是会出问题的,如果在slipt的时候,regionserver出错了,或者因为其他原因导致slipt整个周期只执行了一部分。这个时候meta表可能会出错,例如有出错的region在磁盘上面,或者重复的regions等。这个时候我们可以使用hbck工具来进行修复。使用以下命令查看更多hbck的信息:

 /hbase/bin/hbase hbck -h

参考:

https://blog.safaribooksonline.com/2012/11/16/tip-2-hbase-meta-layout/
hbase:meta表

http://hbase.apache.org/book/arch.catalog.html 官方文档meta表

时间: 2024-10-11 16:20:44

hbase meta表的结构的相关文章

HBase -ROOT-和.META.表结构(region定位原理)

转自:http://blog.csdn.net/chlaws/article/details/16918913 在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer.什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer.Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源

HBase -ROOT-和.META.表结构

在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer.什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer.Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭秘这个过程. 在前面的文章“HBase存储架构”中我们已经讨论了HBase基本的存储架构.在此基础上

hbase shell表结构管理

hbase表结构管理详细解释篇 列出表清单 1 hbase(main):001:0> list 1 TABLE 2 cdr 3 noc 4 2 row(s) in 0.1800 seconds 5 6 => ["cdr", "noc"] result 创建表 删除表 查看某张表的结构 修改表的结构 查看表是否存在 判断表是否enable 判断表是否disable

HBase的表结构

HBase以表的形式存储数据.表有行和列组成.列划分为若干个列族/列簇(column family). 如上图所示,key1,key2,key3是三条记录的唯一的row key值,column-family1,column-family2,column-family3是三个列族,每个列族下又包括几列.比如column-family1这个列族下包括两列,名字是column1和column2,t1:abc,t2:gdxdf是由row key1和column-family1-column1唯一确定的一

HBase(八): 表结构设计优化

在 HBase(六): HBase体系结构剖析(上) 介绍过,Hbase创建表时,只需指定表名和至少一个列族,基于HBase表结构的设计优化主要是基于列族级别的属性配置,如下图: 目录: BLOOMFILTER BLOCKSIZE IN_MEMORY COMPRESSION/ENCODING VERSIONS TTL BLOOMFILTER: Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求

如何将关系型数据表转换至hbase数据表

首先需要把关系型数据库的数据表的数据增加由 "纵向延伸",转变为HBase数据表的"横向延伸" 一.Hbase的存储结构 a)      HBase以表(HTable)的形式存储数据 b)     HTable包括很多行,每行通过RowKey唯一标记,行按照RowKey的字典序排列,表在行的方向上分割为多个HRegion c)      每行包括一个RowKey和多个Column Family,数据按照Column Family进行物理切割,即不同Column Fa

Phoenix映射HBase数据表

1. 说明 安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射,所以想要再phoenix中操作HBase已有数据表就需要手动进行配置. 2. 创建HBase表 > create 'phoenix','info' 3. 插入数据 > put 'phoenix', 'row001','info:name','phoenix' > put 'phoenix', 'row002','info:name','hbase' 高能预警:HBase数据表默认主键列名是ROW 4. 创

数据结构——线性表顺序存储结构

 关于线性表 线性表是零个或者多个数据元素的集合.它主要有以下三个特征: 1:线性表的数据元素之间是有顺序的. 2:线性表中数据元素个数是有限的. 3:线性表中数据元素数据类型是相同的. 关于线性表的操作,主要有 创建线性表.销毁线性表.清空线性表.将元素插入线性表.将元素从线性表中删除.获取线性表中某个位置的元素.获取线性表的长度. 线性表主要有两种存储结构: 1:线性表的顺序存储结构,c语言中的数组及采用这种方式. 2:线性表的链式存储结构. 关于顺序存储结构 定义: 是指用一段地址连续的内

算法之 线性表顺序结构

package math; import java.util.ArrayList; import java.util.List; //线性表顺序结构 public class LinearTable { public int len = 0; //线性表表长度 public List list; public int currentLen = 0; //构造方法,申请一个对应长度得 线性表 public LinearTable(int i){ this.list = new ArrayList(