HBase在HDFS上的目录树

众所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢?

这里只介绍系统级别的目录树:

一、0.94-cdh4.2.1版本

系统级别的一级目录如下,用户自定义的均在这个/hbase 下的一级子目录下

/hbase/-ROOT-

/hbase/.META.

/hbase/.archive

/hbase/.corrupt

/hbase/.hbck

/hbase/.logs

/hbase/.oldlogs

/hbase/.snapshot

/hbase/.tmp

/hbase/hbase.id

/hbase/hbase.version

1、/hbase/-ROOT-

     hbase读写数据的时候采用三级寻址方式,首先从 zk 中找到ROOT 表所在位置,通过 ROOT 表找到 META 表所在位置,然后再从 META 表定位到你要读写数据Region 所在的Regionserver。所以-ROOT-目录对应 HBase 中的系统表ROOT,就不多做解释了。

2、/hbase/.META.

就是存储1中介绍的 META 表的存储路径。

3、/hbase/.archive

     HBase 在做 Split或者 compact 操作完成之后,会将 HFile 移到.archive 目录中,然后将之前的 hfile 删除掉,该目录由 HMaster 上的一个定时任务定期去清理。

4、/hbase/.corrupt

     存储HBase损坏的日志文件,一般都是为空的。 

5、/hbase/.hbck

HBase 运维过程中偶尔会遇到元数据不一致的情况,这时候会用到提供的 hbck 工具去修复,修复过程中会使用该目录作为临时过度缓冲。

6、/hbase/.logs

     大家都知道 HBase 是支持 WAL(Write Ahead Log) 的,HBase 会在第一次启动之初会给每一台 RegionServer 在.log 下创建一个目录,若客户端如果开启WAL 模式,会先将数据写入一份到.log 下,当 RegionServer crash 或者目录达到一定大小,会开启 replay 模式,类似 MySQL 的 binlog。

7、/hbase/.oldlogs

当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中,HMaster 会定期去清理。

8、/hbase/.snapshot

     hbase若开启了 snapshot 功能之后,对某一个用户表建立一个 snapshot 之后,snapshot 都存储在该目录下,如对表test 做了一个 名为sp_test 的snapshot,就会在/hbase/.snapshot/目录下创建一个sp_test 文件夹,snapshot 之后的所有写入都是记录在这个 snapshot 之上。

9、/hbase/.tmp

当对表做创建或者删除操作的时候,会将表move 到该 tmp 目录下,然后再去做处理操作。

10、/hbase/hbase.id

它是一个文件,存储集群唯一的 cluster id 号,是一个 uuid。

11、/hbase/hbase.version

同样也是一个文件,存储集群的版本号,貌似是加密的,看不到,只能通过web-ui 才能正确显示出来。

二、0.98.8版本

自0.96版本之后,hbase 源码结构上做了很大的优化,目录结构也发生了变化,做了精简和优化,这里以0.98.8为例介绍,目录如下:

/hbase/.tmp

/hbase/WALs

/hbase/archive

/hbase/corrupt

/hbase/data

/hbase/hbase.id

/hbase/hbase.version

/hbase/oldWALs

1、/hbase/.tmp

这个目录不变还是原来的tmp目录,作用是一样的。

2、/hbase/WALs

这里对应0.94的.logs 目录,取名为 WALs 更加见名知意了,点个赞!

3、/hbase/archive

和0.94一样,只是去掉了.而已,估计是作者不想把它作为一个隐藏文件夹了吧

4、/hbase/corrupt

和0.94一样,去了.

5、/hbase/data

这个才是 hbase 的核心目录,0.98版本里支持 namespace 的概念模型,系统会预置两个 namespace 即:hbase和default

5.1 /hbase/data/default

这个默认的namespace即没有指定namespace 的表都将会flush 到该目录下面。

5.2 /hbase/data/hbase

这个namespace 下面存储了 HBase 的 namespace、meta 和acl 三个表,这里的 meta 表跟0.94版本的.META.是一样的,自0.96之后就已经将 ROOT 表去掉了,直接从Zookeeper 中找到meta 表的位置,然后通过 meta 表定位到 region。 namespace 中存储了 HBase 中的所有 namespace 信息,包括预置的hbase 和 default。acl 则是表的用户权限控制。

如果自定义一些 namespace 的话,就会再/hbase/data 目录下新建一个 namespace 文件夹,该 namespace 下的表都将 flush 到该目录下。

6、/hbase/hbase.id

     它是一个文件,存储集群唯一的 cluster id 号,是一个 uuid

7、/hbase/hbase.version

     同样也是一个文件,存储集群的版本号,貌似是加密的,看不到,只能通过web-ui 才能正确显示出来

8、/hbase/oldWALs

这里对应0.94的.oldlogs 目录,取名为 oldWALs 是不是更好了呢!

时间: 2024-08-14 11:13:05

HBase在HDFS上的目录树的相关文章

HBase 在HDFS 上的目录树

总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树. 一.0.94-cdh4.2.1版本 系统级别的一级目录如下,用户自定义的均在这个/hbase 下的一级子目录下 /hbase/-ROOT- /hbase/.META. /hbase/.archive /hbase/.corrupt /hbase/.hbck /hbase/.logs /hbase/.oldlogs /hbase/.snapshot

HBase在HDFS上的目录介绍

总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 第一,介绍系统级别的目录树. 一.0.94-cdh4.2.1版本 系统级别的一级目录如下,用户自定义的均在这个/hbase 下的一级子目录下 /hbase/-ROOT- /hbase/.META. /hbase/.archive /hbase/.corrupt /hbase/.hbck /hbase/.logs /hbase/.oldlogs /hbase/.snapshot

hbase 从hdfs上读取数据到hbase中

1 <dependencies> 2 <dependency> 3 <groupId>org.apache.hbase</groupId> 4 <artifactId>hbase-client</artifactId> 5 <version>2.0.2</version> 6 </dependency> 7 <dependency> 8 <groupId>org.apache

tdh inceptor orc表和hdfs上表目录内文件的关系

create table user1 (name string,age int ,sex string) stored as orc; insert into user1 select 'u1',1,'nan' from system.dual;select * from user1: dfs -rm /inceptorsql1/user/hive/warehouse/default.db/hive/user1/000000_0; select * from user1; insert into

读出局域网其他服务器的共享目录并通过php显示目录树

工作上有这样一个任务.有两个服务器, A,B,在一个局域网内.A, 192.168.1.20 B, 192.168.1.21A 服务器是共享服务器,安装了smb, 在/home/share目录下,大家可以通过smb://192.168.1.20/public 访问到共享目录,平常把一些文件,从自己的电脑直接复制到共享服务器的共享目录下.B 服务器是项目服务器,安装了 lnmp. 现在B服务器上有TP项目,名称oa,放在/data/wwwroot/oa下的,需要后台某个页面,显示A服务器共享目录的

hbase 启动不了,删除了hdfs 上的hbase文件夹和文件

无意将hdfs上的hbase文件(hbase的rootDir为hdfs:master1:9000/hbase)删掉了,重启hbase和ZK都不行 解决方案:使用hbase的ZK 即设置 hbase-env.sh 中的  HBASE_MANAGES_ZK 为 true 在重启hbase 即可生成hbase文件 之后在使用单独的ZK来管理hbase 即可

【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言 通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能,下面简单记录下关键步骤. bulkload的详细情况请参见官网文档. 过程 第一步:每台机器执行 ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml 第二步:编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh,拷贝到所有节点 末尾添加: export HADOOP_CLASSPA

_00017 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)

博文作者:妳那伊抹微笑 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在 技术方向:hadoop,数据分析与挖掘 转载声明:可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作! qq交流群:214293307  (期待与你一起学习,共同进步) # 学习前言 想学习一下Flume,网上找了好多文章基本上都说的很简单,只有一半什么的,简直就是坑爹,饿顿时怒火就上来了,学个东西真不容易,然后自己耐心的把这些零零碎碎的东西整理整理,各种

大数据技术之_18_大数据离线平台_02_Nginx+Mysql+数据收集+Web 工程 JS/JAVA SDK 讲解+Flume 故障后-如何手动上传 Nginx 日志文件至 HDFS 上

十一.Nginx11.1.介绍11.2.常见其他 Web 服务器11.3.版本11.4.Nginx 安装11.5.目录结构11.6.操作命令十二.Mysql12.1.介绍12.2.关系型数据库(SQL)种类12.3.特征12.4.术语12.4.与非关系型数据库比较(Not Only SQL)12.4.1.种类12.4.2.特征12.4.3.总结十三.数据收集13.1.收集方式13.2.数据的事件类型13.2.1.Launch 事件13.2.2.PageView 事件13.3.Nginx 日志收集