深入理解HBase

思考：HBase服务器内部由那些主要部件构成？

HBase的内部工作原理是什么？

1. HBase的工作原理：

首先HBase Client端会连接Zookeeper Qurom(从下面的代码也能看出来，例如：HBASE_CONFIG.set(“hbase.zookeeper.quorum”,”192.168.50.216″) )。通过Zookeeper组件Client能获知哪个Server管理-ROOT-Region。那么Client就去访问管理-ROOT-的 Server，在META中记录了HBase中所有表信息，(你可以使用 scan ‘.META.’ 命令列出你创建的所有表的详细信息),从而获取Region分布的信息。一旦Client获取了这一行的位置信息，比如这一行属于哪个 Region，Client将会缓存这个信息并直接访问HRegionServer。久而久之Client缓存的信息渐渐增多，即使不访问.META.表也能知道去访问哪个HRegionServer。HBase中包含两种基本类型的文件，一种用于存储WAL的log，另一种用于存储具体的数据，这些数据都通过DFS Client和分布式的文件系统HDFS进行交互实现存储。

2. Client访问数据过程：

Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，不过client端会做cache缓存。

-ROOT-表、.META都是存放在哪里？？

client访问hbase上数据的过程并不需要master参与（寻址访问zookeeper和region server，数据读写访问region server），master仅仅维护者table和region的元数据信息，负载很低。

3. 在HBase上进行MapReduce操作：

4. HBase系统架构：

HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信，对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPC

5. Zookeeper：

Zookeeper简单说就是协调和服务于分布式应用程序的服务。

Zookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己以Ephemeral方式注册到 Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题。

1 保证任何时候，集群中只有一个master

2存贮所有Region的寻址入口。

3 实时监控RegionServer的状态，将Region server的上线和下线信息实时通知给Master

4 存储Hbase的schema,包括有哪些table，每个table有哪些column family

Zookeeper到底为我们干了什么？

1. 集中配置：可以APP1的配置配置到/APP1 znode下的所有机器。

2. 集群管理：同步：维护活机列表(让集群所有机器得到实时更新)，

组服务：从集群中选择Master。

6. HMaster：

HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的MasterElection机制保证总有一个Master运行，HMaster在功能上主要负责Table和Region的管理工作：

1. 管理用户对Table的增、删、改、查操作

2. 管理HRegionServer的负载均衡，调整Region分布

3. 在Region Split后，负责新Region的分配

4. 在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移

7. HRegionServer：

HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。

HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个ColumnFamily的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个ColumnFamily中，这样最高效。

8. Hadoop+HBase+Zookeeper三者关系：

1.经过Map、Reduce运算后产生的结果看上去是被写入到HBase了，但是其实HBase中HLog和StoreFile中的文件在进行flush to disk操作时，这两个文件存储到了HDFS的DataNode中，HDFS才是永久存储。

2.ZooKeeper跟HadoopCore、HBase有什么关系呢？ZooKeeper都提供了哪些服务呢？主要有：管理Hadoop集群中的NameNode，HBase中HBaseMaster的选举，Servers之间状态同步等。具体一点，细一点说，单只HBase中 ZooKeeper实例负责的工作就有：存储HBase的Schema，实时监控HRegionServer,存储所有Region的寻址入口，当然还有最常见的功能就是保证HBase集群中只有一个Master。

小结

Hadoop、ZooKeeper和HBase之间应该按照顺序启动和关闭：启动Hadoop—>启动ZooKeeper集群—>启动HBase—>停止HBase—>停止ZooKeeper集群—>停止Hadoop。

声明: 本文采用
BY-NC-SA 协议进行授权. 转载请注明转自:
深入理解HBase

标签:
HBase,
HMaster,
HRegionServer,
zookeeper

时间： 2024-10-08 04:49:22

深入理解HBase的相关文章

看图理解HBase

一.HBase生态系统二.HBase架构图三.HBase和Hadoop版本矩阵四.HBase组件五.行列存储六.Region Server 七.scale out/up 水平扩容垂直扩容八.compact 九.读写流程十.LSM存储十一.存储层十一.数据逻辑和物理结构十二.Region Split 十三.HFile 十四.漫画

Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结

转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbase调用MapReduce函数使用理解第三部分:Hbase调用Java API使用理解第四部分:Hbase Shell操作第五部分:Hbase建表.读写操作方式性能优化总结第一部分:Hbase框架原理理解概述 HBase是一个构建在HDFS上的分布式列存储系统:HBase是基于Google

HBase学习

记录HBase的学习过程.之后会陆续添加内容. 读取hbase的博客,理解hbase是什么.推荐博文: 1,HBase原理,基础架构,基础概念 2,HBase超详细介绍 ----------------------------------------------------- 一.直接实践吧! 1,HBase standalone模式安装版本:1.2.4 参考文档:http://archive.cloudera.com/cdh5/cdh/5/hbase-0.98.6-cdh5.3.3/book

HBase介绍(2)---数据存储结构

在本文中的HBase术语:基于列:column-oriented行:row列组:column families列:column单元:cell 理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式. Google's BigTable论文清楚地解释了什么是BigTable:Bigtable是一个疏松的分布式的

[ 译]Apache HBase Write Path

翻译自cloudera,原文直通车:Apache HBase Write Path Apache HBase也就是Hadoop Database是基于HDFS之上的.HBase可以随机获取和更新存储在HDFS上的记录.但是HDFS 上的文件只能追加而且一旦创建便无法修改.说到这里你或许会问:那HBase是怎么做到在HDFS上低延迟的读和写呢?在这篇文章里,我们就会通过描述HBase的写的流程来解释数据在HBase中是如何更新的. 写流程描述就是HBase如何完成put或者delete操作.流程

hbase官方文档(转)

Apache HBase™ 参考指南 HBase 官方文档中文版 Copyright © 2012 Apache Software Foundation.保留所有权利. Apache Hadoop, Hadoop, MapReduce, HDFS, Zookeeper, HBase 及 HBase项目 logo 是Apache Software Foundation的商标. Revision History Revision 0.95-SNAPSHOT 2012-12-03T13:38 中文版

HBase底层存储原理——我靠，和cassandra本质上没有区别啊！都是kv 列存储，只是一个是p2p另一个是集中式而已！

理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式. Google's BigTable论文清楚地解释了什么是BigTable: Bigtable是一个疏松的分布式的持久的多维排序的map,这个map被行键,列键,和时间戳索引.每一个值都是连续的byte数组.(A Bigtable is a sparse

Hbase 设计与开发实战

Hbase 概述大数据及 NoSQL 的前世今生传统的关系型数据库处理方式是基于全面的 ACID 保证,遵循 SQL92 的标准表设计模式(范式)和数据类型,基于 SQL 语言的 DML 数据交互方式.长期以来这种基于关系型数据库的 IT 信息化建设中发展良好,但受制于关系型数据库提供的数据模型,对于逐渐出现的,为预先定义模型的数据集,关系型数据库不能很好的工作.越来越多的业务系统需要能够适应不同种类的数据格式和数据源,不需要预先范式定义,经常是非结构化的或者半结构化的(如用户访问网站的日志

HBase零基础高阶应用实战（CDH5、二级索引、实践、DBA）

HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”.就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力.HBase是Apache的Hadoop项目的子项目.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.

猜你喜欢

[Hardware]三维点云数据获取

A laser mount on a tilting unit. 目前的硬件获取数据出现了这么个问题,应该是激光没有安装好,扫描方向没有真正沿着铅锤方向.考虑进行校准.

Struts MVC与Sping MVC

struts组件的MVC实现 View部分:由jsp页面实现,并且struts提供了丰富的标签库,通过使用struts标签库可以快速实现view部分,当然也可以不用struts标签库,而用普通的js ...

前端开发之功能页展示

1.本次用到的控件资料按钮组作为翻页按钮 : http://v3.bootcss.com/components/#btn-groups-single 2.工程地址:https://github.co ...

Cortex微控制器软件接口标准(Cortex Microcontroller Software Interface Standard)是ARM和一些编译器厂家以及半导体厂家共同遵循的一套标准,是由A ...

网页换肤

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

《大道至简》第一章伪代码

Public class 愚公移山; Public static void main(String[ ]args){ int 愚公,子孙: if(山存在&&愚公还在) system.o ...

渗透命令常用命令

IPC$入侵常用命令当然假设管理员账户名密码已经得到了net use \\ip\ipc$ "密码" /user:"用户名" --密码和用户名如果没有空格也可以 ...

Python自然语言处理学习——jieba分词

jieba--"结巴"中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分 ...

（转）redis 3.0的集群部署

一:关于redis cluster 1:redis cluster的现状 reids-cluster计划在redis3.0中推出,可以看作者antirez的声明:http://antirez.com/ ...

Logistic Regression的几个变种

原文:http://blog.xlvector.net/2014-02/different-logistic-regression/ 最近几年广告系统成为很多公司的重要系统之一,定向广告技术是广告系统 ...

js判断是否为数组的函数: isArray()

今天刚好在学习支付宝 JS 框架 base.js .瞄了一下,实现是这样的: if (value instanceof Array || (!(value instanceof Object) ...

HDU2433Travel(SPFA+记录路径优化)

Travel Time Limit: 10000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Su ...

UIView的transform属性

Transform 属性: UIView有个transform的属性,通过设置该属性,我们可以实现调整该view在其superView中的大小和位置,具体来说,Transform(变化矩阵)是一种3× ...

简单的python下载器

最近在玩爬虫,有时候会爬下来很多感兴趣文件的连接. 如果自己手动下载它们的话工作量实在太大. 于是,简单写了个下载小脚本: import os, urllib2 os.chdir(r'd:') url ...

IOS开发——UI进阶篇（六）键盘处理

一.键盘通知我们经常需要在键盘弹出或者隐藏的时候做一些特定的操作,因此需要监听键盘的状态键盘状态改变的时候,系统会发出一些特定的通知UIKeyboardWillShowNotification // ...

利用__index和__newindex实现默认值表、监控表、只读表

__index和__newindex实际上相当于是在读写表的时候分别加了一道过滤的逻辑,让读写表的操作可以被监控或说回调,利用这个特性可以实现一些带有特殊功能的表. 带有默认值的表: setdefau ...

[小Trick]哈希值结构体

struct hashv { int len; ull val; hashv(char c) { val = c, len = 1; } hashv() : len(0), val(0) {} has ...

keepalived衡环境搭建

环境信息 keepalived master 192.168.1.106 keepalived backup 192.168.1.103 vip 192.168.1.100 1,安装keepalive ...

推荐: //js对象转换为 JSON 文本 var text = '[{"id":1,"name":"C","size" ...

vs2015和Oracle在一起时的Shit问题

VS2015在连接Oracle时,必须要安装到一个不含有空格的目录中去,否则连接不上Oracle,至于为什么,不知道,鬼知道,日的. 如果你不幸以前安装过VS2015,安装到它的默认的什么“progr ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.038 s.