初步掌握HBase

1、HBase概述

HBase是hadoop生态系统中的重要组成部分，是一个开源的、面向列、适合存储海量非结构化数据或半结构化数据，具备高可靠性、高性能、可灵活扩展伸缩、支持实时数据读写的分布式存储系统

存储在Hbase中的表的特征

1、大：一个表可以有上亿行，上百万列

2、任意模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中的不同的行，它们的列可以不相同

3、面向列：面向列（簇）的存储和权限控制，列（簇）独立检索

4、稀疏：对于为空（NULL）的列，并不占用存储空间，因此，表可以设计的非常稀疏

5、多个数据版本：每个单元中的数据可以有多个数据版本，默认情况下自动分配版本号，版本号是单元格插入时的时间戳

6、唯一数据类型：Hbase中的数据都是字符串类型，没有其它数据类型

2、HBase数据模型

1、Table

1、Table中的数据可以非常稀疏

2、每个Table中的所有行都是按照row key的字典序排序

2、Row Key

1、它是byte array（字节数组）

2、它是表中每条记录的主键

3、通过Row Key方便查找每行记录

3、ColumnFamily

1、每个ColumnFamily都有一个名称

2、它包含一个或者多个列

3、每个表可以由多ColumnFamily组成

4、每个ColumnFamily存储在HDFS上的一个单独的文件中

5、Key和版本号在每个ColumnFamily中都保存有一份

4、Column

1、它属于某一个ColumnFamily。比如，FamilyName:columnName

2、HBase表中的列是动态的列

5、TimeStamp

1、每一个Row Key可以有多个版本号

2、版本号可以由用户来提供

6、Cell

1、存储具体的byte array

2、单元内的空值不会被保存

3、HBase物理模型

1、每个Table会在行的方向上，分割为多个Region

2、Region按照数据大小来分割，每一个Table刚开始只有一个region，随着数据的增多，region就会不断的增大，当增大到一个阀值的时候，region就会等分成两个新的region。当Table越来越大的时候，region就会越来越多

3、每个region是HBase中分布式操作和负载均衡的最小单位，不同的region可能分布到不同的regionServer上

4、Region虽然是分布式操作的最小单元，但并不是存储的最小单元，在region里面，又划分了很多更小的单位进行存储，如下所示

1、Region由一个或者多个Store组成，每个Store保存一个ColumnFamily

2、每个Store又由一个memStore和多个storefile组成

3、memstore存储在内存中，storefile存储的HDFS上

4、HBase基本架构

1、Client

可以有多个Client运行在不同机器上，Client也会维护了一个缓存，用来加快对HBase的访问速度

2、Zookeeper

1、保证在任何时候，集群中有且仅有一个master

2、存储了所有region的寻址入口

3、实时监控RegionServer的健康状况，并实时的通知给Master

4、存储的HBase的shecma和table的元数据信息

3、Master

1、为RegionServer分配region

2、负责regionserver的负载均衡

3、如果发现失效的RegionServer，Master会重新分配它上面的region

4、管理用户对table的增删改查操作

4、Region Server

1、RegionServer的作用就是维护region，处理对这些region的I/O请求

2、RegionServer也负责切分超过阀值的region

5、Hbase中的Zookeeper

1、Hbase的运行依赖于Zookeeper

2、Master与RegionServer启动时会向Zookeeper注册，Zookeeper可以监控Master和RegionServer的健康状况

3、Hbase通过引入Zookeeper解决了Master的单点故障

6、Hbase支持的操作

1、HBase所有的操作均基于rowkey的操作

2、HBase支持增删改查和scan

3、Hbase支持单行操作

1、Put

2、Get

3、Scan

4、Hbase支持多行操作

1、Scan

2、MultiPut

5、Hbase没有内置的join操作，但可以通过MapReduce来解决

7、Hbase Write-Ahead-Log（预先写日志）

8、Hbase容错机制

1、Master容错：

实际生产环境中，HBase一般配置多个Master，当对外提供服务的Master挂掉之后，Zookeeper会重新选举一个新的Master

1、数据读取不受影响，因为数据读取过程不需要与Master交互

2、region切分、负载均衡等无法进行

2、RegionServer容错：

1、定期的向Zookeeper提供心跳，如果Zookeeper一段时间没有收到心跳信息，Zookeeper会通知Master，RegionServer挂掉了，Master会将该RegionServer上的region重新分配到其他RegionServer上

2、失效RegionServer上的预写日志，会由主服务器进行分割，然后分配给对应的RegionServer上

3、Zookeeper容错：

Zookeeper可以提供一个可靠的服务，一般我们配置3个、5个、7个等奇数个实例

9、Hbase中的region定位

1、首先要访问Zookeeper，查找到ROOT表的位置

2、从ROOT表里面获取META表的位置，我们在对应RegionServer上读取META表

3、在META表里面定位到我们要找的region的位置

4、到RegionServer上来读取对应region上面的数据

10、Hbase与关系型数据库的比较

如果，您认为阅读这篇博客让您有些收获，不妨【顶】一下

如果，您希望更容易地发现我的新博客，不妨【订阅】

如果，您对我的博客所讲述的内容有兴趣，请继续关注我的后续博客，我是【刘超-ljc】。

本文版权归作者和csdn共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

时间： 2024-10-07 13:40:36

初步掌握HBase的相关文章

hbase系列之：独立模式部署hbase

一.概述在上一篇博文中,我简要介绍了hbase的部分基础概念,如果想初步了解hbase的理论,可以参看上一篇博文 hbase系列之:初识hbase .本博文主要介绍独立模式下部署hbase及hbase的几个基本操作,需要具备一定的Linux基础. 二.部署前准备 1.纯净的Linux系统,本文使用CentOS7.5,IP地址为:192.168.200.31. 2.安装jdk并配置环境变量,本文使用jdk1.8.参看下文"java对hbase的版本支持"小节的内容. 3.新建hbase

HBase写的初步测试中的表现

底第四年HBase.在上线的机HBase集群做一个初步的测试写入性能.下面具体说明做测试内容. 说明 HBase周围环境 0.96版本号,8台region server.默认配置写数据说明单column family.两个column qualifier的值为字符串+随机8位正整数,Row Key为两个quailifer值相连后串上随机Long 比方:val1 = dd1977285, val2 =cc6549921, rowkey = rondom.nextLong() + val1 +

HBase写性能初步测试

背景刚接触HBase,在本机上对线下HBase集群做了初步的写性能测试,下面对测试内容做详细说明. 说明 HBase环境 0.96版本,8台region server,默认配置写数据说明单column family,两个column qualifier的值为字符串+随机8位正整数,Row Key为两个quailifer值相连后串上随机Long 比如:val1 = dd1977285, val2 =cc6549921, rowkey = rondom.nextLong() + val1 +

Hbase从入门到精通_如何学好Hbase

Hbase从入门到精通课程学习地址:http://www.xuetuwuyou.com/course/188 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介面对海量数据的存储及实时查询,传统的RDBMS已经无法满足,基于HDFS之上的HBase应运而生,每个表的数据可以达到数百万列和数十亿条,数据存储在HDFS之上充分利用其存储优势,分布式的架构让其查询数据更加快,绝大数电商互联网公司都是用它. 课程内容 (1)HBase 初窥使用 HBase 应用场景

HBase 手动 flush 机制梳理

对应 HBase 版本0.94.1,对照了开源的版本和工作使用的某发行版问题:在 HBase shell 里面输入 flush 'table_or_region_name'之后,发生了什么?具体的实现是怎么样的?对于现有的某个表,我如何在做操作之前估算 flush 执行的时间? 1. HBase shell 入口 HBase shell 使用 ruby 实现,在 putty 敲hbase shell,调用的是${HBASE_HOME}/bin/hbase这个 bash 脚本,根据shell这个

Hadoop企业级完整训练：Rocky的16堂课（HDFS&MapReduce&HBase&Hive&Zookeeper&Sqoop&Pig&Flume&Project） - 0515

Hadoop是云计算的事实标准软件框架,是云计算理念.机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容. 如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心. 云计算学习者的心声: 如何从企业级开发的角度,不断动手实际操作,循序渐进中掌握Hadoop,直到能够直接进行企业级开始,是困惑很多对云计算感兴趣的朋友的核心问题,本课程正是为解决此问题而生,学习者只需要按照一步步的跟着视频动手操作,即可完全无痛掌握Hadoo

Hadoop企业级完整训练：HDFS&MapReduce&HBase&Hive&Zookeeper&Pig&Project）

hadoop2.4.1+hbase0.98.3实现的分布式网盘系统初步

直接上图片 web端用spring mvc4.0.5 hadoop+hbase 伪分布实验环境已实现用户注册登陆网盘管理:上传文件创建文件夹修改文件及文件夹分享文件及文件夹删除文件及文件夹仿百度文库浏览文档和下载文件功能. 关注用户管理: 关注和取消关注用户文件分享:分享列表查看 hadoop2.4.1+hbase0.98.3实现的分布式网盘系统初步,布布扣,bubuko.com

HBase入门笔记--读性能优化

一.前言在生产环境使用HBase过程中,随着数据量的不断增加,查询HBase数据变得越来越慢,对于业务来说是不可用的,需要对读性能进行优化二.问题定位从hbase监控指标来看,发现FullGC次数频繁,大家都知道FullGC对系统的影响很大,会使系统资源都耗在GC上,其它性能就会影响,另一个异常是Compact队列一直在阻塞,需要compact的文件过多又不无法及时得到compact,这个就导致小文件越来越多得不到合并影响读性能. 三.问题解决初步定位到原因之后,考虑从以下几个方面进行优