hbase基础知识一

1. hbase是什么

漫画学习hbase----最易懂的Hbase架构原理解析
http://developer.51cto.com/art/201904/595698.htm

1.1 hbase的概念

  • hbase基于Google的BigTable论文,是建立的hdfs之上,提供高可靠性高性能列存储可伸缩实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时,可以使用hbase。

1.2 hbase的特点

  • 海量存储

    • 可以存储大批量的数据
  • 列式存储
    • hbase表的数据是基于列族进行存储的,列族是在列的方向上的划分。
  • 极易扩展
    • 底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加datanode节点服务(机器)就可以了
    • 可以通过增加服务器来提高集群的存储能力
  • 高并发
    • 支持高并发的读写请求
  • 稀疏
    • 稀疏主要是针对Hbase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。
  • 数据的多版本
    • hbase表中的数据可以有多个版本值,默认情况下是根据版本号去区分,版本号就是插入数据的时间戳
  • 数据类型单一
    • 所有的数据在hbase中是以字节数组进行存储

2、hbase整体架构

  • 1、Client

    • 客户端

      • Client包含了访问Hbase的接口
      • 另外Client还维护了对应的cache来加速Hbase的访问,比如cache的.META.元数据的信息
  • 2、Zookeeper
    • zookeeper集群

      • 作用

        • 实现了HMaster的高可用
        • 保存了hbase的元数据信息,是所有hbase表的寻址入口
        • 对HMaster和HRegionServer实现了监控
  • 3、HMaster
    • hbase集群的老大

      • 作用

        • 为HRegionServer分配Region
        • 维护整个集群的负载均衡
        • 维护集群的元数据信息
        • 发现失效的Region,并将失效的Region分配到正常的HRegionServer上
  • 4、HRegionServer

    • hbase集群中的小弟

      • 负责管理Region
      • 接受客户端的读写数据请求
      • 切分在运行过程中变大的region
  • 5、Region
  • hbase集群中分布式存储的最小单元

3、hbase表的数据模型

  • rowkey

    • 行键

      • table的主键,table中的记录按照rowkey 的字典序进行排序
  • Column Family

    • 列族

      • hbase表中的每个列,都归属与某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。
  • Timestamp

    • 时间戳

      • 每次数据操作对应的时间戳,可以看作是数据的version number版本号
  • Column

      • 列族下面的具体列
      • 属于某一个ColumnFamily,类似于我们mysql当中创建的具体的列
  • cell

    • 单元格

      • 由{row key, column( =<family> + <label>), version} 唯一确定的单元
      • cell中的数据是没有类型的,全部是以字节数组进行存储

原文地址:https://www.cnblogs.com/lojun/p/11443648.html

时间: 2024-10-19 04:46:27

hbase基础知识一的相关文章

HBase基础知识,面向列的实时分布式数据库

Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益. 1.HBase定义 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”.就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之

HBase基础知识

1.HBase简介 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群.HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具. 2.HBase(NoSQL)的数据模型 2.1 表(table),是存储管理数据的.2.2 行键(row key),类似于MySQL中的主键.

Hadoop第11周练习—HBase基础知识

1 书面作业1:数据即日志... 3 1.1     书面作业1内容... 3 1.2     回答... 3 2 书面作业2:HBase合并过程... 3 2.1     书面作业2内容... 3 2.2     回答... 4 3 书面作业3:HBase一致性... 4 3.1     书面作业3内容... 4 3.2    回答... 4 1 书面作业1:数据即日志 1.1 书面作业1内容 我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDB

最全的Spark基础知识解答

最全的Spark基础知识解答 时间:2016-12-12 12:00:50      阅读:19      评论:0      收藏:0      [点我收藏] 原文:http://www.cnblogs.com/sanyuanempire/p/6163732.html 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMa

ZooKeeper_基础知识学习

ZooKeeper是Hadoop的开源子项目(Google Chubby的开源实现),它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护.命名服务.分布式同步.组服务等. Zookeeper的Fast Fail 和 Leader选举特性大大增强了分布式集群的稳定和健壮性,并且解决了Master/Slave模式的单点故障重大隐患,这是越来越多的分布式产品如HBase.Storm(流计算).S4(流计算)等强依赖Zookeeper的原因. Zookeeper在分布式集群(Hadoop

大数据之HBase基础

HBase简介1.1. 什么是HBaseHBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据. HBase是Google Bigtable的开源实现,但是也有很多不同之处.比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系

Elasticsearch基础知识学习

概要 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎.本人在工作过程中也有幸使用了ELK,下面对ES基础知识进行说明,大部分资料从网上摘抄整理而来,作为我学习ES的笔记记录. 生活中的数据 搜索引擎是对数据的检索,所以我们先从生活中的数据说起.我们生活中的数据总体分为两种:结构数据和非结构化

MySQL数据库基础知识

day02 MySQL数据库基础知识 一.基础知识概述: 基础决定你这门课程的学习成败!只有学习好这些基础知识以后,你才能真正的运用自如.才能够对数据库有更深入的了解,道路才会越走越远. 二.基础知识: 1.数据库(database):数据库就好比是一个物理的文档柜,一个容器,把我们整理好的数据表等等归纳起来. 创建数据库命令:        create database 数据库名; 2.查看数据库         show databases; 3.打开指定的数据库         use 

linux入门基础知识及简单命令介绍

linux入门基础知识介绍 1.计算机硬件组成介绍 计算机主要由cpu(运算器.控制器),内存,I/O,外部存储等构成. cpu主要是用来对二进制数据进行运算操作,它从内存中取出数据,然后进行相应的运算操作.不能从硬盘中直接取数据. 内存从外部存储中取出数据供cpu运存.内存的最小单位是字节(byte) 备注:由于32的cpu逻辑寻址能力最大为32内存单元.因此32位cpu可以访问的最大内存空间为:4GB,算法如下: 2^32=2^10*2^10*2^10*2^2 =1024*1024*1024