hbase 学习笔记

  1. HBase简介

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具

  1. 主键:Row Key

主键是用来检索记录的主键,访问hbase table中的行,只有三种方式

通过单个row key访问

通过row key的range

全表扫描

  1. 列族:Column Family

列族在创建表的时候声明,一个列族可以包含多个列,列中的数据都是以二进制形式存在,没有数据类型

  1. 时间戳:timestamp

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引

  1. HBASE基础知识

物理存储

Table 在行的方向上分割为多个HRegion,一个region由[startkey,endkey)表示,每个HRegion分散在不同的RegionServer中

架构体系

  1. i.              Client  包含访问hbase 的接口,client 维护着一些cache 来加快对hbase 的访问,比如regione 的位置信息
  2. ii.              Zookeeper
    1. 保证任何时候,集群中只有一个running master
    2. 存贮所有Region 的寻址入口
    3. 实时监控Region Server 的状态,将Region server 的上线和下线信息,实时通知给Master
    4. 存储Hbase 的schema,包括有哪些table,每个table 有哪些column family
    5. iii.              Master 可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行
      1. 为Region server 分配region
      2. 负责region server 的负载均衡
      3. 发现失效的region server 并重新分配其上的region

HBase中有两张特殊的Table,-ROOT-和.META.

-ROOT- :记录了.META.表的Region信息,-ROOT-只有一个region

.META. :记录了用户创建的表的Region信息,.META.可以有多个regoin

Zookeeper中记录了-ROOT-表的location

Client访问用户数据之前需要首先访问zookeeper,然后访问-ROOT-表,接着访问.META.表,最后才能找到用户数据的位置去访问

  1. Region Server

1、维护Master 分配给它的region,处理对这些region 的IO 请求

2、负责切分在运行过程中变得过大的region

可以看出,client 访问hbase 上数据的过程并不需要master 参与,寻址访问先zookeeper再regionserver,数据读写访问regioneserver。HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。

  1. Hbase表存储结构:

 

  1. HBASE Shell的DDL操作

名称


命令表达式


创建表


create ‘表名称‘, ‘列族名称1‘,‘列族名称2‘,‘列族名称N‘


添加记录


put ‘表名称‘, ‘行名称‘, ‘列名称:‘, ‘值‘


查看记录


get ‘表名称‘, ‘行名称‘


查看表中的记录总数


count  ‘表名称‘


删除记录


delete  ‘表名‘ ,‘行名称‘ , ‘列名称‘


删除一张表


先要屏蔽该表,才能对该表进行删除,第一步 disable ‘表名称‘ 第二步  drop ‘表名称‘


查看所有记录


scan "表名称"


查看某个表某个列中所有数据


scan "表名称" , {COLUMNS=>‘列族名称:列名称‘}


更新记录


就是重写一遍进行覆盖

1、  创建表

>create ‘users‘,‘user_id‘,‘address‘,‘info‘

表users,有三个列族user_id,address,info

2、  列出全部表

>list

3、  得到表的描述

>describe ‘users‘

4、  创建表

>create ‘users_tmp‘,‘user_id‘,‘address‘,‘info‘

5、  删除表

>disable ‘users_tmp‘

>drop ‘users_tmp‘

  1. HBASE Shell的DML操作

1、  添加记录

put ‘users‘,‘xiaoming‘,‘info:age‘,‘24‘;

put ‘users‘,‘xiaoming‘,‘info:birthday‘,‘1987-06-17‘;

put ‘users‘,‘xiaoming‘,‘info:company‘,‘alibaba‘;

2、  获取一条记录

1.取得一个id的所有数据

>get ‘users‘,‘xiaoming‘

2.获取一个id,一个列族的所有数据

>get ‘users‘,‘xiaoming‘,‘info‘

3.获取一个id,一个列族中一个列的

所有数据

get ‘users‘,‘xiaoming‘,‘info:age‘

3、  更新记录

>put ‘users‘,‘xiaoming‘,‘info:age‘ ,‘29‘

>get ‘users‘,‘xiaoming‘,‘info:age‘

>put ‘users‘,‘xiaoming‘,‘info:age‘ ,‘30‘

>get ‘users‘,‘xiaoming‘,‘info:age‘

4、  获取单元格数据的版本数据

>get ‘users‘,‘xiaoming‘,{COLUMN=>‘info:age‘,VERSIONS=>1}

>get ‘users‘,‘xiaoming‘,{COLUMN=>‘info:age‘,VERSIONS=>2}

>get ‘users‘,‘xiaoming‘,{COLUMN=>‘info:age‘,VERSIONS=>3}

5、  获取单元格数据的某个版本数据

〉get ‘users‘,‘xiaoming‘,{COLUMN=>‘info:age‘,TIMESTAMP=>1364874937056}

6、  全表扫描

>scan ‘users‘

  1. HBASE的Java_API(一)
11.  import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
import org.jruby.RubyProcess;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

/**
 * Created by Administrator on 2017/3/13.
 */
public class Application {

    private Configuration conf = null;

    @Before
    public void init(){
        conf = HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum", "hadoop4:2181,hadoop5:2181,hadoop6:2181");

    }

    @Test
    public void testDrop() throws IOException {
        HBaseAdmin admin=new HBaseAdmin(conf);
        admin.disableTable("account");
        admin.deleteTable("account");
        admin.close();
    }

    @Test
    public void testPut() throws IOException {
        HTable table=new HTable(conf,"book");
        Put put =new Put(Bytes.toBytes("book0005"));
        put.add(Bytes.toBytes("dock1"),Bytes.toBytes("info"),Bytes.toBytes("liuyan"));
        table.put(put);
        table.close();
    }

    @Test
    public void testGet() throws IOException {
        HTable table =new HTable(conf,"book");
        Get get=new Get(Bytes.toBytes("book0001"));
        get.addColumn(Bytes.toBytes("dock1"),Bytes.toBytes("info"));
        get.addColumn(Bytes.toBytes("dock1"),Bytes.toBytes("isbn"));
        Result result=table.get(get);
        for (KeyValue kv: result.list()) {
            String family =new String( kv.getFamily());
            System.out.print(family);
            String clum=new String(kv.getQualifier());
            System.out.print(clum);
            System.out.print(new String(kv.getValue()));
        }
    }

    @Test
    public void testDel() throws IOException {
        HTable table=new HTable(conf,"book");
        Delete delete=new Delete(Bytes.toBytes("book0001"));
        delete.deleteColumn(Bytes.toBytes("dock1"),Bytes.toBytes("info"));
        table.delete(delete);
        table.close();
    }

    @Test
    public void testScan() throws IOException {
        HTablePool pool=new HTablePool(conf,10);
        HTableInterface hTableInterface=pool.getTable("book");
        Scan scan=new Scan(Bytes.toBytes("book0001"),Bytes.toBytes("book0005"));
        scan.addFamily(Bytes.toBytes("dock1"));
        ResultScanner results= hTableInterface.getScanner(scan);
        for (Result t : results){
            byte[]value=t.getValue(Bytes.toBytes("dock1"),Bytes.toBytes("isbn"));
            System.out.print(new String(value));
        }

    }

    public static void main(String[] args) throws IOException {
        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum", "hadoop4:2181,hadoop5:2181,hadoop6:2181");
        HBaseAdmin admin = null;
        try {
            admin = new HBaseAdmin(conf);
        } catch (IOException e) {
            e.printStackTrace();
        }
        HTableDescriptor td = new HTableDescriptor(TableName.valueOf("htable"));
        HColumnDescriptor cd = new HColumnDescriptor("info");
        cd.setMaxVersions(10);
        td.addFamily(cd);

        admin.createTable(td);

        admin.close();

        // System.out.print("11111111111");
    }

}

时间: 2025-01-18 12:13:56

hbase 学习笔记的相关文章

HBase学习笔记之HFile格式

主要看Roger的文档,这里作为文档的补充 HFile的格式-HFile的基本结构 Trailer通过指针找到Meta index.Data index.File info. Meta index保存每一个元数据在HFile中的位置.大小.元数据的key值. Data index保存每一个数据块在HFile中的位置.大小.块第一个cell的key值. File Info保存HFile相关信息. Meta块保存的是HFile的元数据,比如布隆过滤器. Data块保存的为具体的数据,每个数据块有个M

Hbase学习笔记之一 | Hbase Shell命令篇

最近在XX项目的测试过程中,接触到一些HBase的东西,希望能站在测试的角度,把过程记录下来,期望对快速了解它有点帮助.作为一个初次接触它的人来说,需要迫切掌握其中基本的概念,这里就不赘述了. HBase Shell是HBase提供的便捷的访问方式,首先你需要搭建HBase的环境,可以参考 http://hbase.apache.org/book/quickstart.html 和http://hbase.apache.org/book/notsoquick.html. 1.进入Hbase Sh

Hbase学习笔记01

最近做项目接触到了HDFS.mapreduce以及Hbase,有了实战机会,今天打算将这些知识好好总结下,以备不时之需.首先从Hbase开始吧. Hbase是建立在HDFS上的分布式数据库,下图是Hbase表的模型: Hbase这个数据库其实和传统关系数据库还是有很多类似之处,而不是像mongodb,memcached以及redis完全脱离了表的概念,只不过hbase是以列为中心的数据库,而传统关系数据库则是以行为中心的数据库.不过hbase这个列并非我们传统意义的列,而是列族.列族是hbase

hbase学习笔记1——脚本简单总结

最近学习了hbase的相关知识,也看了一下hbase的bin/目录下的脚本,很多脚本细节并不理解,大致的轮廓有个了解,做一下学习总结: ."$bin"/hbase-config.sh 调用脚本hbase-config.sh 装载相关环境变量,hbase-config.sh脚本同时调用了conf/hbase-env.sh脚本. 接下来脚本通过判断是否为分布式模式来启动不同的服务(同时调用了脚本hbase) distMode=`$bin/hbase--config "$HBASE

[原创]HBase学习笔记(1)-安装和部署

HBase安装和部署 使用的HBase版本是1.2.4 1.安装步骤(默认hdfs已安装好) # 下载并解压安装包 cd tools/ tar -zxf hbase-1.2.4-bin.tar.gz   # 重命名为hbase mv hbase-1.2.4 hbase # 将hadoop目录下的hdfs-site.xml 和 core-stie.xml拷贝到 hbase下的conf 目录中 cd /home/work/tools/hbase/conf cp /home/work/tools/ha

HBase学习笔记

关键类: HBaseAdmin 管理Hbase的,主要负责DDL操作 HTable 管理表中数据,主要负责DML操作 1.为了避免热点,更多的建表方法 在Shell中: create 'tb_splits',{NAME=>'cf',VERSION=>3},{SPLITS=>['a','b','c']} --直接创建多个region的table,每个region的startkey和endkey由参数依次指定,第一个region没有开始startkey,最后一个没有endkey --rowk

Hbase 学习笔记4----原理

MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中? Mapper类:包括一个内部类(Context)和四个方法(setup,map,cleanup,run):           setup,cleanup用于管理Mapper生命周期中的资源.setup -> map -> cleanup , run方法执行了这个过程:           map方法用于对一次输入的key/value对进行map动作,对应HBase操作也就是一行的

HBase学习笔记(一)

HBase版本:0.97 1.Get Gets实在Scan的基础上实现的. 2.联合查询(Join) HBase是否支持联合是一个网上常问问题.简单来说 : 不支持.至少不像传统RDBMS那样支持. 但并不表示等价联合不能在应用程序中支持,只是必须自己做. 两种方法,要么指示要写到HBase的数据,要么查询表并在应用或MapReduce代码中做联合. 3.列族 一个表存在多列族,注意基数(如, 行数). 如果列族A有100万行,列族B有10亿行,列族A可能被分散到很多很多区(及区服务器).这导致

Hbase学习笔记(安装和基础知识及操作)

1.Hbase简介 1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5. sqoop提供Hbase到关系型数据库中数据导入功能 6. Hive和pig提供高层语言支持如HSQL 2. 伪分布式安装 准备: 安装Hadoop 详细见上一篇日志: hadoop分布式安装 hbase版本: hbase-0.94.7-security.tar.gz 安装目录 /usr/local 步骤: 1.  安装