HBase 简介

本博文的主要内容有:

  .为什么要引入列族?

  .COLUMN和COLUMNS的区别

  .HBase的索引有哪些?

  .表、列族、列标识、行键、单元格、版本号、逻辑视图、物理视图、客户端视图

    .HBase架构中主要的组件

    .HBase具有的特点

  和传统数据库不同的是,HBase的表不用定义有哪些列(字段,Column),因为列是可以动态增加和删除的。但HBase表需要定义列族(Column Family)。每张表有一个或者多列族,每个列必须且仅属于一个列族。列族主要用来在存储上对相关的列分组,从而使得减少对无关列的访问来提高性能。一般来说,一个列族就足够使用了。

  HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。HBase利用Hadoop MapReduce来处理HBase中的海量数据,同时利用Zookeeper作为其协同服务。

  为什么要引入列族?

  答:列族主要用来在存储上对相关的列分组,从而使得减少对无关列的访问来提高性能。

  COLUMN和COLUMNS的区别:

  答:scan操作中的COLUMNS指定的是表的列族,get操作中的COLUMN指定的是特定的列,COLUMN的值实质上为“列族+:+列修饰符”。

  HBase的索引有哪些?

  答:HBase是一个类似BigTable的分布式数据库,它是一个稀疏的长期存储的(在硬盘上)、多维度的、排序的映射表。这张表的索引是行关键字、列关键字和时间戳。HBase中的数据都是字符串,没有类型。

  .HBase架构中主要的组件?

    .Zookeeper

    .管理目录表的主节点

    .分区(Region)服务器

      Memstore

      WAL

      快缓存

    .分区

      Memstore

      HFile

    .0个或多个文件:分区表示表中一个列族的文件集合

    .布隆过滤

  HBase具有的特点?

  答:线性和模块化可扩展性

    严格一致的读取和写入

    表的自动配置和分片

    支持RegionServers之间的自动故障转移

    方便的基类支持Hadoop的MapReduce作业与Apache HBase的表

    易于使用的Java API的客户端访问

    块缓存和布鲁姆过滤器实时查询

    Thrift网关和REST-FUL Web服务支持XML、protobuf和二进制的数据编码选项

    可扩展的基于JRuby(JIRB)的脚本

    支持监控信息通过Hadoop子系统导出到文件或Ganglia

时间: 2024-10-25 21:06:56

HBase 简介的相关文章

Phoenix(sql on hbase)简介

Phoenix(sql on hbase)简介 介绍: Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Phoenix takes your SQL query, compiles it into a series of HBase scans, and orchestrates the runnin

1.Hbase简介

1. Hbase简介 1.1. 什么是hbase(面向列) HBASE是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模 结构化存储集群. HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成 的大型数据. HBASE是Google Bigtable的开源实现,但是也有很多不同之处.比如:Google Bigtable利用GFS作为其文件存储系统, HBASE利用Hadoop

HBase 系列(一)—— HBase 简介

一.Hadoop的局限 HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统. 要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化.半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都做了优化,同时也通过多副本解决了容灾问题. 但是 Hadoop 的缺陷在于它只能执行批处理,并且只能以顺序方式访问数据,这意味着即使是最简单的工作,也必须搜索

HBase简介

实验简介 我们本节课程将要讲述以下内容: HBase的概述及历史 HBase的数据模型 HBase的系统架构 一.HBase概述 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务,可以存储海量稀疏的数据,并具备一定的容错性.高可靠性及伸缩性.主要应用场景是实时随机读写超大规模的数据. H

Hbase 简介(转)

一. 简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First useable Hbase 2008.1 Hadoop become Apache top-level project and Hbase becomes subproject 2008.10 H

HBase简介(很好的梳理资料)

HBase HBaseHadoop网络应用数据结构NoSQL 一. 简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First useable Hbase 2008.1 Hadoop become Apache top-level project and Hba

面向列的分布式数据库Hbase简介

Hbase 是一个面向列的分布式数据库.Hbase不是一个关系型数据库,其设计目标是用来解决关系型数据库在海量数据处理中理论和实现的不足和局限.传统的关系型数据库上世纪七八十年代为交易系统建立 ,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时的拓展性,和单点系统失效时的可靠性.虽然经过技术的发展,实现了对关系数据库的弥补(并行数据库),但由于理论和实现的约束,拓展从来没超过40个节点的服务器.而Hbase从一开始就为TB和PB级别的海量数据的高速存储而设计,这要求数据能够被分配在数

HBase简介及集群安装

一.Hbase概述 Apache HBase?是Hadoop数据库,是一个分布式,可扩展的大数据存储. 当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase?.该项目的目标是托 管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上.Apache HBase是一个开源的,分布式 的,版本化的非关系数据库,模仿Google的Bigtable: Chang等人的结构化数据分布式存储系 统.正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HB

Hbase(2)-HBase简介

一. HBase的特点 1. 海量存储 Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据.这与Hbase的极易扩展性息息相关.正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利. 2. 列式存储 这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的.列族下面可以有非常多的列,列族在创建表的时候就必须指定. HBase的面向列存储,有利于分析 MySQL关系型数据库,面向行存储,有利于查询 3. 易扩展 Hbas