Hadoop中Hbase的体系结构

HRegion

当一张表中的数据特别多的时候，HBase把表拆成多个块，每个块就是一个HRegion，每个region中包含这个表里的所有行

HRegionServer

数据库的数据存在HDFS文件系统中，用户通过HRegionServer来获取数据，一台机器上一般只能运行一个HRegionServer，一个HRegion只能属于一个HRegionServer。

一个Server中有一个HLOG和多个HRegion组成，HLOG用来恢复数据。数据保存跟新时采用先写HLOG的方式。每个HRegion中有一个MemStore和多个StoreFile。数据操作时先缓存在MemStore中，当MemStore超过限制才会刷新到StoreFile中。数据的更新不直接更新采用追加的方式，当StoreFile数量达到最大限制会触发合并操作，这时才会做更新和删除。

HMaster

管理HRegionServer，给HRegionServer分配Region，并根据HRegionServer的加入和故障情况动态调整Region

ZooKeeper

负责监控各个机器的状态，当HRegionServer发生了故障，会通知HMaster去处理。当HMaster故障时，也负责HMaster的恢复工作。

时间： 2024-08-05 15:24:36

Hadoop中Hbase的体系结构的相关文章

hadoop中hbase出现的问题

在安装hbase中出现问题如下: ERROR: Can't get master address from ZooKeeper; znode data == null 解决办法: 1.删除namenode目录中/data/hadoop/tmp/dfs/namesecondary/current的文件 2.为了保险重新格式化了namenode 3.重新启动hadoop 及hbase 运行问题解决!

HBase 是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行,另外一方面里用了BigTable的高效数据组织形式.可以说HBase为海量数据的real-time相应提供了很好的一个开源解决方案. HBase提供了一个类似于mysql等关系型数据库的hbase shell,通过该hbase shell可以对HBase的内的相关表.列族等进行操作:HBase s

Hadoop集群中Hbase的介绍、安装、使用

导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase简介 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统:Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce

Hadoop与HBase中遇到的问题

1. Hadoop中遇到的问题以前所遇到的问题由于没有记录,所以忘了 (1)NameNode没有启动成功, 是由于你对HDFS多次格式化,导致datanode中与namenode中的VERSION文件中的namespaceID不一致(对于NameNode节点,该文件位于hdfs-site配置文件中dfs.name.dir参数所指定的路径下的current文件夹中, 对于DataNode节点, 该文件位于hdfs-site配置文件中dfs.data.dir参数所指定的路径下的current文件夹

Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常

在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常: java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 201311195100000000000000010000000000001600 at org.apache.hadoop.hbase.regionserv

[转载] 详细讲解Hadoop中的简单数据库HBase

转载自http://www.csdn.net/article/2010-11-28/282614 数据模型 HBase数据库使用了和Bigtable非常相似的数据模型.用户在表格里存储许多数据行.每个数据行都包括一个可排序的关键字,和任意数目的列.表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只要用户喜欢这样做. 列名是“<族名>:<标签>”形式,其中<族名>和<标签>可以是任意字符串.一个表格的<族名>集合(又叫“列族”集合)是固定的,

ZooKeeper原理及其在Hadoop和HBase中的应用

简介 ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现.分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅.负载均衡.命名服务.分布式协调/通知.集群管理.Master选举.分布式锁和分布式队列等功能. 基本概念本节将介绍ZooKeeper的几个核心概念.这些概念贯穿于之后对ZooKeeper更深入的讲解,因此有必要预先了解这些概念. 集群角色在ZooKeeper中,有三种角色: Leader Follower Observer 一

什么是Zookeeper，Zookeeper的作用是什么，在Hadoop及hbase中具体作用是什么

什么是Zookeeper,Zookeeper的作用是什么,它与NameNode及HMaster如何协作?在没有接触Zookeeper的同学,或许会有这些疑问.这里给大家总结一下. 一.什么是Zookeeper ZooKeeper 顾名思义动物园管理员,他是拿来管大象(Hadoop) . 蜜蜂(Hive) . 小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper.ZooKeeper是一个分

计算下微软Windows Azure HDInsight中Hadoop和HBase的成本和省钱秘籍

计算下微软Windows Azure HDInsight中Hadoop和HBase的成本和省钱秘籍计算: 以一个最简单Hadoop集群来计算,需要两个头节点(Namenode)和两个数据节点(Datanode)以及3个Zookeeper结点,这样算下来每小时要5.44+2.72*2+0*3=10.88RMB,每天需要10.88*24=261.12RMB,每个月需要261.12*30=7833.6RMB,这是最低配置! 如果我们还需要HBase,那么最低配置7833.6+(5.44+2.72*2