HBase集群部署

　　HBase是分布式、面向列式存储的开源数据库，来源于Google的论文BigTable，HBase运行于Hadoop平台之上，不同于一般的关系数据库，是一个适合非结构化数据存储的分布式数据库

　　安装Hbase之前首先系统应该做通用的集群环境准备工作，这些是必须的：

　　1、集群中主机名必须正确配置，最好有实际意义；并且主机名都在hosts文件中对应主机IP，一一对应，不可缺少

　　这里是3台主机，分别对应

　　2、JDK环境正确安装

　　3、集群中每台机器关闭防火墙，保证通信畅通

　　4、配置集群间ssh免密登录

　　5、集群ntp服务开启，保证时间同步

　　6、Hadoop HDFS服务开启

　　前面5步都配置好的基础上，首先配置Hadoop集群，在bigdata1上做配置操作

　　首先解压hadoop，并安装至指定目录：

tar -xvzf hadoop-2.6.0.tar.gz
mkdir /bigdata/hadoop
mv hadoop-2.6.0 /bigdata/hadoop
cd /bigdata/hadoop/hadoop-2.6.0

　　就是简单的释放，然后为了方便可以将HADOOP_HOME添加至环境变量

　　配置hadoop需要编辑以下几个配置文件：

　　hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml slaves

　　1、编辑hadoop-env.sh

　　修改export JAVA_HOME=${JAVA_HOME}为自己的实际安装位置

　　这里是export JAVA_HOME=/usr/local/java/jdk1.8.0_73

　　 2、编辑core-site.xml，在configuration标签中间添加如下代码：

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://bigdata1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/bigdata/hadoop/tmp</value>
    </property>

　　其中bigdata1是namenode节点

　　3、编辑hdfs-site.xml ，添加如下代码：

    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///bigdata/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///bigdata/hadoop/hdfs/data</value>
    </property>
    <!-- 这个地方是为Hbase的专用配置，最小为4096，表示同时处理文件的上限，不配置会报错 -->
    <property>
        <name>dfs.datanode.max.xcievers</name>
        <value>4096</value>
    </property>

　　关于第4组配置已经注释说明了

　　4、编辑mapred-site.xml，添加如下配置：

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

　　5、编辑yarn-site.xml，添加如下配置：

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

　　6、编辑slaves，添加datanode节点

bigdata2
bigdata3

　　这些都保存完毕，将/bigdata/下的hadoop目录整体发送至集群中其他主机，其他主机应该事先建立好bigdata目录

scp -r /bigdata/hadoop bigdata2:/bigdata
scp -r /bigdata/hadoop bigdata3:/bigdata

　　然后在bigdata1上格式化文件系统：

bin/hdfs namenode -format

　　然后启动hdfs服务：

sbin/start-dfs.sh

　　启动完成之后，执行 jps 命令，在主节点可以看到NameNode和SecondaryNameNode进程；其他节点可以看到DataNode进程

　　然后启动yarn守护进程： sbin/start-yarn.sh

　　主节点会增加：ResourceManager进程，其他节点会增加：NodeManager进程

　　现在通过浏览器可以打开相应的管理界面，以bigdata1的IP访问：

　　http://192.168.0.187:50070

　　http://192.168.0.187:8088

　　到这里hadoop hdfs就部署完成了，然后开始部署HBase，这里使用的版本为：hbase-0.98.18-hadoop2-bin.tar.gz

　　和释放hadoop包一样将hbase释放到对应的目录并进入，这里是：/bigdata/hbase/hbase-0.98.18-hadoop2

　　首先编辑配置文件： vim conf/hbase-env.sh

　　去掉JAVA_HOME前面的注释，改为自己实际的JDK安装路径，和配置hadoop类似

　　然后，去掉export HBASE_MANAGES_ZK=true前面的注释并改为export HBASE_MANAGES_ZK=false，配置不让HBase管理Zookeeper

　　配置完这两项之后，保存退出

　　编辑文件 vim conf/hbase-site.xml 在configuration标签之间加入如下配置：

    <!-- 指定HBase在HDFS上面创建的目录名hbase -->
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://bigdata1:9000/hbase</value>
    </property>
    <!-- 开启集群运行方式 -->
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>

　　分别将hadoop配置下的core-site.xml和hdfs-site.xml复制或者做软链接到hbase配置目录下：

cp /bigdata/hadoop/hadoop-2.6.0/etc/hadoop/core-site.xml conf/
cp /bigdata/hadoop/hadoop-2.6.0/etc/hadoop/hdfs-site.xml conf/

　　执行 vim conf/regionservers 编辑运行regionserver存储服务的Hbase节点，就相当于hadoop slaves中的DataNode节点

　　保存之后，配置完毕，将hbase发送至其他数据节点：

scp -r /bigdata/hbase/ bigdata2:/bigdata/
scp -r /bigdata/hbase/ bigdata3:/bigdata/

　　然后在bigdata1启动Hbase

bin/start-hbase.sh

　　启动成功，在bigdata1会增加进程：HMaster 在bigdata2和bigdata3会增加进程：HRegionServer

　　到这里HBase就部署完毕，这里没有包含Zookeeper

　　执行命令： /bigdata/hadoop/hadoop-2.6.0/bin/hdfs dfs -ls / 可以查看hbase是否在HDFS文件系统创建成功

　　看到/hbase节点表示创建成功

　　然后执行： bin/hbase shell 可以进入Hbase管理界面

　　输入 status 查看状态

　　返回状态，表示HBase可以正常使用

　　输入 quit 可以退出管理，回到命令行

时间： 2024-10-11 06:49:36

HBase集群部署的相关文章

hbase 集群部署

Hhase 集群部署使用的软件 hadoop-2.7.4 hbase-1.2.6 jdk-8u144 zookeeper-3.4.10 Hbase 自带的有zookeeper,在这里使用自己部署的zookeeper zookeeper 集群部署安装jdk 下载zookeeper 程序修改zoo.cfg tickTime=2000 initLimit=10 syncLimit=5 dataLogDir=/zookeeper/logs dataDir=/zookeeper/data clien

hbase集群部署与测试（2017）

部署hbase的集群首先我们要需要一个hadoop集群.至少要有一个hdfs的集群和zookeeper集群用HA集群的可用性号,由于做实验,没必要这么多集群,那么就不用HA集群第一步看一下hdfs是否正常启动hdfsstart-dfs.sh启动zookeeper看是否正常(每台机器上都手动启动zookeeper)./zkServer.sh start检查zookeeper的工作状态./zkServer.sh status我们可以输入hdfs dfsadmin -report 来查看集群的工作信息

HBase集成Zookeeper集群部署

大数据集群为了保证故障转移,一般通过zookeeper来整体协调管理,当节点数大于等于6个时推荐使用,接下来描述一下Hbase集群部署在zookeeper上的过程: 安装Hbase之前首先系统应该做通用的集群环境准备工作,这些是必须的: 1.集群中主机名必须正确配置,最好有实际意义:并且主机名都在hosts文件中对应主机IP,一一对应,不可缺少这里集群有6台服务器:bigdata1,bigdata2,bigdata3,bigdata4,bigdata5,bigdata6 这里是3台主机,分别对

Hadoop及Zookeeper+HBase完全分布式集群部署

Hadoop及HBase集群部署一. 集群环境系统版本虚拟机:内存 16G CPU 双核心系统: CentOS-7 64位系统下载地址: http://124.202.164.6/files/417500000AB646E7/mirrors.163.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso 软件版本 hadoop-2.8.1.tar.gz hbase-1.3.1-bin.tar.gz zookeeper-3.4.10.t

ZooKeeper分布式集群部署及问题

ZooKeeper为分布式应用系统提供了高性能服务,在许多常见的集群服务中被广泛使用,最常见的当属HBase集群了,其他的还有Solr集群.Hadoop-2中的HA自己主动故障转移等. 本文主要介绍了为HBase集群部署ZooKeeper集群的过程.并说明了部署过程中遇到的问题. 默认情况下,由HBase管理ZooKeeper的启动和停止.要想改动这一默认行为,须要将hbase-env.sh中的export HBASE_MANAGES_ZK=true改为export HBASE_MANAGES_

Kubernetes+Flannel 环境中部署HBase集群

注:目前方案不满足加入新节点(master节点或regionserver节点)而不更改已运行节点的参数的需求,具体讨论见第六部分. 一.背景知识先看下HBase的组成: Master:Master主要负责管理RegionServer集群,如负载均衡及资源分配等,它本身也可以以集群方式运行,但同一时刻只有一个master处于激活状态.当工作中的master宕掉后,zookeeper会切换到其它备选的master上. RegionServer:负责具体数据块的读写操作. ZooKeeper:负责集

集群部署

一. 软件版本信息.......................................................................................................... 1 二. 集群分布信息.......................................................................................................... 2 三. 虚拟机固定ip....

_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0

博文作者:妳那伊抹微笑博客地址:http://blog.csdn.net/u012185296 博文标题:_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术转载声明:可以转载, 但必须以超链接形式标明文章

Spark概述及集群部署

Spark概述什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基