hadoop-2.7.1+zookeeper-3.4.8+hbase-1.2.1+apache-hive-2.0.0完全分布式集群

网上有的hadoop，zookeeper，hbase，apache-hive相关文档，具体大家可以百度具体了解，本文不多做介绍，本文从最基本的环境搭建入手，纯环境搭建。

搭建次环境唯一要考虑就是软件相互之间的兼容性，及服务器内存（最好大点，虚拟机2G以上），当然也可以通过调启动参数，调小启动内存大小。具体文章会适当介绍。

一、环境准备

1.查看系统版本

cat /etc/issue

CentOS release 6.8 (Final)

2.软件准备

软件自行官网下载，但自己要统一规划方便后面操作，本文软件源目录/usr/local/src

安装目录/usr/local

赋权限，以备后续步骤安装软件[安装包都在/usr/local/src]

chown hadoop.hadoop /usr/local/src –R

3.配置主机名和hosts

三台机器（内存大于2G）分别写hosts、设定hostname

192.168.100.11 mylab1 ----master

192.168.100.12 mylab2 ----slave1

192.168.100.13 mylab3 -----slave2

4.关闭selinux

临时关闭：

[[email protected] ~]# getenforce

Enforcing

[[email protected] ~]# setenforce 0

[[email protected] ~]# getenforce

Permissive

永久关闭selinux：

vim /etc/selinux/config

修改SELINUX=enforcing为SELINUX=disabled

5.关闭防火墙iptables

service iptables stop或/etc/init.d/iptables stop

chkconfig iptables off

6.所有机器同步时间

ntpdate time.windows.com

注：一定要做，集群对时间要求高，不然后面启动会报错，也可以自己搭建ntp服务器（正常线上肯定是要其中一台搭建时间服务器来同步时间的）

7.创建hadoop用户

Hadoop为了安装使用普通用户登录

useradd hadoop

echo "hadoop"|passwd --stdin hadoop

增加权限：

visudo

hadoop ALL=(ALL) ALL

8.切换hadoop用户

su - hadoop

9.配置SSH无密码登陆

master可以通过密钥登陆本机和两台slave

master上生成密钥对：

执行ssh-keygen 命令后一直回车

[[email protected] ~]$ ssh-keygen

生成.ssh目录

ls .ssh/

id_rsa id_rsa.pub

复制~/.ssh/id_rsa.pub 内容到本机和两台slave的 ~/.ssh/authorized_keys

设置本机和两台slave机器上的~/.ssh/authorized_keys文件权限为600

chmod 600 ~/.ssh/authorized_keys

cp id_rsa.pub authorized_keys

scp ~/.ssh/authorized_keys [email protected]:/home/hadoop/.ssh/

测试：

在master上执行

ssh master

ssh slave1

ssh slave2

可以直接登陆，即实现master免密码登录slave1，slave2

10.创建备用目录

mkdir -pv /usr/local/storage/zookeeper/{data,logs} #创建zookeeper数据目录和日志目录

11.同步：

由于所有软件，配置文件，环境配置基本相同，所有本文所有操作都可以在一台服务器上操作执行，之后通过rsync，或scp等同步工具，同步到其他服务器，可避免重复性操作，切记，切记，切记

例如：rsync –av /usr/local/storage/ mylab2:/usr/local

二、部署应用

1.安装JAVA环境

先除已有jdk（如果有）　rpm　－e　jdk（之前版本）

安装jdk

rpm -ivh jdk-7u79-linux-x64.rpm

修改环境变量：vim /home/hadoop/.bashrc

JAVA_HOME=/usr/java/jdk1.7.0_79

JRE_HOME=/usr/java/jdk1.7.0_79/jre

PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

export JAVA_HOME JRE_HOME PATH CLASSPAT

使环境变量生效：

source /home/hadoop/.bashrc

验证jdk安装成功

java -version 版本显示为安装版本即正常

#注：所有服务器都要安装jdk

2.安装hadoop2.7

把hadoop安装包解压到每一个节点（可以解压到一个节点，然后完成后续第2步的配置后，再scp拷贝到其余节点）的固定目录下

1.1解压hadoop，并修改用户及用户组为hadoop

cd /usr/local/src/

tar xf hadoop-2.7.1.tar.gz

chown -R hadoop.hadoop hadoop-2.7.1

mv hadoop-2.7.1 　／usr／local/hadoop

1.2执行一下命令检查hadoop是否可用

cd /usr/local/hadoop

./bin/hadoop version

查看是否显示hadoop版本信息

Hadoop 2.7.1 显示即正常，否则软件包有问题重新下载。

cd /usr/local/hadoop

mkdir tmp dfs dfs/data dfs/name

1.4、设置Hadoop环境变量

vim /home/hadoop/.bashrc

JAVA_HOME=/usr/java/jdk1.7.0_79

JRE_HOME=/usr/java/jdk1.7.0_79/jre

PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

export JAVA_HOME JRE_HOME PATH CLASSPAT

export HADOOP_HOME=/usr/local/hadoop

export HIVE_HOME=/usr/local/hive

export HBASE_HOME=/usr/local/hbase

export ZOOKEEPER=/usr/local/zookeeper

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ZOOKEEPER/bin使环境变量生效

source ~/.bashrc

同步至其他服务器：

例如：

rsync –av /home/hadoop/.bashrc mylab2:/home/hadoop/

1.4、配置文件修改：

集群/分布式模式需要修改 /usr/local/hadoop/etc/hadoop 中的5个配置文件，更多设置项可点击查看官方说明，这里仅设置了正常启动所必须的设置项： slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

1.1、core-site.xml

master上 vim /usr/local/hadoop/etc/hadoop/core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.proxyuser.hduser.hosts</name>

</property>

<name>hadoop.proxyuser.hduser.groups</name>

</property>

<name>ha.zookeeper.quorum</name>

<value>mylab1:2181,mylab2:2181,mylab3:2181</value>

</property>

</configuration>

1.2、hdfs-site.xml

dfs.replication 一般设为 3，但我们只有2个 Slave 节点，所以 dfs.replication 的值还是设为 2

master上 vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>ha.zookeeper.quorum</name>

<value>mylab1:2181,mylab2:2181,mylab3:2181</value>

</property>

</configuration>

1.3、mapred-site.xml

需要先重命名，默认文件名为 mapred-site.xml.template

master上 vi /usr/local/hadoop/etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

1.4、yarn-site.xml

master上 vi /usr/local/hadoop/etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.admin.address</name>

</property>

<name>yarn.resourcemanager.webapp.address</name>

</property>

<name>ha.zookeeper.quorum</name>

<value>mylab1:2181,mylab2:2181,mylab3:2181</value>

</property>

<name>yarn.resourcemanager.zk-state-store.address</name>

<value>mylab1:2181,mylab2:2181,mylab3:2181</value>

</property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<value>mylab1:2181,mylab2:2181,mylab3:2181</value>

</property>

</configuration>

1.5、 slaves

文件 slaves，将作为 DataNode 的主机名写入该文件，每行一个，默认为 localhost，所以在伪分布式配置时，节点即作为 NameNode 也作为 DataNode。分布式配置可以保留 localhost，也可以删掉，让 Master 节点仅作为 NameNode 使用。

本教程让 Master 节点仅作为 NameNode 使用，因此将文件中原来的 localhost 删除，添加如下内容ip或数据节点主机名即可：

192.168.100.12 ---slave1

192.168.100.13 ----slave2

1.5、同步

rsync av /usr/local/hadoop mylab2:/usr/local/

rsync av /usr/local/hadoop mylab3:/usr/local/

3、Zookeeper集群部署

zookeeper集群搭建要至少3台服务器，所以三台服务器都要部署zookeeper；安装在hadoop用户上

tar xf zookeeper-3.4.6.tar.gz -C /usr/local/

mv /usr/local/zookeeper-3.4.6/ /usr/local/zookeeper

cp zoo_sample.cfg zoo.cfg

编辑配置文件

vim zoo.cfg

tickTime=2000

initLimit=5

syncLimit=2

#dataDir=/tmp/zookeeper

dataDir=/usr/local/storage/zookeeper/data

dataLogDir=/usr/local/storage/zookeeper/logs

clientPort=2181

server.1=mylab1:2888:3888

server.2=mylab2:2888:3888

server.3=mylab3:2888:3888

创建zookeeper的数据文件和日志存放目录

mkdir /usr/local/storage/zookeeper/data /usr/local/storage/zookeeper/logs

在三台zookeeper的/usr/local/storage/zookeeper/data目录下分别编辑myid

echo 1 > /usr/local/storage/zookeeper/data/myid

echo 2 > /usr/local/storage/zookeeper/data/myid

echo 3 > /usr/local/storage/zookeeper/data/myid

同步到其他hadoop节点

scp -r /usr/local/zookeeper mylab2:/usr/local/

4、部署hbase

tar xf hbase-1.2.1-bin.tar.gz

配置文件修改

regionservers 文件

mylab1

mylab2

mylab3

编辑修改hbase-site.xml文件

<name>hbase.rootdir</name>

<value>hdfs://192.168.100.11:8020/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.tmp.dir</name>

<value>/usr/loca/storage/hbase</value>

</property>

<name>hbase.zookeeper.quorum</name>

<value>mylab1,mylab2,mylab3</value>

</property>

<name>hbase.zookeeper.property.clientPort</name>

</property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/usr/local/storage/zookeeper/data</value>

</property>

</configuration>

禁用hbase自带的zookeeper

vi /usr/local/hbase/conf/hbase-env.sh

export HBASE_MANAGES_ZK=false

创建hbase-site.xml配置文件中的hbase目录

mkdir /usr/loca/storage/hbase

同步软件到其他节点

rsync av /usr/local/hbase mylab2:/usr/local/

5、部署hive

cp hive-env.sh.template hive-env.sh

cp hive-site.xml.template hive-site.xml

编辑配置文件

vim hive-site.xml

<name>hive.metastore.warehouse.dir</name>

<value>hdfs://192.168.100.11:9000/user/hive/warehouse</value>

</property>

<name>datanucleus.readOnlyDatastore</name>

<value>false</value>

</property>

<name>datanucleus.fixedDatastore</name>

<value>false</value>

</property>

<name>datanucleus.autoCreateSchema</name>

</property>

<name>datanucleus.autoCreateTables</name>

</property>

<name>datanucleus.autoCreateColumns</name>

</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://192.168.100.11:3306/hive?createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

</property>

<name>hive.metastore.uris</name>

<value>thrift://192.168.100.11:9083</value>

</property>

<name>hive.zookeeper.quorum</name>

<value>mylab1,mylab2,mylab3</value>

</property>

</configuration>

添加mysql驱动

cp /usr/local/src/mysql-connector-java-5.1.38-bin.jar /usr/local/hive/lib/

添加hive web页面的war包

下载hive源码包，apache-hive-2.0.0-src.tar.gz解压进入hwi/web

jar cvf hive-hwi-2.0.0.war ./*

cp hive-hwi-2.0.0.war /usr/local/hive/lib/

从hbase/lib下复制必要jar包到hive/lib下

cp /usr/local/hbase/lib/hbase-client-1.2.1.jar /usr/local/hbase/lib/hbase-common-1.2.1.jar /usr/local/hive/lib

同步hive和hadoop的jline版本

cp /usr/local/hive/lib/jline-2.12.jar /usr/local/hadoop/share/hadoop/yarn/lib

查看版本

cd /home/hadoop/hadoop/share/hadoop/yarn/lib

find ./ -name "*jline*jar"

删除低版本的jline 0.9

rm jline-0.9.94.jar

复制jdk的tools.jar到hive/lib下

cp $JAVA_HOME/lib/tools.jar /usr/local/hive/lib

6、部署mysql

下载集成包解压，安装mysql

MySQL-5.6.33-1.linux_glibc2.5.x86_64.rpm-bundle.tar

配置MySQL登录密码

cat /root/.mysql_secret

#获取MySQL安装时生成的随机密码aHoUaEJFav0X7hlG

service mysql start

#启动MySQL服务

mysql -uroot -paHoUaEJFav0X7hlG

#进入MySQL，使用之前获取的随机密码

SET PASSWORD FOR ‘root‘@‘localhost‘ = PASSWORD(‘123456‘);

#在MySQL命令行中设置root账户的密码为123456

创建hive用户，密码hive

CREATE USER hive IDENTIFIED BY ‘hive‘;

GRANT ALL PRIVILEGES ON *.* TO ‘hive‘@‘%‘ WITH GRANT OPTION;

或：GRANT ALL PRIVILEGES ON *.* TO ‘hive‘@‘%‘IDENTIFIED BY ‘hive‘ WITH GRANT OPTION;

flush privileges;

用创建的hive用户登录mysql并创建hive库

mysql -uhive -phive

create database hive;

#注：此处我的mysql是在主节点部署的

7、启动

Hadoop集群首次启动过程

1.启动zookeeper

如果zookeeper集群还没有启动的话, 首先把各个zookeeper起来。

/home/hadoop/zookeeper/bin/zkServer.sh start (记住所有的zookeeper机器都要启动)

/home/hadoop/zookeeper/bin/zkServer.sh status （1个leader,2个follower）

输入jps，会显示启动进程：QuorumPeerMain

2、启动hadoop

首次启动需要先在 Master 节点执行 NameNode 的格式化：

/usr/local/hadoop/bin/hdfs namenode -format

显示无报错即为正常

在master上操作即可，两个slave会自动启动

启动服务

/usr/local/hadoop/sbin/start-all.sh

停止服务

/usr/local/hadoop/sbin/stop-all.sh

浏览器访问：

http://192.168.100.11:8088/

http://192.168.100.11:50070

3、启动hbase

主master节点安装目录下

/bin/start-hbase.sh

验证安装成功

hbase shell

list

查看进程为：HRegionServer

4.启动hive

先在hdfs上创建好hive存储数据的目录

/bin/hadoop fs -mkdir /tmp

/bin/hadoop fs -mkdir -p /user/hive/warehouse

/bin/hadoop fs -chmod g+w /tmp

/bin/hadoop fs -chmod g+w /user/hive/warehouse

hive 远程服务 (端口号10000) 启动方式[metastore和hiveserver2在同一台上启动即可]

nohup /usr/local/hive/bin/hive --service metastore &> metastore.log &

nohup /usr/local/hive/bin/hive --service hiveserver2 &> hiveserver2.log &

hive 命令行模式

/home/hadoop/hive/bin/hive

或者输入

hive --service cli

查看进程为：2个RunJar

#注：可以在任意一台服务器上启动hive，都可以。

8、查看启动进程

通过命令 jps 可以查看各个节点所启动的进程。正确的话，在 Master 节点上可以看到 NameNode、ResourceManager、SecondrryNameNode进程

Jps

Master上：

22806 RunJar

22350 HRegionServer

18905 NameNode

22644 RunJar

19346 ResourceManager

19069 SecondaryNameNode

18557 QuorumPeerMain

在 Slave 节点可以看到 DataNode 和 NodeManager 进程

Slave上：

30086 RunJar

28962 DataNode

29834 HRegionServer

30245 RunJar

28868 QuorumPeerMain

29075 NodeManager

程序启动成功后可以在任意一台启动hive

可以在启动MR-JobHistory服务，

sbin/mr-jobhistory-daemon.sh start historyserver

Hadoop2 MR-JobHistory服务介绍

1）MR-JobHistory服务目标

主要是向用户提供历史的mapred Job 查询

详细解释：

a）在运行MR Job时，MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置，将MR Job的job history信息保存到指定的hdfs路径（首先保存到临时目录，然后mv到最终目录）

b）如果在yarn-site.xml中，没有配置nodemanage的LogAggregation功能，则historyserver无法提供mr日志明细查询的功能（在提交mr job时，yarn和mapred的配置都是必须的）

c）historyserver向外提供两个接口，web接口可以提供jobhistory和明细日志查询的功能，而restApi只提供jobhistory查询的功能

9、测试

hdfs dfs -copyFromLocal ./LICENSE.txt /123

hdfs dfs -ls /123

用wordcount分析LICENSE.txt

bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /123/LICENSE.txt /output/123

bin/hdfs dfs -ls /output/123 查看分析后的文件

bin/hdfs dfs -cat /output/123/part-r-00000 查看分析结果

执行分布式实例

首先创建 HDFS 上的用户目录

hdfs dfs -mkdir -p /user/hadoop

将 /usr/local/hadoop/etc/hadoop 中的配置文件作为输入文件复制到分布式文件系统中：

hdfs dfs -mkdir input

hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input

查看input目录下文件

hdfs dfs -ls input

报错总结：

若出现提示 “WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable”，该 WARN 提示可以忽略，不会影响 Hadoop 正常运行（可通过编译 Hadoop 源码解决，解决方法请自行搜索）。

若出现提示 “INFO metrics.MetricsUtil: Unable to obtain hostName java.net.UnknowHostException”，这需要执行如下命令修改 hosts 文件，为你的主机名增加IP映射：

Datanode不能启动

Initialization failed for Block pool <registering> (Datanode Uuid unassigned)

解决方案：

将目录、dfs、name、data清空

是重复启动到时key值不一样

软件网盘地址链接：http://pan.baidu.com/s/1sliZehR 密码：4bd1

参考文档：http://www.powerxing.com/install-hadoop-in-centos/

http://www.powerxing.com/install-hadoop-cluster/

时间： 2024-10-11 04:25:08

hadoop-2.7.1+zookeeper-3.4.8+hbase-1.2.1+apache-hive-2.0.0完全分布式集群

hadoop-2.7.1+zookeeper-3.4.8+hbase-1.2.1+apache-hive-2.0.0完全分布式集群的相关文章

阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建

（转）ZooKeeper伪分布式集群安装及使用

基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建

通过tarball形式安装HBASE Cluster（CDH5.0.2）——如何配置分布式集群中的zookeeper

基于HBase Hadoop 分布式集群环境下的MapReduce程序开发

ZooKeeper伪分布式集群安装及使用

Hadoop全分布式集群搭建（详细）

Hadoop+Hbase分布式集群架构“完全篇

大数据系列之Hadoop分布式集群部署

Hadoop 2.2.0的伪分布集群环境搭建