Hadoop1.0.4+Hbase0.94.2+Hive0.9.0 分布式部署安装

因为个人太懒，所以很多配图没有上传，完整的部署安装教程另外备份了。这里记录一下防止文档丢了

Hadoop1.0.4+Hbase0.94.2+Hive0.9.0

分布式部署安装

版本控制信息
版本	日期	拟稿和修改	说明
1.0	2012-11-27	Yoan.Liang	报文标准初稿（内部版本：1000）

1 服务器配置

1.1 下载安装JDK

1.2 修改NameNode与DataNode服务器各自的/etc/sysconfig/network文件

修改如下：

NETWORKING=yes

NETWORKING_IPV6=no

HOSTNAME=Master.2.Hadoop

红字部分为需要修改的主机名称，如该文件没有hostname项则手动添加

1.3 在NameNode与DataNode服务器各自的/etc/下建立hostname文件，如果该文件存在则修改，文件内容是你需要设定的主机名称

1.4 修改NameNode与DataNode服务器各自的/etc/hosts文件

例如：

# Do not remove the following line, or various programs

# that require network functionality will fail.

127.0.0.1 localhost.localdomain localhost

192.168.29.192 Slave.1.Hadoop slave1

192.168.29.191 Master.Hadoop master

192.168.29.193 Slave.2.Hadoop slave2

::1 localhost6.localdomain6 localhost6

红字部分为需要添加的主机。

1.5 修改完第一、二项后需要重启服务器

1.6 建立NameNode与DataNode服务器之间相互免登陆SSH

用各服务器中同样存在的账户登陆，这里以root为例子。

执行netstat –nat命令查看SSH服务是否安装并启动，在输出端口中开到22端口开启后则执行SSH 测试命令 ssh localhost。

提示后输入yes后，出现警告提示并要求输入密码，输入密码后，如可正常登陆即SSH安装启动成功。

返回账户根目录路径下，输入SSH命令ssh-keygen -t rsa 出现提示按回车直至完成。

进入.ssh目录。该目录在当前账户的根目录下且不被显示，直接输入命令 cd .ssh进入ssh生产密钥的默认目录下，用ls命令看到生成的密钥对id_rsa、id_rsa.pub两个文件。

将id_rsa.pub重命名为任意不重复名称后缀为pub的文件，这里将id_rsa.pub重命名为master2.pub。

用scp命令复制到各台服务器上(包括本机)的对应账户.ssh目录下。在另外的服务器上执行命令cat master2.pub >> authorized_keys 将公钥导入到文件authorized_keys中。

导入完成后执行命令<ssh< span=""> 服务器名称>，第一次连接的服务器会出现提示，输入yes记录服务器。现在测试SSH，用命令<ssh< span=""> 主机名>可以免密码相互登陆服务器，则设置成功。

2 Hadoop安装

2.1 用wget命令下载Hadoop包文件

下载路径：
http://mirror.bjtu.edu.cn/apache/hadoop/common/hadoop-1.0.4/hadoop-1.0.4.tar.gz

2.2 下载完成后使用命令压缩包名.tar>

解压完成后目录下出现hadoop文件夹，进入hadoop并在目录下创建tmp文件夹，该文件夹用于Hadoop的临时文件存储。

2.3 修改/etc/profile：
新增以下内容：（具体的内容根据你的安装路径修改，这步只是为了方便使用）

export HADOOP_HOME=/opt/ hadoop-1.0.4

export PATH=$PATH:$HADOOP_HOME/bin

2.4 进入hadoop/conf目录，修改配置文件hadoop-env.sh，在文件最后加上JDK路径。
# set java environment

export JAVA_HOME=/opt/jdk1.7.0

（红色字部分是当前服务器的JDK路径）

如果当前ssh端口不是默认的22，则需要解除HADOOP_SSH_OPTS的注释并修改端口

例子如下：

export HADOOP_SSH_OPTS="-p 2547"

修改配置文件core-site.xml在文件中添加hadoop.tmp.dir, fs.default.name项

例子

hadoop.tmp.dir

/opt/hadoop/tmp

A base for other temporary directories.

fs.default.name

hdfs://192.168.29.143:9000

hadoop.tmp.dir是配置hadoop中临时文件的存储位置，这里指向了刚刚创建的tmp文件夹。

而fs.default.name则是配置hdfs的路径，这里默认是NameNode的9000端口。

修改配置文件hdfs-site.xml，在文件中添加dfs.replication项。该项是配置数据备份数。如DataNode比较多则可以多配几个，要注意的是不能配置多于DataNode个数的值

例子：

dfs.replication

修改配置文件mapred-site.xml，在文件中添加mapred.job.tracker项该项是配置jobTracker的主机。如按照默认则是NameNode的9001端口

例子

mapred.job.tracker

http://192.168.29.191:9001

（例子中红色部分是需要修改的jobTracker主机IP）

修改配置文件masters，这里指定的是NameNode主机。

修改完成后将hadoop文件夹复制到其他机器DataNode服务器上，并修改JDK路径为对应服务器的JDK安装路径。

NameNode服务器修改slaves文件，在文件中配置所有DataNode机器。

进入NameNode服务中hadoop文件夹中的bin目录，执行start-all.sh。hadoop项目启动。

`3` `Hbase安装`

3.1 进入opt目录下用命令wget 下载Hbase0.94.2，下载地址为

http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.2/hbase-0.94.2.tar.gz

3.2 下载完成后使用命令压缩包名.tar>

进入解压后的hbase目录下的conf文件夹，修改hbase-site.xml文件。

在文件中添加hbase.rootdir、hbase.zookeeper.quorum、hbase.zookeeper.property.dataDir、hbase.cluster.distributed、hbase.master、dfs.support.append六项，修改完成后将文件复制到每台服务器的hadoop项目下的conf文件夹内。

例子：

hbase.rootdir

hdfs://Master.Hadoop:9000/hbase

hbase.zookeeper.quorum

Master.Hadoop,Slave.1.Hadoop,Slave.2.Hadoop,Slave.3.Hadoop

hbase.zookeeper.property.dataDir

/opt/hbase/zookeeper

hbase.cluster.distributed

true

hbase.master

Master.Hadoop:6000

dfs.support.append

true

（注意：hbase.zookeeper.quorum项上配置全部的hbase服务器，不能用IP只能用hosts上配置的服务器名称，以逗号分隔）

3.3 编辑hbase-env.sh文件

在文件最尾添加

export JAVA_HOME=/opt/jdk1.7.0

export HBASE_SSH_OPTS=" "

export HBASE_PID_DIR=/opt/hbase/pids

export HBASE_MANAGES_ZK=true

3.4 编辑修改conf/regionservers文件

Master.Hadoop

Slave.1.Hadoop

Slave.2.Hadoop

Slave.3.Hadoop

这里添加的是HBase的region服务器

3.5 复制整个Hbase文件夹到需要部署的服务器相同路径下，并修改对应的JDK及其他相关路径。

3.6 进入hbase目录下的bin文件夹，运行start-hbase.sh启动hbase服务。（如下图）

4 Hive安装

4.1 安装Mysql，并为Hive创建用户及开启远程登录权限

4.2 下载mysql数据库对应驱动JAR包放到 /home/hive-0.9.0/lib下。

4.3 在NameNode服务器上，用wget命令下载Hive项目

下载地址：http://mirror.bit.edu.cn/apache/hive/hive-0.9.0/hive-0.9.0.tar.gz

注意：hive项目只需要安装在NameNode服务器上

4.4 用tar命令解压下载的项目压缩包

4.5 删除HADOOP项目下lib文件夹中已有的hbase-0.92.0.jar 以及hbase-0.92.0-tests.jar，并把hbase中自带的对应jar包拷贝过来

时间： 2024-08-26 04:22:37

Hadoop1.0.4+Hbase0.94.2+Hive0.9.0 分布式部署安装

2 Hadoop安装

`3` `Hbase安装`

4 Hive安装