ubuntu16.04搭建hadoop集群环境

1. 系统环境
Oracle VM VirtualBox
Ubuntu 16.04
Hadoop 2.7.4
Java 1.8.0_111

master:192.168.19.128
slave1:192.168.19.129
slave2:192.168.19.130

2. 部署步骤
在虚拟机环境中安装三台Ubuntu 16.04虚拟机,在这三台虚拟机中配置一下基础配置
2.1 基础配置
1、安装 ssh和openssh
sudo apt-get install ssh
sudo apt-get install rsync

2、添加 hadoop 用户,并添加到 sudoers
sudo adduser hadoop
sudo vim /etc/sudoers
添加如下:
# User privilege specification
root    ALL=(ALL:ALL) ALL
hadoop    ALL=(ALL:ALL) ALL

3、切换到 hadoop 用户:
su hadoop

4、修改 /etc/hostname
sudo vim /etc/hostname
将内容修改为master/slave1/slave2

5、修改 /etc/hosts
127.0.0.1   localhost
127.0.1.1   localhost.localdomain   localhost
# The following lines are desirable for IPv6 capable hosts
::1     localhost ip6-localhost ip6-loopback
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
# hadoop nodes
192.168.19.128  master
192.168.19.129  slave1
192.168.19.130  slave2

6、安装配置 Java 环境
下载 jdk1.8 解压到 /usr/local 目录下(为了保证所有用户都能使用),修改 /etc/profile,并生效:
# set jdk classpath
export JAVA_HOME=/usr/local/jdk1.8.0_111
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

重新加载文件
source /etc/profile

验证 jdk 是否安装配置成功

[email protected]:~$ java -version
java version "1.8.0_111"
Java(TM) SE Runtime Environment (build 1.8.0_111-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode)

2.2 配置 master 节点可通过 SSH 无密码访问 slave1 和 slave2 节点
1.生成公钥
[email protected]:~$ ssh-keygen -t rsa

2.配置公钥
[email protected]:~$ cat .ssh/id_rsa.pub >> .ssh/authorized_keys
将生成的 authorized_keys 文件复制到 slave1 和 slave2 的 .ssh目录下
scp .ssh/authorized_keys [email protected]:~/.ssh
scp .ssh/authorized_keys [email protected]:~/.ssh

3.master 节点无密码访问 slave1 和 slave2 节点
[email protected]:~$ ssh slave1
[email protected]:~$ ssh slave2

输出:
[email protected]:~$ ssh slave1
Welcome to Ubuntu 16.04.1 LTS (GNU/Linux 4.4.0-31-generic x86_64)

* Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
Last login: Mon Nov 28 03:30:36 2016 from 192.168.19.1
[email protected]:~$

2.3 Hadoop 2.7集群部署
1、在master机器上,在hadoop 用户目录下解压下载的 hadoop-2.7.4.tar.gz到用户目录下的software目录下
[email protected]:~/software$ ll
total 205436
drwxrwxr-x  4 hadoop hadoop      4096 Nov 28 02:52 ./
drwxr-xr-x  6 hadoop hadoop      4096 Nov 28 03:58 ../
drwxr-xr-x 11 hadoop hadoop      4096 Nov 28 04:14 hadoop-2.7.4/
-rw-rw-r--  1 hadoop hadoop 210343364 Apr 21  2015 hadoop-2.7.4.tar.gz

2、配置 hadoop 的环境变量
sudo vim /etc/profile

配置如下:
# set hadoop classpath
export HADOOP_HOME=/home/hadoop/software/hadoop-2.7.4
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_PREFIX=$HADOOP_HOME
export CLASSPATH=$CLASSPATH:.:$HADOOP_HOME/bin

加载配置

source /etc/profile

3、配置 hadoop 的配置文件,主要配置 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 文件
1>配置/home/hadoop/software/hadoop-2.7.4/etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <!-- master: /etc/hosts 配置的域名 master -->
        <value>hdfs://master:9000/</value>
    </property>
</configuration>

2>配置/home/hadoop/software/hadoop-2.7.4/etc/hadoop/hdfs-site.xml
 <configuration>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/home/hadoop/software/hadoop-2.7.4/dfs/namenode</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/hadoop/software/hadoop-2.7.4/dfs/datanode</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>master:9001</value>
        </property>
</configuration>

3>配置/home/hadoop/software/hadoop-2.7.4/etc/hadoop/mapred-site.xml
<configuration>
    <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>
    <property>
      <name>mapreduce.jobhistory.address</name>
      <value>master:10020</value>
    </property>
    <property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>master:19888</value>
    </property>
</configuration>

4>配置/home/hadoop/software/hadoop-2.7.4/etc/hadoop/yarn-site.xml
<configuration>
    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
    </property>
    <property>                                                             
      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
      <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
      <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
      <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
      <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
      <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

4、修改env环境变量文件,为 /home/hadoop/software/hadoop-2.7.4/etc/hadoop/hadoop-env.sh、mapred-env.sh、yarn-env.sh 文件添加 JAVA_HOME
# The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.8.0_111/

5、配置 slaves 文件
slave1
slave2

6、 向 slave1 和 slave2 节点复制 hadoop2.7.4 整个目录至相同的位置
[email protected]:~/software$ scp -r hadoop-2.7.4/ slave1:~/software
[email protected]:~/software$ scp -r hadoop-2.7.4/ slave2:~/software

至此,所有的配置已经完成,准备启动hadoop服务。

2.4 从master机器启动hadoop集群服务
1、初始格式化文件系统 bin/hdfs namenode -format
[email protected]:~/software/hadoop-2.7.4$ ./bin/hdfs namenode -format
输出 master/192.168.19.128 节点的 NameNode has been successfully formatted.
......
16/11/28 05:10:56 INFO common.Storage: Storage directory /home/hadoop/software/hadoop-2.7.0/dfs/namenode has been successfully formatted.
16/11/28 05:10:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
16/11/28 05:10:56 INFO util.ExitUtil: Exiting with status 0
16/11/28 05:10:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at master/192.168.19.128
************************************************************/

2、启动 Hadoop 集群 start-all.sh
[email protected]:~/software/hadoop-2.7.4$ ./sbin/start-all.sh
输出结果:
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [master]
master: starting namenode, logging to /home/hadoop/software/hadoop-2.7.0/logs/hadoop-hadoop-namenode-master.out
slave2: starting datanode, logging to /home/hadoop/software/hadoop-2.7.0/logs/hadoop-hadoop-datanode-slave2.out
slave1: starting datanode, logging to /home/hadoop/software/hadoop-2.7.0/logs/hadoop-hadoop-datanode-slave1.out
Starting secondary namenodes [master]
master: starting secondarynamenode, logging to /home/hadoop/software/hadoop-2.7.0/logs/hadoop-hadoop-secondarynamenode-master.out
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/software/hadoop-2.7.0/logs/yarn-hadoop-resourcemanager-master.out
slave2: starting nodemanager, logging to /home/hadoop/software/hadoop-2.7.0/logs/yarn-hadoop-nodemanager-slave2.out
slave1: starting nodemanager, logging to /home/hadoop/software/hadoop-2.7.0/logs/yarn-hadoop-nodemanager-slave1.out

3、jps 输出运行的 java 进程:
[email protected]:~$ jps
输出结果:
26546 ResourceManager
26372 SecondaryNameNode
27324 Jps
26062 NameNode

4、浏览器查看 HDFS:http://192.168.19.128:50070

5、浏览器查看 mapreduce:http://192.168.19.128:8088

注意:在 hdfs namenode -format 或 start-all.sh 运行 HDFS 或 Mapreduce 无法正常启动时(master节点或 slave 节点),可将 master 节点和 slave 节点目录下的 dfs、logs、tmp 等目录删除,重新 hdfs namenode -format,再运行 start-all.sh

2.5 停止hadoop集群服务
[email protected]:~/software/hadoop-2.7.4$ ./sbin/stop-all.sh
This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh
Stopping namenodes on [master]
master: stopping namenode
slave2: stopping datanode
slave1: stopping datanode
Stopping secondary namenodes [master]
master: stopping secondarynamenode
stopping yarn daemons
stopping resourcemanager
slave2: stopping nodemanager
slave1: stopping nodemanager
no proxyserver to stop

时间: 2024-10-13 05:14:06

ubuntu16.04搭建hadoop集群环境的相关文章

Linux下搭建hadoop集群环境

小编写在前面的话 “天下武功,唯快不破”,但是如果不清楚原理,快也是徒劳.在这物欲横行,数据爆炸的年代,BigData时代到了,如果熟悉了整个hadoop的搭建过程,我们是否也能从中攫取一桶金?! 前期准备 l  两台linux虚拟机(本文使用redhat5,IP分别为 192.168.1.210.192.168.1.211) l  JDK环境(本文使用jdk1.6,网上很多配置方法,本文省略) l  Hadoop安装包(本文使用Hadoop1.0.4) 搭建目标 210作为主机和节点机,211

用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(下)-搭建Hadoop集群

上篇:用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(上)-快速上手Docker 上篇介绍了快速上手Docker部分,下面接着介绍搭建Hadoop集群部分. 六.搭建Hadoop伪分布模式 我们先用前面创建的这个容器来搭建Hadoop伪分布模式做测试,测试成功后再搭建完全分布式集群. 1.SSH这个centos容器可以看做是一个非常精简的系统,很多功能没有,需要自己安装.Hadoop需要SSH,但容器没有自带,需要我们安装.①安装SSH # yum -y ins

Linux下Hadoop集群环境的搭建

本文旨在提供最基本的,可以用于在生产环境进行Hadoop.HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用. 基础环境 JDK的安装与配置 现在直接到Oracle官网(http://www.oracle.com/)寻找JDK7的安装包不太容易,因为现在官方推荐JDK8.找了半天才找到JDK下载列表页的地址(http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html).因

搭建hadoop集群的linux环境准备

1.修改主机名: 在 root 账号下用命令:vi /etc/sysconfig/network 或sudo vi /etc/sysconfig/network 2.设置系统默认启动级别 在 root 账号下输入 vi /etc/inittab  级别改成3 各启动级别代表含义如下: 0 关机 1 单用户系统,不需要登陆 2 多用户系统但不支持NFS,命令行模式登陆 3 完整多用户模式,命令行模式登陆 4 未定义 5 X11图形模式,图形模式登陆 6.重启 3.配置 hadoop 用户 sudo

使用vmware搭建hadoop集群

摘要 本文旨在使用Vmware搭建Hadoop集群,如果你使用的是多台独立的.已安装linux操作系统的计算机搭建Hadoop集群的话,请直接从安装Hadoop 开始 阅读须知 阅读此文之前你需要掌握以下知识,以免文中部分用语令你产生疑惑 熟练使用鼠标和键盘 在windows操作系统下运行.exe文件 访问网页并下载内容 在windows操作系统下能够定位到本地资源所在文件夹 了解ubuntu是linux的一种发行版,如果你不无法理解发行版的概念,可以简单理解成ubuntu是一种linux. 了

搭建Hadoop集群 (三)

通过 搭建Hadoop集群 (二), 我们已经可以顺利运行自带的wordcount程序. 下面学习如何创建自己的Java应用, 放到Hadoop集群上运行, 并且可以通过debug来调试. 有多少种Debug方式 Hadoop在Eclipse上的Debug方式 一般来说, Debug最多的应用场景是调试MR中的代码逻辑, 还有部分是调试main方法中的某些代码逻辑. 无论是Standalone, Pesudo-Distributed, 还是Fully-Distributed Mode, 都可以d

Hadoop入门进阶步步高(五)-搭建Hadoop集群

五.搭建Hadoop集群 上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了. 1.准备三台服务器 192.168.56.101 192.168.56.102 192.168.56.103 在每台机器的/etc/hosts中都将ip及hostname给映射上: 192.168.56.101  nginx1 192.168.56.102  nginx2 192.168.56.103  nginx3

vmware搭建hadoop集群完整过程笔记

搭建hadoop集群完整过程笔记 一.虚拟机和操作系统 环境:ubuntu14+hadoop2.6+jdk1.8 虚拟机:vmware12 二.安装步骤: 先在一台机器上配置好jdk和hadoop: 1.新建一个hadoop用户 用命令:adduser hadoop 2.为了让hadoop用户有sudo的权限: 用root用户打开sudors文件添加红色框里面的内容: 打开文件: 添加内容: 3.配置jdk,我把jdk的压缩包放在了hadoop的用户目录下,然后也解压在当前目录下 修改配置文件(

搭建Hadoop集群需要注意的问题:

搭建Hadoop集群需要注意的问题: 1.检查三台主机名是否正确 2.检查三台IP是否正确 3.检查 /etc/hosts 映射是否正确 4.检查 JDK和Hadoop 是否安装成功(看环境变量配置) 键入 :sudo vi /etc/profile进到文件之后,检查环境变量配置是否正确: 5.检查 SSH免密码登录 是否设置成功: [master:主机名server1:第一台从机名server2:第二台从机名] 6.检查 Hadoop配置文件 进到hadoop目录下:[注:Nahshon 为用