超详细从零记录Hadoop2.7.3完全分布式集群部署过程

超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程。包含,Ubuntu服务器创建、远程工具连接配置、Ubuntu服务器配置、Hadoop文件配置、Hadoop格式化、启动。(首更时间2016年10月27日)

主机名/hostname IP 角色
hadoop1 192.168.193.131 ResourceManager/NameNode/SecondaryNameNode
hadoop2 192.168.193.132 NodeManager/DataNode
hadoop3 192.168.193.133 NodeManager/DataNode

1.0.准备

1.1.目录

  • 用VMware创建3个Ubuntu虚拟机
  • 用mobaxterm远程连接创建好的虚拟机
  • 配置Ubuntu虚拟机源、ssh无密匙登录、jdk
  • 配置Hadoop集群文件(Github源码)
  • 启动Hadoop集群、在Windows主机上显示集群状态。

1.2.提前准备安装包

  • Windows10(宿主操作系统)
  • VMware12 workstation(虚拟机)
  • Ubuntu16.04.1 LTS 服务器版
  • Hadoop2.7.3
  • jdk1.8
  • MobaXterm(远程连接工具)
  • Github源码,记得start哦(CSDN博文中全部源码公开至个人github)

2. VMvare安装Ubuntu16.04.1LTS服务器版过程

2.1.注意在安装时username要一致如xiaolei,即主机用户名。而主机名hostname可不同如hadoop1,hadoop2,hadoop3.或者master,slave1,slave2.在本篇博文中用hadoop1,2,3区分hostname主机名。

2.2.VMvare安装Ubuntu16.04.1LTS桌面版过程

2.3.在VMvare中选择 文件 然后 新建虚拟机

2.4选择典型安装

2.5.选择下载好的Ubuntu64位 16.04.1 LTS服务器版镜像

2.6.个性化Linux设置

2.7.虚拟机命名及文件路径 wangxiaolei \ hadoop1等 随意可更换

2.8.磁盘分配,默认即可,磁盘大小可以根据自身硬盘空间调节(不要太小)

2.9.然后就是等待安装完成,输入登录名 xiaolei 登录密码**

建立好的虚拟机如下

通过ipconfig命令查看服务器ip地址
IP 192.168.193.131   默认主机名ubuntu
IP 192.168.193.132   默认主机名ubuntu
IP 192.168.193.133   默认主机名ubuntu
下一步会修改主机名hostname

3. 配置Ubuntu系统(服务器版在VMware中操作不方便,通过远程在putty或者MobaXterm操作比较快捷些)

3.1 安装ssh即可。这里不需要 ssh-keygen

打开终端或者服务器版命令行

查看是否安装(ssh)openssh-server,否则无法远程连接。

sshd
sudo apt install openssh-server

3.2.安装ssh后,可以通过工具(putty或者MobaXterm)远程连接已经建立好的服务器(Hadoop1,Hadoop2,Hadoop3)

同样三个虚拟机建立连接

3.3.更换为国内源(清华大学帮助文档

在Hadoop1、Hadoop2、Hadoop3中

xiaolei@ubuntu:~$ sudo vi /etc/apt/sources.list
# 默认注释了源码镜像以提高 apt update 速度,如有需要可自行取消注释
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-security main restricted universe multiverse

# 预发布软件源,不建议启用
# deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse

更新源

xiaolei@ubuntu:~$ sudo apt update

3.4.安装vim编辑器,默认自带vi编辑器

sudo apt install vim

更新系统(服务器端更新量小,桌面版Ubuntu更新量较大,可以暂时不更新)

sudo apt-get upgrade

3.5.修改Ubuntu服务器hostname主机名,主机名和ip是一一对应的。

#在192.168.193.131
xiaolei@ubuntu:~$ sudo hostname hadoop1

#在192.168.193.131
xiaolei@ubuntu:~$ sudo hostname hadoop2

#在192.168.193.131
xiaolei@ubuntu:~$ sudo hostname hadoop3

#断开远程连接,重新连接即可看到已经改变了主机名。

3.6.增加hosts文件中ip和主机名对应字段

在Hadoop1,2,3中

xiaolei@hadoop1:~$ sudo vim /etc/hosts
192.168.193.131 hadoop1
192.168.193.132 hadoop2
192.168.193.133 hadoop3

3.7.更改系统时区(将时间同步更改为北京时间)

xiaolei@hadoop1:~$ date
Wed Oct 26 02:42:08 PDT 2016
xiaolei@hadoop1:~$ sudo tzselect

根据提示选择Asia China Beijing Time yes

最后将Asia/Shanghai shell scripts 复制到/etc/localtime

xiaolei@hadoop1:~$ sudo cp /usr/share/zoneinfo/Asia/Shanghai  /etc/localtime
xiaolei@ubuntu:~$ date
Wed Oct 26 17:45:30 CST 2016

4. Hadoop集群完全分布式部署过程

  • JDK配置
  • Hadoop集群部署

4.1.安装JDK1.8 (配置源码Github,记得start哦)

4.1.1将所需文件(Hadoop2.7.3、JDK1.8)上传至Hadoop1服务器(可以直接复制粘贴)

4.1.2.解压缩并将jdk放置/opt路径下

xiaolei@hadoop1:~$ tar -zxf jdk-8u111-linux-x64.tar.gz
hadoop1@hadoop1:~$ sudo mv jdk1.8.0_111 /opt/
[sudo] password for hadoop1:
xiaolei@hadoop1:~$

4.1.3.配置环境变量

编写环境变量脚本并使其生效

xiaolei@hadoop1:~$ sudo vim /etc/profile.d/jdk1.8.sh

输入内容(或者在我的github上下载jdk环境配置脚本源码)

#!/bin/sh
# author:wangxiaolei 王小雷
# blog:http://blog.csdn.net/dream_an
# date:20161027
export JAVA_HOME=/opt/jdk1.8.0_111
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
xiaolei@hadoop1:~$ source /etc/profile

4.1.4.验证jdk成功安装

[email protected]:~$ java -version
java version "1.8.0_111"
Java(TM) SE Runtime Environment (build 1.8.0_111-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode)

4.1.5.同样方法安装其他集群机器。

也可通过scp命令

#注意后面带 : 默认是/home/xiaolei路径下
xiaolei@hadoop1:~$ scp jdk-8u111-linux-x64.tar.gz hadoop2:

命令解析:scp 远程复制 -r 递归 本机文件地址 app是文件,里面包含jdk、Hadoop包 远程主机名@远程主机ip:远程文件地址

4.2.集群ssh无密匙登录

4.2.1.在hadoop1,hadoop2,hadoop3中执行

sudo apt install ssh
sudo apt install rsync
xiaolei@ubuntu:~$ ssh-keygen -t rsa //一路回车就好

4.2.2.在 Hadoop1(master角色) 执行,将~/.ssh/下的id_rsa.pub公私作为认证发放到hadoop1,hadoop2,hadoop3的~/.ssh/下

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop1
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop2
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop3

4.2.3.然后在 Hadoop1 上登录其他Linux服务器不需要输入密码即成功。

#不需要输入密码
ssh hadoop2

5.hadoop完全分布式集群文件配置和启动

在hadoop1上配置完成后将Hadoop包直接远程复制scp到其他Linux主机即可。

Linux主机Hadoop集群完全分布式分配

5.1.Hadoop主要文件配置(Github源码地址

5.1.1.在Hadoop1,2,3中配置Hadoop环境变量

xiaolei@hadoop2:~$ sudo vim /etc/profile.d/hadoop2.7.3.sh

输入

#!/bin/sh
# Author:wangxiaolei 王小雷
# Blog:http://blog.csdn.net/dream_an
# Github:https://github.com/wxiaolei
# Date:20161027
# Path:/etc/profile.d/hadoop2.7.3.sh

export HADOOP_HOME="/opt/hadoop-2.7.3"
export PATH="$HADOOP_HOME/bin:$PATH"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

5.1.2.配置 hadoop-env.sh 增加如下内容

export JAVA_HOME=/opt/jdk1.8.0_111

5.1.3.配置 core-site.xml

<configuration>
        <!-- 指定hdfs的nameservice为ns1 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://Hadoop1:9000</value>
        </property>
        <!-- Size of read/write buffer used in SequenceFiles. -->
        <property>
         <name>io.file.buffer.size</name>
         <value>131072</value>
       </property>
        <!-- 指定hadoop临时目录,自行创建 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/xiaolei/hadoop/tmp</value>
        </property>
</configuration>

5.1.4.配置 hdfs-site.xml

<configuration>
    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop1:50090</value>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/home/xiaolei/hadoop/hdfs/name</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:/home/xiaolei/hadoop/hdfs/data</value>
    </property>
</configuration>

5.1.5.配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
<!-- Configurations for ResourceManager -->
     <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
     </property>
     <property>
           <name>yarn.resourcemanager.address</name>
           <value>hadoop1:8032</value>
     </property>
     <property>
          <name>yarn.resourcemanager.scheduler.address</name>
          <value>hadoop1:8030</value>
      </property>
     <property>
         <name>yarn.resourcemanager.resource-tracker.address</name>
         <value>hadoop1:8031</value>
     </property>
     <property>
         <name>yarn.resourcemanager.admin.address</name>
         <value>hadoop1:8033</value>
     </property>
     <property>
         <name>yarn.resourcemanager.webapp.address</name>
         <value>hadoop1:8088</value>
     </property>
</configuration>

5.1.6.配置mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
          <name>mapreduce.jobhistory.address</name>
          <value>hadoop1:10020</value>
  </property>
  <property>
          <name>mapreduce.jobhistory.address</name>
          <value>hadoop1:19888</value>
  </property>
</configuration>

5.1.7.复制Hadoop配置好的包到其他Linux主机

xiaolei@hadoop1:~$ scp -r hadoop-2.7.3 hadoop3:

将每个Hadoop包sudo mv移动到/opt/路径下。不要sudo cp,注意权限。

xiaolei@hadoop1:sudo mv hadoop-2.7.3 /opt/

5.2.格式化节点

在hadoop1上执行

xiaolei@hadoop1:/opt/hadoop-2.7.3$ hdfs namenode -format

5.3.hadoop集群全部启动

### 5.3.1. 在Hadoop1上执行

xiaolei@hadoop1:/opt/hadoop-2.7.3/sbin$ ./start-all.sh

5.3.2.其他主机上jps

5.3.3.在主机上查看,博主是Windows10,直接在浏览器中输入hadoop1 集群地址即可。

http://192.168.193.131:8088/

5.3.4. Github源码位置——超详细从零记录Hadoop2.7.3完全分布式集群部署过程

5.4.可能问题:

权限问题:

chown -R xiaolei:xiaolei hadoop-2.7.3

解析:将hadoop-2.7.3文件属主、组更换为xiaolei:xiaolei

chmod 777 hadoop

解析:将hadoop文件权限变成421 421 421 可写、可读可、执行即 7 7 7

查看是否安装openssh-server

ssd
或者
ps -e|grep ssh

安装 openssh-server

sudo apt install openssh-server

问题解决:

问题

Network error: Connection refused

解决安装

Network error: Connection refused

时间: 2024-10-17 02:47:06

超详细从零记录Hadoop2.7.3完全分布式集群部署过程的相关文章

Hadoop2.X分布式集群部署

本博文集群搭建没有实现Hadoop HA,详细文档在后续给出,本次只是先给出大概逻辑思路. (一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进. 基于HortonWorks厂商的开源免费的hdp版本. 基于Cloudera厂商的cdh版本,Cloudera有免费版和企业版, 企业版只有试用期.不过cdh大部分功能都是免费的. (二)hadoop2.x分布式集群配置

CentOS7.5搭建Hadoop2.7.6完全分布式集群

一 完全分布式集群(单点) Hadoop官方地址:http://hadoop.apache.org/ 1  准备3台客户机 1.1防火墙,静态IP,主机名 关闭防火墙,设置静态IP,主机名此处略,参考  Linux之CentOS7.5安装及克隆 1.2 修改host文件 我们希望三个主机之间都能够使用主机名称的方式相互访问而不是IP,我们需要在hosts中配置其他主机的host.因此我们在主机的/etc/hosts下均进行如下配置: [root@node21 ~]# vi /etc/hosts

Redis集群部署过程记录(3台服务器共6个节点)

这是我的第一篇博文,整理了我在部署Redis集群踩过的坑,以及详细的部署过程,同时归结了部署过程中遇到的问题的处理方法.1.部署的环境:SUSE Linux Enterprise 11 sp42.涉及到的安装包如下:(1) 安装包:redis-4.0.2.tar.gz下载地址:http://download.redis.io/releases/ redis官网http://www.redis.io(2) 接口包:redis-4.0.0.gem(3) 脚本语言包:ruby-2.4.2.tar.gz

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点 之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作.如果是用root用户操作的话就不存在以上问题. 我是用root用户操作的. 2.修改hosts文件 修改三台服务器的hosts文件. vi /etc/hosts 在原文件的基础最后面加上: 114.55.246.88 Master 114.55.

Hadoop2.7.4完全分布式集群构建实战总结

配置Linux环境配置好各虚拟机的网络(采用NAT联网模式)通过Linux图形界面进行修改(桌面版本Centos):进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections-> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual ->点击add按钮 -> 添加IP:192.168.1.101 子网掩码:255.255.255.0 网关:192.168

Hadoop-2.8.5的HA集群搭建

一.Hadoop HA 机制的学习 1.1.Hadoop 2.X 的架构图 2.x版本中,HDFS架构解决了单点故障问题,即引入双NameNode架构,同时借助共享存储系统来进行元数据的同步,共享存储系统类型一般有几类,如:Shared NAS+NFS.BookKeeper.BackupNode 和 Quorum Journal Manager(QJM),上图中用的是QJM作为共享存储组件,通过搭建奇数结点的JournalNode实现主备NameNode元数据操作信息同步. 1.2.QJM原理

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

1       VM网络配置... 3 2       CentOS配置... 5 2.1             下载地址... 5 2.2             激活网卡... 5 2.3             SecureCRT. 5 2.4             修改主机名... 6 2.5             yum代理上网... 7 2.6             安装ifconfig. 8 2.7             wget安装与代理... 8 2.8       

hadoop-2.7.1+zookeeper-3.4.8+hbase-1.2.1+apache-hive-2.0.0完全分布式集群

网上有的hadoop,zookeeper,hbase,apache-hive相关文档,具体大家可以百度具体了解,本文不多做介绍,本文从最基本的环境搭建入手,纯环境搭建. 搭建次环境唯一要考虑就是软件相互之间的兼容性,及服务器内存(最好大点,虚拟机2G以上),当然也可以通过调启动参数,调小启动内存大小.具体文章会适当介绍. 一.环境准备 1.查看系统版本 cat /etc/issue CentOS release 6.8 (Final) 2.软件准备 软件自行官网下载,但自己要统一规划方便后面操作

Docker中自动化搭建Hadoop2.6完全分布式集群

这一节将在<Dockerfile完成Hadoop2.6的伪分布式搭建>的基础上搭建一个完全分布式的Hadoop集群. 1. 搭建集群中需要用到的文件 [[email protected] hadoop-cluster]# ll total 340648# 用自动化构建集群的脚本 -rwxr-xr-x. 1 root root 2518 Aug 13 01:20 build-cluster.sh# 使用scp 来下载的文件的脚本 -rwxr-xr-x. 1 root root 314 Aug 1