安装部署Hadoop

安装Hadoop教程

目录

第一步、 配置Vmware NAT网络... 2

一、 Vmware网络模式介绍... 2

二、 NAT模式配置... 2

第二步、 安装Linux操作系统... 3

三、 Vmware上安装Linux系统... 3

四、 设置网络... 5

五、 修改Hostname. 6

六、 配置Host. 7

第三步、 安装JDK. 7

七、 安装Java JDK. 7

八、 添加环境变量... 7

第四步、 单机Hadoop部署过程... 7

九、 Hadoop所用的用户设置... 7

十、 安装Hadoop. 8

十一、 配置Hadoop. 8

十二、 配置、格式化、启动HDFS. 9

十三、 配置、启动YARN.. 11

十四、 运行Haddop Job. 12

十五、 停止Hadoop. 12

第五步、 伪分布式环境部署Hadoop. 12

十六、 其他机器添加Hadoop用户... 12

十七、 其他机器安装JDK. 12

十八、 其他机器配置网络、Hostname、host. 12

十九、 设置SSH无密码登录... 12

二十、 修改Master上的slave文件... 12

二十一、 将Master上的Hadoop目录拷贝到各个Slave机器上... 12

二十二、 启动集群... 12

第六步、 常见问题... 12

二十三、 如何完全卸载Vmware. 12

第一步、配置Vmware NAT网络

一、Vmware网络模式介绍

参考:http://blog.csdn.net/collection4u/article/details/14127671

二、NAT模式配置

NAT是网络地址转换,是在宿主机和虚拟机之间增加一个地址转换服务,负责外部和虚拟机之间的通讯转接和IP转换。

我们部署Hadoop集群,这里选择NAT模式,各个虚拟机通过NAT使用宿主机的IP来访问外网。

我们的要求是集群中的各个虚拟机有固定的IP、可以访问外网,所以进行如下设置:

1、  Vmware安装后,默认的NAT设置如下:

2、  默认的设置是启动DHCP服务的,NAT会自动给虚拟机分配IP,但是我们需要将各个机器的IP固定下来,所以要取消这个默认设置。

3、  为机器设置一个子网网段,默认是192.168.136网段,我们这里设置为100网段,将来各个虚拟机Ip就为 192.168.100.*。

4、  点击NAT设置按钮,打开对话框,可以修改网关地址和DNS地址。这里我们为NAT指定DNS地址。

5、  网关地址为当前网段里的.2地址,好像是固定的,我们不做修改,先记住网关地址就好了,后面会用到。

第二步、安装Linux操作系统

三、Vmware上安装Linux系统

1、  文件菜单à新建虚拟机

2、  选择经典类型安装,下一步。

3、  安装来源选择下载好的Linux安装iso光盘映像文件,下一步。

4、  安装后指定添加一个操作系统user,这里创建一个全名为hadoop、用户名为hadoop的用户。

5、  命名虚拟机,给虚拟机起个名字,将来显示在Vmware左侧。并选择Linux系统保存在宿主机的哪个目录下,应该一个虚拟机保存在一个目录下,不能多个虚拟机使用一个目录。

6、  指定磁盘容量,是指定分给Linux虚拟机多大的硬盘,默认20G就可以,下一步。

7、  点击自定义硬件,可以查看、修改虚拟机的硬件配置,这里我们不做修改。

8、  点击完成后,就开始安装Linux系统。

9、  安装完成后,Linux系统有两个用户:root和hadoop。

四、设置网络

因为Vmware的NAT设置中关闭了DHCP自动分配IP功能,所以Linux还没有IP,需要我们设置网络各个参数。

1、  用root进入Xwindow,右击右上角的网络连接图标,选择修改连接。

2、  网络连接里列出了当前Linux里所有的网卡,这里只有一个网卡System eth0,点击编辑。

3、  配置IP、子网掩码、网关(和NAT设置的一样)、DNS等参数,因为NAT里设置网段为100.*,所以这台机器可以设置为192.168.100.10网关和NAT一致,为192.168.100.2

4、  用ping来检查是否可以连接外网,如下图,已经连接成功。

五、修改Hostname

1、  临时修改hostname

[[email protected]
Desktop]# hostname master

这种修改方式,系统重启后就会失效。

2、  永久修改hostname

想永久修改,应该修改配置文件
/etc/sysconfig/network。

命令:[[email protected] ~] vim /etc/sysconfig/network

打开文件后,

NETWORKING=yes 
#使用网络

HOSTNAME=master 
#设置主机名

六、配置Host

命令:[[email protected] ~] vim /etc/hosts

添加hosts: 192.168.100.10 master

第三步、安装JDK

七、安装Java
JDK

1、  查看是否已经安装了java JDK。

[[email protected]
Desktop]# java –version

注意:Hadoop机器上的JDK,最好是Oracle的Java JDK,不然会有一些问题,比如可能没有JPS命令。

如果安装了其他版本的JDK,卸载掉。

2、  安装java JDK

(1)     去下载Oracle版本Java JDK:jdk-8u91-linux-x64.rpm

(2) 安装JAVA JDK

[[email protected]
Desktop]# rpm –ivh jdk-8u91-linux-x64.rpm

3、  安装后再次执行 java –version,可以看见已经安装完成,JDK安装在/usr/java/jdk1.8.0_91目录下。

八、添加环境变量

设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile,追加

export
JAVA_HOME="/usr/java/jdk1.8.0_91"

export
PATH=$JAVA_HOME/bin:$PATH

修改完毕后,执行 source /etc/profile

第四步、单机Hadoop部署过程

九、Hadoop所用的用户设置

1、  给hadoop用户sudo权限

[[email protected] ~]# vim
/etc/sudoers

设置权限:

root   
ALL=(ALL)       ALL

hadoop ALL=(root)
NOPASSWD:ALL

2、  创建存放hadoop文件的目录

[[email protected] ~]$
sudo mkdir /usr/hadoop

3、  将hadoop文件夹的所有者指定为hadoop用户

[[email protected] ~]#
chown -R hadoop:hadoop /usr/hadoop

十、安装Hadoop

1、  复制hadoop-2.5.0.tar.gz到/usr/hadoop目录下。

2、  解压hadoop-2.5.0.tar.gz

[[email protected] ~]# cd
/usr/hadoop

[[email protected]
hadoop]# tar -zxvf hadoop-2.5.0.tar.gz

十一、配置Hadoop

1、  配置Hadoop环境变量

[[email protected]
hadoop]# vim /etc/profile

追加配置:

export
HADOOP_HOME="/usr/hadoop/hadoop-2.5.0"

export
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

执行:source /etc/profile 使得配置生效

2、  配置
${HADOOP_HOME}/etc/hadoop/hadoop-env.sh文件

[[email protected] ~]$
sudo vim  ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

修改HADOOP_CONF_DIR参数为:

export
HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

3、  配置core-site.xml

[[email protected] ~]$
sudo vim  ${HADOOP_HOME}/etc/hadoop/core-site.xml

(1)       fs.default.name配置的是HDFS的地址。

(2)       hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。

创建临时目录:[[email protected] ~]$ sudo mkdir  ${HADOOP_HOME}/hadoop_tmp

十二、配置、格式化、启动HDFS

1、  配置hdfs-site.xml

[[email protected] ~]$
sudo vim  ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml

dfs.replication配置的是HDFS存储时的备份数量,只有一个节点,所以这里设置为1。

2、  格式化HDFS

[[email protected] ~]$
hdfs namenode –format

格式化后,查看core-site.xml里hadoop.tmp.dir指定的目录下是否有了dfs目录,如果有,说明格式化成功。

注意:

(1)       格式化时,应该保证当前用户(hadoop)有对${HADOOP_HOME}目录读、写、行权限,最好是目录的所有者,如果不是,可以用命令修改所有者

[[email protected] /]# chown
-R hadoop:hadoop ${HADOOP_HOME}

[[email protected] /]#
chmod 755 -R ${HADOOP_HOME}

(2)       查看NameNode格式化后的目录

[[email protected]
~]$ ll ${HADOOP_HOME}/hadoop_tmp/dfs/name/current

total 16

-rw-rw-r--. 1 hadoop hadoop 353 May 27
10:45 fsimage_0000000000000000000

-rw-rw-r--. 1 hadoop hadoop  62 May
27 10:45 fsimage_0000000000000000000.md5

-rw-rw-r--. 1 hadoop hadoop   2
May 27 10:45 seen_txid

-rw-rw-r--. 1 hadoop hadoop 206 May 27
10:45 VERSION

fsimage是NameNode元数据在内存满了后,持久化保存到的文件。

fsimage*.md5 是校验文件,用于校验fsimage的完整性。

seen_txid 是hadoop的版本

vession文件里保存:


namespaceID:NameNode的唯一ID。


clusterID:集群ID,NameNode和DataNode的集群ID应该一致,表明是一个集群。


#Fri May 27 17:46:48 PDT 2016

namespaceID=1733061610

clusterID=CID-d32df410-6498-4bcd-97a8-7cb7253b3789

cTime=0

storageType=NAME_NODE

blockpoolID=BP-188107533-192.168.100.10-1464371112276

layoutVersion=-57

3、  启动NameNode

[[email protected] ~]$
${HADOOP_HOME}/sbin/hadoop-daemon.sh start namedatanode

4、  启动DataNode

[[email protected] ~]$
${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode

5、  启动SecondaryNameNode

[[email protected] ~]$
${HADOOP_HOME}/sbin/hadoop-daemon.sh start secondarynamenode

6、  JPS命令查看是否已经启动成功,有结果就是启动成功了。

[[email protected] ~]$ jps

2800 DataNode

2932 Jps

2709 NameNode

2888
SecondaryNameNode

7、  Web页面查看HDFS

HDFS的Web页面端口号为50070,通过http://192.168.100.10:50070可以查看。

如果不能访问,看服务器的防火墙是否打开着,学习环境,可以直接把防火墙关闭。

关闭防火墙:

(1)     用root用户登录后,执行[[email protected] hadoop]#
service iptables status 查看防火墙状态

(2)     用[[email protected] hadoop]# service
iptables stop关闭防火墙,这个是临时关闭防火墙,如果要永久关闭防火墙用[[email protected] hadoop]# chkconfig iptables off关闭,这种需要重启才能生效。

十三、配置、启动YARN

1、  配置mapred-site.xml

默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

[[email protected] hadoop]# cp
${HADOOP_HOME}/etc/hadoop/mapred-site.xml.template
${HADOOP_HOME}/etc/hadoop/mapred-site.xml

添加配置如下:

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

指定mapreduce运行在yarn框架上。

2、  配置yarn-site.xml

添加配置如下:

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

yarn.nodemanager.aux-services配置了yarn的默认混洗方式,选择为mapreduce的默认混洗算法。

3、  启动Resourcemanager

[[email protected] ~]$
${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager

4、  启动nodemanager

[[email protected] ~]$
${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager

5、  查看是否启动成功

[[email protected] ~]$ jps

2800 DataNode

7170 ResourceManager

2709 NameNode

2888 SecondaryNameNode

7528 Jps

7417 NodeManager

可以看到ResourceManager、NodeManager已经启动成功了。

6、  YARN的Web页面

YARN的Web客户端端口号是8088,通过http://192.168.100.10:8088/可以查看。

十四、运行Haddop
Job

十五、停止Hadoop

[[email protected] ~]$ ${HADOOP_HOME}/sbin/hadoop-daemon.sh
stop namenode

stopping namenode

[[email protected] ~]$
${HADOOP_HOME}/sbin/hadoop-daemon.sh stop datanode

stopping datanode

[[email protected] ~]$
${HADOOP_HOME}/sbin/yarn-daemon.sh stop resourcemanager

stopping resourcemanager

[[email protected] ~]$
${HADOOP_HOME}/sbin/yarn-daemon.sh stop nodemanager

stopping
nodemanager

第五步、伪分布式环境部署Hadoop

十六、其他机器添加Hadoop用户

十七、其他机器安装JDK

十八、其他机器配置网络、Hostname、host

十九、设置SSH无密码登录

二十、修改Master上的slave文件

二十一、将Master上的Hadoop目录拷贝到各个Slave机器上

二十二、启动集群

第六步、常见问题

二十三、如何完全卸载Vmware

参考:http://nickzp.blog.51cto.com/12728/1123735

参考:http://wenku.baidu.com/link?url=XYRBQKncPdewfYPIB1qT0ed7dfHcmI7SrhSJrO8aDLImyV7-o-vFlv_eyp4pzXFSvznrz52HTGIuvDY4Qz_0dRQDat_Inw4GVNwBjFsVKKi

来自为知笔记(Wiz)

附件列表

时间: 2024-10-10 13:50:16

安装部署Hadoop的相关文章

Ubuntu 14.04 LTS上安装部署Hadoop 2.7.1

1.安装Ubuntu 14.04 Desktop LTS 下载ISO文件,ubuntu-14.04.1-desktop-amd64.iso. 在VirtualBox或者VMware中新建虚拟机,将ISO文件设置为启动光盘. Windows 7下用VMware Workstation 10虚拟机安装 Ubuntu 14.04  http://www.linuxidc.com/Linux/2014-04/100473.htm 一路下一步,在需要输入用户的地方,输入用户名linuxidc,直到系统安装

虚拟器上部署hadoop常见的一些问题

一.hadoop部署步骤. 1.下载hadoop和Zookeeper的压缩包. 2.部署Zookeeper: ①tar -zxvf zookeeper-3.3.6 ②cd 到Zookeeper的conf目录下 将zoo_sample.cfg 修改为zoo.cfg ③ tickTime=2000(是Zookeeper独立的工作时间单元) dataDir=/Users/tom/zookeeper(存储数据的地址) clientPort=2181(2181是经常的选择,此处是关于用户和Zookeepe

hadoop入门(3)&mdash;&mdash;hadoop2.0理论基础:安装部署方法

一.hadoop2.0安装部署流程         1.自动安装部署:Ambari.Minos(小米).Cloudera Manager(收费)         2.使用RPM包安装部署:Apache hadoop不支持.HDP与CDH提供         3.使用jar包安装部署:各版本均提供.(初期为了理解hadoop,建议使用这种方式)         部署流程:                 准备硬件(Linux操作系统)                 准备软件安装包,并安装基础软件

Apache Hadoop集群离线安装部署(三)——Hbase安装

Apache Hadoop集群离线安装部署(一)--Hadoop(HDFS.YARN.MR)安装:http://www.cnblogs.com/pojishou/p/6366542.html Apache Hadoop集群离线安装部署(二)--Spark-2.1.0 on Yarn安装:http://www.cnblogs.com/pojishou/p/6366570.html Apache Hadoop集群离线安装部署(三)--Hbase安装:http://www.cnblogs.com/po

一、Hadoop 2.x 分布式安装部署

一.Hadoop 2.x 分布式安装部署 1.分布式部署hadoop 2.x 1.1克隆虚拟机并完成相关配置 1.1.1克隆虚拟机 点击原有虚拟机–>管理–>克隆–>下一步–>创建完成克隆–>写入名称hadoop-senior02–>选择目录 1.1.2配置修改 1)启动克隆虚拟机(内存配置:01:2G;02:1.5G;03:1.5G) 2)修改主机名:改两处 3)修改网卡名称 编辑 /etc/udev/rules.d/70-persistent-net.rules -

【原创】安装和部署Hadoop

安装和部署Hadoop 一.安装虚拟机 1.    服务器配置信息 Linux主机一 Linux主机二 Linux主机三 主机名:master 主机名:host1 主机名:host2 IP:192.168.100.100 IP:192.168.100.101 IP:192.168.100.100 HDFS MapReduce HDFS MapReduce HDFS MapReduce NameNode JobTracker DataNode TaskTracker DateNode TaskTr

Ganglia监控Hadoop集群的安装部署[转]

Ganglia监控Hadoop集群的安装部署 一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机 器:192.168.52.31,192.168.52.32,192.168.52.33,192.168.52.34,192.168.52.35,192.168.52.36,192.168.52.37,192.168.52.38,192.168.52.105 浏览监控web页面的机器:192.168.52.105 二. 介绍

hadoop(1)_HDFS介绍及安装部署

一.hadoop简介 1.hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要,HDFS来源于google的GFS,MapReduce来源于Google的MapReduce,HBase来源于Google的BigTable.hadoop后被引入Apache基金会. 2.hadoop两大核心设计是HDFS和MapReduce,HDFS是分布式存储系统,提供高可靠性.高扩展性.高吞吐率的数据存储服务;MapReduce是分布式计算框架,具有易于编程.高容错性和高扩展性等优点. 3.hado

高可用Hadoop平台-Ganglia安装部署

1.概述 最近,有朋友私密我,Hadoop有什么好的监控工具,其实,Hadoop的监控工具还是蛮多的.今天给大家分享一个老牌监控工具Ganglia,这个在企业用的也算是比较多的,Hadoop对它的兼容也很好,不过就是监控界面就不是很美观.下次给大家介绍另一款工具——Hue,这个界面官方称为Hadoop UI,界面美观,功能也比较丰富.今天,在这里主要给大家介绍Ganglia这款监控工具,介绍的内容主要包含如下: Ganglia背景 Ganglia安装部署.配置 Hadoop集群配置Ganglia