hadoop 2.9.2 完全分布式安装

完全分布式安装
完全分布式环境部署Hadoop
完全分布式是真正利用多台Linux主机进行部署Hadoop,对Linux机器集群进行规划,使Hadoop各个模块分别部署在不同的多台机器上;

1.环境准备
虚拟机安装,在此使用KVM虚拟机;

2.网络配置
配置完成后可以访问外网即可;

3.hostname配置
将三台主机分别命名加以区分;

4.hosts配置
修改主机名
hostname hadoop-node1
hostname hadoop-node2
hostname hadoop-node3

将三台主机名和IP地址对应关系写入hosts文件;
vim /etc/hosts
10.10.2.177 hadoop-node1
10.10.2.178 hadoop-node2
10.10.2.179 hadoop-node3

5.服务器功能角色规划
hadoop-node1 hadoop-node2 hadoop-node3
NameNode ResourceManage
DataNode DataNode DataNode
NodeManager NodeManager NodeManager
HistoryServer SecondaryNameNode

6.在一台机器上安装Hadoop
#在此,先在第一台机器上解压、配置hadoop,然后将配置文件分发到另外两台机器上的方式来安装集群;
1)解压hadoop目录
tar -zxvf /opt/hadoop-2.9.2.tar.gz -C /opt/modules/app/
2)配置Hadoop JDK路径,修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径;
export JAVA_HOME="/opt/modules/jdk1.7.0_80"
3)配置core-site.xml
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
  <name>io.file.buffer.size</name>
  <value>131072</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/data/tmp</value>
</property>
<property>
   <name>hadoop.proxyuser.hadoop.hosts</name>
<value></value>
</property>
<property>
   <name>hadoop.proxyuser.hadoop.groups</name>
  <value>
</value>
</property>
</configuration>
#fs.defaultFS为NameNode的地址
#hadoop.tmp.dir为hadoop临时目录的地址,默认情况下,NameNode和DataNode的数据文件都会存在这个目录下对应的子目录中。若此目录不存在,则须手动创建;
4)配置slaves
#指定HDFS上有哪些datanode节点
cd /opt/modules/hadoopstandalone/hadoop-2.9.2/etc/hadoop
vim slaves
hadoop-node1
hadoop-node2
hadoop-node3
5)配置hdfs-site.xml
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop-node3:50090</value>
</property>
</configuration>
#dfs.namenode.secondary.http-address 是指定secondaryNameNode 的http访问地址和端口号,在此将hadoop-node3规划为SecondaryNameNode服务器;
6)配置yarn-site.xml
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
vim yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-node2</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>106800</value>
</property>
#根据规划 yarn.resourcemanager.hostname 这个指定resourcemanager 服务器指向 hadoop-node2
#yarn.log-aggregation-enable 是配置是否启用日志聚集功能
#yarn.log-aggregation-retain-seconds 是配置聚集的日志在HDFS上最多保存多长时间
7)配置mapred-site.xml
#从mapred-site.xml.template 复制一个mapred-site.xml 文件;
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop-node1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop-node1:19888</value>
</property>
</configuration>
#mapreduce.framework.name 设置mapreduce任务运行在yarn上
#mapreduce.jobhistory.address 是设置mapreduce的历史服务器安装在hadoop-node1机器上
#mapreduce.jobhistory.webapp.address 是设置历史服务器的web页面地址和端口号

7.设置SSH无密码登录
Hadoop集群中的各个机器间会相互通过SSH访问,每次访问输入密码不现实,所以需配置各个机器间SSH无密码登录;
1)在hadoop-node1上生成公钥
ssh-keygen -t rsa
#全部回车即可,都是默认值。完成后当前用户home目录下的.ssh中会生成公钥文件id_rsa.pub和私钥文件id_rsa
2)分发公钥
ssh-copy-id hadoop-node1
ssh-copy-id hadoop-node2
ssh-copy-id hadoop-node3
3)设置hadoop-node2/hadoop-node3到其他机器的免密码登录
同理hadoop-node1操作,生成公钥、私钥,然后分发到其他三台机器即可;

8.分发hadoop文件
1)三台机器分别创建Hadoop目录
mkdir -p /opt/modules/app
2)通过scp分发hadoop文件
#Hadoop根目录下share/doc目录是存放hadoop文档,文件较大,分发前可以直接删除,以提高分发速度;
scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node2:/opt/modules/app/
scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node3:/opt/modules/app/

9.格式化NameNode
#在NameNode机器上执行格式化-master节点
/opt/modules/app/hadoop-2.9.2/bin/hdfs namenode -format
#注意:如需重新格式化NameNode,需将原来NameNode和DataNode下的文件全部删除,否则会报错。NameNode和DataNode所在目录是core-site.xml中hadoop.tmp.dir、dfs.namenode.dir、dfs.datanode.data.dir属性配置的;
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/tmp</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/data</value>
</property>
#因为每次格式化,默认是创建一个集群ID,并写入NameNode和DataNode的VERSION文件中(VERSION文件所在目录为dfs/name/current和dfs/data/current),重新格式化时,默认会生成一个新的集群ID,如果不删除原来的目录,会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID,造成不一致报错;
#另一种方法是格式化时指定集群ID参数,指定为集群旧ID值;

10.启动集群
1)启动HDFS
#hadoop-node1节点启动HDFS
/opt/modules/app/hadoop-2.9.2/sbin/start-dfs.sh
2)启动YARN
#hadoop-node2节点启动yarn
/opt/modules/app/hadoop-2.9.2/sbin/start-yarn.sh
#在hadoop-node2上启动ResourceManager
cd /opt/modules/app/hadoop-2.9.2
sbin/yarn-daemon.sh start resourcemanager
3)启动日志服务器
#根据规划,在hadoop-node3上启动MapReduce日志服务
cd /opt/modules/app/hadoop-2.9.2/sbin/mr-jobhistory-daemon.sh start historyserver
#查看启动状态
jps
4)查看HDFS 的Web页面
http://10.10.2.177:50070
5)查看YARN的Web页面
http://10.10.2.178:8088

11.测试Job
在此,用hadoop自带的wordcount例子在本地模式下测试运行mapreduce
测试过程须在yarn运行节点(即hadoop-node2)上执行,包括创建hdfs存储目录,上传wc.input测试文件,输出计算测试结果;

1)准备mapreduce 输入文件wc.input
cd /opt/data/
touch wc.input
vim wc.input
hadoop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop
2)在HDFS上创建输入目录input
cd /opt/modules/app/hadoop-2.9.2/
bin/hdfs dfs -mkdir /input
3)将wc.input上传到HDFS
cd /opt/modules/app/hadoop-2.9.2/
bin/hdfs dfs -put /opt/data/wc.input /input/wc.input
4)运行hadoop自带的mapreduce Demo
cd /opt/modules/app/hadoop-2.9.2/
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input/wc.input /output
5)查看输出文件
cd /opt/modules/app/hadoop-2.9.2/
bin/hdfs dfs -ls /output

12.状态截图
版本 2.9.2

http://10.10.2.177:50070/dfshealth.html#tab-overview

http://10.10.2.178:8088/cluster/nodes

版本 3.0.0

原文地址:https://blog.51cto.com/driver2ice/2486106

时间: 2024-10-07 05:45:58

hadoop 2.9.2 完全分布式安装的相关文章

Hadoop日记Day3---Hadoop的伪分布式安装

导录 比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

centos 6.6 hadoop 2.7.1 完全分布式安装部署

1.安装前,准备三台CENTOS 6.6系统的主机或虚机,并且关闭防火墙及selinux. 2.按如下表格配置IP地址,修改hosts文件及本机名 192.168.199.21 hadoop21  Master 102.168.199.22 hadoop22  Slave1 192.168.199.23 hadoop23  Slave2 同理修改Slave1,Slave2的IP地址,hosts文件及本机名. 3.安装ORACLE JDK 先卸载本机openJDK,使用rpm -qa|grep j

hadoop完全分布式安装

1.安装环境是vmware workstation10.0模拟出三个虚拟节点,每一个节点安装Ubuntu12.04 LTS操作系统,主机名分别是hadoop1.hadoop2以及hadoop3.同时在每一个节点安装好java.安装方法同之前介绍的伪分布式安装方法一样. 2.接着是对三个节点的hosts文件进行配置,先用ifconfig命令查看三个节点的ip地址,然后用sudo vim /etc/hosts命令打开hosts文件,统一编辑如下: 3.配置完hosts文件之后,设置ssh无密码互联.

吴超老师课程---hadoop的分布式安装过程

1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode            从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker    1.2 各节点重新产生ssh加密文件    1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息    1.4 两两节点之间的SSH免密码登陆            ss

hadoop的分布式安装过程

1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode     从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息 1.4 两两节点之间的SSH免密码登陆   ssh-copy-id -i  hadoop1   s

Hadoop伪分布式安装

本文介绍的主要是Hadoop的伪分布式的搭建以及遇到的相关问题的解决,做一下记录,jdk的安装这里就不做太多的介绍了,相信大家根据网上的安装介绍很快就能安装成功. 环境 操作系统 Oracle VM VirtualBox-rhel-6.4_64   本机名称 yanduanduan   本机IP 192.168.1.102   JDK 1.7.0_79   hadoop 2.7.3 点此下载 Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材

完全分布式安装Hadoop

hadoop学习笔记之--完全分布模式安装 Hadoop完全分布式模式安装步骤 Hadoop模式介绍 单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途 伪分布模式:在单节点上同时启动namenode.datanode.jobtracker.tasktracker.secondary namenode等5个进程,模拟分布式运行的各个节点 完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成 安装环境 操作平台:vmware2 操作系统:oracle linux 5.6 软件版本

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

实施Hadoop集群 --伪分布式安装 准备与配置安装环境 安装虚拟机和linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便.ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷.如果只是实验用途,硬盘大约预留20-30G空间. 以Centos为例,分区可以选择默认[如果想要手动分区,请参考博客:http://blog.csdn.net/zjf280441589/article/details/175485

一、Hadoop 2.x 分布式安装部署

一.Hadoop 2.x 分布式安装部署 1.分布式部署hadoop 2.x 1.1克隆虚拟机并完成相关配置 1.1.1克隆虚拟机 点击原有虚拟机–>管理–>克隆–>下一步–>创建完成克隆–>写入名称hadoop-senior02–>选择目录 1.1.2配置修改 1)启动克隆虚拟机(内存配置:01:2G;02:1.5G;03:1.5G) 2)修改主机名:改两处 3)修改网卡名称 编辑 /etc/udev/rules.d/70-persistent-net.rules -