二、Hadoop-2.6的完全分布式安装模式

一、Hadoop的3中运行模式

1.1、单机模式。安装简单,几乎不用作任何配置,但仅限于调试用途;

1.2、伪分布式模式。在单节点上同时启动namenode、secondary namenode、datanode、JobTracker、TaskTracker 5个进程,模拟分布式运行的各个节点。

1.3、完全分布式模式。正常的Hadoop集群,由多个节点构成。

二、Hadoop-2.6的完全分布式安装模式

2.0、准备文件

(1)Jdk1.7(或其他版本):jdk-7u79-linux-x64.tar.gz

(2)Hadoop安装包:hadoop-2.6.4.tar.gz

可在Apache官方网站或者镜像网站下载Hadoop。

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.4/

下载hadoop-2.6.4-tar.gz后,使用tar解压。

2.1、为虚拟机添加hadoop账号

2.2、安装jdk

export JAVA_HOME=/home/hadoop/jdk1.7

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

此时,虚拟机拷贝多份。

--------------------------拷贝多份虚拟机---------------------------

2.3、修改虚拟机为固定IP地址(每个虚拟机都进行修改)

2.4、配置hostname(每个虚拟机都进行修改)

(1)sudo vim /etc/hostname

每个虚拟机都进行修改,内容分别为(master、slave1、slave2…)

2.5、配置hosts文件(每个虚拟机都进行修改)

sudo vim /etc/hosts,将每台主机的ip地址、主机名都添加进来:

192.168.0.40  master

192.168.0.41  slave1

192.168.0.42  slave2

2.6、重启每个虚拟机

2.7、配置ssh

(1)ssh-keygen -t rsa   # 会有提示,都按回车就可以

(2)cd ~/.ssh

(3)cat id_rsa.pub >> authorized_keys  # 将本机加入授权

(4)将所有虚拟机的authorized_keys文件的内容,全都合并到一起,然后替换掉所有的authorized_keys文件。

每个虚拟机都进行以上4步操作。

测试:ssh localhost

ssh 127.0.0.1

ssh master

ssh slave1

ssh slave2

问题: ssh: connect to host localhost port 22: Connection refused

解决办法:sudo apt-get install openssh-server    // 安装ssh-serve

注意事项:在进行ssh测试时,在这一步:

Are you sure you want to continue connecting (yes/no)?

此时输入:yes,而不能直接按回车,否则会连接失败。

--------------------------部署hadoop-2.6---------------------------

2.8、解压hadoop到某个目录下。并配置环境变量(所有虚拟机都要配置)

(1)sudo vim /etc/profile。输入如下内容:

#hadoop

export HADOOP_HOME=/home/hadoop/hadoop-2.6.4

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

(2)source /etc/profile,重新加载环境变量。

9~14步:仅修改一个虚拟机

2.9、修改配置文件 $HADOOP_HOME/etc/hadoop/core-site.xml

该配置文件是hadoop的全局配置文件,下面的内容是配置NameNode的ip地址、监听的端口,以及tmp目录(tmp内容需要修改)。配置该文件的内容如下:

<configuration>
<!--指定namenode的地址-->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
<!--用来指定使用hadoop时产生文件的存放目录--> 
        <property>
                <name>hadoop.tmp.dir</name>
               <value>/home/hadoop/hadoopdata</value>   
        </property>

</configuration>

属性fs.defaultFS表示NameNode节点地址,由“hdfs://主机名(或ip):端口号”组成。

2.10、修改配置文件
$HADOOP_HOME/etc/hadoop/hdfs-site.xml

该文件是hdfs的配置文件。修改内容如下:

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>Master:50090</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/hdfs/namenode</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/hdfs/datanode</value>

</property>

</configuration>

(1)属性“dfs.namenode.name.dir”表示NameNode

存储命名空间和操作日志相关的元数据信息的本地文件系统目录,该项默认本地路

径为”/tmp/hadoop-{username}/dfs/name”;

(2)属性”dfs.datanode.data.dir“表示DataNode节点存储HDFS

文件的本地文件系统目
录,由”file://本地目录”组成,该项默认本地路

径为”/tmp/hadoop-{username}/dfs/data”。

(3)属性“dfs.namenode.secondary.http-address”表示SecondNameNode

主机及端口号(如果无需额外指定SecondNameNode角色,可以不进行此项配置);

(4)属性“dfs.replication”表示,一个文件上传到hadoop上的副本数目,该值为1表示该文件只保存一份。

2.11、修改配置文件
$HADOOP_HOME/etc/hadoop/mapred-site.xml

该文件是mapReduce的配置文件。修改内容如下:

<configuration>

<property>

<name>mapreduce.framework.name</name>     <value>yarn</value>

</property>

<property>

<name>mapreduce.job.tracker</name>

<value>hdfs://master:8888</value>

<final>true</final>

</property>

</configuration>

属性”mapreduce.framework.name“表示执行mapreduce任务所使用的运行框架,默认为 local,需要将其改为”yarn”.

2.12、修改配置文件
$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

<property>

<name>yarn.log-aggregation.retain-seconds</name>

<value>604800</value>

</property>

</configuration>

(1)属性”yarn.resourcemanager.hostname”用来指定ResourceManager主机地址;

(2)属性”yarn.nodemanager.aux-service“表示MR applicatons所使用的shuffle工具类。

2.13、修改配置文件$HADOOP_HOME/etc/hadoop/hadoop-env.sh

配置JAVA_HOME

2.14、修改配置文件$HADOOP_HOME/libexec/hadoop-config.sh

在下面3行注释下面添加JAVA_HOME:

# Newer versions of glibc use an arena
memory allocator that causes virtual

# memory usage to explode. This interacts
badly with the many threads that

# we use in Hadoop. Tune the variable
down to prevent vmem explosion.

export JAVA_HOME= . . .

2.15、把该配置好的hadoop目录移动到另外两个slave虚拟机中

先压缩hadoop成压缩包,然后利用scp移动到其他虚拟机。

scp /root/hadoop-2.6.4.tar.gz
slave1:/home/hadoop

scp /root/hadoop-2.6.4.tar.gz
slave2:/home/hadoop

然后,ssh连接到其他虚拟机之后,再解压。

2.16、仅修改master节点的配置文件:$HADOOP_HOME/etc/hadoop/slaves

集群中的master节点(NameNode、ResourceManager)需要配置其所拥有的slave节点,其中:

NameNode节点的slaves内容为:slave1 slave2

----------------------------配置完毕---------------------------------

格式化并开启hadoop。以下操作需在master节点中运行。

2.17、格式化hdfs文件系统

$HADOOP_HOME/bin/hdfs
namenode -format  //格式化

此处,需要hdfs-site.xml的配置文件的dir目录已经创建。

2.18、开启hadoop

分别登陆如下主机并执行相应命令(位于$HADOOP_HOME/sbin目录下):

①  执行start-yarn.sh命令,启动集群资源管理系统yarn ;

②  执行start-dfs.sh命令启动集群HDFS文件系统;

查看进程的状态:输入jps

分别登陆各master/slave节点执行jps命令,查看每个节点是否有如下Java进程运行:

master节点运行的进程:ResourceManager、NameNode、SecondaryNameNode

slave节点运行的进程: NodeManager、DataNode

如果以上操作正常则说明Hadoop集群已经正常启动。

此外,还可通过浏览器查看hadoop的运行状态:

http://master:8088/

http://master:50070/

时间: 2024-10-22 13:47:43

二、Hadoop-2.6的完全分布式安装模式的相关文章

Hadoop日记Day3---Hadoop的伪分布式安装

导录 比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

hadoop 2.9.2 完全分布式安装

完全分布式安装完全分布式环境部署Hadoop完全分布式是真正利用多台Linux主机进行部署Hadoop,对Linux机器集群进行规划,使Hadoop各个模块分别部署在不同的多台机器上: 1.环境准备虚拟机安装,在此使用KVM虚拟机: 2.网络配置配置完成后可以访问外网即可: 3.hostname配置将三台主机分别命名加以区分: 4.hosts配置修改主机名hostname hadoop-node1hostname hadoop-node2hostname hadoop-node3 将三台主机名和

centos 6.6 hadoop 2.7.1 完全分布式安装部署

1.安装前,准备三台CENTOS 6.6系统的主机或虚机,并且关闭防火墙及selinux. 2.按如下表格配置IP地址,修改hosts文件及本机名 192.168.199.21 hadoop21  Master 102.168.199.22 hadoop22  Slave1 192.168.199.23 hadoop23  Slave2 同理修改Slave1,Slave2的IP地址,hosts文件及本机名. 3.安装ORACLE JDK 先卸载本机openJDK,使用rpm -qa|grep j

hadoop伪分布式安装【翻译自hadoop1.1.2官方文档】

1.hadoop支持的平台: GNU/Linux平台是一个开发和生产的平台. hadoop已经被证明可以在GNU/Linux平台不是2000多个节点. win32是一个开发平台,分布式操作还没有在win32系统上很好的测试, 所以它不被作为生产环境. 2.安装hdoop需要的软件: linux和windows下安装hadoop需要的软件: 2.1从sun官网下载的1.6的jdk必须被安装. 2.2ssh 必须被安装 and ssh协议必须使用hadoop脚本用来管理远程的hadoop进程. 2.

Hadoop学习笔记_8_实施Hadoop集群 --分布式安装Hadoop

实施Hadoop集群 --分布式安装Hadoop 说明: 以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明 现有三台服务器:其IP与主机名对应关系为: 192.168.139.129 master #NameNode/JobTrackerr结点 192.168.139.132 slave01 #DataNode/TaskTracker结点 192.168.139.137 slave02 #DataNode/TaskTracker结点 一.配置ssh实现Hadoop节点间用户的无密

高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南

(WJW)高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南 为了部署HA集群,应该准备以下事情: namenode服务器: 运行namenode的服务器应该有相同的硬件配置. journalnode服务器:运行的journalnode进程非常轻量,可以部署在其他的服务器上.注意:必须允许至少3个节点.当然可以运行更多,但是必须是奇数个,如3,5,7,9个等等.当运行N个节点时,系统可以容忍至少(N-1)/2个节点失败而不影响正常运行. 在HA集群中,standby状态的

Hadoop之伪分布式安装

一.Hadoop的安装模式有3种 ①单机模式:不能使用HDFS,只能使用MapReduce,所以单击模式主要用于测试MR程序. ②伪分布式模式:用多个线程模拟真实多台服务器,即模拟真实的完全分布式环境. ③完全分布式模式:用多台机器(或启动多个虚拟机)来完成部署集群. 二.安装主要涉及以下内容: ①JDK ②配置主机名.hosts文件以及免密登录 ③修改hadoop的配置文件,主要涉及以下几个配置文件(hadoop-2.7.7/etc/hadoop) 1)hadoop-env.sh:这里主要修改

hadoop完全分布式安装

1.安装环境是vmware workstation10.0模拟出三个虚拟节点,每一个节点安装Ubuntu12.04 LTS操作系统,主机名分别是hadoop1.hadoop2以及hadoop3.同时在每一个节点安装好java.安装方法同之前介绍的伪分布式安装方法一样. 2.接着是对三个节点的hosts文件进行配置,先用ifconfig命令查看三个节点的ip地址,然后用sudo vim /etc/hosts命令打开hosts文件,统一编辑如下: 3.配置完hosts文件之后,设置ssh无密码互联.

吴超老师课程---hadoop的分布式安装过程

1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode            从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker    1.2 各节点重新产生ssh加密文件    1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息    1.4 两两节点之间的SSH免密码登陆            ss