Hadoop-2.4.1 ubuntu集群安装配置教程

一.环境

系统: Ubuntu 14.04 32bit

Hadoop版本: Hadoop 2.4.1 (stable)

JDK版本: 1.7

集群数量:3台

注意事项:我们从Apache官方网站下载的Hadoop2.4.1是linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译。

二.准备工作

(三台机器都需要进行以下前四步配置)

1.安装ubuntu14.04 32bits

2.创建新用户hadoop并增加管理员权限

输入如下命令(整个hadoop配置最好切换到root权限进行,在ubuntu下使用root必须给root设置密码才可使用:sudo passwd root):

[email protected]:~# sudo adduser hadoop

按照提示输入信息,密码设置为hadoop,回车确定。结束之后系统会自动创建用户主目录,创建用户同名的组。(adduser命令包装了useradd,虽然在别的linux系统下两个命令一样,但在ubuntu下使用useradd时,并没有创建同名的用户主目录。)

让该用户获得管理员权限:

[email protected]:~# sudo vim /etc/sudoers

修改文件如下:
# User privilege specification
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL
保存退出,hadoop用户就拥有了root权限。

3.安装jdk(安装完之后用java -version查看jdk版本)

已经下载好java安装包,根据安装教程进行安装

4.修改机器网络配置

修改机器的hostname为Master,Slave1,Slave2(对应三台机器):

[email protected]:~# sudo vim /etc/hostname

(marco对应为Master,Slave1,Slave2)

三台机器的IP必须固定。修改hosts文件。

[email protected]:~# sudo vim /etc/hosts

添加字段:IP hostname

(marco对应为Master,Slave1,Slave2)

完成后重启机器,然后在终端可以看到hostname的变化。

(配置完之后可以互相ping主机名测试是否配置成功)

5.配置SSH无密码登陆

安装ssh(如果系统没有默认安装或者版本过旧使用以下命令,确保三台机器都有ssh服务)

[email protected]:~# sudo apt-get install ssh

生成Master的公钥:

[email protected]:~# cd ~/.ssh

[email protected]:~# ssh-keygen -t rsa # 一直按回车就可以,生成的密钥保存为.ssh/id_rsa

Master 节点需能无密码 ssh 本机,这一步还是在 Master 节点上执行:

[email protected]:~# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

(完成后可以用ssh Master验证)

接着将公匙传输到 Slave1(Slave2) 节点:

[email protected]:~# scp ~/.ssh/id_rsa.pub [email protected]:/home/hadoop/

然后在Slave1节点上将ssh公钥保存到相应位置:

[email protected]:~# cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

最后在Master节点就可以无密码ssh到Slave1(Slave2)了。

三.配置集群/分布式环境

1.下载并解压hadoop-2.4.1.tar.gz文件在/home/hadoop目录下。(在Master下配置,之后再将配置传输到slave节点)

2.修改文件slaves

[email protected]:~# cd /home/hadoop/etc/hadoop/

[email protected]:~# vim slaves

将原来 localhost 删除,把所有Slave的主机名写上,每行一个。如下:

Slave1

Slave2

3.修改文件core-site.xml

将原来的如下内容

<property>

</property>

改为下面的配置。后面的配置文件的修改类似。

<property>

<name>fs.defaultFS</name>

<value>hdfs://Master:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/hadoopInfo/tmp</value>

</property>

(如果启动服务时找不到hadoopInfo/tmp,需手动在三台机器创建该目录)

4.修改hdfs-site.xml

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/hadoopInfo/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/hadoopInfo/tmp/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

5.修改文件mapred-site.xml,这个文件不存在,首先需要从模板中复制一份:

[email protected]:~# cp mapred-site.xml.template mapred-site.xml

然后配置修改如下:

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

6.修改文件yarn-site.xml:

<property>

<name>yarn.resourcemanager.hostname</name>

<value>Master</value>

</property>

7.配置好后,将 Master 上的 Hadoop 文件复制到各个节点上(虽然直接采用 scp 复制也可以正确运行,但会有所不同,如符号链接 scp 过去后就有点不一样了。所以先打包再复制比较稳妥)。

[email protected]:~# cd /home/hadoop

[email protected]:~# sudo tar -zcf ./hadoop-2.4.1.tar.gz ./hadoop-2.4.1

[email protected]:~# scp ./hadoop-2.4.1.tar.gz Slave1:/home/hadoop

在Slave1(Slave2)上执行:

[email protected]:~# sudo tar -zxf ~/hadoop-2.4.1.tar.gz

[email protected]:~# sudo chown -R hadoop:hadoop /home/hadoop

注意事项:切换 Hadoop 的模式,不管是从集群切换到伪分布式,还是从伪分布式切换到集群,如果遇到无法正常启动的情况,可以删除所涉及节点的临时文件夹,这样虽然之前的数据会被删掉,但能保证集群正确启动。或者可以为集群模式和伪分布式模式设置不同的临时文件夹(未验证)。所以如果集群以前能启动,但后来启动不了,特别是 DataNode 无法启动,不妨试着删除所有节点(包括 Slave 节点)上的 tmp 文件夹,重新执行一次 bin/hdfs namenode -format,再次启动试试。

8.然后在Master节点上就可以启动hadoop了。

[email protected]:~# cd /home/hadoop/hadoop-2.4.1

[email protected]:~# bin/hdfs namenode -format       # 首次运行需要执行初始化,后面不再需要

[email protected]:~# sbin/start-dfs.sh

[email protected]:~# sbin/start-yarn.sh

通过命令JPS可以查看各个节点所启动的过程。

可以看到Master节点启动了NameNode、SecondrryNameNode、ResourceManager进程。

Slave节点则启动了DataNode和NodeManager进程。

可以通过http://master:50070/进入hadoop的管理界面。

关闭Hadoop集群也是在Master节点上执行:

[email protected]:~# sbin/stop-dfs.sh

[email protected]:~# sbin/stop-yarn.sh

四.应用案例:

在官网上有一个hadoop单节点和集群的hadoop job示例,

http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

根据链接里的 Example: WordCount v2.0 部分进行操作

时间: 2025-01-04 06:33:53

Hadoop-2.4.1 ubuntu集群安装配置教程的相关文章

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS

摘自:http://www.powerxing.com/install-hadoop-cluster/ 本教程讲述如何配置 Hadoop 集群,默认读者已经掌握了 Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置 或 CentOS安装Hadoop_单机/伪分布式配置. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行 Ha

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言 在生产环境上安装Hadoop高可用集群一直是一个须要极度耐心和体力的仔细工作. 虽然有非常多文档教会大家怎么一步一步去完毕这样的工作,可是百密也有一疏. 现成的工具不是没有,可是对于我这个喜欢了解细节的人来说,用别人的东西,写的好还能够,写的不好,出了问题,查找错误难之又难.手工安装Hadoop集群须要对Linux有一定的使用经验.对于全然没有接触Linux的人来说.肯定是

Hadoop集群安装配置文档

Hadoop集群安装配置文档 日期 内容 修订人 2015.6.3 文档初始化 易新             目录 1 文档概要... 5 1.1软件版本... 5 1.2机器配置... 5 2 虚拟机配置... 5 2.1新建虚拟机... 5 2.2虚拟网络配置... 8 3 CentOS安装及配置... 9 3.1系统安装... 9 3.2系统配置... 10 3.2.1防火墙配置... 10 3.2.2 SElinux配置... 10 3.2.3 IP配置... 11 3.2.4安装vim

实战1 伪分布式Hadoop单节点实例 CDH4集群安装 Hadoop

Hadoop由两部分组成 分布式文件系统HDFS 分布式计算框架MapReduce 其中分布式文件系统(HDFS)主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对于存储在分布式文件系统中的数据进行分布式计算. 详细的介绍个节点的作用 NameNode: 1.整个Hadoop集群中只有一个NameNode.它是整个系统的中枢,它负责管理HDFS的目录树和相关文件 元数据信息.这些信息是以"fsimage (HDFS元数据镜像文件)和Editlog(HDFS文件改动

集群安装配置Hadoop详细图解

集群安装配置Hadoop 集群节点:node4.node5.node6.node7.node8.具体架构: node4 Namenode,secondnamenode,jobtracker node5 Datanode,tasktracker node6 Datanode,tasktracker node7 Datanode,tasktracker node8 Datanode,tasktracker 操作系统为:CentOS release 5.5 (Final) 安装步骤 一.创建Hadoo

spark集群安装配置

spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1

Hadoop2.2集群安装配置-Spark集群安装部署

配置安装Hadoop2.2.0 部署spark 1.0的流程 一.环境描写叙述 本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下 主机名spark1(192.168.232.147),RHEL6.2-64 操作系统,usernameRoot 从机名spark2(192.168.232.152).RHEL6.2-64 操作系统,usernameRoot 二.环境准备 1.防火墙禁用.SSH服务设置为开机启动.并关闭SELINUX 2.改动hosts文件

高可用RabbitMQ集群安装配置

RabbitMQ集群安装配置+HAproxy+Keepalived高可用 rabbitmq 集群 消息队列 RabbitMQ简介 RabbitMQ是流行的开源消息队列系统,用erlang语言开发.RabbitMQ是AMQP(高级消息队列协议)的标准实现. AMQP,即Advanced Message Queuing Protocol,高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计.消息中间件主要用于组件之间的解耦,消息的发送者无需知道消息使用者的存在,反之亦然.AMQP的主

elk集群安装配置详解

#  一:简介 ``` Elasticsearch作为日志的存储和索引平台: Kibana 用来从 Elasticsearch获取数据,进行数据可视化,定制数据报表: Logstash 依靠强大繁多的插件作为日志加工平台: Filebeat 用来放到各个主机中收集指定位置的日志,将收集到日志发送到 Logstash: Log4j 直接与 Logstash 连接,将日志直接 Logstash(当然此处也可以用 Filebeat 收集 tomcat 的日志). ``` ####  port ```