集群安装配置Hadoop详细图解

集群安装配置Hadoop

集群节点:node4、node5、node6、node7、node8。具体架构:


node4


Namenode,secondnamenode,jobtracker


node5


Datanode,tasktracker


node6


Datanode,tasktracker


node7


Datanode,tasktracker


node8


Datanode,tasktracker

操作系统为:CentOS release 5.5 (Final)

安装步骤

一、创建Hadoop用户组。

二、安装JDK。下载安装jdk。安装目录如下:

三、修改机器名,修改文件/etc/hosts。如下:

四、安装ssh服务。命令:yum install openssh-server。

五、建立ssh无密码登陆。

(一)切换到hadoop用户。su – hadoop

(二)创建ssh-key,利用ssh-keygen命令,采用rsa方式生成密钥。命令:ssh-keygen -t rsa -f ~/.ssh/id_rsa,产生公钥:~/.ssh/id_rsa.pub。

(三)将公钥添加至authorized_keys中。命令:

cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys

(四)修改authorized_keys文件权限:

(五) 编辑sshd配置文件/etc/ssh/sshd_confi把#AuthorizedKeysFile .ssh/authorized_keys前面的注释取消掉。

(六)重新启动sshd服务。

(七)将authorized_keys文件复制到其他节点上(node5——8)。如下:

(八)测试SSH连接。连接时会提示是否连接,按回车后会将此公钥加入至knows_hosts中,命令:

ssh localhost;

连接成功后,记得exit,退出远程机器。

六、将Hadoop相关程序下载上传到node4上。

下载使用的Hadoop版本为1.2.1。

七、安装配置hadoop

(一)登陆node4,切换hadoop用户。创建安装目录,解压hadoop,命令:

mkdir hadoop_program //创建hadoop安装目录。

cp HADOOP/hadoop-1.2.1.tar.gz hadoop_program/   //将hadoop程序cp到hadoop安装目录下。

cd hadoop_program/          //cd到该目录。

tar -xvf hadoop-1.2.1.tar.gz     //解压hadoop程序。

mv hadoop-1.2.1 hadoop     //将hadoop目录改名字

(二)创建环境Hadoop相关环境变量。

修改conf/hadoop-env.sh。找到#export JAVA_HOME=...,去掉注释#,然后加上本机的jdk路径(在第二步安装的路径),如下:

添加HADOOP_HOME环境变量,命令:vim ~/.bashrc。添加如下:

(三)修改Hadoop配置文件

修改conf/core-site.xml文件。

修改mapred-site.xml文件

修改hdfs-site.xml

修改masters文件

修改slaves文件

八 将配置好的Hadoop和jdk复制到其他节点上:

九。启动hadoop测试是否安装成功。

命令:hadoop namenode -format(首先格式化namenode)。

命令:start-all.sh (启动hadoop)。

命令:cd到jdk的bin目录下。运行jps命令。察看:

node4:

运行正常。

Node5-8:

运行正常。

十。遇到问题。

1、安装的过程发现node5-8无法启动datanode和tasktracker,后来发现原因为node5-8机器中已经运行了java程序。用ps -ef|grep java察看,关闭相关进程后,再启动hadoop后正常。

2、使用过程中,出现错误:Bad connect ack with firstBadLink,解决办法:

1) ‘/etc/init.d/iptables stop‘ -->stopped firewall

2) SELINUX=disabled in ‘/etc/selinux/config‘ file.-->disabled selinux

集群安装配置Hadoop详细图解

时间: 2024-12-13 13:44:47

集群安装配置Hadoop详细图解的相关文章

Hadoop集群安装配置文档

Hadoop集群安装配置文档 日期 内容 修订人 2015.6.3 文档初始化 易新             目录 1 文档概要... 5 1.1软件版本... 5 1.2机器配置... 5 2 虚拟机配置... 5 2.1新建虚拟机... 5 2.2虚拟网络配置... 8 3 CentOS安装及配置... 9 3.1系统安装... 9 3.2系统配置... 10 3.2.1防火墙配置... 10 3.2.2 SElinux配置... 10 3.2.3 IP配置... 11 3.2.4安装vim

spark集群安装配置

spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1

Hadoop2.2集群安装配置-Spark集群安装部署

配置安装Hadoop2.2.0 部署spark 1.0的流程 一.环境描写叙述 本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下 主机名spark1(192.168.232.147),RHEL6.2-64 操作系统,usernameRoot 从机名spark2(192.168.232.152).RHEL6.2-64 操作系统,usernameRoot 二.环境准备 1.防火墙禁用.SSH服务设置为开机启动.并关闭SELINUX 2.改动hosts文件

高可用RabbitMQ集群安装配置

RabbitMQ集群安装配置+HAproxy+Keepalived高可用 rabbitmq 集群 消息队列 RabbitMQ简介 RabbitMQ是流行的开源消息队列系统,用erlang语言开发.RabbitMQ是AMQP(高级消息队列协议)的标准实现. AMQP,即Advanced Message Queuing Protocol,高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计.消息中间件主要用于组件之间的解耦,消息的发送者无需知道消息使用者的存在,反之亦然.AMQP的主

elk集群安装配置详解

#  一:简介 ``` Elasticsearch作为日志的存储和索引平台: Kibana 用来从 Elasticsearch获取数据,进行数据可视化,定制数据报表: Logstash 依靠强大繁多的插件作为日志加工平台: Filebeat 用来放到各个主机中收集指定位置的日志,将收集到日志发送到 Logstash: Log4j 直接与 Logstash 连接,将日志直接 Logstash(当然此处也可以用 Filebeat 收集 tomcat 的日志). ``` ####  port ```

Etcd集群安装配置

本次测试集群为2各节点 一. Etcd集群安装配置 安装包:etcd-3.3.11-2.el7.centos.x86_64.rpm 配置文件: #[Member] #ETCD_CORS="" ETCD_DATA_DIR="/var/lib/etcd/default.etcd" #ETCD_WAL_DIR="" ETCD_LISTEN_PEER_URLS="http://192.168.218.146:2380" ETCD_LI

Hadoop多节点集群安装配置

目录: 1.集群部署介绍 1.1 Hadoop简介 1.2 环境说明 1.3 环境配置 1.4 所需软件 2.SSH无密码验证配置 2.1 SSH基本原理和用法 2.2 配置Master无密码登录所有Salve 3.Java环境安装 3.1 安装JDK 3.2 配置环境变量 3.3 验证安装成功 3.4 安装剩余机器 4.Hadoop集群安装 4.1 安装hadoop 4.2 配置hadoop 4.3 启动及验证 4.4 网页查看集群 5.常见问题FAQ   5.1 关于 Warning: $H

ubuntu14.04中spark集群安装配置

一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark

MongoDB 3 分片集群安装配置

操作系统:CentOS 6   x86_64 MongoDB版本:3.4.3 集群主机拓扑: 主机 mongo shardsvr & ReplSetName mongo configsvr & ReplSetName mongos test1.lan shard-a    shard-b test2.lan shard-a    shard-b test3.lan shard-a    shard-b test4.lan cfgshard test5.lan cfgshard test6.