centos 6.5中安装hadoop2.2

1.配置集群机器之间ssh免密码登录

(1)

ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa

将id_dsa.pub 公钥 加入授权的key中去

这条命令的功能是把公钥加到用于认证的公钥文件中,这里的authorized_keys 是用于认证的公钥文件

(2)

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

(3)

这样就把登陆本机的密钥加入公钥之中,以后登陆本机就无需输入密码了,但是集群之间还是不能免密码登陆,我们还要把集群之中其他机器登陆的密钥文件id_dsa.pub加入authorized_keys之中。

我们集群的组成是3台机器,分别是master,slave1,slave2,我们在3台主机上执行上述命令,这样集群中每台主机都生成了id_dsa.pub文件,我们将slave1与slave2主机的id_dsa.pub文件内容都加入master主机的authorized_keys文件中,处理之后,master主机的authorized_keys文件就像这样:

ssh-dss AAAAB3NzaC1kc3MAAACBAKpCe9woQHMTehKLJA+6GdseAMPGnykirGIzbqqwhU/dHVNMyaxwGrK42c0Sxrtg9Q/zeaAmvbtxjmtVIJ9EImWGH7U0/ijs+PVspGpp1RZoI+5eSBwCUDRF93yT9/hVm/X9mP+k/bETwC7zi1mei+ai/V6re6fTelwS9dkiYHsfAAAAFQCoai5Gh74xcauX8ScXqCZK8FOHVwAAAIAajMwOhEnRSANAtjfFo0Fx2Dhq8VZqGlJzT2xqKQv0VkxqJgE8WNv4IMIIehdhl0kSFE6640zi3B2CZ3muTQxNOK4kxWxi36HhffvLpzcVrme6HVhOGnZFrbqpmo0cLZdK99aMF/TkEF2UhRb6pL2QWAyZgIrZbWm5iGq8W47UsgAAAIAGB3DfhF9GjnrZKIIsIeSrETo1ebJfZK1z7hf3CIHWb51I+gNHVtLZuuljeLIS8oTtKu0IZcI3zvCWWGi+anAhAK+9N/VWppzC75q7Tp+XPw0OAwHeC7OjHnj4oIUYnV8+QQDgK51njl8pwQNcW5ytAr1GXMxfPnq1Do29JW5FDQ== [email protected]

ssh-dss AAAAB3NzaC1kc3MAAACBAJN2NYZap/VXLECMgCFXWyvz2uY9ciLwhOhTqnLeX5giJUWfEvvlzpuxzhrMmJdo40Rn6h/ggf2qgrCDo0NM7aaoo3nG2cW3e1mrpkDgpI+qYrNUwtdZ6a2jWs//gourBa359v/8NQgkdPZXw1JCnE3qzLxJQ2YfTPLFMmV7yv01AAAAFQDoIbKLeHjrtgHuCCT6CHbmV69jJwAAAIEAgj9piFkKUDAVeP60YQy3+CI2RSaU1JBopXOuzLJcYZcsZm+z1+b4HKgF23MsK0nEpl0UgnlicGk6GgiulBHTAMoq/GO6Hn5I1tEtXjDKlWG1PaGoH8Wua6GlziyxrZ/0OKjTdJaOirctVFnD/yyoO3xE8jpGzJwqWuScW44W3zQAAACADGFDYzG34Jr3M+BUkB11vGcv6NKeyU/CP/OSx5LGjQwwwD2f0UdSYEAuqvvkccNB9MB10H0OJCSFNGtbULA8kpDXM03q2VkJcJXQcRx+C9QoHCtF1EaM7GFmSuAEegzvv2UR122qXsxsxZIiJXhKZKzbznTIoipm0KEAqp0cz48= [email protected]
ssh-dss AAAAB3NzaC1kc3MAAACBAOLxtxe3HLhc01szJFXktBJUfjnQwan/EvXcalvHv/DX9jsp5OroEclNE9NLzeL+NU9Ax0Jh7zYbyvQ2xK/lW9syfkJWntdwXcpeTBRrH1NX+dV1LentHyvgAj411LHZLfnkYaztXPWB/ux8JK9F6GB16uVWTG1KjCQwo44q5MtFAAAAFQDw/590kNub5MXnQCMBe4ggfK8dmQAAAIAg2GEhEPak+ETd9UekWL/k5168ng9SmA7sWvABs/dVePFdpP2WY+WNOOmyryvvtpsBfEyAM/NCaTsrMWcGorOdAJ4IKyMDl3QLTolelnjBaC8pcHEZ1igKR2JPGDIQSSlBkvB/Q8+qVmwYlHIQnEoYgGOoEokdtmHVMwOR053/hAAAAIB/kGh9FN4ie+5zRmQLiYTDES3ztm/Ik3UU0fOoNWkdeTVAXvp1xXotkQIkeh3bGFHwGfDUjNtTlrS+qqvAQqCpcj8LR8+pQh0UbxT2rZ1AsGviUVoK8mbosJ3eUjcigCCbF3SChy8TYIU7fsAynavqFubsbmV/6HpbHJNyC1+MAA== [email protected]

然后将master主机处理之后的authorized_keys文件覆盖slave1和slave2主机~/.ssh/ 目录下的authorized_keys文件,这样集群内部各主机都实现了免密码登陆。重启电脑,我们任意选择一个主机,分别ssh 其他两台主机,如果能够不输入密码就能直接登陆,那么就配置成功了。

2.配置hadoop中的一些配置文件

解压 hadoop安装文件至/cloud目录下,如下:

(1)编辑配置文件hadoop-env.sh 指定JAVA_HOME的目录

首先查看一下JAVA_HOME的地址 :

echo $JAVA_HOME

可以知道JAVA_HOME的地址如下:

/usr/lib/jvm/java-1.7.0-openjdk.x86_64

vi /cloud/hadoop-2.2/etc/hadoop/hadoop-env.sh

(2)配置文件core-site.xml,添加以下内容:

vi /cloud/hadoop-2.2/etc/hadoop/core-site.xml

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://master:9000</value>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/cloud/hadoopData</value>

</property>

</configuration>

①设置hdfs的访问地址是hdfs://110.64.76.130:9000,②临时文件的存放地址是/cloud/hadoopData,要注意创建此目录

(3)配置文件hdfs-site.xml

vi /cloud/hadoop-2.2/etc/hadoop/hdfs-site.xml

添加以下内容:

<configuration>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>/cloud/hadoopData/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/cloud/hadoopData/data</value>

</property>

</configuration>

(4)配置文件yarn-site.xml

vi /cloud/hadoop-2.2/etc/hadoop/yarn-site.xml

添加以下内容:

<?xml version="1.0"?>

<configuration>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

<description>host is the hostname of the resource manager and

port is the port on which the NodeManagers contact the Resource Manager.

</description>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

<description>host is the hostname of the resourcemanager and port is the port

on which the Applications in the cluster talk to the Resource Manager.

</description>

</property>

<property>

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>

<description>In case you do not want to use the default scheduler</description>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

<description>the host is the hostname of the ResourceManager and the port is the port on

which the clients can talk to the Resource Manager. </description>

</property>

<property>

<name>yarn.nodemanager.address</name>

<value>0.0.0.0:8034</value>

<description>the nodemanagers bind to this port</description>

</property>

<property>

<name>yarn.nodemanager.resource.memory-mb</name>

<value>10240</value>

<description>the amount of memory on the NodeManager in GB</description>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

<description>shuffle service that needs to be set for Map Reduce to run </description>

</property>

</configuration>

(5)配置文件 slaves

修改成以下内容:

slave1

slave2

3.将hadoop添加到环境变量

在/etc/profile文件中添加以下内容,并且更新系统配置。

export HADOOP_HOME=/cloud/hadoop-2.2

expoer PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行下述命令,使环境变量设置生效

source /etc/profile

 

4.将hadoop安装配置文件复制分发到集群的其他主机上

cd /cloud

scp -r hadoop-2.2 [email protected]:/cloud

scp -r hadoopData [email protected]:/cloud

scp -r hadoop-2.2 [email protected]:/cloud

scp -r hadoopData [email protected]:/cloud

5.格式化hdfs文件系统

以下操作在master主机上进行

cd /cloud/bin

hdfs namenode -format

(只需运行一次)

6. 启动每个hadoop节点上的hadoop服务

cd /cloud/hadoop-2.2/sbin

master:

./start-dfs.sh

./start-yarn.sh

slave1与slave2:

在Hadoop 2.x中,MapReduce Job不需要额外的daemo

n进程,在Job开始的时候,NodeManager会启动一个MapReduce Application Master(相当与一个精简的JobTracker),Job结束的时候自动被关闭。

所以无需在slave1和slave2执行命令来启动节点。

7.测试hadoop 集群

可以用浏览器打开NameNode, ResourceManager和各个NodeManager的web界面,

- NameNode web UI, http://master:50070/

- ResourceManager web UI, http://master:8088/

- NodeManager web UI,http://slave01:8042

还可以启动JobHistory Server,能够通过Web页面查看集群的历史Job,执行如下命令:

mr-jobhistory-daemon.sh start historyserver

默认使用19888端口,通过访问http://master:19888/查看历史信息。

终止JobHistory Server,执行如下命令:

mr-jobhistory-daemon.sh stop historyserver

9.运行wordcount示例程序

hdfs dfs -mkdir /user

hdfs dfs -mkdir /user/root    用于创建用户文件夹,以后如果不指明路径,默认存储在用户目录下

hdfs dfs -put ./test.txt input  将本地目录中的test.txt 文件复制到用户路劲下作为input文件

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount input output

hdfs dfs -cat output/*

10.停止运行hadoop集群

在master上执行:

cd /cloud/hadoop-2.2/sbin

./stop-yarn.sh

./stop-dfs.sh

时间: 2024-12-14 16:00:51

centos 6.5中安装hadoop2.2的相关文章

Centos 6.5中安装后不能打开emacs的问题

问题的发现过程: 安装了最新的centos版本后发现居然打不开emacs,然后在终端中输入emacs后还是不能打开,出现了下面的提示: emacs: error while loading shared libraries: libotf.so.0: cannot open shared object file: No such file or directory 然后就在网上查找资料,可是由于centos本来就是刚刚发布的,相关解决方法没有,不过相关的有一些,综合他们的方法,终于解决了这个问题

如何在CentOS 7.x中安装OpenERP(Odoo)

各位好,这篇教程关于的是如何在CentOS 7中安装Odoo(就是我们所知的OpenERP).你是不是在考虑为你的业务安装一个不错的ERP(企业资源规划)软件?那么OpenERP就是你寻找的最好的程序,因为它是一款为你的商务提供杰出特性的自由开源软件. OpenERP是一款自由开源的传统的OpenERP(企业资源规划),它包含了开源CRM.网站构建.电子商务.项目管理.计费账务.POS.人力资源.市场.生产.采购管理以及其它模块用于提高效率及销售.Odoo中的应用可以作为独立程序使用,它们也可以

centOS 6.7 中安装matlab R2014b

参考资料: [1] http://www.centoscn.com/image-text/config/2014/1222/4354.html 系统: centOS 6.7 2.6.32-573.el6.x86_64 matlab  R2014b_glnxa64_withcrack.iso 步骤记录: 1 #1 加载光盘镜像 2 [[email protected] ~]$ sudo mkdir /mnt/tmp 3 [[email protected] ~]$ sudo mount -o lo

Linux CentOS 6.5中安装与配置Tomcat-8方法

安装环境:CentOS-6.5 安装方式:源码安装 软件:apache-tomcat-8.0.0.RC3.tar.gz 下载地址:http://tomcat.apache.org/download-80.cgi 安装前提 系统必须已安装配置JDK6+,安装请参考: http://www.linuxidc.com/Linux/2014-10/108066.htm . 安装tomcat 将apache-tomcat-8.0.0.RC3.tar.gz文件上传到/usr/local中执行以下操作: 代码

CentOS 6.5中安装使用dstat资源统计工具

目录 1 dstat 工具的使用 1.1 什么是 dstat 1.2 dstat 的基本使用 1.2.1 dstat 的默认选项 1.2.2 dstat的常用选项 1.3 检测界面各参数的含义 1.4 dstat 的高级用法 1.4.1 找出占用资源最高的进程和用户 1.4.2 获取其他应用信息 2 dstat 工具的安装 2.1 (推荐)通过 yum 安装 2.2 (或)通过wget安装 2.3 (或)使用rpm安装 3 安装中的常见问题 3.1 问题描述 3.2 问题解决 3.2.1 网上的

在CentOS 6.7中安装NVIDIA GT730显卡驱动的手记

主机: Dell OptiPlex 390 MT (i5) 系列: 主机原配独显,型号未知,运转三年半,常有异响,关机之后过一阵再开机,可以解决.最近,风扇的声音实在不正常,重启也无解,判定它挂了.风扇型号power logic直径38mm 孔距25mm 12V 0.05A PLA04710S12L,直径仅38mm,孔距25mm,寻遍中关村的科贸海龙等电子市场也一无可获,最接近的一只风扇也要大出2mm.好在万能的淘宝有售:https://item.taobao.com/item.htm?spm=

CentOS 6.5中安装emacs软件

在安装emacs软件前,需要先安装一些依赖包,然后在下载emacs的软件包解压,再安装即可,具体步骤如下: 1.需要下载的依赖包如下: yum -y groupinstall "Development Tools" yum -y install gtk+-devel gtk2-devel yum -y install libXpm-devel yum -y install libpng-devel yum -y install giflib-devel yum -y install l

在CentOS 6.5 中安装KVM 虚拟机

一. 查看该服务器是否支持虚拟化 grep -E -o 'vmx|svm' /proc/cpuinfo 如系统有输出则说明支持虚拟化,我的输入界面如下 二.在物理机上面建立两个存储目录 用于存放iso 和img 镜像文件,比如说都放到了/home下面 mkdir –p /home/iso mkdir –p /home/kvm/img 三.安装虚拟机用的组件,虚拟机使用桥接网络,使用yum安装方式 yum -y install kvm kmod-kvm qemu kvm-qemu-img virt

在CentOS 6.3中安装与配置cmake

安装说明安装环境:CentOS-6.3安装方式:源码编译安装软件:cmake-2.8.10.2.tar.gz下载地址:http://www.cmake.org/cmake/resources/software.html 安装前提系统中已经安装了g++和ncurses-devel,如果没有安装使用下面的命令安装: 复制代码 代码如下: [[email protected] /]# yum install gcc-c++[[email protected] /]# yum install ncurs