CentOS6.6搭建Hadoop2.5.2伪分布式环境

Hadoop是用作处理大数据用的，核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个，但是，技多不压身，经过虚拟机很多遍的尝试，终于将Hadoop2.5.2的环境顺利搭建起来了。

首先准备一个CentOS，将主机名改为master，并且在/etc/hosts里面加入master对应的本机ip地址。

Linux基本配置

vi /etc/sysconfig/network
#编辑文件里面的HOSTNAME=master
vi /etc/hosts
#添加
本机IP地址   master

然后关闭iptables并设置开机不启动。

service iptables stop
chkconfig iptables off

重启系统，接下来是配置ssh无密码登陆。配置这个的理由是在启动hadoop可以不用输入密码。

SSH无密码登陆

vi /etc/ssh/ssd_config
#以下4行的注释需要打开
HostKey /etc/ssh/ssh_host_rsa_key
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys

#保存，并重启sshd

service sshd restart

#生成免登陆秘钥
ssh-keygen -t rsa
#一路回车就行。之后会在当前登陆用户主目录中的.ssh文件夹里生成2个文件。
#进入.ssh目录。
cat id_rsa.pub >> authorized_keys

#现在可以用ssh无密码登陆系统了。
ssh localhost

JDK安装配置（略）

使用的版本是jdk-7u79-linux-x64。

?安装并配置Hadoop2.5.2?

将下载好的tar.gz包上传至环境。

tar -zxvf hadoop-2.5.2.tar.gz -C /usr

vi /etc/profile

#将以下内容放在最后面。
export JAVA_HOME=/usr/java/jdk1.7.0_79
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/usr/hadoop-2.5.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib

#保存，并执行source /etc/profile

#配置Hadoop
#创建hadoop的name与data目录
mkdir -p /usr/hdfs/name
mkdir -p /usr/hdfs/data
mkdir -p /usr/hdfs/tmp

cd /usr/hadoop-2.5.2/etc/hadoop
设置以下文件的JAVA_HOME
hadoop-env.sh hadoop-yarn.sh

vi core-site.xml
#在configuration节点里面加入以下配置，注意ip改为本机ip
<property>
      <name>hadoop.tmp.dir</name>
      <value>/usr/hdfs/tmp</value>
      <description>A base for other temporary directories.</description>
  </property>
<!--file system properties-->
  <property>
      <name>fs.defaultFS</name>
      <value>hdfs://192.168.1.112:9000</value>
  </property>
  

vi hdfs-site.xml
#同样在configuration节点里面加入以下配置
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/hdfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
    

#从模板复制一份mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
#同样在configuration节点里面加入以下配置
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
  

vi yarn-site.xml
#同样在configuration节点里面加入以下配置,注意将ip地址换成本机的。
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <description>The address of the applications manager interface in the RM.</description>
    <name>yarn.resourcemanager.address</name>
    <value>192.168.1.112:18040</value>
  </property>
  <property>
    <description>The address of the scheduler interface.</description>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>192.168.1.112:18030</value>
  </property>
  <property>
    <description>The address of the RM web application.</description>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>192.168.1.112:18088</value>
  </property>
  <property>
    <description>The address of the resource tracker interface.</description>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>192.168.1.112:8025</value>
  </property>

至此，已经将Hadoop初步的环境配置好了，在启动之前还需要格式化namenode。

输入命令“hadoop namenode -format”；

启动命令：

start-dfs.sh

start-yarn.sh

停止命令：

stop-dfs.sh

stop-yarn.sh

启动完毕，打开浏览器输入 http://192.168.1.112:50070 与 http://192.168.1.112:18088 验证安装。

测试Hadoop

通过运行hadoop自带的wordcount来验证安装是否正确。

进入hadoop安装的目录，输入以下命令。

mkdir example
cd example

编辑file1.txt与file2.txt

vi file1.txt

hello zhm

hello hadoop

hello cz

vi file2.txt

hadoop is ok

hadoop is newbee

hadoop 2.5.2

cd ..
hadoop fs -mkdir /data
hadoop fs -put -f example/file1.txt example/file2.txt /data
#运行wordcount例子
hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.5.2-sources.jar org.apache.hadoop.examples.WordCount /data /output
#查看运行结果
hadoop fs -cat /output/part-r-00000
#结果如下：
2.5.2   1
cz      1
hadoop  4
hello   3
is      2
newbee  1
ok      1
zhm     1

到这里，环境就已经配置好了，下面就是搞使用Maven开发Hadoop项目了。

在安装的过程中，遇到问题是必然的。好好在网络上搜索搜索一般都可以找到你想要的答案的。

时间： 2024-10-22 16:25:32

CentOS6.6搭建Hadoop2.5.2伪分布式环境的相关文章

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

近几年大数据越来越火热.由于工作需要以及个人兴趣,最近开始学习大数据相关技术.学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘. 第一篇,在win7虚拟机下搭建hadoop2.6.0伪分布式环境. 1. 所需要的软件使用Vmware 11.0搭建虚拟机,安装Ubuntu 14.04.2系统. Jdk 1.7.0_80 Hadoop 2.6.0 2. 安装vmware和ubuntu 略 3. 在ubuntu中安装JDK 将jdk解压缩到目录:/home/vm/tool

Java笔记--CenOS6.5搭建hadoop2.7.1伪分布式环境

一.前言很以前就搭建过hadoop的伪分布式环境,为了搭建环境特意弄的双系统,还把毕业论文给毁了.不过当时使用的是 hadoop1.x 的,而且因为一些原因,就搭建了环境,而没继续学习了.现在开始,准备好好的学习一下hadoop 二.Hadoop 简介 Hadoop 是Apache软件基金会旗下的一个开源分布式计算平台是云计算中 PaaS(平台即服务)一层的实现 HDFS 和 MapReduce 共同组成了Hadoop分布式系统体系结构的核心注:hadoop 具体介绍,留待以后说,现在主要

CentOS5.4 搭建Hadoop2.5.2伪分布式环境

简介: Hadoop是处理大数据的主要工具,其核心部分是HDFS.MapReduce.为了学习的方便,我在虚拟机上搭建了一个伪分布式环境,来进行开发学习. 一.安装前准备: 1)linux服务器:Vmware 上CentOS6.4 mini安装 2) JDK:jdk-7u65-linux-x64.gz 3) SSH:ssh client 4) YUM源配置妥当:yum list查看 5)Hadoop:hadoop-2.5.2.tar.gz 二.环境配置 1)linux环境基本设置: vi /et

32位Ubuntu12.04搭建Hadoop2.5.1完全分布式环境

准备工作 1.准备安装环境: 4台PC,均安装32位Ubuntu12.04操作系统,统一用户名和密码交换机1台网线5根,4根分别用于PC与交换机相连,1根网线连接交换机和实验室网口 2.使用ifconfig查看各PC的IP地址,并确保可以相互ping通 pc1 192.168.108.101 pc2 192.168.108.146 pc3 192.168.108.200 pc4 192.168.108.211 3.安装jdk,下载jdk-7u71-linux-i586.tar.gz,拷贝到你

搭建Hadoop2.6.4伪分布式

准备工作操作系统 CentOS 7 软件环境 JDK 1.7.0_79 下载地址 SSH,正常来说是系统自带的,若没有请自行搜索安装方法关闭防火墙 systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动设置HostName [[email protected] ~]# hostname localhost 安装环境安装JDK [[email prote

hadoop2.6.2伪分布式环境搭建

1.准备三台机器,master.slave01.slave02 1.1 最小化安装centos6.5 1.2 安装ssh,yum -y install openssh-clients 1.3 三台机器上创建hadoop用户组及hadoop用户 groupadd hadoop 添加一个组 useradd hadoop -g hadoop 添加用户 2.免密码登录 http://www.cnblogs.com/bookwed/p/4809390.html 3.安装好jdk环境(jdk1.8) 4

_00014 hadoop-2.2.0 伪分布式环境搭建

http://passport.baidu.com/?business&un=%E5%B0%8F%E5%A7%90%5F%E6%B5%B7%E5%AE%81%5F%E6%89%BE%5F#0 http://passport.baidu.com/?business&un=%E5%B0%8F%E5%A7%90%E6%B5%B7%E5%AE%81%E6%8C%89%E6%91%A9%E6%89%BE#0 http://passport.baidu.com/?business&un=%E5

centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境（亲测成功）

最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境: xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511.iso(网上很多资源,可自行搜索) hadoop-2.7.0.tar.gz(下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.0/) jdk-7u79-linux-x64.tar.gz(下载地址:微盘地址http://

Dockerfile完成Hadoop2.6的伪分布式搭建

在 <Docker中搭建Hadoop-2.6单机伪分布式集群>中在容器中操作来搭建伪分布式的Hadoop集群,这一节中将主要通过Dokcerfile 来完成这项工作. 1 获取一个简单的Docker系统镜像,并建立一个容器. 1.1 这里我选择下载CentOS镜像 docker pull centos 1.2 通过docker tag命令将下载的CentOS镜像名称换成centos,并删除老标签 docker tag docker.io/centos centosdocker rmr dock