CentOS5.4 搭建Hadoop2.5.2伪分布式环境

简介:

Hadoop是处理大数据的主要工具,其核心部分是HDFS、MapReduce。为了学习的方便,我在虚拟机上搭建了一个伪分布式环境,来进行开发学习。

一、安装前准备:

1)linux服务器:Vmware 上CentOS6.4 mini安装

2) JDK:jdk-7u65-linux-x64.gz

3) SSH:ssh client

4) YUM源配置妥当:yum list查看

5)Hadoop:hadoop-2.5.2.tar.gz

二、环境配置

1)linux环境基本设置:

vi /etc/sysconfig/network

编辑HOSTNAME=Master

vi /etc/hosts

#添加

本机IP地址   Master

#关闭防火墙iptables,并设置为开机不启动

service iptables stop

chkconfig iptables off

2)JDK的安装配置

#将jdk解压到指定目录/opt/java

mkdir /opt/java

tar -zxvf jdk-7u65-linux-x64.gz -C /opt/java

#配置环境变量

vi /etc/profile

#在文件最后添加以下内容

export JAVA_HOME=/opt/java/jdk1.7.0_65

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

#保存退出,立即生效该配置文件

source /etc/profile

#查看java是否配置好

java -version

重启系统,接下来是配置ssh无密码登陆。配置这个的理由是在启动hadoop可以不用输入密码。

3)配置SSH无密码登录

vi /etc/ssh/sshd_config

#以下4行的注释需要打开

HostKey /etc/ssh/ssh_host_rsa_key

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile      .ssh/authorized_keys

#保存,并重启sshd

service sshd restart

#生成免登陆秘钥

ssh-keygen -t rsa

#一路回车就行。之后会在当前登陆用户主目录中的.ssh文件夹里生成2个文件。

#进入.ssh目录。

cat id_rsa.pub >> authorized_keys

#现在可以用ssh无密码登陆系统了。

ssh localhost

PS:如果提示出错,则是没有安装SSH客户端导致的

yum list|grep ssh

#找到ssh客户端

yum install -y ssh客户端名称

三、Hadoop安装与配置

1)上传

通过ftp将下载的hadoop安装包(hadoop-2.5.2.tar.gz)上传到/tmp目录下

2)解压

将hadoop安装包解压到指定目录下

mkdir /opt/hadoop

tar -zxvf hadoop-2.5.2.tar.gz -C /opt/hadoop

3)  配置环境变量

vi /etc/profile

#在文件最后添加以下内容

export HADOOP_HOME=/usr/hadoop-2.5.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib

#保存,并执行source /etc/profile

#cd $HADOOP_HOME,看能否进入hadoop的home目录

4)配置Hadoop

#Hadoop配置文件放在:$HADOOP_HOME/etc/hadoop

#Hadoop主要配置五个文件:hadoop_env.sh,core_site.sh,hdfs_site.xml,mapred-site.xml,yarn-site.xml

#创建hadoop的name与data目录

mkdir -p /usr/hdfs/name

mkdir -p /usr/hdfs/data

mkdir -p /usr/tmp

#hadoop_env.sh

vi hadoop_env.sh

#配置export JAVA_HOME的目录

#core_site.sh

vi core_site.sh

#在configuration节点里面加入以下配置,Master也为为本地ip地址

<property>

      <name>hadoop.tmp.dir</name>

      <value>/usr/tmp</value>

      <description>A base for other temporary directories.</description>

  </property>

<!--file system properties-->

  <property>

      <name>fs.defaultFS</name>

      <value>Master:9000</value>

  </property>

#hdfs_site.xml

vi hdfs_site.xml

#同样在configuration节点里面加入以下配置,配置分片数和namenode和datanode的目录

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>/usr/hdfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>/usr/hdfs/data</value>

    </property>

#mapred-site.xml

#从模板复制一份mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

#同样在configuration节点里面加入以下配置,因为从0.23.0版本开始,就用新的mapreduce框架YARN来代替旧的框架了,所以,这里要配置成yarn

<property>

  <name>mapreduce.framework.name</name>

  <value>yarn</value>

</property>

#yarn-site.xml

vi yarn-site.xml

#同样在configuration节点里面加入以下配置,注意使用Master或者本机的ip地址

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

  <property>

    <description>The address of the applications manager interface in the RM.</description>

    <name>yarn.resourcemanager.address</name>

    <value>Master:18040</value>

  </property>

  <property>

    <description>The address of the scheduler interface.</description>

    <name>yarn.resourcemanager.scheduler.address</name>

    <value>Master:18030</value>

  </property>

  <property>

    <description>The address of the RM web application.</description>

    <name>yarn.resourcemanager.webapp.address</name>

    <value>Master:18088</value>

  </property>

  <property>

    <description>The address of the resource tracker interface.</description>

    <name>yarn.resourcemanager.resource-tracker.address</name>

    <value>Master:8025</value>

  </property>

 至此,就将Hadoop的基本环境配置好了,现在可以开始我们的Hadoop之旅了!

四、Hadoop启动

1)HDFS格式化

#在启动Hadoop之前,我们需要先将HDFS的namenode格式化

输入命令:hadoop namenode -format

2)启动Hadoop,这几个sh文件在$HADOOP_HOME/sbin

启动命令:

start-dfs.sh

start-yarn.sh

停止命令:

stop-dfs.sh

stop-yarn.sh

3) 查看启动状况

#我们通过java自带的命令来查看

jps

#我们可以看到6个进程

9293 Jps

5762 ResourceManager

4652 NameNode

5850 NodeManager

4907 SecondaryNameNode

4733 DataNode

至此,我们就将Hadoop启动起来了!

我们可以通过浏览器来查看,打开浏览器输入  http://Master的IP:50070  与  http://Master的IP:8088  验证安装。

五、测试Hadoop

#通过运行hadoop自带的wordcount来验证安装是否正确。

#进入hadoop安装的目录,输入以下命令。

mkdir example

cd example

#编辑file1.txt与file2.txt

vi file1.txt

hellozhmsdd

hello hadoop

hello cz

vi file2.txt

hadoop is ok

hadoop is newbee

hadoop 2.5.2

#拷贝fiel1和file2到输入目录:data目录下

cd ..

hadoop fs -mkdir /data

hadoop fs -put -f example/file1.txt example/file2.txt /data

#进入HADOOP_HOME目录,运行wordcount例子

hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.5.2-sources.jar org.apache.hadoop.examples.WordCount /data /output

#查看运行结果

hadoop fs -cat /output/part-r-00000

#结果如下:

2.5.2   1

cz      1

hadoop  4

hello   3

is      2

newbee  1

ok      1

zhm     1

到这里,环境就已经配置好了,下面就是搞使用Maven开发Hadoop项目了。

时间: 2024-11-16 01:29:45

CentOS5.4 搭建Hadoop2.5.2伪分布式环境的相关文章

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

近几年大数据越来越火热.由于工作需要以及个人兴趣,最近开始学习大数据相关技术.学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘. 第一篇,在win7虚拟机下搭建hadoop2.6.0伪分布式环境. 1. 所需要的软件 使用Vmware 11.0搭建虚拟机,安装Ubuntu 14.04.2系统. Jdk 1.7.0_80 Hadoop 2.6.0 2. 安装vmware和ubuntu 略 3. 在ubuntu中安装JDK 将jdk解压缩到目录:/home/vm/tool

Java笔记--CenOS6.5搭建hadoop2.7.1伪分布式环境

一.前言 很以前就搭建过hadoop的伪分布式环境,为了搭建环境特意弄的双系统,还把毕业论文给毁了.不过当时使用的是 hadoop1.x 的,而且因为一些原因,就搭建了环境,而没继续学习了.现在开始,准备好好的学习一下hadoop 二.Hadoop 简介 Hadoop 是Apache软件基金会旗下的一个开源分布式计算平台 是云计算中 PaaS(平台即服务)一层的实现 HDFS 和 MapReduce 共同组成了Hadoop分布式系统体系结构的核心 注:hadoop 具体介绍,留待以后说,现在主要

CentOS6.6搭建Hadoop2.5.2伪分布式环境

Hadoop是用作处理大数据用的,核心是HDFS.Map/Reduce.虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了. 首先准备一个CentOS,将主机名改为master,并且在/etc/hosts里面加入master对应的本机ip地址. Linux基本配置 vi /etc/sysconfig/network #编辑文件里面的HOSTNAME=master vi /etc/hosts #添加 本机IP地址   maste

32位Ubuntu12.04搭建Hadoop2.5.1完全分布式环境

准备工作 1.准备安装环境: 4台PC,均安装32位Ubuntu12.04操作系统,统一用户名和密码 交换机1台 网线5根,4根分别用于PC与交换机相连,1根网线连接交换机和实验室网口 2.使用ifconfig查看各PC的IP地址,并确保可以相互ping通 pc1 192.168.108.101 pc2 192.168.108.146 pc3 192.168.108.200 pc4 192.168.108.211 3.安装jdk,下载jdk-7u71-linux-i586.tar.gz,拷贝到你

搭建Hadoop2.6.4伪分布式

准备工作 操作系统 CentOS 7 软件环境 JDK 1.7.0_79 下载地址 SSH,正常来说是系统自带的,若没有请自行搜索安装方法 关闭防火墙 systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动 设置HostName [[email protected] ~]# hostname localhost 安装环境 安装JDK [[email prote

hadoop2.6.2伪分布式环境搭建

1.准备三台机器,master.slave01.slave02 1.1 最小化安装centos6.5 1.2 安装ssh,yum -y install openssh-clients 1.3 三台机器上创建hadoop用户组及hadoop用户 groupadd hadoop  添加一个组 useradd hadoop -g hadoop  添加用户 2.免密码登录 http://www.cnblogs.com/bookwed/p/4809390.html 3.安装好jdk环境(jdk1.8) 4

_00014 hadoop-2.2.0 伪分布式环境搭建

http://passport.baidu.com/?business&un=%E5%B0%8F%E5%A7%90%5F%E6%B5%B7%E5%AE%81%5F%E6%89%BE%5F#0 http://passport.baidu.com/?business&un=%E5%B0%8F%E5%A7%90%E6%B5%B7%E5%AE%81%E6%8C%89%E6%91%A9%E6%89%BE#0 http://passport.baidu.com/?business&un=%E5

centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境(亲测成功)

最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境:   xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511.iso(网上很多资源,可自行搜索)   hadoop-2.7.0.tar.gz(下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.0/) jdk-7u79-linux-x64.tar.gz(下载地址:微盘地址http://

Dockerfile完成Hadoop2.6的伪分布式搭建

在 <Docker中搭建Hadoop-2.6单机伪分布式集群>中在容器中操作来搭建伪分布式的Hadoop集群,这一节中将主要通过Dokcerfile 来完成这项工作. 1 获取一个简单的Docker系统镜像,并建立一个容器. 1.1 这里我选择下载CentOS镜像 docker pull centos 1.2 通过docker tag命令将下载的CentOS镜像名称换成centos,并删除老标签 docker tag docker.io/centos centosdocker rmr dock