大数据之Hadoop平台（二）Centos6.5（64bit）Hadoop2.5.1伪分布式安装记录，wordcount运行测试

注意：以下安装步骤在Centos6.5操作系统中进行，安装步骤同样适于其他操作系统，如有同学使用Ubuntu等其他Linux操作系统，只需注意个别命令略有不同。

注意一下不同用户权限的操作，比如关闭防火墙，需要用root权限。

单节点的hadoop安装出现的问题会在如下几个方面：JDK环境的配置、防火墙是否关闭、root用户和hadoop用户的不同操作等。

在搭建的过程中细心一点，按照下面的步骤做，基本不会有什么问题的。

一、准备工作（root用户）

1.关闭防火墙

关闭防火墙：service iptables stop
关闭开机启动：chkconfig iptables off

2.创建用户

创建hadoop用户：useradd hadoop
密码：passwd hadoop
加入sudoers：vim /etc/sudoers ，在root下一行写入hadoop  ALL=(ALL)       ALL

3.修改hosts文件

在/etc/hosts文件最后一行加入：

127.0.0.1		hadoop

二、安装JDK1.8（root用户）

1.查看已装JDK

rpm -qa |grep java
rpm -qa |grep jdk

2.卸载上一步显示的程序

rpm -e --nodeps  程序名
（如：rpm -e --nodeps tzdata-java-2013g-1.el6.noarch
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64）

3.安装JDK1.8

rpm -ivh jdk-8-linux-x64.rpm  （在安装文件所在的目录下执行该指令，安装前可将.rpm文件放置在任意目录，左后jdk默认安装在/usr/java/jdk1.8.0 中）

4.修改环境变量

修改 /etc/profile文件，在文件末尾加入以下几行：

export JAVA_HOME=/usr/java/jdk1.8.0
export JRE_HOME=/usr/java/jdk1.8.0/jre
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

5.使刚修改的环境变量生效

source /etc/profile

6.验证JDK是否安装成功

java -version
echo $JAVA_HOME

三、SSH无密码登录（hadoop用户）

1.生成密钥

ssh-keygen -t dsa （然后一直按回车即可，会自动生成.ssh文件夹，内有两个文件）

2.生成authorized_keys

进入/home/hadoop/.ssh目录

cat id_dsa.pub >> authorized_keys

3.给authorized_keys赋予执行权限

chmod 600 authorized_keys

4.测试是否能够无密码登录本地

ssh localhost

如果不用再次输入密码，说明成功

四、安装hadoop（hadoop用户）

1.解压到指定目录（以在/home/hadoop目录为例）

tar -zxvf hadoop-2.5.1.tar.gz

2.配置文件

配置文件在/home/hadoop/hadoop-2.5.1/etc/hadoop/目录下

2.1.core-site.xml文件

在<configuration>和</configuration>之间加入如下内容

<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.5.1/tmp</value>
</property>

2.2.hdfs-site.xml文件

<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hadoop-2.5.1/name</value>
</property>        

<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hadoop-2.5.1/data</value>
</property>          

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

注意：/home/hadoop/hadoop-2.5.1/data和/home/hadoop/hadoop-2.5.1/name这两个目录应该是存在的。

2.3.mapred-site.xml文件

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

2.4.mapred-env.sh文件

export JAVA_HOME=/usr/java/jdk1.8.0
export HADOOP_MAPRED_PID_DIR=/home/hadoop/hadoop-2.5.1/tmp

2.5.hadoop-env.sh文件

export JAVA_HOME=/usr/java/jdk1.8.0
export HADOOP_PID_DIR=/home/hadoop/hadoop-2.5.1/tmp
export HADOOP_SECURE_DN_PID_DIR=/home/hadoop/hadoop-2.5.1/tmp

2.6.yarn-site.xml文件

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

2.将hadoop加入环境变量

sudo vim /etc/profile
加入如下两行
export HADOOP_HOME=/home/hadoop/hadoop-2.5.1
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

五、启动（hadoop用户）

1.格式化namenode

hdfs namenode -format

如果成功，此时，在/home/hadoop/hadoop-2.5.1/name/中会生成current文件夹

2.启动namenode和datanode

hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode

通过jps能够验证是否启动成功

3.启动yarn

start-yarn.sh

输入jps验证

4.在网页端查看

输入IP:50070（例如：http://192.168.56.103:50070/）

六、运行wordcount例子（hadoop用户）

Wordcount例子在/home/hadoop/hadoop-2.5.1/share/hadoop/mapreduce中的hadoop-mapreduce-examples-2.5.1.jar

1.上传本地文件至hdfs

hadoop fs -put 文件 /test （如：hadoop fs -put 1 /test是将本地的文件1上传至hdfs中的/test目录下）

2.运行

hadoop jar hadoop-mapreduce-examples-2.5.1.jar wordcount /test/1 /test/output/1

注意：/test/output/1必须是不存在的目录

3.查看结果

hadoop fs -cat /test/output/1/part-r-00000

时间： 2024-11-05 18:56:18

大数据之Hadoop平台（二）Centos6.5（64bit）Hadoop2.5.1伪分布式安装记录，wordcount运行测试的相关文章

Hadoop系列(二)hadoop2.2.0伪分布式安装

一.环境配置安装虚拟机vmware,并在该虚拟机机中安装CentOS 6.4: 修改hostname(修改配置文件/etc/sysconfig/network中的HOSTNAME=hadoop),修改IP到主机名的映射(vi /etc/hosts ,添加 127.0.0.1 hadoop); 按照JDK,下载jdk1.7.0_60并解压到/soft目录中,然后在/etc/profile中添加 export JAVA_HOME=/soft/jdk1.7.0_60 和 export PATH

CentOS6.6搭建Hadoop2.5.2伪分布式环境

Hadoop是用作处理大数据用的,核心是HDFS.Map/Reduce.虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了. 首先准备一个CentOS,将主机名改为master,并且在/etc/hosts里面加入master对应的本机ip地址. Linux基本配置 vi /etc/sysconfig/network #编辑文件里面的HOSTNAME=master vi /etc/hosts #添加本机IP地址 maste

Hadoop新生报到（一） hadoop2.6.0伪分布式配置详解

首先先不看理论,搭建起环境之后再看: 搭建伪分布式是为了模拟环境,调试方便. 电脑是win10,用的虚拟机VMware Workstation 12 Pro,跑的Linux系统是centos6.5 ,装的hadoop2.6.0,jdk1.8: 1.准备工作准备工作:把JDK和Hadoop安装包上传到linux系统(hadoop用户的根目录) 系统环境:IP:192.168.80.99, linux用户: root/123456,hadoop/123456 主机名:node 把防火墙关闭,roo

琐碎-hadoop2.2.0伪分布式和完全分布式安装（centos6.4）

环境是centos6.4-32,hadoop2.2.0 伪分布式文档:http://pan.baidu.com/s/1kTrAcWB 完全分布式文档:http://pan.baidu.com/s/1hqIeBGw 和1.x.0.x有些不同,特别是yarn.

Hadoop大数据通用处理平台

1.简介 Hadoop是一款开源的大数据通用处理平台,其提供了分布式存储和分布式离线计算,适合大规模数据.流式数据(写一次,读多次),不适合低延时的访问.大量的小文件以及频繁修改的文件. *Hadoop由HDFS.YARN.MapReduce组成. Hadoop的特点: 1.高扩展(动态扩容):能够存储和处理千兆字节数据(PB),能够动态的增加和卸载节点,提升存储能力(能够达到上千个节点) 2.低成本:只需要普通的PC机就能实现,不依赖高端存储设备和服务器. 3.高效率:通过在Hadoop集群中

魅族大数据之流平台设计部署实践--转

原文地址:http://mp.weixin.qq.com/s/-RZB0gCj0gCRUq09EMx1fA 沈辉煌魅族数据架构师 2010年加入魅族,负责大数据.云服务相关设计与研发: 专注于分布式服务.分布式存储.海量数据下rdb与nosql融合等技术. 主要技术点:推荐算法.文本处理.ranking算法本篇文章内容来自第八期魅族开放日魅族数据架构师沈辉煌的现场分享,由IT大咖说提供现场速录,由msup整理编辑. 导读:魅族大数据的流平台系统拥有自设计的采集SDK,自设计支持多种数据

大数据之hadoop，国内首部:Zookeeper从入门到精通课程分享

对这个课程感兴趣的朋友可以加我QQ2059055336和我联系. ZooKeeper是Hadoop的开源子项目(Google Chubby的开源实现),它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护.命名服务.分布式同步.组服务等. Zookeeper的Fast Fail 和 Leader选举特性大大增强了分布式集群的稳定和健壮性,并且解决了Master/Slave模式的单点故障重大隐患,这是越来越多的分布式产品如HBase.Storm(流计算).S4(流计算)等强依赖Zoo

大数据：Hadoop入门

大数据:Hadoop入门一:什么是大数据什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如关系型数据库,数据仓库等.这里“大”是一个什么量级呢?如在阿里巴巴每天处理数据达到20PB(即20971520GB). 2.大数据的特点: (1.)体量巨大.按目前的发展趋势来看,大数据的体量已经到达PB级甚至EB级. (2.)大数据的数据类型多样,以非结构化数据为主,如网络杂志,音频,视屏,图片,

大数据云计算高级实战Hadoop，Flink，Spark，Kafka，Storm，Docker高级技术大数据和Hadoop技能

大数据和Hadoop技能可能意味着有你的梦想事业和被遗忘之间的差异.骰子引用:“技术专业人员应该志愿参与大数据项目,这使他们对目前的雇主更有价值,对其他雇主更有销路.” 1.与Hadoop的职业:根据福布斯2015年的一份报告,约有90%的全球性组织报告了中高级别的大数据分析投资,约三分之一的投资者称其投资“非常重要”.最重要的是,约三分之二的受访者表示,数据和分析计划对收入产生了重大的可衡量的影响. Hadoop技能是需求的 - 这是不可否认的事实!因此,IT专业人士迫切需要使用 Hadoop