CDH版本hadoop2.6伪分布式安装

CDH版本hadoop的一个重要分支，使用hadoop-2.6.0-cdh5.9.0在单台CentOS配置hadoop伪分布式环境；

1、基础环境配置

主机名	IP地址	角色	Hadoop用户
localhost	192.168.30.139	NameNode、ResourceManager、SecondaryNameNode、DataNode、NodeManager	hadoop

1.1、关闭防火墙和SELinux

1.1.1、关闭防火墙

$ systemctl stop firewalld
$ systemctl disable firewalld

1.1.2、关闭SELinux

$ setenforce 0
$ sed -i ‘s/enforcing/disabled/‘ /etc/sysconfig/selinux

注：以上操作需要使用root用户

1.2、hosts配置

$ vi /etc/hosts

########## Hadoop host ##########
192.168.30.139   localhost

注：以上操作需要使用root用户，通过ping 主机名可以返回对应的IP即可

1.3、配置无密码访问

首先要创建hadoop用户，然后在4台主机上使用hadoop用户配置无密码访问，所有主机的操作相同，以hadoop-master为例

生成私钥和公钥

$ ssh-keygen -t rsa

拷贝公钥到主机（需要输入密码）

$ ssh-copy-id [email protected]

注：以上操作需要在hadoop用户，通过hadoop用户ssh到其他主机不需要密码即可。

1.4、Java环境配置

1.4.1、下载JDK

注：使用hadoop用户操作

$ cd /home/hadoop
$ curl -o jdk-8u151-linux-x64.tar.gz http://download.oracle.com/otn-pub/java/jdk/8u151-b12/e758a0de34e24606bca991d704f6dcbf/jdk-8u151-linux-x64.tar.gz?AuthParam=1516091623_fa4174d4b1eed73f36aa38230498cd48

1.4.2、安装java

安装java可使用hadoop用户操作；

$ mkdir -p /home/hadoop/app/java
$ tar -zxf jdk-8u151-linux-x64.tar.gz
$ mv jdk1.8.0_151 /home/hadoop/app/java/jdk1.8

配置Java环境变量：
```
$ vi /home/hadoop/.bash_profile
```

export JAVA_HOME=/home/hadoop/app/java/jdk1.8
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

启用环境变量
$ source /home/hadoop/.bash_profile

注：通过java –version命令返回Java的版本信息即可

2、安装hadoop

2.1、下载安装CDH版本的hadoop

$ cd ~
$ curl -O http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.13.0.tar.gz
$ mkdir -p app/hadoop
$ tar -zxf hadoop-2.6.0-cdh5.9.0.tar.gz -C ./app/hadoop/

2.2、安装配置hadoop

hadoop的安装配置使用hadoop用户操作；

$ mkdir -p /home/hadoop/app/hadoop/hdfs/{name,data}

2.2.1、配置core-site.xml

$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hadoop/app/hadoop/tmp</value>
    </property>
</configuration>

2.2.2、配置hdfs-site.xml

$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/app/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/app/hadoop/hdfs/data</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

2.2.3、配置mapred-site.xml

$ cd /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/
$ cp mapred-site.xml.template mapred-site.xml

$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

2.2.4、配置yarn-site.xml

$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

2.2.5、配置slaves

$ vi app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/slaves

localhost

2.2.6、配置hadoop-env

修改hadoop-env.sh文件的JAVA_HOME环境变量，操作如下：
$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/home/hadoop/app/java/jdk1.8

2.2.7、配置yarn-env

修改yarn-env.sh文件的JAVA_HOME环境变量，操作如下：

$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/home/hadoop/app/java/jdk1.8

2.2.8、配置mapred-env

修改mapred-env.sh文件的JAVA_HOME环境变量，操作如下：

$ vi /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/home/hadoop/app/java/jdk1.8

2.2.9、配置HADOOP_PREFIX

$ vi /home/hadoop/.bash_profile

####HADOOP_PREFIX
export HADOOP_PREFIX=/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0
export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin

启用环境变量

$ source /home/hadoop/.bash_profile

注：通过echo $HADOOP_PREFIX命令返回hadoop的安装目录

3、启动hadoop伪分布式

3.1、启动hdfs

格式化hdfs
```
$ hdfs namenode -format
```
启动dfs
```
$ start-dfs.sh
```

启动的进程

$ jps
15376 NameNode
15496 DataNode
15656 SecondaryNameNode
15759 Jps

注：关闭dfs命令为：stop-dfs.sh

3.2、启动yarn

$ start-yarn.sh

注：关闭yarn命令为：stop-yarn.sh

3.3、启动集群

hdfs和yarn的启动可以使用一条命令执行：

启动：start-all.sh
关闭: stop-all.sh

启动后的所有进程：

$ jps
15376 NameNode
16210 Jps
15811 ResourceManager
15907 NodeManager
15496 DataNode
15656 SecondaryNameNode

MapReducer PI运算

$ hadoop jar /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.9.0.jar pi 5 10

返回的结果是：Estimated value of Pi is 3.28000000000000000000

YARN管理界面：http://192.168.30.139:8088
HDFS管理界面：http://192.168.30.139:50070

4、hdfs的shell操作和Wordcount演示

4.1、简单的hdfs shell操作

创建目录

$ hadoop fs -mkdir /input
$ hadoop fs -mkdir /output

查看目录

$ hadoop fs -ls /
Found 4 items
drwxr-xr-x   - hadoop supergroup          0 2018-01-19 10:56 /input
drwxr-xr-x   - hadoop supergroup          0 2018-01-19 10:56 /output
drwx------   - hadoop supergroup          0 2018-01-19 10:51 /tmp
drwxr-xr-x   - hadoop supergroup          0 2018-01-19 10:51 /user

上传文件

$ hadoop fs -put  /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/LICENSE.txt /input

查看文本文件内容
```
$ hadoop fs -cat /input/LICENSE.txt 
```

4.2、Wordcount

将HDFS上/input/LICENSE.txt 使用hadoop内置Wordcount的jar包统计文档的Wordcount

启动测试

$ hadoop jar /home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.9.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.9.0.jar wordcount /input /output/wordcounttest

查看结果

$ hadoop fs -ls /output/wordcounttest
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2018-01-19 11:04 /output/wordcounttest/_SUCCESS
-rw-r--r--   1 hadoop supergroup      22117 2018-01-19 11:04 /output/wordcounttest/part-r-00000
$
$ hadoop fs -cat /output/wordcounttest/part-r-00000|sort -k2 -nr|head
the 641
of  396
or  269
and 255
to  241
this    164
in  162
OR  161
OF  160
a   128

5、参考资料

http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.5/hadoop-project-dist/hadoop-common/SingleCluster.html

原文地址：http://blog.51cto.com/balich/2062754

时间： 2024-08-11 01:29:23

CDH版本hadoop2.6伪分布式安装的相关文章

Hadoop2.x伪分布式环境搭建(一)

1.安装hadoop环境,以hadoop-2.5.0版本为例,搭建伪分布式环境,所需要工具包提供网盘下载:http://pan.baidu.com/s/1o8HR0Qu 2.上传所需要的工具包到linux相对就应的目录中 3.接上篇(Linux基础环境的各项配置(三)中最后一部分,需卸载系统自带的jdk,以免后续安装的jdk产生冲突),卸载jdk完成后,安装jdk-7u67-linux-x64.tar.gz版本,上述工具包可下载 (1).解压JDK tar -zxf jdk-7u67-linux

Hbase伪分布式安装

前面的文章已经讲过hadoop伪分布式安装,这里直接介绍hbase伪分布式安装. 1. 下载hbase 版本hbase 1.2.6 2. 解压hbase 3. 修改hbase-env.sh 新增如下内容 export JAVA_HOME=/home/cauchy/software/jdk export HADOOP_HOME=/home/cauchy/software/hadoop export HBASE_HOME=/home/cauchy/software/hbase export HBAS

Zookeeper 初体验之——伪分布式安装（转）

原文地址: http://blog.csdn.net/salonzhou/article/details/47401069 简介 Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目.Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如统一命名服务,配置管理,状态同步和组服务等.Zookeeper 接口简单,开发人员不必过多地纠结在分布式系统编程

HBase基础和伪分布式安装配置

一.HBase(NoSQL)的数据模型 1.1 表(table),是存储管理数据的. 1.2 行键(row key),类似于MySQL中的主键,行键是HBase表天然自带的,创建表时不需要指定 1.3 列族(column family),列的集合. 一张表中有多个行健,一个行健读取出来的是一条记录,列族和MySQL中的列差不多,但是它是列的集合 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的. HBase表中的数据存储在本地磁盘上的时候,每个列族单独一个作为文件存储. 上图表

Hadoop伪分布式安装

本文介绍的主要是Hadoop的伪分布式的搭建以及遇到的相关问题的解决,做一下记录,jdk的安装这里就不做太多的介绍了,相信大家根据网上的安装介绍很快就能安装成功. 环境操作系统 Oracle VM VirtualBox-rhel-6.4_64 本机名称 yanduanduan 本机IP 192.168.1.102 JDK 1.7.0_79 hadoop 2.7.3 点此下载 Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材

hadoop2.6完全分布式安装HBase1.1

本文出自:http://wuyudong.com/archives/119 对于全分布式的HBase安装,需要通过hbase-site.xml文档来配置本机的HBase特性,由于各个HBase之间通过zookeeper来进行通信,因此需要维护一组zookeeper系统,关于zookeeper的安装使用,参考<hadoop2.6完全分布式安装zookeeper3.4.6> 关于HBase的介绍,可以看这里<HBase简介> 1.安装Hbase(1)下载hbase版本下载地址:htt

Hadoop日记Day3---Hadoop的伪分布式安装

导录比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

(转)Zookeeper 初体验之——伪分布式安装

Zookeeper 初体验之——伪分布式安装简介 Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目.Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如统一命名服务,配置管理,状态同步和组服务等.Zookeeper 接口简单,开发人员不必过多地纠结在分布式系统编程难于处理的同步和一致性问题上,你可以使用 Zookeeper 提供的现成(of

Hadoop2.4.1分布式安装

1.做好下文中的所有配置:Hadoop1.2.1分布式安装-1-准备篇. 2.Hadoop2.x的发行版中有个小问题:libhadoop.so.1.0.0在64位OS中存在问题,因为它是32位的,在64位OS中hadoop启动时会报一个WARN的日志.这个包的作用是调用native的api,可以提高hadoop的性能,如果这个包失效,那就是使用jvm做压缩等工作,效率就会很低.处理方法就是重新编译Hadoop,见xxx(link article). 3.在打算做namenode的机器上,wge