《OD大数据实战》hadoop伪分布式环境搭建

一、安装并配置Linux

8. 使用当前root用户创建文件夹，并给/opt/下的所有文件夹及文件赋予775权限，修改用户组为当前用户

mkdir -p /opt/modules
mkdir -p /opt/software
mkdir -p /opt/datas
mkdir -p /opt/tools
chmod 775 /opt/*
chown beifeng:beifeng /opt/*

最终效果如下：

[[email protected]02 opt]$ pwd
/opt
[[email protected]-hadoop-02 opt]$ ll
total 20
drwxrwxr-x.  5 beifeng beifeng 4096 Jul 30 00:13 clusterapps
drwxr-xr-x. 11 beifeng beifeng 4096 Jul 21 23:30 datas
drwxr-xr-x.  6 beifeng beifeng 4096 Jul 31 22:03 modules
drwxr-xr-x.  2 beifeng beifeng 4096 Jul 30 18:17 software
drwxr-xr-x.  2 beifeng beifeng 4096 Jul 10 20:26 tools

二、安装并配置JDK

1. 安装文件

jdk-7u67-linux-x64.tar.gz

2. 解压

tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules

3. 配置jdk

1）使用sudo配置/etc/profile，在文件尾加上以下配置

#JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin

2）配置完成后，使用su - root 切换到root用户，使用source命令生效配置。

source /etc/profile

3）验证jdk是否安装成功

[[email protected]02 ~]# java -version
java version "1.7.0_67"
Java(TM) SE Runtime Environment (build 1.7.0_67-b01)
Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)
[[email protected]-hadoop-02 ~]# javac -version
javac 1.7.0_67

三、安装并配置hadoop

1. 安装文件

下载地址：http://archive.cloudera.com/cdh5/cdh/5/

下载： hadoop-2.5.0-cdh5.3.6.tar.gz

2. 解压

tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/modules/cdh/

3. 配置伪分布式环境

参考文档： http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/ClusterSetup.html

cd /opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/etc/hadoop

修改/etc/profile，在文件尾增加以下配置：

#HADOOP_HOME
export HADOOP_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib

建议使用远程sftp编辑工具，windows上可以使用notepad++,mac上推荐使用skEdit。

1）修改hadoop-evn.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_67

2）修改yarn-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_67

3）修改mapred-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_67

4）修改core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://beifeng-hadoop-02:9000</value>
    </property>
     <property>
         <name>hadoop.tmp.dir</name>
         <value>/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp</value>
     </property>
     <property>
          <name>hadoop.http.staticuser.user</name>
          <value>beifeng</value>
     </property>
</configuration>

5）修改hdfs-site.xml

<configuration>

        <!-- 数据副本数，副本数等于所有datanode的总和 -->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>

        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>beifeng-hadoop-02:50090</value>
        </property>

        <property>
                <name>dfs.permissions.enabled</name>
                <value>false</value>
        </property>

</configuration>

6）修改slaves

beifeng-hadoop-02

7）修改yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>beifeng-hadoop-02</value>
        </property>

        <!-- 是否启用日志聚集功能 -->
        <property>
                <name>yarn.log-aggregation-enable</name>
                <value>true</value>
        </property>

        <!-- 日志保留时间(单位为秒) -->
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>106800</value>
        </property>
</configuration>

8）修改mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

9）启动服务

（1）格式化hdfs

bin/hdfs namenode -format

（2）启动namenode和datanode

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode

使用jps命令，或者web UI界面查看namenode是否已启动成功。

[[email protected]02 hadoop-2.5.0-cdh5.3.6]$ jps
82334 DataNode
82383 Jps
82248 NameNode

hdfs可视化界面： http://beifeng-hadoop-02:50070/dfshealth.html#tab-overview

（2）启动resourcemanager和nodemanager

sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager

使用jps命令，或者web UI界面查看resourcemanager和nodemanager是否已成功启动

[[email protected]02 hadoop-2.5.0-cdh5.3.6]$ jps
82334 DataNode
82757 NodeManager
82874 Jps
82248 NameNode
82507 ResourceManager

yarn可视化界面： http://beifeng-hadoop-02:8088/cluster

（3）启动job历史服务器

sbin/mr-jobhistory-daemon.sh start historyserver

查看是否已成功启动：

历史服务器可视化界面：http://beifeng-hadoop-02:19888/

（4）启动secondarynamenode

sbin/hadoop-daemon.sh start secondarynamenode

查看是否已成功启动：

secondarynamenode可视化界面 http://beifeng-hadoop-02:50090/status.html

（5）所有相关服务停止命令

sbin/hadoop-daemon.sh stop namenode
sbin/hadoop-daemon.sh stop datanode
sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver
sbin/hadoop-daemon.sh stop secondarynamenode

10）跑一个wordcount 验证环境搭建结果

文件系统shell：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.6/hadoop-project-dist/hadoop-common/FileSystemShell.html

hdfs dfs -mkdir -p /user/beifeng/input

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /user/beifeng/input /user/beifeng/output 

hdfs dfs -cat /user/beifeng/output/part-r-00000

时间： 2024-10-21 22:07:41

《OD大数据实战》hadoop伪分布式环境搭建的相关文章

一、Hadoop伪分布式环境搭建

Hadoop 2.x伪分布式环境搭建步骤: 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)代开这三个文件添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-site.xml <configuration> <

大数据之---hadoop伪分布式部署(HDFS)全网终极篇

1.软件环境RHEL6 jdk-8u45 hadoop-2.8.1.tar.gz ssh xx.xx.xx.xx ip地址 hadoop1 xx.xx.xx.xx ip地址 hadoop2 xx.xx.xx.xx ip地址 hadoop3 xx.xx.xx.xx ip地址 hadoop4 xx.xx.xx.xx ip地址 hadoop5 本次部署只涉及伪分布式部署只是要主机hadoop1 2.伪分布式部署伪分布式部署文档参考官方网站hadoopApache > Hadoop > Apache

Hadoop学习笔记之Hadoop伪分布式环境搭建

搭建为伪分布式Hadoop环境 1.宿主机(Windows)与客户机(安装在虚拟机中的Linux)网络连接. a) Host-only 宿主机与客户机单独组网: 好处:网络隔离: 坏处:虚拟机和其他服务器之间不能通讯: b) Bridge 桥接宿主机与客户机在同一个局域网中. 好处:窦在同一个局域网,可以互相访问: 坏处:不完全. 2.Hadoop的为分布式安装步骤 a) 设置静态IP 在centos下左面上右上角图标右键修改: 重启网卡service network restart; 验证:

hadoop伪分布式环境搭建

1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:1

hadoop伪分布式环境搭建:linux操作系统安装图解

本篇文章是接上一篇<新手入门篇:虚拟机搭建hadoop环境的详细步骤>,上一篇有人问怎么没写hadoop安装.在文章开头就已经说明了,hadoop安装会在后面写到,因为整个系列的文章涉及到每一步的截图,导致文章整体很长.会分别先对虚拟机的安装.Linux系统安装进行介绍,然后才会写到hadoop安装,关于hadoop版本我使用的是大快搜索三节点发行版DKhadoop.(三节点的DKHadoop发行版可以自己去大快网站页面下载,目前是开放所有权限的,也就是免费版本和付费版本的权限一样,不知道以后

hadoop学习(一)   hadoop伪分布式环境搭建

前期准备 1.创建hadoop相关目录(便于管理) 2.给/opt/*目录赋予hadoop用户及所有组权限 sudo chrown -R hadoop:hadoop /opt/* 3.JDK安装与配置配置HDFS/YARN/MAMREDUCE 1.解压hadoop tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/ (删除doc下的帮助文档,节省空间) rm -rf /opt/modules/hadoop-2.5.0/share/doc/ 2.配置had

大数据平台Hadoop的分布式集群环境搭建

1 概述本文章介绍大数据平台Hadoop的分布式环境搭建.以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1.slave2.slave3中分别部署一个DataNode节点 NN=NameNode(名称节点) SND=SecondaryNameNode(NameNode的辅助节点) DN=DataNode(数据节点)2 前期准备 (1)准备五台服务器如:master1.master2.slave1.sla

《OD大数据实战》hive环境搭建

一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建二.hive环境搭建 1. 准备安装文件下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hive-0.13.1-cdh5.3.6.tar.gz 2. 解压 tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 cd /opt/modules/cdh/hive-0.13.1-cdh5.3.6/con

《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台

一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. <OD大数据实战>Flume入门实例 5. <OD大数据实战>Kafka入门实例 6. <OD大数据实战>Oozie环境搭建 7. <OD大数据实战>HBase环境搭建二.