Hadoop伪分布模式配置部署

二、Hadoop伪分布式模式配置

本实验需要按照上一节单机模式部署后继续进行操作

1. 配置core-site.xml, hdfs-site.xml,mapred-site.xml及yarn-site.xml

1).修改core-site.xml:

$ sudo gvim /usr/local/hadoop/etc/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
   </property>
</configuration>

常用配置项说明:

  • fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
  • hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}这个路径中

更多说明请参考core-default.xml,包含配置文件所有配置项的说明和默认值。

2).修改hdfs-site.xml:

$ sudo gvim /usr/local/hadoop/etc/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

常用配置项说明:

  • dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)
  • dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的,因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
  • dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。

更多说明请参考hdfs-default.xml,包含配置文件所有配置项的说明和默认值。

3).修改mapred-site.xml:

$ sudo gvim /usr/local/hadoop/etc/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>mapredurce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

常用配置项说明:

  • mapred.job.trackerJobTracker的主机(或者IP)和端口。

更多说明请参考mapred-default.xml,包含配置文件所有配置项的说明和默认值

4).修改yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

常用配置项说明:

  • yarn.nodemanager.aux-services通过该配置,用户可以自定义一些服务

更多说明请参考yarn-default.xml,包含配置文件所有配置项的说明和默认值

这样简单的伪分布式模式就配置好了

三、格式化HDFS文件系统

在使用hadoop前,必须格式化一个全新的HDFS安装,通过创建存储目录和NameNode持久化数据结构的初始版本,格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据,而DataNode可以动态的加入或离开集群,因此这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。

1.先切换到hadoop账户,按照提示输入账户密码

$ su hadoop

2.格式化HDFS文件系统

$ sudo hadoop  namenode  -format

会输出如下信息,则表格式化HDFS成功:

DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = [你的主机名]/127.0.0.1
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 2.4.1
...
...
INFO util.ExitUtil: Exiting with status 0
INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]/127.0.0.1
************************************************************/

四、Hadoop集群启动

1.启动hdfs守护进程,分别启动NameNode和DataNode

$ hadoop-daemon.sh start namenode
$ hadoop-daemon.sh start datanode

或者一次启动

$ start-dfs.sh

输出如下(可以看出分别启动了namenode, datanode, secondarynamenode,因为我们没有配置secondarynamenode,所以地址为0.0.0.0):

Starting namenodes on []
hadoop@localhost‘s password:
localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out
hadoop@localhost‘s password:
localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out
localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
localhost: It‘s highly recommended that you fix the library with ‘execstack -c <libfile>‘, or link it with ‘-z noexecstack‘.
Starting secondary namenodes [0.0.0.0]
[email protected]‘s password:
0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out

2.启动yarn,使用如下命令启ResourceManager和NodeManager:

$ yarn-daemon.sh start resourcemanager
$ yarn-daemon.sh start nodemanager

或者一次启动:

$ start-yarn.sh

3.检查是否运行成功

打开浏览器

  • 输入:http://localhost:8088进入ResourceManager管理页面
  • 输入:http://localhost:50070进入HDFS页面

六、测试验证

测试验证还是使用上一节的WordCount

1.创建输入的数据,采用/etc/protocols文件作为测试

$ cd /usr/local/hadoop
$ mkdir input
$ cp /etc/protocols ./input

2.执行Hadoop WordCount应用(词频统计)

# 如果存在上一次测试生成的output,由于hadoop的安全机制,直接运行可能会报错,所以请手动删除上一次生成的output文件夹
$ hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.4.1-sources.jar org.apache.hadoop.examples.WordCount input output

3.查看生成的单词统计数据

$ cat output/*

七、关闭服务

输入命令

$ hadoop-daemon.sh stop namenode
$ hadoop-daemon.sh stop datanode
$ yarn-daemon.sh stop resourcemanager
$ yarn-daemon.sh stop nodemanager

或者

$ stop-dfs.sh
$ stop-yarn.sh

时间: 2024-12-25 18:58:56

Hadoop伪分布模式配置部署的相关文章

3-2 Hadoop伪分布模式配置部署

Hadoop伪分布模式配置部署 一.实验介绍 1.1 实验内容 hadoop配置文件介绍及修改 hdfs格式化 启动hadoop进程,验证安装 1.2 实验知识点 hadoop核心配置文件 文件系统的格式化 测试WordCount程序 1.3 实验环境 hadoop2.7.6 CentOS6终端 1.4 适合人群 本课程难度为一般,属于初级级别课程,适合具有hadoop基础的用户. 1.5 相关文件 https://pan.baidu.com/s/1a_Pjl8uJ2d_-r1hbN05fWA

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)

第四步:配置Hadoop伪分布模式并运行Wordcount示例 伪分布模式主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号: 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication; 修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口: 在具体操作前我们先在Hadoop目录下创建几个文件夹: 下面开始构建具体的伪分布式

hadoop伪分布模式搭建(下)

搭建伪分布式是在一台机器上模拟分布式部署,方便学习和调试. 1.解压hadoop文件 下载好的hadoop ,我们可以通过使用WinSCP 把压缩包软件把它 从宿主机复制移动到linux 的/usr/local 目录下. 解压缩文件,并重命名为hadoop,方便使用.重命名后这时,hadoop 目录的完整路径是"/usr/local/hadoop" 设置环境变量HADOOP_HOME,修改文件"/etc/profile" 修改环境变量后,执行source 命令,使配

Hadoop伪分布模式操作

http://blog.csdn.net/wangloveall/article/details/20195813 摘要:本文介绍Hadoop伪分布模式操作,适合于Hadoop学习.开发和调试. 关键词:Hadoop    伪分布式   文件配置 启动Hadoop支持三种模式操作,分别是单机模式操作.伪分布模式操作和全分布模式操作. 单机模式操作是Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式.该模式主要用于开发调

Hadoop伪分布模式的安装

Hadoop伪分布模式的安装 [环境参数] (1)Host OS:Win7 64bit (2)IDE:Eclipse Version: Luna Service Release 2 (4.4.2) (3)虚拟机:VMware 10 (4)Client OS:CentOS 6.4 32bit. 注意: 若是CentOS 64bit,则在启动hadoop时,会报出警告. 原因:Hadoop的本地库($HADOOP_HOME/lib/native/libhadoop.so.1.0.0)是在32 bit

Hadoop伪分布式的部署

一.部署前的准备 (1)软件 一个空白的CentOS映像文件 Xshell(用于传输文件) (2)虚拟机配置 网络配置:网络适配器选择桥接 ip地址.子网掩码.网关.DNS服务器地址 =>可以在安装时的图形界面完成配置 =>也可以 vim /etc/sysconfig/network-script/ifcfg-ens33 修改 具体如下: IPADDR="192.168.124.x" (和网关在同一网段) NETMASK="255.255.255.0"

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount(2)

执行文件拷贝操作 拷贝后的“input”文件夹的内容如下所示: 和我们的hadoop安装目录下的“conf”文件的内容是一样的. 现在,在我们刚刚构建的伪分布式模式下运行wordcount程序: 运行完成后我们查看一下输出的结果: 部分统计结果如下: 此时我们到达Hadoop的web控制台会发现我们提交并成功的运行了任务: 最后在Hadoop执行完任务后,可以关闭Hadoop后台服务: 至此,Hadoop伪分布式环境的搭建和测试你完全成功! 至此,我们彻底完成了实验.

2018-08-13期 Hbase伪分布模式安装部署

说明: Hbase部署模式有以下三种 (1)本地模式:本地模式不依赖于HDFS存储,将文件存储到操作系统本地目录,好处是我们不需要搭建HDFS集群,即可学些HBase相关命令及客户端操作. (2)伪分布模式:一台机器完成Hbase所有组件的配置,需要依赖HDFS分布式存储 (3)全分布模式:多机部署,一般情况下Hmaster和HregionServer分布在不同的服务器,需要依赖底层HDFS分布式存储. 一.安装介质 hbase-0.96.2-hadoop2-bin.tar.gz 二.安装JDK

Hadoop伪分布模式环境搭建

最近开始研究学习hadoop,想把自己的一些知识点写在这里作为自己的学习记录.同时,如果能够为有需要的朋友带来帮助也是一件快乐的事.这篇文章基本上都是参考网上的资料,我按照自己的理解和实践经验将其组织起来.网上大多教程没有具体介绍操作的背后原因,我按照我的理解以及将一些分布于网上比较散乱的细碎知识点进行了组织.因为时间以及个人能力原因,本安装文档会存在很多不足,后期我也会努力去学习提高自己.我的博客园之旅就以此hadoop安装开始.因为时间原因,我第一次发博客,图片没有加上,不过文章基本描述清楚