Hadoop单节点安装(转)

Hadoop单节点模式安装

官方教程:http://hadoop.apache.org/docs/r2.7.3/

本文基于:Ubuntu 16.04、Hadoop-2.7.3

一、概述

本文参考官方文档介绍Hadoop单节点模式(本地模式及伪分布式模式)安装(Setting up a Single Node Cluster)。

1、Hadoop安装的三种模式

(1)单机模式(standalone)

单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

此程序一般不建议安装,网络上很少这方面资料。

(2)伪分布模式(Pseudo-Distributed Mode)

伪分布模式在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。

比如namenode,datanode,secondarynamenode,jobtracer,tasktracer这5个进程,都能在集群上看到。

(3)全分布模式(Fully Distributed Mode)

Hadoop守护进程运行在一个集群上。

意思是说master上看到namenode,jobtracer,secondarynamenode可以安装在master节点,也可以单独安装。slave节点能看到datanode和tasktracer

2、本文目的

本文介绍如何设置和配置本地模式及单节点伪分布式Hadoop安装,以便使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)快速执行简单操作。

3、平台支持

Hadoop支持GNU / Linux作为开发和生产平台。 Hadoop已经在具有2000个节点的GNU / Linux集群上演示。

Windows也是一个受支持的平台,但本文仅适用于Linux。

4、需要的其他软件(前提条件)

ssh

java

二、Hadoop下载与安装

官网:http://hadoop.apache.org/

下载:http://hadoop.apache.org/releases.html

先从官网下载响应的hadoop,然后解压:


  1. tar -zxvf hadoop-2.7.3.tar.gz

修改文件夹名字:


  1. mv hadoop-3.7.3 hadoop

配置环境变量,编辑profile文件:


  1. sudo gedit /etc/profile

然后在文件末尾追加如下内容:


  1. # hadoop
  2. export HADOOP_HOME=/usr/lib/java/hadoop
  3. export PATH=${HADOOP_HOME}/bin:$PATH

记得生效配置:


  1. source /etc/profile

查看是否安装成功:


  1. [email protected]:~$ hadoop version
  2. Hadoop2.7.3
  3. Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r baa91f7c6bc9cb92be5982de4719c1c8af91ccff
  4. Compiledby root on 2016-08-18T01:41Z
  5. Compiledwith protoc 2.5.0
  6. From source with checksum 2e4ce5f957ea4db193bce3734ff29ff4
  7. This command was run using/usr/lib/java/hadoop/share/hadoop/common/hadoop-common-2.7.3.jar

三、集群前的准备工作

1、配置 hadoop/etc/hadoop/hadoop-env.sh文件

注释掉25行的#export JAVA_HOME=${JAVA_HOME},并在其后添加:


  1. export JAVA_HOME=/usr/lib/java/jdk1.8.0_111

现在可以输入命令测试,这里使用Hadoop/bin/hadoop:


  1. [email protected]:/$ /usr/lib/java/hadoop/bin/hadoop

这时会显示hadoop脚本的使用文档。

现在就可以以三种受支持的模式之一启动了:

① Local (Standalone) Mode:本地(独立)模式
② Pseudo-Distributed Mode:伪分布模式
③ Fully-Distributed Mode:全分布模式

四、本地模式的使用

默认情况下,Hadoop配置为作为单个Java进程在非分布式模式下运行。这对于调试非常有用。

以下示例复制解压缩的conf目录以用作输入,然后查找并显示给定正则表达式的每个匹配项,输出写入给定的输出目录:


  1. $ mkdir input
  2. $ cp etc/hadoop/*.xml input
  3. $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+‘
  4. $ cat output/*

五、伪分布式的使用

Hadoop也可以在伪分布式模式下在单节点上运行,其中每个Hadoop守护程序在单独的Java进程中运行。

1、配置

各项配置如下所述:

(1)etc/hadoop/core-site.xml


  1. <configuration>
  2. <property>
  3. <name>fs.defaultFS</name>
  4. <value>hdfs://localhost:9000</value>
  5. </property>
  6. </configuration>

(2)etc/hadoop/hdfs-site.xml


  1. <configuration>
  2. <property>
  3. <name>dfs.replication</name>
  4. <value>1</value>
  5. </property>
  6. </configuration>

2、配置ssh免登录

首先检查ssh到本地是否需要密码:


  1. $ ssh localhost

如果执行需要密码,执行以下命令即可:


  1. $ ssh-keygen -t rsa -P ‘‘-f ~/.ssh/id_rsa
  2. $ cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys
  3. $ chmod 0600~/.ssh/authorized_keys

3、运行

以下说明是在本地运行MapReduce。在YARN上执行一些操作将在后面部分介绍。

(1)格式化文件系统


  1. $ /usr/lib/java/hadoop/bin/hdfs namenode -format

(2)启动NameNode守护程序和DataNode守护程序


  1. $ /usr/lib/java/hadoop/sbin/start-dfs.sh

hadoop守护程序日志输出将写入$ HADOOP_LOG_DIR目录(默认为$ HADOOP_HOME / logs)

(3)浏览NameNode的Web界面

默认情况下地址为:

NameNode - http://localhost:50070/

(4)创建执行MapReduce作业所需的HDFS目录


  1. $ /usr/lib/java/hadoop/bin/hdfs dfs -mkdir /user
  2. $ /usr/lib/java/hadoop/bin/hdfs dfs -mkdir /user/<username>

(5)将输入文件复制到分布式文件系统中


  1. $ /usr/lib/java/hadoop/bin/hdfs dfs -put etc/hadoop input

(6)运行示例


  1. $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+‘

(7)检查输出文件

将输出文件从分布式文件系统复制到本地文件系统并检查它们:


  1. $ bin/hdfs dfs -get output output
  2. $ cat output/*

也可以查看分布式文件系统上的输出文件:


  1. $ bin/hdfs dfs -cat output/*

(8)停止守护进程


  1. $ sbin/stop-dfs.sh

4、单节点上的YARN配置

可以通过设置一些参数并运行ResourceManager守护程序和NodeManager守护程序,在伪分布式模式下基于YARN运行MapReduce作业。

以下操作假定上述指令的(1)?(4)步骤已经执行。

(1)参数配置

① etc/hadoop/mapred-site.xml

  1. <configuration>
  2. <property>
  3. <name>mapreduce.framework.name</name>
  4. <value>yarn</value>
  5. </property>
  6. </configuration>
② etc/hadoop/yarn-site.xml

  1. <configuration>
  2. <property>
  3. <name>yarn.nodemanager.aux-services</name>
  4. <value>mapreduce_shuffle</value>
  5. </property>
  6. </configuration>

(2)启动ResourceManager守护程序和NodeManager守护程序


  1. $ sbin/start-yarn.sh

(3)浏览ResourceManager的Web界面

默认情况下地址为:

ResourceManager - http://localhost:8088/

(4)运行MapReduce作业

(5)停止守护进程


  1. $ sbin/stop-yarn.sh

六、全分布式配置

该部分内容会独立一篇文章介绍,完成后此处会给出连接。

原文地址:https://www.cnblogs.com/RENQIWEI1995/p/8856088.html

时间: 2024-10-07 19:35:13

Hadoop单节点安装(转)的相关文章

一、hadoop单节点安装测试

一.hadoop简介 相信你或多或少都听过hadoop这个名字,hadoop是一个开源的.分布式软件平台.它主要解决了分布式存储(hdfs)和分布式计算(mapReduce)两个大数据的痛点问题,在hadoop平台上你可以轻易地使用和扩展数千台的计算机而不用关心底层的实现问题.而现在的hadoop更是形成了一个生态体系,如图: 上图大体展示了hadoop的生态体系,但并不完整.总而言之,随着hadoop越来越成熟,也会有更多地成员加入hadoop生态体系中. hadoop官方网站:http://

【大数据系列】hadoop单节点安装官方文档翻译

Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms Required Software Installing Software Download Prepare to Start the Hadoop Cluster Standalone Operation Pseudo-Distributed Operation Configuration Setu

hadoop单节点安装

java环境变量===================================== export JAVA_HOME=/home/test/setupPackage/jdk1.7.0_67 export JRE_HOME=/home/test/setupPackage/jdk1.7.0_67/jre export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools

Hadoop 单节点 & 伪分布 安装手记

实验环境CentOS 6.XHadoop 2.6.0JDK       1.8.0_65 目的这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等. 先决条件支持平台    GNU/Linux是产品开发和运行的平台. Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证.    Win32平台是作为开发平台支持的.由于分布式操作尚未在Win

实战1 伪分布式Hadoop单节点实例 CDH4集群安装 Hadoop

Hadoop由两部分组成 分布式文件系统HDFS 分布式计算框架MapReduce 其中分布式文件系统(HDFS)主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对于存储在分布式文件系统中的数据进行分布式计算. 详细的介绍个节点的作用 NameNode: 1.整个Hadoop集群中只有一个NameNode.它是整个系统的中枢,它负责管理HDFS的目录树和相关文件 元数据信息.这些信息是以"fsimage (HDFS元数据镜像文件)和Editlog(HDFS文件改动

Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

 Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapReduce而开发的一系列上层应用软件. hdfs是在一个网络中以流式数据访问模式来存储超大文件的跨越多台计算机的分布式文件系统.目前支持的超大文件的范围为从MB级至PB级. MapReduce是一种可用于数据处理的编程模型,基于MapReduce模型的程序本质上都是并行运行的.基于MapReduce

Flume 学习笔记之 Flume NG概述及单节点安装

Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡.其中Agent包含Source,Channel和 Sink,三者组建了一个Agent.三者的职责如下所示: Source:用来消费(收集)数据源到Channel组件中 Channel:中转临时存储,保存所有Source组件信息 Sink:从Channel中读取,读取成功后会删除Channel中的

vertica单节点安装

准备环境: 1.centos 7.0镜像 2.vertica-9.1.1-1.x86_64.RHEL6.rpm 安装过程: 1.安装CentOS 7.0 注意:挂载的文件系统必须是ext4,不能是默认的xfs! 2.关闭防火墙 [[email protected] ~]# systemctl disable firewalld [[email protected] ~]# systemctl stop firewalld 3.设置selinux为disable [[email protected

如何将Rancher 2.1.x 从单节点安装迁移到高可用安装

Rancher提供了两种安装方法,即单节点安装和高可用安装.单节点安装可以让用户快速部署适用于短期开发或PoC的Rancher 2.x,而高可用部署则明显更适合Rancher的长期部署.  要点须知 针对开源用户,对于从单个节点迁移到HA的工作,Rancher Labs不提供官方技术支持. 以防在此过程中出现问题,您应该熟悉Rancher架构以及故障排除的方法. 前期准备 为了顺利将单个节点Rancher安装迁移到高可用性安装,您必须做如下准备: 您需要运行Rancher的2.1.x版本以及RK