Hadoop2.0安装之非HA版

主要步骤跟Hadoop1.0(1.0安装地址)一致，主要在配置这块有更改

安装

下载地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.6.5/
hadoop安装目录创建./tmp目录，./dfs/name，./dfs/data
修改./etc/hadoop/hadoop-env.sh

# 设置JAVA_HOME
export JAVA_HOME="/usr/local/src/jdk1.8.0_181/"

修改./etc/hadoop/yarn-env.sh

# 设置JAVA_HOME
JAVA_HOME="/usr/local/src/jdk1.8.0_181/"

修改./etc/hadoop/slaves

slave1
slave2

修改./etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/src/hadoop-2.6.5/tmp</value>
    </property>
</configuration>

修改./etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/src/hadoop-2.6.5/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/src/hadoop-2.6.5/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

修改./etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>slave1:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>slave1:19888</value>
    </property>
</configuration>

修改./etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8035</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>259200</value>
    </property>
    <property>
        <name>yarn.log.server.url</name>
        <value>http://slave1:19888/jobhistory/logs</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>4.0</value>
    </property>
</configuration>

和Hadoop1.0一样，第一次启动前，需要格式化hdfs：./bin/hadoop namenode -format
启动：./sbin/start-all.sh
使用：跟Hadoop1.0一样，使用./bin/hadoop命令
关闭：./sbin/stop-all.sh

提交MapReduce任务

基本上没什么变化，除了Hadoop streaming地址变了

[[email protected] mr_count]$ cat run.sh
HADOOP_CMD=/usr/local/src/hadoop-2.6.5/bin/hadoop
HADOOP_STREAMING_JAR=/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar

INPUT_FILE=/data/The_Man_of_Property.txt
OUTPUT_DIR=/output/wc

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_DIR

$HADOOP_CMD jar $HADOOP_STREAMING_JAR     -input $INPUT_FILE     -output $OUTPUT_DIR     -mapper "python map.py"     -reducer "python red.py"     -file ./map.py     -file ./red.py

参考资料

【0】八斗学院内部培训资料

原文地址：https://www.cnblogs.com/wadeyu/p/9696044.html

时间： 2024-10-09 08:10:01

Hadoop2.0安装之非HA版的相关文章

Hadoop2.0 QJM方式的HA的配置

本文在<Hadoop2.0的安装和基本配置>(见 http://www.linuxidc.com/Linux/2014-05/101173.htm )一文的基础上继续介绍hadoop2.0 QJM(Quorum Journal Manager)方式的HA的配置(hadoop2.0架构,具体版本是hadoop2.2.0).本文只介绍HA的主备的手工切换,自动切换在下一篇文章继续介绍(见 http://www.linuxidc.com/Linux/2014-05/101176.htm). ----

Hadoop2.0安装之YARN

YARN(Yet Another Resource Negotiator)是Hadoop2.0集群中负责资源管理和调度以及监控运行在它上面的各种应用,是hadoop2.0中的核心,它类似于一个分布式操作系统,通过它的api编写的应用可以跑在它上面,支持临时和常驻的应用,集群的资源可以得到最大限度的共享.资源是指CPU,内存,硬盘,带宽等可以量化的东西. Hadoop1.0和2.0架构对比 1.0的绝对核心是mapreduce,只能跑mapreduce的任务:2.0的绝对核心是YARN,除了可以跑

hadoop2.0安装和配置

hadoop2与hadoop1的配置有些许不同,最主要的是hadoop1里的master变成了yarn 这篇文直接从hadoop的配置开始,因为系统环境和jdk和hadoop1都是一样的. hadoop1的配置链接,从第六步开始六.设置hadoop2参数进入 usr/local/hadoop/etc/hadoop 文件夹,即可看到以下文件 6.1配置hadoop-env.sh 找到export JAVA_HOME这一行,去除前面的#号注释符. 修改 export JAVA_HOME=/usr

hadoop入门（3）——hadoop2.0理论基础：安装部署方法

一.hadoop2.0安装部署流程 1.自动安装部署:Ambari.Minos(小米).Cloudera Manager(收费) 2.使用RPM包安装部署:Apache hadoop不支持.HDP与CDH提供 3.使用jar包安装部署:各版本均提供.(初期为了理解hadoop,建议使用这种方式) 部署流程: 准备硬件(Linux操作系统) 准备软件安装包,并安装基础软件

CentOS7.2非HA分布式部署Openstack Pike版（实验）

部署环境一.组网拓扑二.设备配置笔记本:联想L440处理器:i3-4000M 2.40GHz内存:12G虚拟机软件:VMware? Workstation 12 Pro(12.5.2 build-4638234) 三.虚拟机配置 Controller节点:系统:CentOS7.2 64位(最小化安装)处理器:4核内存:4G硬盘:100G网卡:3块 Compute节点:系统:CentOS7.2 64位(最小化安装)处理器:4核内存:4G硬盘:100G网卡:3块 Cinder节点:系统:Cen

Hadoop-2.4.0安装和wordcount执行验证

Hadoop-2.4.0安装和wordcount执行验证下面描写叙述了64位centos6.5机器下,安装32位hadoop-2.4.0,并通过执行系统自带的WordCount样例来验证服务正确性的步骤. 建立文件夹 /home/QiumingLu/hadoop-2.4.0,以后这个是hadoop的安装文件夹. 安装hadoop-2.4.0,解压hadoop-2.4.0.tar.gz到文件夹 /home/QiumingLu/hadoop-2.4.0就可以 [[email protected]

Hadoop2.2.0安装过程记录

1 安装环境1.1 客户端1.2 服务端1.3 安装准备 2 操作系统安装2.1.1 BIOS打开虚拟化支持2.1.2 关闭防火墙2.1.3 安装VNC3 JAVA安装 3.1 配置目的3.2 配置过程3.3 结果验证4 主机名配置4.1 配置目的4.2 配置过程4.3 结果验证5 增加hadoop用户5.1 配置目的5.2 配置过程5.3 结果验证6 Had

Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)

1.课程环境本课程涉及的技术产品及相关版本: 技术版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3.4.6 CDH Hadoop 5.3.0 Vmware 10 Hive 0.13.1 HBase 0.98.6 Impala 2.1.0 Oozie 4.0.0 Hue 3.7.0 2.内容简介本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1.Hadoop2.0高阶运维,包括H

【伊利丹】Hadoop2.0 NN HA实验记录

1.关于Hadoop2.2.0中HA的介绍 NameNode 简称: NN DateNode 简称: DN JournalNode 简称: JN Zookeeper 简称: ZK 从上面的图里,我们可以知道HA的大致架构: 01.利用共享存储来在两个NN之间同步元数据信息. 在NN中有两个重要的文件:一个是fsimage,一个是edits,其中fsimage指的是元数据镜像文件,存在磁盘中用来保持文件系统的目录树,然而edits指的是元数据操作日志,针对目录树的修改操作,被写入共享存储系统中