Hadoop2.6.0版本MapReudce示例之WordCount(二)

《Hadoop2.6.0版本MapReudce示例之WordCount(一)》之后,我们继续看MapReduce的WordCount示例,看看如何监控作业运行或查看历史记录,以及作业运行时的文件目录及列表。

1、监控作业运行或查看历史记录

在WordCount的输出内容中,有这么一句:The url to track the job: http://server2:8088/proxy/application_1459913635503_0004/,这个是追踪作业运行的意思,登录后,可以查看Job整体情况、配置信息Configuration、Map Tasks情况、Reduce Tasks情况、Job计数器Counters、作业历史JobHistory等情况,分别如下图所示:

1.1、Job整体情况

Job整体情况包括作业名、提交用户名、作业队列、作业状态、提交时间、开始时间、完成时间、耗时、平均Map耗时、平均Shuffle耗时、平均合并耗时、平均聚合耗时、Map、Reduce任务各自总数及完成数、Map、Reduce任务尝试运行各自总数、失败数、杀死数、成功数等内容。

1.2、配置信息Configuration

1.3、Map Tasks情况

Map Tasks情况包括Map Task的Task名称name、Task状态state、Task整体开始时间Start Time、Task整体完成时间Finish Time、Task整体耗时Elapsed Time、成功运行尝试Successful Attempt开始时间Start Time、成功运行尝试Successful Attempt完成时间Finish Time、成功运行尝试Successful Attempt耗时Elapsed Time等。

我们知道,MapReduce的Task的每次尝试运行,称为Task Attempt,并且MapReduce有推测执行原理,对于拖后腿的Map Task,会尝试同时运行多个任务运行尝试Attempt,哪个先完成就用哪个,并且,即便没有推测执行原理,任务也很有可能运行失败,为了确保高容错性,对于失败任务还是需要多次尝试运行直到成功的。

1.4、Reduce Tasks情况

Reduce Tasks情况

1.5、Job计数器Counters

1.6、作业历史JobHistory

2、作业运行时的文件目录及列表

MapReduce的作业Job在运行时,会将配置文件、Jar等上传至HDFS指定工作目录,下面我们看下这个工作目录的情况。针对在Yarn上运行的MapReduce作业,Job运行的指定工作目录这样被定义的:

参数yarn.app.mapreduce.am.staging-dir指定的路径/作业所属用户user/.staging/作业ID

参数yarn.app.mapreduce.am.staging-dir未配置的话,默认为/tmp/hadoop-yarn/staging;通过上面的作业查看中配置信息得知,本例中参数配置值为/user,如图所示:

而作业所属用户取自作业参数mapreduce.job.user.name,本例中参数配置值为hdfs,如图所示:

最后一个作业ID为job_1459913635503_0005(请原谅,不是本例的JobId,因为之前没有专门截图,所以又运行了一次示例,产生了一个新的JobId)

所以,完整的作业工作目录为/user/hdfs/.staging/job_1459913635503_0005,查看路径下的文件列表,如图所示:

其中,job.jar是执行job任务的那个jar文件,job.split是分片信息,job.splitmetainfo是分片元数据信息,job.xml是配置信息。

时间: 2024-10-23 10:39:46

Hadoop2.6.0版本MapReudce示例之WordCount(二)的相关文章

Hadoop2.6.0版本MapReudce示例之WordCount

一.准备测试数据 1.在本地Linux系统/var/lib/hadoop-hdfs/file/路径下准备两个文件file1.txt和file2.txt,文件列表及各自内容如下图所示: 2.在hdfs中,准备/input路径,并上传两个文件file1.txt和file2.txt,如下图所示: 二.编写代码,封装Jar包并上传至linux 将代码封装成TestMapReduce.jar,并上传至linux的/usr/local路径下,如下图所示: 三.运行命令 执行命令如下:hadoop jar /

Hadoop2.6.0版本号MapReudce演示样例之WordCount(一)

一.准备測试数据 1.在本地Linux系统/var/lib/hadoop-hdfs/file/路径下准备两个文件file1.txt和file2.txt,文件列表及各自内容例如以下图所看到的: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" > 2.在hdfs中.准备/input路径,并上传两个文件fil

关于hadoop-2.2.0和hadoop2.6.0的winutils.exe、hadoop.dll版本混用(易出错)

问题详情是 2016-12-10 23:24:13,317 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-12-10 23:24:14,281 WARN [org.apache.hadoop.mapreduce.JobSubmitter] - Hadoop command-line option parsi

搭建Hadoop2.6.0+Eclipse开发调试环境

上一篇在win7虚拟机下搭建了hadoop2.6.0伪分布式环境.为了开发调试方便,本文介绍在eclipse下搭建开发环境,连接和提交任务到hadoop集群. 1. 环境 Eclipse版本Luna 4.4.1 安装插件hadoop-eclipse-plugin-2.6.0.jar,下载后放到eclipse/plugins目录即可. 2. 配置插件 2.1 配置hadoop主目录 解压缩hadoop-2.6.0.tar.gz到C:\Downloads\hadoop-2.6.0,在eclipse的

ubuntu14.04环境下hadoop2.7.0配置+在windows下远程eclipse和hdfs的调用

本教程是在三台电脑上部署的hadoop正式环境,没有建立用户组,而是在当前用户下直接进行集群的部署的,总结如下: 1.三个节点的主机电脑名为:192.168.11.33 Master,192.168.11.24 Slaver2,192.168.11.4 Slaver1,并且这三台主机用户名都要设置一样,我的都是hadoop的用户. 因为本教程使用的是vim编辑器,如果没有vim可以下载一个:sudo apt-get install vim 2.修改hosts文件:切换到root用户下:sudo 

ubutun14.04编译hadoop-2.6.0源码,并生成eclipse项目

1.安装jdk 2. 安装需要的库 sudo apt-get install g++ autoconf automake libtool make cmake zlib1g-dev pkg-config libssl-dev 3. sudo apt-get install openssh-client sudo apt-get install openssh-server -进入到用户目录运行命令: -ssh-keygen -t rsa -P -cat .ssh/id_rsa.pub >> .

第一个hadoop程序(hadoop2.4.0集群+Eclipse环境)

一.Eclipse hadoop环境配置  1. 在我的电脑右键->属性->高级系统设置->环境变量,配置环境变量: JAVA_HOME=D:\ProgramFiles\Java\jdk1.7.0_67, HADOOP_HOME=D:\TEDP_Software\hadoop-2.4.0, PATH=.;%JAVA_HOME%\bin;%HADOOP_HOME%\bin; 2. 在Eclipse中安装好hadoop-eclipse-kepler-plugin-2.2.0.jar插件,并配

Hadoop-2.6.0 + Zookeeper-3.4.6 + HBase-0.98.9-hadoop2环境搭建示例

1    基本信息 1.1     软件信息 hadoop-2.6.0 zookeeper-3.4.6 hbase-0.98.9-hadoop2 (以下示例中使用的操作系统是Centos 6.5,请将下载的3个tar包分别解压并放置在/usr/local/目录下) (Hbase包中lib里可以看到zookeeper的jar包,从文件名可以确定使用的zookeeper版本) 1.2     集群组成: Server Name Hadoop Cluster Zookeeper Ensemble HB

Hadoop-2.4.0安装和wordcount执行验证

Hadoop-2.4.0安装和wordcount执行验证 下面描写叙述了64位centos6.5机器下,安装32位hadoop-2.4.0,并通过执行 系统自带的WordCount样例来验证服务正确性的步骤. 建立文件夹 /home/QiumingLu/hadoop-2.4.0,以后这个是hadoop的安装文件夹. 安装hadoop-2.4.0,解压hadoop-2.4.0.tar.gz到文件夹 /home/QiumingLu/hadoop-2.4.0就可以 [[email protected]