Hadoop之MapReduce命令

概述

全部的Hadoop命令都通过bin/mapred脚本调用。

在没有不论什么參数的情况下。执行mapred脚本将打印该命令描写叙述。

使用:mapred [--config confdir] COMMAND

[[email protected] bin]$ mapred
Usage: mapred [--config confdir] COMMAND
       where COMMAND is one of:
  pipes                run a Pipes job
  job                  manipulate MapReduce jobs
  queue                get information regarding JobQueues
  classpath            prints the class path needed for running
                       mapreduce subcommands
  historyserver        run job history servers as a standalone daemon
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  hsadmin              job history server admin interface

Most commands print help when invoked w/o parameters.

用户命令

对于Hadoop集群用户非常实用的命令:

archive

查看:Hadoop之命令指南

classpath

打印须要得到Hadoop的jar和所须要的lib包路径,hdfs,yarn脚本都有这个命令。

使用: mapred classpath

distcp

递归的复制文件或者文件夹,查看该篇中的演示样例:Hadoop之命令指南

job

通过job命令和MapReduce任务交互。

使用:mapred job | [GENERIC_OPTIONS] | [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]]
| [-kill-task <task-id>] | [-fail-task <task-id>] | [-set-priority <job-id> <priority>]

參数选项 描写叙述
-submit job-file 提交一个job.
-status job-id 打印map任务和reduce任务完毕百分比和全部JOB的计数器。

-counter job-id group-name counter-name 打印计数器的值。

-kill job-id 依据job-id杀掉指定job.
-events job-id from-event-# #-of-events 打印给力訪问内jobtracker接受到的事件细节。(用法见演示样例)
-history [all]jobOutputDir 打印JOB的细节,失败和杀掉原因的细节。

很多其它的关于一个作业的细节比方:成功的任务和每一个任务尝试等信息能够通过指定[all]选项查看。

-list [all] 打印当前正在执行的JOB,假设加了all。则打印全部的JOB。
-kill-task task-id Kill任务,杀掉的任务不记录失败重试的数量。

-fail-task task-id Fail任务。杀掉的任务不记录失败重试的数量。

默认任务的尝试次数是4次超过四次则不尝试。那么假设使用fail-task命令fail同一个任务四次,这个任务将不会继续尝试,并且会导致整个JOB失败。

-set-priority job-id priority 改变JOB的优先级。

同意的优先级有:VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW

演示样例:

[[email protected] bin]$ mapred job -events job_1437364567082_0109 0 100
15/08/13 15:10:53 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Task completion events for job_1437364567082_0109
Number of events (from 0) are: 1
SUCCEEDED attempt_1437364567082_0109_m_000016_0 http://hadoopcluster83:13562/tasklog?plaintext=true&attemptid=attempt_1437364567082_0109_m_000016_0

[[email protected] bin]$ mapred job -kill-task attempt_1437364567082_0111_m_000000_4
15/08/13 15:51:25 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Killed task attempt_1437364567082_0111_m_000000_4

pipes

执行pipes JOB。

关于pipe。查看:Hadoop pipes编程

Hadoop pipes同意C++程序猿编写mapreduce程序。

它同意用户混用C++和Java的RecordReader。 Mapper。 Partitioner。Rducer和RecordWriter等五个组件。

Usage: mapred pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces
<num>]


參数选项 描写叙述
-conf path Job的配置文件路径。
-jobconf key=valuekey=value, … 添加/重载 JOB的配置。
-input path 输入路径
-output path 输出路径
-jar jar file JAR文件名称
-inputformat class InputFormat类
-map class Java Map 类
-partitioner class Java Partitioner
-reduce class Java Reduce 类
-writer class Java RecordWriter
-program executable 可运行的URI
-reduces num reduce的数量

queue

该命令用于交互和查看Job Queue信息。

使用: mapred queue [-list] | [-info <job-queue-name> [-showJobs]] | [-showacls]

參数选项 描写叙述
-list 获取在系统配置的Job Queues列表。已经Job Queues的调度信息。
-info job-queue-name [-showJobs] 显示一个指定Job Queue的信息和它的调度信息。

假设使用-showJobs选项,则显示当前正在执行的JOB列表。

-showacls 显示队列名和同意当前用户对队列的相关操作。

这个命令打印的命令是当前用户能够訪问的。

演示样例:

[[email protected] bin]$ mapred queue -list
15/08/13 14:25:30 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 47.5

[[email protected] bin]$ mapred queue -info default
15/08/13 14:28:45 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5

[[email protected] bin]$ mapred queue -info default -showJobs
15/08/13 14:29:08 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5
Total jobs:1
                  JobId         State         StartTime        UserName           Queue      Priority     UsedContainers     RsvdContainers     UsedMem     RsvdMem     NeededMem       AM info
 job_1437364567082_0107       RUNNING     1439447102615            root         default        NORMAL                 28                  0      29696M          0M        29696M    http://hadoopcluster79:8088/proxy/application_1437364567082_0107/

[[email protected] bin]$ mapred queue -showacls
15/08/13 14:31:44 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Queue acls for user :  hadoop

Queue  Operations
=====================
root  ADMINISTER_QUEUE,SUBMIT_APPLICATIONS
default  ADMINISTER_QUEUE,SUBMIT_APPLICATIONS

管理员命令

下面是对hadoop集群超级管理员非常实用的命令。

historyserver

启动JobHistoryServer服务。

使用: mapred historyserver

也能够使用sbin/mr-jobhistory-daemon.sh start|stop historyserver来启动/停止JobHistoryServer。

hsadmin

执行hsadmin去执行JobHistoryServer管理命令。

Usage: mapred hsadmin [-refreshUserToGroupsMappings] | [-refreshSuperUserGroupsConfiguration] | [-refreshAdminAcls] | [-refreshLoadedJobCache] | [-refreshLogRetentionSettings] | [-refreshJobRetentionSettings] | [-getGroups [username]] | [-help [cmd]]

參数配置 描写叙述
-refreshUserToGroupsMappings 刷新用户-组的相应关系。
-refreshSuperUserGroupsConfiguration 刷新超级用户代理组映射
-refreshAdminAcls 刷新JobHistoryServer管理的ACL
-refreshLoadedJobCache 刷新JobHistoryServer载入JOB的缓存
-refreshJobRetentionSettings 刷新Job histroy旗舰,job cleaner被设置。
-refreshLogRetentionSettings 刷新日志保留周期和日志保留的检查间隔
-getGroups [username] 获取这个username属于哪个组
-help [cmd] 帮助

演示样例:

[[email protected] bin]$ mapred hsadmin -getGroups hadoop
hadoop : clustergroup
时间: 2024-08-02 06:53:26

Hadoop之MapReduce命令的相关文章

Hadoop新MapReduce框架Yarn详解

简介 本文介绍了Hadoop自0.23.0版本后新的MapReduce框架(Yarn)原理,优势,运行机制和配置方法等,着重介绍新的yarn框架相对于原框架的差异及改进,并通过Demo示例详细介绍了在新的Yarn框架下搭建和开发Hadoop程序的方法.读者通过本文中新旧Hadoop MapReduce框架的对比,更深刻理解新的yarn框架技术与那里和设计思想,文中的Demo代码经过微小修改既可用于用户基于Hadoop新框架的实际生产环境. Hadoop MapReduceV2(Yarn)框架简介

Hadoop常见重要命令行操作及命令作用

关于Hadoop [[email protected] ~]# hadoop --help Usage: hadoop [--config confdir] COMMAND where COMMAND is one of: fs run a generic filesystem user client version print the version jar <jar> run a jar file checknative [-a|-h] check native hadoop and co

Hadoop 新 MapReduce 框架 Yarn 详解

原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobCli

用PHP编写Hadoop的MapReduce程序

用PHP写hadoop的mapreduce程序 Hadoop本身是Java写的,所以,给hadoop写mapreduce,人们会自然地想到java 但hadoop里面有个contrib叫做hadoop streaming,这是一个小工具,为hadoop提供streaming支持,使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper 或者 reducer 例如:hadoop jar hadoop-streaming.jar -input SOME_IN

对于Hadoop的MapReduce编程makefile

根据近期需要hadoop的MapReduce程序集成到一个大的应用C/C++书面框架.在需求make当自己主动MapReduce编译和打包的应用. 在这里,一个简单的WordCount1一个例子详细的实施细则,注意:hadoop版本号2.4.0. 源码包括两个文件.一个是WordCount1.java是详细的对单词计数实现的逻辑.第二个是CounterThread.java.当中简单的当前处理的行数做一个统计和打印.代码分别见附1. 编写makefile的关键是将hadoop提供的jar包的路径

浅谈hadoop中mapreduce的文件分发

最近在做数据分析的时候,需要在mapreduce中调用c语言写的接口,此时就需要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后做mapreduce的时候把so文件从hdfs下载到本地,但查询资料后发现hadoop有相应的组件来帮助我们完成这个操作,这个组件就是DistributedCache,分布式缓存,运用这个东西可以做到第三方文件的分发和缓存功能,下面详解: 如果我们需要在map之间共享一些数据,如果信息量不大,我们可

从Hadoop骨架MapReduce在海量数据处理模式(包括淘宝技术架构)

从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇.而神奇的东西常能勾起我的兴趣.在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理. 由此,近期凡是空暇时,便在看"Hadoop"."MapReduce""海量数据处理"这方面的论文.但在看论

Hadoop的distcp命令出现Permission denied错误

Hadoop的distcp命令可以实现将文件从一个hdfs文件系统中拷贝到另外一个文件系统中,如下所示: $ bin/hadoop distcp -overwrite hdfs://123.123.23.111:9000/hsd/t_url hdfs://123.123.23.156:9000/data/t_url 正常情况下应该出现如下运行结果: Java HotSpot(TM) 64-Bit Server VM warning: Insufficient space for shared m

Hadoop之MapReduce程序应用一

摘要:MapReduce程序处理专利数据集. 关键词:MapReduce程序   专利数据集 数据源:专利引用数据集cite75_99.txt.(该数据集可以从网址http://www.nber.org/patents/下载) 问题描述: 读取专利引用数据集并对它进行倒排.对于每一个专利,找到那些引用它的专利并进行合并.top5输出结果如下: 1                                3964859, 4647229 10000