hadoop 客户的的使用

${HADOOP_HOME}/bin/hadoop job
Usage: JobClient <command> <args>
        [-submit <job-file>]
        [-status <job-id>]
        [-counter <job-id> <group-name> <counter-name>]
        [-kill <job-id>]
        [-abort <job-id>]
        [-suspend <job-id> [hours]]
        [-recover <job-id> [-force] [-jobconf name=value] [-file local-path] [-cacheArchive]]
        [-set-priority <job-id> <priority>]. Valid values for priorities are: VERY_HIGH HIGH NORMAL LOW VERY_LOW
        [-set-map-capacity <job-id> <map-capacity>]
        [-set-reduce-capacity <job-id> <reduce-capacity>]
        [-set-map-over-capacity <job-id> <true/false>]
        [-set-reduce-over-capacity <job-id> <true/false>]
        [-events <job-id> <from-event-#> <#-of-events>]
        [-history <jobOutputDir>]
        [-list [all]]
        [-kill-task <task-id>]
        [-fail-task <task-id>]
        [-input-add <job-id> <input>]
        [-input-done <job-id>]
  • -kill <job-id> kill一个job,job的最终状态是KILLED
  • -kill-task <task-id> kill一个task attempt,task attempt的最终状态是KILLED,对应的task会重新启动一个task attempt计算,kill不会导致task失败
  • -fail-task <task-id> fail一个task attempt,task attempt的最终状态是FAILED,如果task attempt fail超过一定次数(默认4次),对应task会失败
  • -set-priority <job-id> 设置job的优先级
  • -status <job-id> 获取job的状态
  • -list [all] 获取作业列表,没有参数表示获取运行的作业列表,参数all表示获取所有作业列表
  • -suspend <job-id> [hours], -recover <job-id> 在断点重启中介绍
时间: 2024-07-29 16:44:01

hadoop 客户的的使用的相关文章

利用大数据技术实现日志记录与分析

整体思路 整体分三步: 1.记录日志 1.记录日志采用UDP协议写入大数据平台,大数据平台采用Hive表来存储日志信息. 2.写入日志的工作,封装了一个Auto.Lib3.Dealer.Log.dll,这个dll要依赖ZooKeeperNet.dll 和 log4net.dll.这三个dll文件地址如下: dll文件 TFS上路径 Auto.Lib3.Dealer.Log.dll $/dealer/MCH/CommonLib/Auto.Lib3.Logging.dll ZooKeeperNet.

使用Apache Kylin搭建企业级开源大数据分析平台

使用Apache Kylin搭建企业级开源大数据分析平台 转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程

基于OGG的Oracle与Hadoop集群准实时同步介绍

Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段.近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍.Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决. 安装与基本配置 环境说明 软件配置 角色 数据存储服务及版本 OGG版本 IP 源服务器 OracleRelease11.2.0.1 Oracle GoldenGate 11.2

智传播客hadoop视频学习笔记(共2天)

第一天:1.答疑解惑•  就业前景•  学习hadoop要有什么基础•  hadoop会像塞班一样,热一阵子吗•  hadoop学习起来容易还是困难•  课堂上的学习方法(所有实验必须按照要求做,重原理.重实践)•  通过本课程能学到什么 2. 课程简介•  以真实的电信详单分析程序为主线,讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程•  通过此课程,你能     •  掌握Hadoop基本知识,进行HadoopHDFS和MapReduce应用开发,搭建Hadoop集群  

hadoop系列二:HDFS文件系统的命令及JAVA客户端API

转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/6391518.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列一:hadoop集群安装 二:HDFS的shell命令 上一章说完了安装HADOOP集群部分,这一张讲HDFS. 其实基本上操作都是通过JAVA API来操作,所以这里的s

工作日记:Hadoop客户端配置需与集群节点保持一致

昨天因为datanode出现大规模离线的情况,初步判断是dfs.datanode.max.transfer.threads参数设置过小.于是将所有datanode节点的hdfs-site.xml配置文件都作了调整.重启集群后,为了验证,试着运行一个作业,在jobhistory中查看该作业的configuration,令人意外的是,显示的居然还是旧的值,也就是说,作业还是用旧的值运行的,明明所有datanode节点已经做了配置文件的更新了啊. 忽然间想起,hadoop作业的调度是由另外一台集群外的

Hadoop产生原因

对于Hadoop产生的原因,我们从以下三个方面谈起: 传统大规模系统的问题 (1)传统大规模计算 1.传统计算受到处理器限制:相对较小的数据量:有很多复杂的处理. 2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足 (2)分布式系统   1.更好的方案:使用更多的机器来处理单个作业   2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂):有限的带宽 3.数据瓶颈:传统系统中,数据存储在中央存储:数据在运行时拷贝到处理器:适合限量的数据 然而,现代系

hadoop+zookepper实现namenode的高可用

Hadoop+zookeepker安装与配置: 在hadoop-env.sh中添加export JAVA的环境变量 修改hostname文件的名称,/etc/hosts文件配置主机名和ip的映射关系,将mstaer,slave的主机名和ip地址都添加进来 配置ssh免密钥配置 Ssh-keygen –t rsa 在./.ssh文件中生成两个文件id_rsa(私钥),id_rsa.pub(公钥) cat id_rsa.pub > .ssh/authorized_keys scp authorize

Hadoop深入浅出实战经典–第02讲

本文转载:通通学--知识学习与分享平台 Hadoop的核心 HDFS: Hadoop Distributed File System 分布式文件系统 MapReduce:并行计算框架 Yarn:集群资源管理和调度框架 Hadoop是什么? 适合大数据的分布式存储.计算.资源管理平台 作者:Doug Cutting 受Google三篇论文的启发 Hadoop生态系统 HDFS 主从结构主节点,只有一个: namenode从节点,有很多个: datanodes namenode负责:接收用户操作请求