WordCount深入分析------JobClient学习

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
//conf就是作业的配置对象，读取core-site、core-default、hdfs-site/default、mapred-site/default文件里的配置信息
 String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
//args[]就是使用hadoop jar命令运行作业时输入/输出路径参数，这两个参数传给了main函数
    if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);//System.exit(0)表示正常退出，exit()参数非0表示非正常退出。
    }

    Job job = new Job(conf, "word count");
//以下就是设置job的一些运行参数，这些方法内部都会调用jobconf对象对应的方法
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
//以下就是设置job的一些运行参数，这些方法内部都会调用jobconf对象对应的方法
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
}

时间： 2025-01-14 21:20:39

WordCount深入分析------JobClient学习的相关文章

WordCount示例深度学习MapReduce过程

转自: http://blog.csdn.net/yczws1/article/details/21794873 . 我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功.在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,WourdCount自带WourdCount程序指令,就可以输出写入的那句话各个不同单词的个数.但是这不是这篇博客主要讲的内容,主要是想通过一个简单的Wordcount程序,来认识Hado

WordCount示例深度学习MapReduce过程（1）

我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功.在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,WourdCount自带WourdCount程序指令,就可以输出写入的那句话各个不同单词的个数.但是这不是这篇博客主要讲的内容,主要是想通过一个简单的Wordcount程序,来认识Hadoop的内部机制.并通过此来深入了解MapReduce的详细过程.在Thinking in BigDate(八)大数据H

系统学习消息队列分享（一）怎样系统学习消息队列？

从系统之间有通信需求开始呢,就产生了消息队列,它也是最古老的中间件之一.它的应用场景非常广泛,分布式系统中的很多进程间通信问题,都可以用消息队列来解决.可以说消息队列是所有后端程序员的必备技能.但是,想要系统.深入地学习消息队列,却并不容易. 要了解消息队列的完整知识体系,想深度进阶为消息队列达人,从理论到实践,从基础到进阶,从深度到广度,全方位吃透消息队列. 哪些人适合学消息队列? 后端开发者:消息队列几乎是每个后端程序员都会用到的中间件,无论你是开发微服务,实时计算,还是机器学习程序,都需要

Hadoop集群（第10期）_MySQL关系数据库

1.MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续. 图1.1-1 MySQL安装向导第二步:在"I accept

搭建Hadoop集群 (三)

通过搭建Hadoop集群 (二), 我们已经可以顺利运行自带的wordcount程序. 下面学习如何创建自己的Java应用, 放到Hadoop集群上运行, 并且可以通过debug来调试. 有多少种Debug方式 Hadoop在Eclipse上的Debug方式一般来说, Debug最多的应用场景是调试MR中的代码逻辑, 还有部分是调试main方法中的某些代码逻辑. 无论是Standalone, Pesudo-Distributed, 还是Fully-Distributed Mode, 都可以d

Hadoop集群（第10期）_MapReduce与MySQL交互

2.MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力.为此,Google和MapReduce社区进行了很多努力.一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力:另一方面,为了增强与关系数据库的集成能力,Hadoop MapReduce提供了相应的访问关系数据库库的编

mysql 事务分析小笔记--01

最近对有些同学问了我下事务的一些相关知识,在高并发下,事务有什么性能影响? 会不会有堵塞的问题? mysql是如何处理这些的.....突然印象中记得很久之前研究过,可是尼玛,忘了.为了重新捡起知识.于是再次进去了深入分析和学习.平时工作忙比较少写博客,今天开始多学会总结和分享啦. 开始时候,我们首先得了解事务的ACID四个特征(简单,不需再说),隔离的四个级别,innodb的mvcc(多版本并发控制),redo/undo 等等. 先说事务隔离级别: 1.Read Uncommitted(未提交读

Hadoop学习笔记（1）:WordCount程序的实现与总结

开篇语: 这几天开始学习Hadoop,花费了整整一天终于把伪分布式给搭好了,激动之情无法言表······ 搭好环境之后,按着书本的代码,实现了这个被誉为Hadoop中的HelloWorld的程序--WordCount,以此开启学习Hadoop的篇章. 本篇旨在总结WordCount程序的基本结构和工作原理,有关环境的搭建这块,网上有很多的教程,大家可以自行找谷歌或百度. 何为MapReduce: 在开始看WordCount的代码之前,先简要了解下什么是MapReduce.HDFS和MapRedu

hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解

转自:http://blog.csdn.net/yczws1/article/details/21899007 纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程. Shuffle过程是MapReduce的核心,集中了MR过程最关键的部分.要想了解MR,Shuffle是必须要理解的.了解Shuffle的过程,更有利于我们在对MapReduce job性能调优的工作有帮助,以及进一步加深我们对MR内