Hadoop初学指南(6)--MapReduce的简单实例及分析

本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。

假设有两行数据，分别是hello you，hello me,我们要统计其中出现的单词以及每个单词出现的次数。

所得的结果为

hello 2

you 1

me 1

(1)大致运行流畅

1.解析成2个<k,v>，分别是<0, hello you><10, hello me>。调用2次map函数。

2.执行map任务

3.map输出后的数据是:<hello,1>,<you,1>,<hello,1>,<me,1>

4.排序后是:<hello,1>,<hello,1>,<me,1>,<you,1>

5.分组后是:<hello,{1,1}>,<me,{1}>,<you,{1}>

6.执行reduce任务，reduce函数被调用的次数是3

7.输出

(2)相关代码

所有的项目依旧为以前所用的myhadoop项目

①在src下新建org.apache.hadoop.fs包，把FileUtil这个类文件拷贝到这个包，FileUtil在附件中给出，只需新建一个FileUtil类，将内容拷贝至其中。(这一步主要是为了给权限的)

②在myhadoop项目下建立一个mapreduce包，在这个包下建立一个名为WordCountApp的java类。

1.重写map类，代码如下：

static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
    protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {
        final String[] splited = v1.toString().split(" ");
        for (String word : splited) {
            context.write(new Text(word), new LongWritable(1));
        }
    };
}

其中Mapper泛型中的四个类型分别表示KEYIN,VALUEIN,KEYOUT,VALUEOUT。

KEYIN即k1，表示行的偏移量

VALUEIN即v1,表示行文本内容

KEYOUT即k2，表示行中出现的单词

VALUEOUT即v2，表示行中出现的单词的次数，这里为固定值1。

2.重写Reducer类，代码如下：

static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
    protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {
        long times = 0L;
        for (LongWritable count : v2s) {
            times += count.get();
        }
        ctx.write(k2, new LongWritable(times));
    };
}

其中Reducer泛型中的四个类型也表示KEYIN,VALUEIN,KEYOUT,VALUEOUT。

KEYIN即k2，表示行中出现的单词

VALUEIN即v2,表示行中出现的单词的次数

KEYOUT即k3，表示文本中出现的不同单词

VALUEOUT即v3，表示文本中出现的不同单词的总次数1。

3.写main方法，代码如下：

static final String INPUT_PATH = "hdfs://myhadoop:9000/hello";
static final String OUT_PATH = "hdfs://myhadoop:9000/out";

public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
    Path outPath = new Path(OUT_PATH);
    if(fileSystem.exists(outPath)){
        fileSystem.delete(outPath, true);
    }
    Job job = new Job(conf , WordCountApp.class.getSimpleName());
    //1.1指定读取的文件位于哪里
    FileInputFormat.setInputPaths(job, INPUT_PATH);
    //指定如何对输入文件进行格式化，把输入文件每一行解析成键值对
    job.setInputFormatClass(TextInputFormat.class);
    //1.2 指定自定义的map类
    job.setMapperClass(MyMapper.class);
    //map输出的<k,v>类型。如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(LongWritable.class);
    //1.3 分区
    job.setPartitionerClass(HashPartitioner.class);
    //有一个reduce任务运行
    job.setNumReduceTasks(1);
    //1.4 TODO 排序、分组
    //1.5 TODO 规约
    //2.2 指定自定义reduce类
    job.setReducerClass(MyReducer.class);
    //指定reduce的输出类型
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(LongWritable.class);
    //2.3 指定写出到哪里
    FileOutputFormat.setOutputPath(job, outPath);
    //指定输出文件的格式化类
    job.setOutputFormatClass(TextOutputFormat.class);
    //把job提交给JobTracker运行
    job.waitForCompletion(true);
}

相关代码的所有内容，已经在附件中。

(3)运行查看结果

编写完代码后运行即可：

运行完成后，可以去HDFS中进行查看：

可以看到HDFS中有了/out文件夹，文件夹中多了两个文件。

查看其中的part-r-00000文件，内容如下：

这就是我们想要得到的内容。

Hadoop初学指南(6)--MapReduce的简单实例及分析,布布扣,bubuko.com

时间： 2024-12-24 19:11:01

Hadoop初学指南(6)--MapReduce的简单实例及分析的相关文章

Hadoop初学指南(5)--MapReduce入门

本文将介绍Hadoop中的重点MapReduce的入门知识. (1)MapReduce概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MR由两个阶段组成:Map和Reduce,在Hadoop中用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单.这两个函数的形参是key.value对,表示函数的输入信息. (2)MR执行流程客户端的代码会提交给JobTracker,也就是JobTracker接受由用户提交

Hadoop初学指南(7)--MapReduce自定义计数器

本文主要介绍了MapReduce中的自定义计数器的相关内容. 在上次的单词统计例子中,我们可以看到MapReduce在执行过程中会有很多的控制台输出信息,其中有一个很关键的内容:计数器.如下图: 可以看到最上方的关键字:Counters,这就表示计数器. 在这里,只有一个制表符缩进的表示计数器组,有两个制表符缩进的表示计数器组下的计数器.如File Output Format Counters就表示文件输出的计数器组,里面的Bytes Written表示输出的字符数,在输出的文本中,hello,

Hadoop初学指南(8)--MapReduce中的Combiner操作

本文主要介绍了MapReduce中的Combiner操作. 在MapReduce的执行步骤中,我们一共分了8步,其中Map中的最后一步规约操作就是今天要讲的Combiner. 首先看一下前文中的计数器: 我们可以发现,其中有两个计数器:Combine output records和Combine input records,他们的计数都是0,这是因为我们在代码中没有进行规约操作. 现在我们加入规约操作. 在前文代码(参看http://xlows.blog.51cto.com/5380484/14

Hadoop初学指南(10)--ZooKeeper的集群安装和操作

本文简单介绍了ZooKeeper的基本知识. (1)概述 ①什么是ZooKeeper? Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 ②Zookeeper的角色 ③为什么使用Zookeeper? 大部分分布式应用需要一个主控.协调器或控制器来管理物理分布的子进程(如资源.任务分配等) 目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序的

hadoop权威指南 chapter2 MapReduce

MapReduce MapReduce is a programming model for data processing. The model is simple, yet not too simple to express useful programs in. Hadoop can run MapReduce programs written in various languages; in this chapter, we shall look at the same program

Hadoop MapReduce原理及实例

MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计. 1. 通俗理解MapReduce MapReduce的处理过程分为两个步骤:map和reduce.每个阶段的输入输出都是key-value的形式,key和value的类型可以自行指定.map阶段对切分好的数据进行并行处理,处理结果传输给reduce,由reduce函数完成最后的汇总. 例如从大量历史数据中找出往年最高气温,NCDC公开了过去每一年的所有气温等天气数据的检测,每一行记录一条观测记录,格式如

hadoop权威指南学习(一) - 天气预报MapReduce程序的开发和部署

看过Tom White写的Hadoop权威指南(大象书)的朋友一定得从第一个天气预报的Map Reduce程序所吸引, 殊不知,Tom White大牛虽然在书中写了程序和讲解了原理,但是他以为你们都会部署了,这里轻描淡写给带过了,这样就给菜鸟们留了课题,其实在跑书中的程序的时候,如果没经验,还是会踩坑的. 这里笔者就把踩过的坑说一下,以防后来人浪费时间了. 1. 首先,你得下载书中的ncdc气象原始数据,这个可以从书中的官网下载. 作者比较做人家,只给了2年的历史数据,无妨,2年也可以运行.

《Hadoop权威指南》笔记第一章&第二章 MapReduce初探

? ? ? ? ? ? ? ? ? ? ? ? ? ? 使用MapReduce ? ? ? ? ? ? ? ? import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; // 会继承这个基类 import org.apache

Hadoop权威指南读书笔记

本书中提到的Hadoop项目简述 Common:一组分布式文件系统和通用I/O的组件与接口(序列化.javaRPC和持久化数据结构). Avro:一种支持高效.跨语言的RPC以及永久存储数据的序列化系统. MapReduce:分布式数据处理模型和执行环境,运行于大型商业集群. HDFS:分布式文件系统,运行于大型商用机集群. Pig:一种数据流语言和运行环境,用以检索非常大的数据集.Pig运行在MapReduce和HDFS的集群上. Hive:一个分布式.按列存储的数据仓库.Hive管理HDFS