Mapper与Reducer浅析

一、 Mapper

Mapper接口负责数据处理阶段，它采用的形式为Mapper<K1,V1,K2,V2>Java泛型，这里键类和值类分别实现WritableComparable和Writable接口。

Mapper只有一个方法—map，用于处理一个单独的键、值对。

Void map(K1key,V1 value,OutputCollector<K2,V2> output,Reporter reporter) throwsIOException该函数处理一个给定的键/值对（K1,V1）,生成一个键/值对（K2,V2）的列表(该列表也可能为空)，OutputCollector接收这个映射过程的输出，Reportor可提供对Mapper相关附加信息的记录，形成任务进度。

Mapper中包含的两个主要方法：

1、 void configure(JobConfjob) 该函数提取XML配置文件或者应用程序主类中的参数，在数据处理前调用。

2、 void close(),map任务结束前的最后一个操作，该函数完成所有的收尾工作，如：关闭数据库连接、打开文件等。

二、 Reducer

Reduce的实现和mapper一样必须首先在MapReduce基类上扩展，允许配置和清理，还必须实现Reducer接口，使其具有如下的单一方法：

Void reduce（K2key,Iterator<V2> values,OutputCollector<K3,V3> output,Reporterreporter） throwsIOException

当reducer任务接收来自各个mapper的输出时，它按照键/值对中键对输入数据进行排序，并将相同键的值归并。然后调用reduce()函数，并通过迭代处理那些与指定键相关联的值，生成一个（可能为空的）列表（K3,V3）.OutputCollector 接收reduce阶段的输出，并写入输出文件，Reporter可提供reducer相关的附加信息的记录，形成任务进度。

Partitioner：重定向Mapper输出（map和reduce两个阶段之间极其重要的步骤）。

原文地址：https://www.cnblogs.com/jingpeng77/p/9942045.html

时间： 2024-10-13 21:19:55

Mapper与Reducer浅析的相关文章

关于Mapper、Reducer的个人总结（转）

Mapper的处理过程: 1.1. InputFormat 产生 InputSplit,并且调用RecordReader将这些逻辑单元(InputSplit)转化为map task的输入.其中InputSplit是map task处理的最小输入单元的逻辑表示. 1.2. 在客户端代码中调用Job类来设置参数,并执行在hadoop集群的上的MapReduce程序. 1.3. Mapper类在Job中被实例化,并且通过MapContext对象来传递参数设置.可以调用Job.getConfigurat

运用MRUnit测试mapper和reducer

MRUnit可以花费时间少,并且可以分别测试mapper和reducer 步骤: 1. 运用MRUnit测试mapper和reducer 2. 执行mapreduce代码的本地化测试 3. 使用hadoop日志 4. 通过计数器跟踪执行指标 Testing Mapper的过程 1. 实例化mapdirver类,作为测试中mapper被参数化 2. 调用withmapper方法来添加想要测试的mapper实例 3. 根据情况选择withconfiguration方法设置mapper的

Hadoop-2.4.1学习之Mapper和Reducer

MapReduce允许程序员能够容易地编写并行运行在大规模集群上处理大量数据的程序,确保程序的运行稳定可靠和具有容错处理能力.程序员编写的运行在MapReduce上的应用程序称为作业(job),Hadoop既支持用Java编写的job,也支持其它语言编写的作业,比如Hadoop Streaming(shell.python)和Hadoop Pipes(c++).Hadoop-2.X不再保留Hadoop-1.X版本中的JobTracker和TaskTracker组件,但这并不意味着Hadoop-2

Mapper类/Reducer类中的setup方法和cleanup方法以及run方法的介绍

在hadoop的源码中,基类Mapper类和Reducer类中都是只包含四个方法:setup方法,cleanup方法,run方法,map方法.如下所示: 其方法的调用方式是在run方法中,如下所示: 可以看出,在run方法中调用了上面的三个方法:setup方法,map方法,cleanup方法.其中setup方法和cleanup方法默认是不做任何操作,且它们只被执行一次.但是setup方法一般会在map函数之前执行一些准备工作,如作业的一些配置信息等:cleanup方法则是在map方法运行完之后最

MapReduce源码分析：Mapper和Reducer类

一:Mapper类在Hadoop的mapper类中,有4个主要的函数,分别是:setup,clearup,map,run.代码如下: protected void setup(Context context) throws IOException, InterruptedException { // NOTHING } protected void map(KEYIN key, VALUEIN value, Context context) throws IOException, Interr

[hadoop入门]mapper与reducer

1.mapper #!/usr/bin/env python import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print "%s\t%s" % (word, 1) 2.reducer #!/usr/bin/env python from operator import itemgetter import sys current_word = Non

hadoop2.7之Mapper/reducer源码分析

一切从示例程序开始: 示例程序 Hadoop2.7 提供的示例程序WordCount.java package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.

Hadoop OutputFormat浅析

问题:reduce输出时,如果不是推测任务写结果时会先写临时目录最后移动到输出目录吗? 下面部分转自Hadoop官网说明 OutputFormat 描述Map/Reduce作业的输出样式. Map/Reduce框架根据作业的OutputFormat来: 检验作业的输出,例如检查输出路径是否已经存在. 提供一个RecordWriter的实现,用来输出作业结果. 输出文件保存在FileSystem上. TextOutputFormat是默认的 OutputFormat. 任务的Side-Effect

Hadoop-2.4.1学习之怎样确定Mapper数量

MapReduce框架的优势是能够在集群中并行运行mapper和reducer任务,那怎样确定mapper和reducer的数量呢,或者说怎样以编程的方式控制作业启动的mapper和reducer数量呢?在<Hadoop-2.4.1学习之Mapper和Reducer>中以前提及建议reducer的数量为(0.95~1.75 ) * 节点数量 * 每一个节点上最大的容器数,并可用法Job.setNumReduceTasks(int).mapper的数量由输入文件的大小确定.且没有相应的setNu

猜你喜欢

[UI]抽屉菜单DrawerLayout分析（一）

侧拉菜单作为常见的导航交互控件,最开始在没有没有android官方控件时,很多时候都是使用开源的SlidingMenu,一直没机会分析侧拉菜单的实现机理,本文将分析android.support.v4 ...

inode

1.诞生:磁盘被分区并格式化为ext4文件系统,后会生成一定数量的inode和block. 2.inode称为index node索引(目录)节点,它的作用是存放文件的属性信息以及作为文件内容的索引( ...

python3环境搭建（CentOS7.2）

安装python3(自动安装pip3):yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqli ...

数据库VIEW(视图)

视图是基于 SQL 语句的结果集的可视化的表. 视图包含行和列,就像一个真实的表.视图中的字段就是来自一个或多个数据库中的真实的表中的字段.我们可以向视图添加 SQL 函数.WHERE 以及 JOIN ...

tomcat 配置及优化

tomcat7 配置详解http://www.jianshu.com/p/0042d976bb39 tomcat6 配置详解 http://www.jianshu.com/p/0042d976bb39 ...

python之路系列-生成器和迭代器-景丽洋老师

返回顶部楔子假如我现在有一个列表l=['a','b','c','d','e'],我想取列表中的内容,有几种方式? 首先,我可以通过索引取值l[0],其次我们是不是还可以用for循环来取值呀? 你有 ...

如何使用axis2 构建 Android 服务器后端--- 工具准备与环境配置

最近一个项目要做个android端的实验室器材管理系统.小伙伴英勇地接下android端的锅,我就负责给他写后端,最近看到axis2 这个webservice挺好用的,折腾了几天给大家分享下: 1. ...

动态规划求最大子序列

动态规划求最大连续子序列: 思想: 1.如果在array[1,N]中存在最大连续子序列array[i,j],那么对于任何的k(i<=k<=j)均有array[i,k]大于0.假设array ...

S3C2440的GPIO编程

一.初步认识S3C2440A [S3C2440A简介] S3C2440A是三星公司推出的基于ARM920t内核的32/16位RISC微处理器.主要用于手持设备和中高端电子产品中.它内部集成16k数据c ...

/** * Created by 勿念 on 2017/7/7. */ var num1=0.1;console.log(num1); var num2=1;console.log(isNaN(num ...

计算机程序的思维逻辑 (78) - 线程池

上节,我们初步探讨了Java并发包中的任务执行服务,实际中,任务执行服务的主要实现机制是线程池,本节,我们就来探讨线程池. 基本概念线程池,顾名思义,就是一个线程的池子,里面有若干线程,它们的目的就 ...

补贴行动背后，火炬租房怎样实现“去中介化”？

打车软件补贴大战随着滴滴快的的合并而逐渐告一段落,只是,类似的补贴大战却在其它领域蔓延.近期有消息称,租房O2O市场或将接棒打车软件.将补贴大战进行究竟.当中,由天使投资人薛蛮子领投的火炬租房已经领先 ...

雅虎优化14条

法则1. 减少HTTP请求次数 80%的最终用户响应时间花在前端程序上,而其大部分时间则花在各种页面元素,如图像.样式表.脚本和Flash等,的下载上.减少页面元素将会减少HTTP请求次数.这是快速显 ...

js笔试题系列之——基础类型与运算符

前端技术的发展速度大家有目共睹,js的ECMA标准也不再是3的天下,但不管再怎么山雨欲来风满楼,基础语法还是得温故而知新.无论你是初学则还是多年js的编程者,都可以试着做做下面的测试题,我相信总还是会 ...

不会写代码，也能做软件

当前,严重依赖个体表现.类手工作坊式的软件开发,其效率正在日益拖慢我们的应用交付速度和质量.我们一直都在期望着有一款无代码编程的软件,能够将大量的开发人员从繁重的代码中解脱出来,多学学设计,多点时间和 ...

夺命雷公狗---memcache NO:01 环境的安装

new安装: 方式1: 将memcache啦到wamp环境目录下 2..进入cmd :d //进入d盘 Wamp //进入wamp目录下 5.memcached.exe -p 11210 //回 ...

滚动字幕Marquee

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Helvetica; color: #000000 } p.p2 { margin: 0.0p ...

JavaWeb过滤器.监听器.拦截器-？原理&区别

1.拦截器是基于java的反射机制,过滤器是基于函数回调 2.拦截器不依赖与servlet容器,过滤器依赖与servlet容器3.拦截器只能对action请求起作用,过滤器则可以对几乎所有的请求起作用 ...

java之Symmetric encryption techniques

java之Symmetric encryption techniques Symmetric encryption usesa single key to encrypt and decrypt a ...

debian下安装rvm配置ruby环境

先安装rvm curl -L https://get.rvm.io | bash -s stable source ~/.rvm/scripts/rvm 安装必须的东西 rvm requirement ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.