hadoop中setup,cleanup,run和context讲解

hadoop 执行中的setup run cleanup context的作用
1.简介
1) setup()，此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导致重复，程序运行效率不高！
2) Mapper或Reducer运行
3) cleanup(),此方法被MapReduce框架仅且执行一次，在执行完毕Map任务后，进行相关变量或资源的释放工作。若是将释放资源工作放入方法map()中，也会导致Mapper任务在解析、处理每一行文本后释放资源，而且在下一行文本解析前还要重复初始化，导致反复重复，程序运行效率不高！
4) run 程序启动运行
5) Context 是MapReduce任务运行的一个上下文，包含了整个任务的全部信息
context作为了map和reduce执行中各个函数的一个桥梁，这个设计和java web中的session对象、application对象很相似
注：建议资源初始化及释放工作，分别放入方法setup()和cleanup()中进行
2.执行顺序
setup---->Mapper或Reducer----->cleanup
| |
run
解：Setup一般是在执行map函数前做一些准备工作，map是主要的数据处理函数，
cleanup则是在map执行完成后做一些清理工作和finally字句的作用很像，
下面看一下run方法
public void run(Context context) throws IOException, InterruptedException {
setup(context);
while(context.nextKeyValue()) {
map(context.getCurrentKey(),context.getCurrentValue(),context);
}
cleanup(context);
}
}

时间： 2024-08-05 07:25:13

hadoop中setup,cleanup,run和context讲解的相关文章

在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数

最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可.对于文本数据处理,这个类还是能满足一部分应用场景.但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了. 本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计.当然,也可以在此基础上实现排序之类的其他应用.实现该应用的主要难点就是如何处理输入数据.参考<权威指南·第三版>得知需要继承FileInputForm

Hadoop中MapReduce多种join实现实例分析

一.概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性.本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我在实际开发过程中遇到的实际例子来进行进一步的说明. 二.实现原理 1.在Reudce端进行连接. 在Reudc

Hadoop中RPC协议小例子报错java.lang.reflect.UndeclaredThrowableException解决方法

最近在学习传智播客吴超老师的Hadoop视频,里面他在讲解RPC通信原理的过程中给了一个RPC的小例子,但是自己编写的过程中遇到一个小错误,整理如下: log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See

浅谈hadoop中mapreduce的文件分发

最近在做数据分析的时候,需要在mapreduce中调用c语言写的接口,此时就需要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后做mapreduce的时候把so文件从hdfs下载到本地,但查询资料后发现hadoop有相应的组件来帮助我们完成这个操作,这个组件就是DistributedCache,分布式缓存,运用这个东西可以做到第三方文件的分发和缓存功能,下面详解: 如果我们需要在map之间共享一些数据,如果信息量不大,我们可

Hadoop中Combiner的使用

文章转载于:http://blog.csdn.net/ipolaris/article/details/8723782 Hadoop中Combiner的使用在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢.有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出.下面以<Hadoop in action>中的专利数据为例.我们打算统计每个国家的专利数目

hadoop中mapreduce的常用类（一）

云智慧(北京)科技有限公司陈鑫写这个文章的时候才意识到新旧API是同时存在于1.1.2的hadoop中的.以前还一直纳闷儿为什么有时候是jobClient提交任务,有时是Job...不管API是否更新,下面这些类也还是存在于API中的,经过自己跟踪源码,发现原理还是这些.只不过进行了重新组织,进行了一些封装,使得扩展性更好.所以还是把这些东西从记事本贴进来吧. 关于这些类的介绍以及使用,有的是在自己debug中看到的,多数为纯翻译API的注释,但是翻译的过程受益良多. GenericOptio

Hadoop中的DBInputFormat

一:背景为了方便MapReduce直接访问关系型数据库(MYSQL.Oracle等),Hadoop提供了DBInputFormat和DBOutputFormat两个类,通过DBInputFormat类把数据库表的数据读入到HDFS中,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库中. 二:实现我们以MYSQL数据库为例,先建立数据库.表以及插入数据,如下, (1):建立数据库 create database myDB; (2):建立数据库表 [java] vi

Hadoop 中利用 mapreduce 读写 mysql 数据

Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的地方. 好了言归正传,简单的说说背景.原理以及需要注意的地方: 1.为了方便 MapReduce 直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInp

结合手机上网流量业务来说明Hadoop中的自定义数据类型（序列化、反序列化机制）

大家都知道,Hadoop中为Key的数据类型必须实现WritableComparable接口,而Value的数据类型只需要实现Writable接口即可:能做Key的一定可以做Value,能做Value的未必能做Key.但是具体应该怎么应用呢?--本篇文章将结合手机上网流量业务进行分析. 先介绍一下业务场景:统计每个用户的上行流量和,下行流量和,以及总流量和. 本次描述所用数据: 日志格式描述: 日志flowdata.txt中的具体数据: 接下来贴出详细代码,代码中含有详细注释,从代码中可以看出,

猜你喜欢

Linux命令-帮助命令:man

man ls 查看ls命令的帮助信息(输出结果和less命令一样,需要空格,回车,,上箭头,下箭头,PgUp,PgDn,q等方式浏览) 注意:由于这个文件信息量比较大,需要查找某一个字符,输入/,输入 ...

Project network redundant , Vmware virtualization, Dell VRTX P2V - Part 2 (VRTX Network)

上面部分分析了企业内容大部分构架: http://zhangfang526.blog.51cto.com/8588740/1772382 那么具体到一个交换机或是DELL VRTX我们该怎么操作呢? ...

C# IO读写文件

WriteFile.cs 1 using System; 2 3 using System.IO; 4 5 namespace IO_读写文件 6 { 7 class CRead_Write_File ...

Linux内核分析--操作系统是如何工作的

“平安的祝福 + 原创作品转载请注明出处 + <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 ” 一.初 ...

BZOJ 1055 玩具取名(区间DP)

很显然的区间DP,定义dp[i][j][k], 如果dp[i][j][k]=1表示字符串[i,j]可以组成k字符. # include <cstdio> # include <cst ...

setObject()用法

setObject()用法 setObject(i+1,arg[i])用法与setInt(i+1,arg[i]),setString(i+1,arg[i])用法类似, 但不需指定参数类型,可以通用: ...

bzoj 1585: [Usaco2009 Mar]Earthquake Damage 2 地震伤害

1585: [Usaco2009 Mar]Earthquake Damage 2 地震伤害 Description Farmer John的农场里有P个牧场,有C条无向道路连接着他们,第i条道路连接着 ...

spinlock剖析与改进

http://www.searchtb.com/2011/06/spinlock%E5%89%96%E6%9E%90%E4%B8%8E%E6%94%B9%E8%BF%9B.html 1, spinlo ...

基于文件的离线数据同步方案

产品此前的数据备份方案,存在不少问题,所以需要设计一个新的方案.本文总结一下新旧方案的优劣首先APP是一个支持离线的应用.本地数据保存在sqlite,在离线环境下,在本地数据库里读写记录,在有网络的 ...

Python生成字体

Python version 2.7 required, which was not found in the registry 参考:http://www.cnblogs.com/min0208 ...

BZOJ 2048 2009国家集训队书堆数学算法

题目大意:经典的物理上的桌边堆书问题,初中物理老师曾经还讲过,不过只记住了结论...没关系,简单证明一下就好首先我们设由上至下第i本书比它下面那本书多伸出去的长度为a[i],前缀和为s[i],那么我 ...

关于在2.7中出现 "UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal"

在中文字符串前面加u. Make sure your code is in UTF-8 (NOT Latin-1) and/or use a coding line as so: #! /usr/bi ...

MVC3----数据注解与验证(2)之详解Remote验证与Compare验证

***************************************************Remote验证概要: 如果要实现像用户注册那样,不允许出现重复的账户,就可以用到Remote验 ...

解决java.lang.NoClassDefFoundError: ch/qos/logback/core/joran/spi/Pattern

明明引入了这个,却提示没有看下面文章: http://lib.csdn.net/article/computernetworks/16110 (3)我按照网上的方法更换了logback jar包的版 ...

20151031团队建设有感

今天团队建设,对我感触挺大的.工作整整一年,之前也参加过类似的的分享活动,是在第一家公司,华强北商城,现在想起来其实每家公司每个地方的人都是很好的,坏得不过是自己庸人自扰罢了.现在的心情是沮丧的,找不 ...

为SecureCRT做脚本实现在交换机上自动ping服务器网卡

进入交换机后,在SecureCRT中点击执行脚本,找到文件.vbs ,脚本内容如下 #$Language="VBScript" #$Interface="1.0&qu ...

Cocoa多线程编程之block与semaphore（信号量）

首先大家要了解 dispatch_queue 的运作机制及线程同步我们可以将许多 blocks 用 dispatch_async 函数提交到 dispatch_queue ,如果类型是DISPATC ...

oracle删除表的方式

当表中的数据不需要时,则应该删除该数据并释放所占用的空间,删除表中的数据可以使用Delete语句或者Truncate语句,下面分别介绍. 一.delete语句 (1)有条件删除语法格式:del ...

RDLC后台自定义报表模板

首先封装一个公共类,统一来操作RDLC报表 using System; using System.Collections.Generic; using System.Linq; using Syste ...

We are already in the process of making n+ connections and the number of simultaneous builds has bee

simultaneous-build-throttle: This is the maximum number of connections we can be building at any one ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.