hadoop中mapreduce的默认设置

MR任务默认配置:

job.setMapperClass() Mapper Mapper将输入的<key,value>对原封不动地作为中间结果输出
job.setMapperOutputKeyClass() 与map结果的k类型一致 设置中间结果的key的类型
job.setMapperOutputValueClass() 与map结果的v类型一致 设置中间结果的value的类型
job.setReducerClass() Reducer Reducer将中间结果直接输出为最终结果。
job.setOutputKeyClass() LongWriteable \
job.setOutputValueClass() Text \
job.setInputFormatClass() TextInputFormat 文本文件将文本文件的多行分成splits,并通过LineRecorderReader,将其中的每一行解析成<key,value>对
job.setOutputFormatClass() TextOutputFormat TextOutputFormat将最终结果写成纯文本文件,每行一个<key,value>对,key和value之间用制表符分隔开来
job.setCombinerClass() null 不合并中间结果
job.setPartitionerClass() HashPartitioner HashPartitioner使用哈希函数完成Shuffle过程
时间: 2024-08-24 19:25:47

hadoop中mapreduce的默认设置的相关文章

浅谈hadoop中mapreduce的文件分发

最近在做数据分析的时候,需要在mapreduce中调用c语言写的接口,此时就需要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后做mapreduce的时候把so文件从hdfs下载到本地,但查询资料后发现hadoop有相应的组件来帮助我们完成这个操作,这个组件就是DistributedCache,分布式缓存,运用这个东西可以做到第三方文件的分发和缓存功能,下面详解: 如果我们需要在map之间共享一些数据,如果信息量不大,我们可

style.css项目中的自定义款式用来覆盖Bootstrap中的一些默认设置

这里有两个关键点,其间"bootstrap.cssBootstrap中的根本款式文件,只需运用Bootstrap就必需调用这个文件.而 bootstrap-responsive.css则能够依据你喜好来挑选,假如想让项目具有呼应式规划的作用,就必需求调用这个款式文件,并且调用必需遵从先后顺序,bootstrap-responsive.css必需放置在bootstrap.css以后,不然便不具有呼应式规划功用.而最终的style.css项目中的自定义款式,用来覆盖Bootstrap中的一些默认设置

Hadoop中MapReduce多种join实现实例分析

一.概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性.本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我在实际开发过程中遇到的实际例子来进行进一步的说明. 二.实现原理 1.在Reudce端进行连接. 在Reudc

hadoop中mapreduce的常用类(一)

云智慧(北京)科技有限公司陈鑫 写这个文章的时候才意识到新旧API是同时存在于1.1.2的hadoop中的.以前还一直纳闷儿为什么有时候是jobClient提交任务,有时是Job...不管API是否更新,下面这些类也还是存在于API中的,经过自己跟踪源码,发现原理还是这些.只不过进行了重新组织,进行了一些封装,使得扩展性更好.所以还是把这些东西从记事本贴进来吧. 关于这些类的介绍以及使用,有的是在自己debug中看到的,多数为纯翻译API的注释,但是翻译的过程受益良多. GenericOptio

hadoop中mapreduce的常用类(二)

云智慧(北京)科技有限公司陈鑫 NullWritable  不想输出的时候,把它当做key.NullWritable是Writable的一个特殊类,序列化的长度为0,实现方法为空实现,不从数据流中读数据,也不写入数据,只充当占位符,如在MapReduce中,如果你不需要使用键或值,你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型. FileInputFormat继承于InputFormat InputFormat的作用: 验证输入规范:切分输入文件

Hadoop中MapReduce计算框架以及HDFS可以干点啥

我准备学习用hadoop来实现下面的过程: 词频统计 存储海量的视频数据 倒排索引 数据去重 数据排序 聚类分析 ============= 先写这么多

【转】Hadoop在MapReduce中使用压缩详解

原文链接 http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465580.html#top hadoop对于压缩文件的支持 hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心. 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压. hadoop对每个压缩格式的支持,详细见下表:  

一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现

1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toString(),hashCode(),equals()方法 1 package com.areapartition; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import java.io.IOException; 6 7 im

关于Mapreduce On Yarn中Map数量的设置

同事最近对MR on Yarn中Map数量的一个小的研究,描述如下: 在新版MapReduce 中即 MR on yarn中,不支持设置Map数量. Map的数量是由MinInputSplitSize决定的,公式: Map的数量 = TotalSize / MinInputSplitSize 要想控制Map的数量,可以通过控制MinInputSplitSize大小来控制Map数量. 如果设置的MinInputSplitSize大于BlockSize,MinInputSplitSize即为设置的值