

 1 public abstract class InputFormat<K, V> {
 3   /**
 4    * Logically split the set of input files for the job.
 5    *
 6    * <p>Each {@link InputSplit} is then assigned to an individual {@link Mapper}
 7    * for processing.</p>
 8    *
 9    * <p><i>Note</i>: The split is a <i>logical</i> split of the inputs and the
10    * input files are not physically split into chunks. For e.g. a split could
11    * be <i>&lt;input-file-path, start, offset&gt;</i> tuple. The InputFormat
12    * also creates the {@link RecordReader} to read the {@link InputSplit}.
13    *
14    * @param context job configuration.
15    * @return an array of {@link InputSplit}s for the job.
16    */
17   public abstract
18     List<InputSplit> getSplits(JobContext context
19                                ) throws IOException, InterruptedException;
21   /**
22    * Create a record reader for a given split. The framework will call
23    * {@link RecordReader#initialize(InputSplit, TaskAttemptContext)} before
24    * the split is used.
25    * @param split the split to be read
26    * @param context the information about the task
27    * @return a new record reader
28    * @throws IOException
29    * @throws InterruptedException
30    */
31   public abstract
32     RecordReader<K,V> createRecordReader(InputSplit split,
33                                          TaskAttemptContext context
34                                         ) throws IOException,
35                                                  InterruptedException;
37 }


一个任务的开始阶段是由InputFormat来决定的! 1.在MapReduce框架中,InputFormat扮演的角色:– 将输入数据切分成逻辑的分片(Split),一个分片将被分配给一个单独的Mapper– 提供RecordReader的对象,该对象会从分片中读出<Key-Value>对供Mapper处理 1.1InputFormat对Mapper的影响:– 决定了Mapper的数量– 决定了Mapper的map函数接收的Key和Value 1.2InputFormat: InputFor


文件是 MapReduce 任务数据的初始存储地.正常情况下,输入文件一般是存储在 HDFS 里面.这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式.这些文件一般会很大,达到数十GB,甚至更大.那么 MapReduce 是如何读取这些数据的呢?下面我们来学习 InputFormat 接口 1.InputFormat接口 InputFormat接口决定了输入文件如何被 Hadoop分块(split up)与接受.InputFormat

[Hadoop] - 自定义Mapreduce InputFormat&amp;OutputFormat

在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat和OutputFormat,就可以完成这个需求,这里简单的介绍一个从MongoDB中读数据,并写出数据到MongoDB中的一种情况,只是一个Demo,所以数据随便找的一个. 一.自定义InputFormat MapReduce中Map阶段的数据输入是由InputFormat决定的,我们查看org.a