MapReduce排序之二次排序

一：背景

Hadoop中虽然有自动排序和分组，由于自带的排序是按照Key进行排序的，有些时候，我们希望同时对Key和Value进行排序。自带的排序功能就无法满足我们了，还好Hadoop提供了一些组件可以让开发人员进行二次排序。

二：技术实现

我们先来看案例需求

#需求1：首先按照第一列数字升序排列，当第一列数字相同时，第二列数字也升序排列(列之间用制表符\t隔开)

[java] view plain copy

MapReduce计算之后的结果应该是：

[java] view plain copy

#需求2：第一列不相等时，第一列按降序排列，当第一列相等时，第二列按升序排列

[java] view plain copy

MapReduce计算之后的结果应该是：

[java] view plain copy

下面是实现代码，实现两种需求的关键是compareTo()方法的实现不同：

[java] view plain copy

public class SecondSortTest {
// 定义输入路径
private static final String INPUT_PATH = "hdfs://liaozhongmin:9000/data";
// 定义输出路径
private static final String OUT_PATH = "hdfs://liaozhongmin:9000/out";
public static void main(String[] args) {
try {
// 创建配置信息
Configuration conf = new Configuration();
/**********************************************/
//对Map端输出进行压缩
//conf.setBoolean("mapred.compress.map.output", true);
//设置map端输出使用的压缩类
//conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class);
//对reduce端输出进行压缩
//conf.setBoolean("mapred.output.compress", true);
//设置reduce端输出使用的压缩类
//conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);
// 添加配置文件(我们可以在编程的时候动态配置信息，而不需要手动去改变集群)
/*
* conf.addResource("classpath://hadoop/core-site.xml");
* conf.addResource("classpath://hadoop/hdfs-site.xml");
* conf.addResource("classpath://hadoop/hdfs-site.xml");
*/
// 创建文件系统
FileSystem fileSystem = FileSystem.get(new URI(OUT_PATH), conf);
// 如果输出目录存在，我们就删除
if (fileSystem.exists(new Path(OUT_PATH))) {
fileSystem.delete(new Path(OUT_PATH), true);
}
// 创建任务
Job job = new Job(conf, SecondSortTest.class.getName());
//1.1 设置输入目录和设置输入数据格式化的类
FileInputFormat.setInputPaths(job, INPUT_PATH);
job.setInputFormatClass(TextInputFormat.class);
//1.2 设置自定义Mapper类和设置map函数输出数据的key和value的类型
job.setMapperClass(MySecondSortMapper.class);
job.setMapOutputKeyClass(CombineKey.class);
job.setMapOutputValueClass(LongWritable.class);
//1.3 设置分区和reduce数量(reduce的数量，和分区的数量对应，因为分区为一个，所以reduce的数量也是一个)
job.setPartitionerClass(HashPartitioner.class);
job.setNumReduceTasks(1);
//1.4 排序、分组
//1.5 归约
//2.1 Shuffle把数据从Map端拷贝到Reduce端。
//2.2 指定Reducer类和输出key和value的类型
job.setReducerClass(MySecondSortReducer.class);
job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(LongWritable.class);
//2.3 指定输出的路径和设置输出的格式化类
FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
job.setOutputFormatClass(TextOutputFormat.class);
// 提交作业退出
System.exit(job.waitForCompletion(true) ? 0 : 1);
} catch (Exception e) {
e.printStackTrace();
}
}
public static class MySecondSortMapper extends Mapper<LongWritable, Text, CombineKey, LongWritable>{
//定义联合的key
private CombineKey combineKey = new CombineKey();
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, CombineKey, LongWritable>.Context context) throws IOException,
InterruptedException {
//对输入的value进行切分
String[] splits = value.toString().split("\t");
//设置联合的key
combineKey.setComKey(Long.parseLong(splits[0]));
combineKey.setComVal(Long.parseLong(splits[1]));
//通过context写出去
context.write(combineKey, new LongWritable(Long.parseLong(splits[1])));
}
}
public static class MySecondSortReducer extends Reducer<CombineKey, LongWritable, LongWritable, LongWritable>{
@Override
protected void reduce(CombineKey combineKey, Iterable<LongWritable> values, Reducer<CombineKey, LongWritable, LongWritable, LongWritable>.Context context)
throws IOException, InterruptedException {
//因为输入的CombineKey已经排好序了，所有我们只要获取其中的两个成员变量写出去就可以了。values在这个例子中没有什么作用
context.write(new LongWritable(combineKey.getComKey()), new LongWritable(combineKey.getComVal()));
}
}
}
/**
* 重新组合成一个key，实现二次排序
* @author 廖*民
* time : 2015年1月18日下午7:27:52
* @version
*/
class CombineKey implements WritableComparable<CombineKey>{
public long comKey;
public long comVal;
//必须提供无参构造函数，否则hadoop反射机制会出错
public CombineKey() {
}
//有参构造函数
public CombineKey(long comKey, long comVal) {
this.comKey = comKey;
this.comVal = comVal;
}
public long getComKey() {
return comKey;
}
public void setComKey(long comKey) {
this.comKey = comKey;
}
public long getComVal() {
return comVal;
}
public void setComVal(long comVal) {
this.comVal = comVal;
}
public void write(DataOutput out) throws IOException {
out.writeLong(comKey);
out.writeLong(comVal);
}
public void readFields(DataInput in) throws IOException {
this.comKey = in.readLong();
this.comVal = in.readLong();
}
/**
* 这个方法一定要实现
* java里面排序默认是小的放在前面，即返回负数的放在前面，这样就是所谓的升序排列
* 我们在下面的方法中直接返回一个差值，也就相当于会升序排列。
* 如果我们要实现降序排列，那么我们就可以返回一个正数
*/
/*public int compareTo(CombineKey o) {
//第一列不相同时按升序排列，当第一列相同时第二列按升序排列
long minus = this.comKey - o.comKey;
//如果第一个值不相等时，我们就先对第一列进行排序
if (minus != 0){
return (int) minus;
}
//如果第一列相等时，我们就对第二列进行排序
return (int) (this.comVal - o.comVal);
}*/
/**
* 为了实现第一列不同时按降序排序，第一列相同时第二列按升序排列
* 第一列：降序，当第一列相同时，第二列：升序
* 为了实现降序，
*/
public int compareTo(CombineKey o) {
//如果a-b<0即,a小于b，按这样的思路应该是升序排列，我们可以返回一个相反数使其降序
long tmp = this.comKey - o.comKey;
//如果第一个值不相等时，我们就先对第一列进行排序
if (tmp != 0){
return (int) (-tmp);
}
//如果第一列相等时，我们就对第二列进行升序排列
return (int) (this.comVal - o.comVal);
}
@Override
public int hashCode() {
final int prime = 31;
int result = 1;
result = prime * result + (int) (comKey ^ (comKey >>> 32));
return result;
}
@Override
public boolean equals(Object obj) {
if (this == obj)
return true;
if (obj == null)
return false;
if (getClass() != obj.getClass())
return false;
CombineKey other = (CombineKey) obj;
if (comKey != other.comKey)
return false;
return true;
}
}

时间： 2024-12-04 21:53:22

MapReduce排序之二次排序的相关文章

mapreduce排序【二次排序】

mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变. 这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper<LongWritable, Text, IntPair, IntWritable> public static class Reduce extends Reducer<IntPair, NullWritable, IntWritable,

MapReduce程序之二次排序与多次排序

[toc] MapReduce程序之二次排序与多次排序需求有下面的数据: cookieId time url 2 12:12:34 2_hao123 3 09:10:34 3_baidu 1 15:02:41 1_google 3 22:11:34 3_sougou 1 19:10:34 1_baidu 2 15:02:41 2_google 1 12:12:34 1_hao123 3 23:10:34 3_soso 2 05:02:41 2_google 假如我们现在的需求是先按 cook

Hadoop---mapreduce排序和二次排序以及全排序

自己学习排序和二次排序的知识整理如下. 1.Hadoop的序列化格式介绍:Writable 2.Hadoop的key排序逻辑 3.全排序 4.如何自定义自己的Writable类型 5.如何实现二次排序 1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列化格式.更多的可能是要关注他的Subinterfaces:WritableComparable<T>.他是继承Writable和Co

实验六 MapReduce实验：二次排序

实验指导: 6.1 实验目的基于MapReduce思想,编写SecondarySort程序. 6.2 实验要求要能理解MapReduce编程思想,会编写MapReduce版本二次排序程序,然后将其执行并分析执行过程. 6.3 实验原理MR默认会对键进行排序,然而有的时候我们也有对值进行排序的需求.满足这种需求一是可以在reduce阶段排序收集过来的values,但是,如果有数量巨大的values可能就会导致内存溢出等问题,这就是二次排序应用的场景——将对值的排序也安排到MR计算过程之中,而不是单

排序（二) 外部排序

一定义外部排序指的是大文件的排序,即待排序的记录存储在外存储器上,待排序的文件无法一次装入内存,需要在内存和外部存储器之间进行多次数据交换,以达到排序整个文件的目的. 二处理过程 (1)按可用内存的大小,把外存上含有n个记录的文件分成若干个长度为L的子文件,把这些子文件依次读入内存,并利用有效的内部排序方法对它们进行排序,再将排序后得到的有序子文件(又称归并段)重新写入外存: (2)对这些有序子文件逐趟归并,使其逐渐由小到大,直至得到整个有序文件为止. 先从一个例子来看外排序中的归并是如何

[排序算法二]选择排序

选择排序(Selection sort)是一种简单直观的排序算法.它的工作原理是:第一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,然后再从剩余的未排序元素中寻找到最小(大)元素,然后放到已排序的序列的末尾.以此类推,直到全部待排序的数据元素的个数为零.选择排序是不稳定的排序方法. 算法性能时间复杂度:O(n^2),总循环次数 n(n-1)/2.数据交换次数 O(n),这点上来说比冒泡排序要好,因为冒泡是把数据一位一位的移上来,而选择排序只需要在子循环结束后移动一次

排序算法(二)选择排序---堆排序

概念:利用树结构进行排序. 分类:1.大顶堆: 每个小树的根节点都大于子节点升序排序使用大顶堆 2.小顶堆:每个小树的子节点都大于根节点降序排序使用小顶堆 1 public class HeapSort { 2 3 public static void main(String[] args){ 4 int[] arr=new int[]{9,6,7,0,1,10,4,2}; 5 System.out.println(Arrays.toString(arr)); 6 heapSort(ar

Hadoop二次排序及MapReduce处理流程实例详解

一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求.对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的.本文将通过一个实际的MapReduce二次排序的例子,讲述二次排序的实现和其MapReduce的整个处理流程,并且通过结果和Map.

hadoop编程小技巧（9）---二次排序（值排序）

代码测试环境:Hadoop2.4 应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧. 应用实例描述: 比如针对下面的数据: a,5 b,7 c,2 c,9 a,3 a,1 b,10 b,3 c,1 如果使用一般的MR的话,其输出可能是这样的: a 1 a 3 a 5 b 3 b 10 b 7 c 1 c 9 c 2 从数据中可以看到其键是排序的,但是其值不是.通过此篇介绍的技巧可以做到下面的输出: a 1 a 3 a 5 b 3 b

MapReduce排序之 二次排序

MapReduce排序之 二次排序的相关文章

MapReduce排序之二次排序

MapReduce排序之二次排序的相关文章