hadoop —— Reducer全排序

目录      

一、关于Reducer全排序

  1.1、  什么叫全排序

  1.2、  分区的标准是什么

二、全排序的三种方式

  2.1、  一个Reducer

  2.2、  自定义分区函数

  2.3、  采样


  一、关于Reducer全排序  

1.1、什么叫全排序?

在所有的分区(Reducer)中,KEY都是有序的:

  • 正确举例:如Reducer分区1中的KEY是1、3、4,分区2中的key是5、8、9
  • 错误举例:如Reducer分区1中的KEY是1、3、4,分区2中的key是2、7、9

1.2、数据分区的标准是什么?

默认的分区方式是根据mapper后的key的hash值,除以Reducer的分区数量,取其余数判定;例:

  • 某key的hash值是999,此时有3个分区(Reducer),则999 % 3 = 0;则该key和其对应value会分在第一个区(同理,当余数为1,2时会分在对应的另外两个区)。

注意:若key的类型是Text类(或IntWritable等)的,则计算的是Text类型的key的hash值,而非通过Text获取到的String(或int等)类型的hash值。

也可自定义分区的判定方式,见下2.2、自定义分区函数


  二、全排序的三种方式  

  • 一个Reduce
  • 自定义分区函数
  • 采样

2.1、一个Reduce

只有一个Reduce分区,自然是全排序效果


2.2、自定义分区函数

  1. 创建一个继承Partitioner的类,如:Partition
  2. 重写其”getPartition“方法,作为判断分区的依据
  3. 在main的job中将其加入:job.setPartitionerClass(Partition.class);

以随机分区为例,伪代码如下:

 1 public class Partition extends Partitioner <Text,IntWritable>{
 2
 3     @Override
 4     public int getPartition(Text text, IntWritable intWritable, int numPartitions) {
 5         Random r = new Random();
 6         //根据分区的数量(numPartitions),获取一个随机值返回,返回的值作为Key判断分区的依据
 7         int i = r.nextInt(numPartitions);
 8         return i;
 9     }
10 }
11
12 public class RandomAPP {
13     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
14         ......
15
16         //放判断放入分区的方式(随机放入)
17         job.setPartitionerClass(Partition.class);
18
19         ......
20
21         //等待执行MapperReducer
22         job.waitForCompletion(true);
23     }
24 }

2.3、采样:TotalOrderPartition

  • RandomSampler:随机采样 ,性能差,适合乱序数据
  • IntervalSampler:间隔采样 ,性能较好,适合有序数据
  • SplitSampler:切片采样 ,性能较好,适合有序数据

以随机采样为例,伪代码如下:

注:以下需要放在App中设置配置文件的后面

 1         //在App中指定分区函数类
 2         job.setPartitionerClass(TotalOrderPartition.class);
 3
 4         //设置文件的写入路径
 5         TotalOrderPartition.setPartitionFile(job.getConfiguration(),new Path("E:/par.dat"));
 6
 7         /**
 8          * 初始化采样器
 9          * RandomSampler    采用随机采样的方式
10          * freq             每个Key被选中的概率     freq x key > 分区数
11          * numSamples       需要的样本数           numSamples  > 分区数
12          * maxSplitsSampled 文件最大切片数         maxSplitsSampled > 当前切片数
13          */
14         InputSampler.RandomSampler = new InputSampler.RandomSampler(freq, numsamples,maxsplitsSampled );
15
16         //写入采样数据
17         InputSampler.writePartitionFile(job,sampler);


    Over    

 

原文地址:https://www.cnblogs.com/yiwanfan/p/9098366.html

时间: 2024-11-05 23:36:48

hadoop —— Reducer全排序的相关文章

Hadoop实现全排序

1.1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一. 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序.2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒.后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序.2009年,在一个1406个节点组成的hadoop集群,在59秒里对500GB完成了排序:而在1460个节点的集群,排序1TB数据只花

9.2.2 hadoop全排序实例详解

1.1.1         全排序 (1)全排序概述 指的是让所有的输出结果都是有序的,最简单的方法就是用一个reduce任务,但是这样处理大型文件时效率极低,失去的并行架构的意义.所以可以采用分组排序的方法来实现全局排序,例如现在要实现按键的全局的排序,可以将键值按照取值范围分为n个分组,<-10℃,-10℃~0℃, 0℃~10℃,>10℃.实现partitioner类,创建4个分区,将温度按照取值范围分类到四个分区中,每个分区进行排序,然后将4个分区结果合并成一个,既是一个全局有序的输出.

hive全排序

全排序 hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序. 1.1.1     例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,id fromc02_clickstat_fatdt1 where cookie_idIN('1.193.131.218.1288611279693.0','1.193.148.164.1288609861509.2

Hadoop---mapreduce排序和二次排序以及全排序

自己学习排序和二次排序的知识整理如下. 1.Hadoop的序列化格式介绍:Writable 2.Hadoop的key排序逻辑 3.全排序 4.如何自定义自己的Writable类型 5.如何实现二次排序 1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列化格式.更多的可能是要关注他的Subinterfaces:WritableComparable<T>.他是继承Writable和Co

五 数据组织模式 4)全排序、混排。

前面讲的 分区.分箱模式 都是不关心数据的顺序. 接下来 全排序.混排序模式 关心的是数据按照指定键进行并行排序. 全排序解释: 排序在顺序结构程序中容易实现, 但是在MapReduce 中,或者说在并行编程中不易实现.这是典型的 "分治法". 每个 reduce 将按照键对他的数据排序,但这种排序并不是全局意义上的排序. 这里想做的是全排序,记录是整个数据集按照顺序排列好的. 作用: 排序号的数据有很多有用的特性,比如时间排序可以提供一个基于时间轴的视图.在一个已排序好的数据集中查找

M/R全排序

例如:1KW数据,200个map,100个reduce. (1)map阶段,每个map分别局部排序,得到200个排好顺序的结果 (2)对所有的数据进行99个抽样s1,s2...s99(按照顺序排列) (3)根据每个map中数据在抽样数据的前后,将每个map划分成(最多)100个部分m1-1,m1-2....m1-100,m2-1,m2-2...m2-100...m200-1,m200-2,m200-100,所有map(最多)2W个部分 (4)这2W个部分每个部分按照抽样和抽样的比较分别放在每个抽

全排序与康拓展开

全排列: n=3 123 132 213 231 312 321 (由1~n组成,且出现一次,从小到大排序(或从大到小排序,或不排序)) 求全排序: I. Dfs1 //全排序没有顺序 #include <iostream> using namespace std; long a[100],n; void swap(long &a,long &b) { long temp; temp=a; a=b; b=temp; } void dfs(long pos) { long i;

全排序之字典排序

字典序全排列算法研究 一. 非递归算法(字典序法) 对给定的字符集中的字符规定了一个先后关系,在此基础上规定两个全排列的先后是从左到右逐个比较对应的字符的先后. 例如:字符集{1,2,3},较小的数字位置较先,这样按字典序生成的全排列是 123,132,213,231,312,321 ※ 一个全排列可看做一个字符串,字符串可有前缀.后缀. 生成给定全排列的下一个排列.所谓一个的下一个就是这一个与下一个之间没有其他的.这就要求这一个与下一个有尽可能长的共同前缀,也即变化限制在尽可能短的后缀上. 对

全排序的两种想法

字典序全排序: 1 import java.util.Arrays; 2 import java.util.Scanner; 3 public class Cao41 { 4 /** 5 * @param 第一行输入个数N,第二行输入序列1-9, 6 * 输出字典序排列 具体做法如下: 首先要将数组a从小到大排序,输出第一个排序,然后进入循环 先用getindex方法找到最靠后的,后面有比啊a[index]大的index,当index不存在设index=-1,结束循环. 然后从 index到en