Spark用Java实现二次排序的自定义key

本人在研究Spak，最近看了很多网上的对于SPARK用Java实现二次排序的方法，对于自定义key的做法基本上都是实现Ordered<>接口，重写$greater、$greater$eq、$less、$less$eq、compare、compareTo方法，定义hashCode、equals·····

感觉好麻烦，其实我们自定义key只是用了里面的compareTo方法，其他的$greater、$greater$eq、$less、$less$eq、compare 不用做任何改动，hashCode、equals方法也是不需要的，不知道为什么大家都喜欢写的那么复杂，而且其实我们根本不用实现Ordered<>接口，只要实现Comparable<T>接口重写compareTo方法就行了，很简洁，以下是我的自定义key：

import java.io.Serializable;

import scala.math.Ordered;

/**

* 自定义的二次排序key

*/

public class SecondarySortKey implements Comparable<SecondarySortKey>,Serializable {

private static final long serialVersionUID = -2366006422945129991L;

private int first;

private int second;

public SecondarySortKey(int first, int second) {

this.first = first;

this.second = second;

}

@Override

public int compareTo(SecondarySortKey other) {

if(this.first - other.getFirst() != 0) {

return this.first - other.getFirst();

} else {

return this.second - other.getSecond();

}

}

public int getFirst() {

return first;

}

public void setFirst(int first) {

this.first = first;

}

public int getSecond() {

return second;

}

public void setSecond(int second) {

this.second = second;

}

}

测试过没有问题。我不知道是我理解不够深彻还是大家故意把Java自定义key的方法写复杂点以体现出scala的简洁和优美（哈哈哈），如果有没考虑到的地方敬请指教！！！

时间： 2024-10-29 19:07:37

Spark用Java实现二次排序的自定义key的相关文章

使用java 实现二次排序

二次排序工具类: import java.io.Serializable; import scala.math.Ordered; /** * @author 作者 E-mail: * @version 创建时间:2017年8月30日下午3:48:11 * 类说明 */ //二次排序key public class SecondeIndexSort implements Ordered<SecondeIndexSort>, Serializable{ private static final

【spark】示例：二次排序

我们有这样一个文件首先我们的思路是把输入文件数据转化成键值对的形式进行比较不就好了嘛! 但是你要明白这一点,我们平时所使用的键值对是不具有比较意义的,也就说他们没法拿来直接比较. 我们可以通过sortByKey,sortBy(pair._2)来进行单列的排序,但是没法进行两列的同时排序. 那么我们该如何做呢? 我们可以自定义一个键值对的比较类来实现比较, 类似于JAVA中自定义类实现可比较性实现comparable接口. 我们需要继承Ordered和Serializable特

Hadoop.2.x_高级应用_二次排序及MapReduce端join

一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 ===> b,-3 c,2 b,-2 b,-2 b,1 a,100 b,6 b,-3 c,-7 c,-7 c,2 2. 分析[MapRedice过程] 1> 分析数据传入通过input()传入map() 2> map()对数据进行层层过滤,以达到我们想要的数据源, 3> 过滤方法中可添加自

各种排序算法python和java实现(二)

第一篇博客实现了三种最基本最简单的排序算法,本篇文章将在这三种算法的基础上稍微演变一下. 1.快排光从名字看就知道速度肯定不差,前一篇讲的冒泡排序,怎么看都不算是一种好的排序算法,里面充斥了太多的无谓的交换动作,时间复杂度倒是很稳定o(n^2),但对于排序算法实在说不过去.快排是冒泡排序的改进版,思路就是分治,将一个序列随机按照某个值分成两个子序列,子序列A里面的值全部比该值大,另一个子序列B的值全部比该值小,这听起来像是二叉排序树.然后依次对子序列进行如上操作,很明显快排最简单的实现就是用递

Spark的二次排序

1.数据样本: 1 52 43 61 32 11 142 454 113 235 126 13 2.排序规则:先按照第一个字符排序,如果第一个相同,再按照第二个字符排序 3.排序后的结果 1 31 51 142 12 42 453 63 234 115 126 13 4.spark二次排序实现 4.1.自定义key package com.test.spark /** * @author admin * scala处理二次排序的类 * 自定义key */ class SecondSortByKe

MapReduce排序之二次排序

一:背景 Hadoop中虽然有自动排序和分组,由于自带的排序是按照Key进行排序的,有些时候,我们希望同时对Key和Value进行排序.自带的排序功能就无法满足我们了,还好Hadoop提供了一些组件可以让开发人员进行二次排序. 二:技术实现我们先来看案例需求 #需求1: 首先按照第一列数字升序排列,当第一列数字相同时,第二列数字也升序排列(列之间用制表符\t隔开) [java] view plain copy 3 3 3 2 3 1 2 2 2 1 1 1 MapRed

Hadoop二次排序及MapReduce处理流程实例详解

一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求.对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的.本文将通过一个实际的MapReduce二次排序的例子,讲述二次排序的实现和其MapReduce的整个处理流程,并且通过结果和Map.

MapReduce二次排序

本文主要介绍下二次排序的实现方式我们知道MapReduce是按照key来进行排序的,那么如果有个需求就是先按照第一个字段排序,在第一个字段相等的情况下,按照第二个字段排序,这就是传说中的二次排序. 下面就具体说一下二次排序的实现方式主要就是4点 1.自定义一个Key 为什么要自定义一个Key,我们知道MapReduce中排序就是按照Key来排序的,我们既然想要实现按照两个字段进行排序,默认的方式肯定是不行的,所以自定义一个新的Key,Key里面有两个属性,也就是我们要排序的两个字段. 首先,

大数据【四】MapReduce（单词计数；二次排序；计数器；join；分布式缓存）

前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分布式缓存). 一概述定义 MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间. 适用范围:数据量大,但是数据种类小可以放入内存. 基

猜你喜欢

linux文件管理(结构)

linux的哲学思想: 一切皆文件:把几乎有多的资源都抽象为文件由众多功能单一的程序组成,当完成复杂任务时组合单一的小程序: 每一个命令都避免和用户交互:易于以编程的方式完成自动化任务使用纯文本文 ...

Android逆向之旅---SO(ELF)文件格式详解

第一.前言从今天开始我们正式开始Android的逆向之旅,关于逆向的相关知识,想必大家都不陌生了,逆向领域是一个充满挑战和神秘的领域.作为一名Android开发者,每个人都想去探索这个领域,因为一旦 ...

015_C语言中文件操作

文件:存储在外部介质上的数据集合 ASCII码文件和二进制文件流式文件和非流式文件在内存中只有1和0,电脑在显示文件时,按一定编码显示流式文件:输入输出的数据流的开始和结束仅受程序控制而不 ...

ASP.NET Core开发-后台任务利器Hangfire使用

ASP.NET Core开发系列之后台任务利器Hangfire 使用. Hangfire 是一款强大的.NET开源后台任务利器,无需Windows服务/任务计划程序. 可以使用于ASP.NET 应用也 ...

利用视差图合成新视点

利用视差图合成新视点,视差图一般通过图像匹配获取,以middlebury上的一张图为例,左边为原图(左图像),右边为对应视差图. 简单的利用视差图进行视点合成,取每一个像素点处的视差值,然后 ...

logrotate日志轮转

logrotate轮转减小日志大小,降低分析难度丢弃过期日志节省空间结合cron每天执行软件包 logrotate 配置文件 /etc/logrotate.conf /etc/logrotat ...

html（四） -- 框架标签

框架标签 frameSet : 一个frameSet可以把一个页面切割成多份,但是只能按照行或者列切割. frame 不能被切割的. frame是位于frameSet中. iframe: 在一个 ...

C#异常性能影响

何谓异常很多人在讨论异常的时候很模糊,仿佛所谓异常就是try{}catch{},异常就是Exception,非常的片面,所以导致异常影响性能,XXXX……等很多奇怪的言论,所以在此我意在对异常正名. ...

关于响应式布局的个人见解

响应式布局,就是一个网站可以兼容多类型终端,但不是需要为每一个终端做一个特定的网页版本.响应式布局可以为不同终端的用户提供更舒适的界面和用户体验,目前越来越多的大屏幕移动设备的出现,响应式也随之成为开 ...

php入门第一篇

1.php用途: a.生成动态页面内容 b.创建,打开,读取,写入,关闭服务器上的内容 c.收集表单内容 d.发送和接受cookies. e添加,删除,修改自己数据库中的数据. e.限制用户访问自己网 ...

linux命令（24）：find命令

1．命令格式: find pathname -options [-print -exec -ok ...] 2．命令功能: 用于在文件树种查找文件,并作出相应的处理 3．命令参数: pathname: ...

sqlite+php+ajax 即时聊天系统（ajax 长连接）一

说点废话:今天lol的时候碰到一个坑货,技术确实不错,到后面,被我说了一句,那家伙居然说让我求他,他就玩.我骂了他一句傻逼.我就挂机,看着他们输了.有时候,看到别人要坑,我就先下手为强! 思路:sq ...

UVa 540 Team Queue（团队队列）

题意模拟团队队列的入队和出队 STL应用用一个队列维护团队编号再用一个队列数组维护个体 #include <cstdio> #include <cstring> # ...

2015/1/11

整整一周的复习周,三门课程:计算机组成原理,数据结构,操作系统.不断的复习,总结,做题,但就是没上机编程. 这一周里,依旧坚持早休早起,写晨间日记,做早晨运动,开始一早一晚的静坐冥想. 这周的收获有: ...

解题报告：hdu 1005 number subsequent

2017-09-06 20:35:59 writer:pprp 本来以为这是一道水题,写了一个递归就赶紧交上去了, 结果超时了,看看数据范围100000000,肯定把栈给爆了想用记忆化的方法,但是虽 ...

[Debug]GNU tools

1,GNU Tools 点击打开链接各个GNU工具详细解释

红色的投资网站个人中心界面模板——个人中心

链接:http://pan.baidu.com/s/1hs7JSIK 密码:3182

windows_agent 添加

一:复制windows agent文件和.exe文件到c:\zabbix\目录下二:配置zabbix_agentd.win.conf文件 hostname:设置为自定义名称,但是要和zabbix-s ...

学习的第九天——依然copy唯品会

啊,快要疯了,已经连续做了三天,从刚开始的只会用div东拼西凑,到后来的慢慢布局,再到如今的差不多可以用一天时间将唯品会首页的导航和大图片做出来,这个过程十分的劳累,最开始的时候熬夜熬到了十一点多,满 ...

嵌入式的一些资料

朱兆琪的嵌入式Linux开发实用教程: 网盘:http://pan.baidu.com/share/link?shareid=3562495290&uk=3996269986 elecfans ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.