MapReduce算法形式三:cleanup

案例三:cleanup

其实这个案例可以不用写这么复杂,不用cleanup也能写,但是为了,突显,突显,突显(重要的事说四遍)cleanup的重要性,琢磨了半天,恩,这样写既可以突显cleanup又显示出我对大集合的各种热爱(哪天把集合的遍历方法搞一下,光Map就有四五种),总而言之呢,写得是复杂了点,但是灰常满意~~

还是忘了说了,cleanup干嘛的,说白了就是吃reduce剩下的,reduce有些自己是处理不完的(可见团队合作重要性,kkk~),所以呢,cleanup就做了收尾吧的工作,官方说:cleanup是对reduce执行完所有数据的结果再进行的操作。

不多说了,直接上码~此处应该有掌声~~

时间: 2025-01-04 06:30:06

MapReduce算法形式三:cleanup的相关文章

MapReduce算法形式二:去重(shuffle)

案例二:去重(shuffle/HashSet等方法)shuffle主要针对的是key去重HashSet主要针对values去重

MapReduce算法形式二:去重(HashSet)

案例二:去重(shuffle/HashSet等方法)shuffle主要针对的是key去重HashSet主要针对values去重

MapReduce算法形式四:mapjoin

案例四:mapjoin(对个map共同输入,一个reduce) 这个方法主要解决的是,几个表之间的比较,类似于数据库的内外连接,还有一些左右连接之类的,简而言之就是,A表没有的B表有,B表有的A没有或者AB共有的,类似于这样的问题,话说呢,这就是一种思想,哒哒哒~不仅明白,因为用的也比较多.

MapReduce算法形式六:只有Map独自作战

案例六:Map独自直接输出 之前一直没有用过这个map独自输出的模式,就算是输出一些简单的我也会经过一次reduce输出,但是,发现这个map输出的结果跟我预想的有点不一样,我一直以为shuffle的过程会在map结尾,reduce开头进行,会有合并的,可是shuffle只做了分区,排序,然后就直接罗列出来了,这算是涨姿势了,之前理解的合并,归约还是有点问题的,果然毛爷爷说的实践才能出真理~~(向毛爷爷致敬,敬礼) 码就很简单,没什么可解释的,但是结果就得好好捉摸一下了,看看之后能用在哪里,回头

MapReduce算法形式五:TOP—N

案例五:TOP—N 这个问题比较常见,一般都用于求前几个或者后几个的问题,shuffle有一个默认的排序是正序的,但如果需要逆序的并且暂时还不知道如何重写shuffle的排序规则的时候就用以下方法就行,java中说到排序无非就是比较器,然后结合着集合,这样基本上就能解决我的需求了,但是有个问题需要注意,就是虽说集合是不定长的,但是呢,面对大数据而言,就可能会出现内存溢出的问题,所以最好不要讲所有数据都加入集合中在取出前N个,直接排序,加一个排一个,满足N个就把最后一个踢掉,这样会好点. 还有一个

算法学习三阶段

?? 第一阶段:练经典经常使用算法,以下的每一个算法给我打上十到二十遍,同一时候自己精简代码, 由于太经常使用,所以要练到写时不用想,10-15分钟内打完,甚至关掉显示器都能够把程序打 出来. 1.最短路(Floyd.Dijstra,BellmanFord) 2.最小生成树(先写个prim,kruscal 要用并查集,不好写) 3.大数(高精度)加减乘除 4.二分查找. (代码可在五行以内) 5.叉乘.判线段相交.然后写个凸包. 6.BFS.DFS,同一时候熟练hash 表(要熟,要灵活,代码要

算法整理(三):插入排序

插入排序很简单,就像打扑克.手里有个牌4,再来一张牌5就本能的放到第一个牌的右边.如果来了个3就从右往左扫描,只要左边的比这个待插入数字大就交换. 插入排序是一种稳定的排序方法,时间复杂度O(n*n),空间复杂度O(1),最好的情况下时间复杂度为O(1).即本来就是一个有序或者相等的数组,则只需比较n-1次即可.下为源码,只需三行代码即可. //============================================================================

Hadoop之MapReduce程序应用三

摘要:MapReduce程序进行数据去重. 关键词:MapReduce   数据去重 数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 2014-1-1    wangluqing 2014-1-2    root 2014-1-3   root 2014-1-4  wangluqing 2014-1-5  root 2014-1-6  wangluqing log-file2.txt内容 2014-1-1  root 2014-

排序算法(三)——交换排序

前两篇文章中介绍了选择排序和插入排序,今天我们继续往下来介绍其他的排序算法,介绍交换排序中的冒泡排序和快速排序. 1.交换排序:冒泡排序 定义:首先将第一个记录的关键字和第二个记录的关键字进行比较,若为逆序,则交换这两个记录的值,然后比较第二个记录和第三个记录的关键字,依此类推直至第n-1个记录和第n个记录的关键字比较过为止. 做法:上述过程称为第一趟冒泡排序.其结果是关键字最大的记录被交换到第n个记录的位置.然后进行第二趟冒泡排序,对前n-1个记录进行同样的操作,其结果是关键字次大的记录被交换