PairRDD中算子reduceByKey图解

reduceByKey

函数原型：

def reduceByKey(func: (V, V) => V): RDD[(K, V)]

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]

作用：

按照func的映射关系，将两个V型的值映射到相同类型的V值上去。

例子：

scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at makeRDD at <console>:27

scala> rdd1.partitions.size
res0: Int = 48

scala> var rdd2 = rdd1.reduceByKey((x,y) => x + y)
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[1] at reduceByKey at <console>:29

scala> rdd2.collect
res1: Array[(String, Int)] = Array((A,2), (B,3), (C,1))

scala> rdd2.partitions.size
res2: Int = 48

scala> var rdd2 = rdd1.reduceByKey(new org.apache.spark.HashPartitioner(2),(x,y) => x + y)
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[2] at reduceByKey at <console>:29

scala> rdd2.collect
res3: Array[(String, Int)] = Array((B,3), (A,2), (C,1))

scala> rdd2.partitions.size
res4: Int = 2

时间： 2024-08-07 19:38:56

PairRDD中算子reduceByKey图解的相关文章

PairRDD中算子aggregateByKey图解

PairRDD 有几个比较麻烦的算子,常理解了后面又忘记了,自己按照自己的理解记录好,以备查阅 1.aggregateByKey aggregate 是聚合意思,直观理解就是按照Key进行聚合. 转化: RDD[(K,V)] ==> RDD[(K,U)] 可以看出是返回值的类型不需要和原来的RDD的Value类型一致的. 在聚合过程中提供一个中立的初始值. 原型: def aggregateByKey[U:ClassTag](zeroValue:U, partitioner:Parti

PairRDD中算子combineByKey图解

1.combineByKey combine 为结合意思. 作用: 将RDD[(K,V)] => RDD[(K,C)] 表示V的类型可以转成C两者可以不同类型. def combineByKey[C](createCombiner:V =>C ,mergeValue:(C,V) =>C, mergeCombiners:(C,C) =>C):RDD[(K,C)] def combineByKey[C](createCombiner:V =>C ,mergeValue:(C

PairRDD中算子foldByKey图解

foldByKey 函数原型: def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)] def foldByKey(zeroValue: V, numPartitions: Int)(func: (V, V) => V): RDD[(K, V)] def foldByKey(zeroValue: V, partitioner: Partitioner)(func: (V, V) => V): RDD[(K, V)] 作用:将

pairRDD中算子reduceByKeyLocally

原型: def reduceByKeyLocally(func: (V, V) => V): Map[K, V] 该函数将RDD[K,V]中每个K对应的V值根据映射函数来运算,运算结果映射到一个Map[K,V]中,而不是RDD[K,V] scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1))) rdd

【Spark篇】---SparkStreaming中算子中OutPutOperator类算子

一.前述 SparkStreaming中的算子分为两类,一类是Transformation类算子,一类是OutPutOperator类算子. Transformation类算子updateStateByKey,reduceByKeyAndWindow,transform OutPutOperator类算子print,foreachRDD,saveAsTextFile li { list-style: none; margin: 0 } p { margin: 0 } span.l { color

ES5和ES6中的继承图解

Javascript中的继承一直是个比较麻烦的问题,prototype.constructor.__proto__在构造函数,实例和原型之间有的复杂的关系,不仔细捋下很难记得牢固.ES6中又新增了class和extends,和ES5搅在一起,加上平时很少自己写继承,简直乱成一锅粥.不过还好,画个图一下就清晰了,下面不说话了,直接上图,上代码. ES5 ES5中的继承,看图: 1 function Super() {} 2 3 function Sub() {} 4 Sub.prototype

Elasticsearch 顶尖高手(8)—_shard&replica机制再次梳理以及单node环境中创建index图解

1.shard&replica机制再次梳理 index包含多个shard 每个shard都是一个最小工作单元,承载部分数据,lucene实例,完整的建立索引和处理请求的能力增减节点时,shard会自动在node中负载均衡 primary shard 和 replica shard ,每个document肯定只存在于某一个primary shard 以及其对应的replica shard中,不可能存在于多个Primary shard replica shard是primary shard的副本,

Spark常用的transformation算子

1.map 和 mapPartitions map的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区.区别于mapPartitions主要在于调用粒度不同.mapPartition可以倒过来理解,先partition,再把每个partition进行map函数, 适用场景: 如果在映射的过程中需要频繁创建额外的对象,使用mapPartitions要比map高效的多. val numbers: RDD[Int] = sc.parallelize(seqs,3) //ma

Spark中的键值对操作-scala

1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD. 2.创建Pair RDD 程序示例:对一个英语单词组成的文本行,提取其中的第一个单词作为key,将整个句子作为value,建立 PairR

猜你喜欢

Spring远程服务（RPC）

Spring支持几种不同的RPC模型,包括远程方法调用(RMI).Caucho的Hessian和Burlap和Spring自带的HTTP invoker.如下: 无论选择哪一种RPC模型,我们都会发现 ...

微信支付返回-1的问题和解决方法

今天为app新添加了一个微信支付功能,总是会返回-1,然后到处找问题,问朋友,最终解决了. 我的问题就是签名的问题: 我用的微信的签名工具,获取的签名,和可keystore的签名不一致,把微信的应用签 ...

如何通过PL/SQL远程连接虚拟机中的oracle11G

环境需求: 1. win8.1操作系统 2. 下载 instantclient_10_2 必须是32位的:http://www.oracle.com/technetwork/cn/topics/win ...

shell变量与字符串操作

默认情况下,Bash shell是一种无类型的脚步语言,除非用declare特别声明,否则它不会区分一个变量是整数变量.浮点数变量还是字符串变量.在Bash shell中所有的变量都被看成是字符串,使 ...

Python 给多个变量同时赋值

#给多个变量赋值data=['alex',84,[1900,3,38]]name,age,birth=dataprint(name)print(age)print(birth)#msg='hello' ...

SQL Join的一些总结

1.1.1 摘要 Join是关系型数据库系统的重要操作之一,SQL Server中包含的常用Join:内联接.外联接和交叉联接等.如果我们想在两个或以上的表获取其中从一个表中的行与另一个表中的行匹配的 ...

零散知识点总结

数据库: 1.概念设计阶段,最常用的数据模型是(E-R模型). 2.(事务)是DBMS的基本单位,它是构建单一逻辑工作单元的操作集合. 3.(模式)用来描述数据库全体数据的全局逻辑结构和特性. 4.要 ...

光电耦合器简单介绍以及作用

光电耦合器(简称光耦)全称为光电耦合器接口电路,是一种把发光元件和光敏元件封装在同一壳体内,中间通过电→光→电的转换来传输电信号的半导体光电子器件. 光电耦合器可根据不同要求,由不同种类的发光元件和 ...

contenteditable placeholder

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

非常特别的一个动态规划新手教程

今天在网上看到一个讲动态规划的文章,是以01背包为例的,这文章和书上的解说很不一样,令我眼前一亮,于是转载一下下--- (说明一下,本人很痛恨教材公式定理漫天飞,实际的解说却讲得很枯涩难懂,这样的中国 ...

Centos 7 安装设置 IP地址,DNS,主机名,防火墙,端口 (实测+笔记)

环境: 系统硬件:vmware vsphere (CPU:2*4核,内存2G,双网卡) 系统版本:CentOS-7.0-1406-x86_64-DVD.iso 安装步骤: 1.虚拟系统安装 1.1 使 ...

javascript 闭包理解例子

function Jquery(){ this.name = 'ysr'; this.sex = 'man'; return { x: this, age : 26 } } var b = new J ...

泛型算法（十九）之搜索算法

1.ForwardIterator adjacent_find(ForwardIterator first, ForwardIterator last):在序列中发现第一对相邻且值相等的元素. std ...

去除 MyEclipse updating index

http://zhidao.baidu.com/link?url=OfHjTTxnNRoijnsaweBl3K3UTlnlFGdtHEQIvEWZEnpg7-Jbi1B1YhlUMtuv4bTYRiE ...

vuejs14表达式2

<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta http ...

进程创建fork函数的调试[1]

1 #include<stdio.h> 2 #include<sys/types.h> 3 #include<unistd.h> 4 #include<std ...

关于验证码登录

在爬取某些网站,有些需要登录才能获取访问权限.如果仅仅只是需要登录,这里可以推荐大家一个工具,很好用的在火狐浏览其中有个插件firebug(需要安装),通过这个插件可以详细的查看网站的访问过程(链接 ...

vector与list区别

vector为存储的对象分配一块连续的地址空间,因此对vector中的元素随机访问效率很高.在vecotor中插入或者删除某个元素,需要将现有元素进行复制,移动.如果vector中存储的对象很大,或者 ...

c# 奖金计算

/* 输入利润I,输出奖金(if和switch都写了一个) 奖金计算:超过1000000的部分提1%;超过600000不足1000000的部分提1.5%:超过400000不足600000的部分提3%: ...

#数论-模运算#POJ 1150、1284、2115

1.POJ 1150 The Last Non-zero Digit #质因数分解+模运算分治# 先贴两份题解: http://www.hankcs.com/program/algorithm/poj ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.