常用RDD

只作为我个人笔记，没有过多解释

Transfor

map

filter　　filter之后，依然有三个分区，第二个分区为空，但不会消失

flatMap

reduceByKey

groupByKey()

sortByKey()

val pets = sc.parallelize(
    List((“cat”, 1), (“dog”, 1), (“cat”, 2))
)
pets.reduceByKey(_ + _) // => {(cat, 3), (dog, 1)}
pets.groupByKey() // => {(cat, Seq(1, 2)), (dog, Seq(1)}
pets.sortByKey() // => {(cat, 1), (cat, 2), (dog, 1)}

mapValues(_ + 1)　　mapvalues是忽略掉key，只把value进行操作

join　　RDD[(String, Int)].join（RDD[(String, Long)]） => RDD[(String, (Int, Long))]

　　　　join这两个rdd的value类型可以不一样，至于分区是根据hash来指定的

union

cogroup

用 cogroup 实现 join

sample()　　从数据集中采样

cartesian()　　求笛卡尔积

pipe()　　传入一个外部程序

Action

collect()

take(2)

count()

reduce

foreach(println)

时间： 2024-12-18 01:52:02

常用RDD的相关文章

08、Spark常用RDD变换

08.Spark常用RDD变换 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理.同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait中,KV类的RDD可以被隐式转换成PairRDDFunctions类型.其中很多的操作,和传统的SQL语句中的操作是对应的,只是底层换成Spark的MR计算. 8.2 常用变换操作解释 map 变换,将输入的每个元素进行响应操作,生成新的元素 flatMap 压扁,取出具有可迭代性质的组件中每个

04、常用RDD操作整理

常用transformation 注:某些函数只有PairRDD只有,而普通的RDD则没有,比如gropuByKey.reduceByKey.sortByKey.join.cogroup等函数要根据Key进行分组或直接操作 RDD[U] map(f: T => U) T:原RDD中元素类型 U:新RDD中元素类型函数将T元素转换为新的U元素 rdd.map(x => x + 1) {1, 2, 3, 3} =>{2, 3, 4, 4} RDD[(K, U)] mapValues[U](

04、常用RDD操作

函数名目的示例结果 RDD[U] map(f: T => U) T:初始元素类型 U:转换后元素类型将函数应用于 RDD 中的每个元素,将返回值构成新的 RDD rdd.map(x => x + 1) 测试数据:{1, 2, 3, 3} 输出结果:{2, 3, 4, 4} RDD[U] flatMap(f: T => TraversableOnce[U]) TraversableOnce:特质,具有集合与迭代器特性将函数应用于 RDD 中的每个元素,将返回的迭代器的所有内容构成

课程路线

---恢复内容开始--- 云计算&大数据实战课程列表 first.课程说明: 本系列课程适合有一点编程基础的人员学习(比如java,python,c/c++),最好是java编程人员,特别是从事过j2ee开发的人员.学习完本套课程,可以帮助你成为大型项目架构师,特别是数据量大,并发量高的大型项目架构师,当然也能很大程度上提高你的薪资待遇. second.课程路线 third.Linux大纲这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,NoSQL,Oracl

大数据学习之路

http://www.chinahadoop.cn/page/developer 什么是大数据开发师? 围绕大数据系平台系统级的研发人员, 熟练Hadoop.Spark.Storm等主流大数据平台的核心框架.深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase.Hive.Pig等重要组件,能够实现对平台监控.辅助运维系统的开发. 通过学习一系列面向开发者的Hadoop.Sp

大数据，云计算核心体系

第一阶段:linux+搜索+hadoop体系 Linux大纲这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程.因为企业中无一例外的是使用Linux来搭建或部署项目. 1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程.CentOS虚拟机安装过程 2) 了解机架服务器,采用真实机架服务器部署linux 3) Li

老男孩教育大数据课程体系2折起超值优惠开班

老男孩教育大数据课程体系2折起超值优惠开班大数据与云计算的未来发展趋势和前景已经极其广阔,未来的互联网就是大数据和云计算的天下,大数据和云计算将成为每一个IT人员必须会的技术了.老男孩教育也顺势而为重金聘请一流核心骨干讲师,打造互联网大数据课程,绝对让同学们心悦诚服,绝对物超所值,让同学在技术道路上捷足先登,做IT技术达人,成为人生赢家.必须要要学大数据的里有见本文结尾. 虽然价格极低,但课程含金量坚决不低于18000的价值! 一.开课信息 1.开课时间:2016年2月23日(如果满30人,1

Spark 1.X 大数据视频教程

课程下载地址:链接:http://pan.baidu.com/s/1kTggcb9密码: 9mfn 网盘失效的话,请加QQ:3113533060 课程内容: 第一周 Spark生态系统概述与编程模型 Spark生态系统概述回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介缓存策略介绍 transformation action lineage 容错处理宽依赖与窄依赖集群配置第二周深入Spark内核 Spark术语解释集群概览核心组件数据本

大数据云计算学习内容

Linux大纲 1.Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程.CentOS虚拟机安装过程 2.了解机架服务器,采用真实机架服务器部署linux 3.Linux的常用命令:常用命令的介绍.常用命令的使用和练习 4.Linux系统进程管理基本原理及相关管理工具如ps.pkill.top.htop等的使用: 5.Linux启动流程,运行级别详解,chkconfig详解 6.VI.VIM编辑器:VI.VIM编辑器的介绍.VI.VIM扥使用和常用快捷键 7.