常用RDD

只作为我个人笔记,没有过多解释

Transfor

map

filter  filter之后,依然有三个分区,第二个分区为空,但不会消失

flatMap

reduceByKey

groupByKey()

sortByKey()

val pets = sc.parallelize(
    List((“cat”, 1), (“dog”, 1), (“cat”, 2))
)
pets.reduceByKey(_ + _) // => {(cat, 3), (dog, 1)}
pets.groupByKey() // => {(cat, Seq(1, 2)), (dog, Seq(1)}
pets.sortByKey() // => {(cat, 1), (cat, 2), (dog, 1)}

mapValues(_ + 1)  mapvalues是忽略掉key,只把value进行操作

join  RDD[(String, Int)].join(RDD[(String, Long)])   =>  RDD[(String, (Int, Long))]

    join这两个rdd的value类型可以不一样,至于分区是根据hash来指定的

union

cogroup

用 cogroup 实现 join

sample()  从数据集中采样

cartesian()  求笛卡尔积

pipe()  传入一个外部程序

Action

collect()

take(2)

count()

reduce

foreach(println)

时间: 2024-12-18 01:52:02

常用RDD的相关文章

08、Spark常用RDD变换

08.Spark常用RDD变换 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理.同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait中,KV类的RDD可以被隐式转换成PairRDDFunctions类型.其中很多的操作,和传统的SQL语句中的操作是对应的,只是底层换成Spark的MR计算. 8.2 常用变换 操作 解释 map 变换,将输入的每个元素进行响应操作,生成新的元素 flatMap 压扁,取出具有可迭代性质的组件中每个

04、常用RDD操作整理

常用transformation 注:某些函数只有PairRDD只有,而普通的RDD则没有,比如gropuByKey.reduceByKey.sortByKey.join.cogroup等函数要根据Key进行分组或直接操作 RDD[U] map(f: T => U) T:原RDD中元素类型 U:新RDD中元素类型 函数将T元素转换为新的U元素 rdd.map(x => x + 1) {1, 2, 3, 3} =>{2, 3, 4, 4} RDD[(K, U)] mapValues[U](

04、常用RDD操作

函数名 目的 示例 结果 RDD[U] map(f: T => U) T:初始元素类型 U:转换后元素类型 将函数应用于 RDD 中的每个元素,将返回值构成新的 RDD rdd.map(x => x + 1) 测试数据:{1, 2, 3, 3} 输出结果:{2, 3, 4, 4} RDD[U] flatMap(f: T => TraversableOnce[U]) TraversableOnce:特质,具有集合与迭代器特性 将函数应用于 RDD 中的每个元素,将返回的迭代器的所有内容构成

课程路线

---恢复内容开始--- 云计算&大数据实战课程列表 first.课程说明: 本系列课程适合有一点编程基础的人员学习(比如java,python,c/c++),最好是java编程人员,特别是从事过j2ee开发的人员.学习完本套课程,可以帮助你成为大型项目架构师,特别是数据量大,并发量高的大型项目架构师,当然也能很大程度上提高你的薪资待遇. second.课程路线 third.Linux大纲 这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,NoSQL,Oracl

大数据学习之路

http://www.chinahadoop.cn/page/developer 什么是大数据开发师? 围绕大数据系平台系统级的研发人员, 熟练Hadoop.Spark.Storm等主流大数据平台的核心框架.深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase.Hive.Pig等重要组件,能够实现对平台监控.辅助运维系统的开发. 通过学习一系列面向开发者的Hadoop.Sp

大数据,云计算 核心体系

第一阶段:linux+搜索+hadoop体系 Linux大纲     这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程.因为企业中无一例外的是使用Linux来搭建或部署项目. 1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程.CentOS虚拟机安装过程 2) 了解机架服务器,采用真实机架服务器部署linux 3) Li

老男孩教育大数据课程体系2折起超值优惠开班

老男孩教育大数据课程体系2折起超值优惠开班 大数据与云计算的未来发展趋势和前景已经极其广阔,未来的互联网就是大数据和云计算的天下,大数据和云计算将成为每一个IT人员必须会的技术了.老男孩教育也顺势而为重金聘请一流核心骨干讲师,打造互联网大数据课程,绝对让同学们心悦诚服,绝对物超所值,让同学在技术道路上捷足先登,做IT技术达人,成为人生赢家.必须要要学大数据的里有见本文结尾. 虽然价格极低,但课程含金量坚决不低于18000的价值! 一.开课信息 1.开课时间:2016年2月23日(如果满30人,1

Spark 1.X 大数据视频教程

课程下载地址:链接:http://pan.baidu.com/s/1kTggcb9密码: 9mfn 网盘失效的话,请加QQ:3113533060 课程内容: 第一周 Spark生态系统概述与编程模型 Spark生态系统概述 回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介 缓存策略介绍 transformation action lineage 容错处理 宽依赖与窄依赖 集群配置 第二周 深入Spark内核 Spark术语解释 集群概览 核心组件 数据本

大数据云计算学习内容

Linux大纲 1.Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程.CentOS虚拟机安装过程 2.了解机架服务器,采用真实机架服务器部署linux 3.Linux的常用命令:常用命令的介绍.常用命令的使用和练习 4.Linux系统进程管理基本原理及相关管理工具如ps.pkill.top.htop等的使用: 5.Linux启动流程,运行级别详解,chkconfig详解 6.VI.VIM编辑器:VI.VIM编辑器的介绍.VI.VIM扥使用和常用快捷键 7.