Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD

一、   基本概念

  1. RDD(resilient distributed datasets)弹性分布式数据集。

来自于两方面

①   内存集合和外部存储系统

②   通过转换来自于其他RDD,如map,filter等

2.创建操作(creation operation):RDD的创建由SparkContext来负责。

3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD。

4.控制操作(control operation):对RDD进行持久化等。

5.行动操作(action operation):Spark为惰性计算,对RDD的行动操作都会触发Spark作业的运行。

基本分为两类

①   使操作结果变为Scala变量或者标量。

②   将RDD保存到外部文件或者数据库系统中。

6.RDD分区(partitions)

分区多少关系到对这个RDD进行并行计算的粒度,每一个RDD分区的计算操作都在一个单独的任务中被执行

7.RDD优先位置(preferredLocations)

是RDD中每个分区所存储的位置

8.RDD依赖关系(dependencies)

窄依赖:每一个父RDD的分区最多只被子RDD的一个分区使用

宽依赖:多个子RDD的分区会依赖同一个父RDD的分区

9.RDD分区计算(compute)

Spark中每个RDD的计算都是以分区为单位的,而且RDD中的compute函数都是在对迭代器进行复合,只返回相应分区数据的迭代器。

10.RDD分区函数(partitioner)

两类分区函数:HashPartitioner和RangPartitioner。

二、   创建操作

  1. 集合创建操作:makeRDD可以指定每个分区perferredLocations参数parallelize则没有
  2. 存储创建操作:Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。
  3. 基本转换操作

三、   转换操作

map:将RDD中T类型一对一转换为U

distinct:返回RDD不重复元素

flatMap:将元素一对多转换

reparation、coalesce:对RDD分区重新划分,reparation只是coalesce接口中shuffle为true的简易实现

randomSplit:将RDD切分

glom:将类型为T的元素转换为Array[T]

union等等

  1. 键值RDD转换操作

partitionBy、mapValues、flatMapValues等

  1. RDD依赖关系,Spark生成的RDD对象一般多于用户书写的Spark应用程序中包含的RDD,因为RDD在转换操作过程中产生临时的RDD

四、   控制操作

cache():

persist():保留着RDD的依赖关系

checkpoint(level:StorageLevel):RDD[T]切断RDD依赖关系

五、   行动操作

  1. 集合标量行动操作

first:返回RDD第一个元素

count:返回RDD中元素个数

reduce:对RDD的元素进行二元计算

aggregate:聚合函数

fold:是aggregate的便利借口

  1. 存储行动操作

saveAsHadoopFile

saveAsHadoopDataset等

时间: 2024-08-02 02:49:22

Spark学习笔记之SparkRDD的相关文章

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面

Spark学习笔记——读写Hbase

1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记--基本CRUD操作 2.

Spark学习笔记总结-入门资料精化

Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面,正日益壮大.大型公

Spark学习笔记

Spark 阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode 重要的概念:resilient distributed dataset (RDD), a collection of elements partitioned across the nodes of the cluste

Spark学习笔记0

自学Spark已经有一段时间,之前遇到了很多阻力,从Scala语法,基本概念,源码编译,环境部署,开发环境只能自己慢慢尝试,几乎是一步一个跟头.当还在痛苦的读着源码时候,发现spark的版本还在不断的升级,新的东西越来越多,让人应接不暇.偶然间发现51CTO的相关资源,希望共享给同时Spark的学习者们,避免他们再走我走过的弯路.也希望开始将自己学习Spark的过程记录下来. 王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员! 您可以通过王家林老师的微信号1861008685

Spark学习笔记总结-超级经典总结

Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面,正日益壮大.大型公

Spark学习笔记1:Application,Driver,Job,Task,Stage理解

看了spark的原始论文和相关资料,对spark中的一些经常用到的术语学习了一下,记录下. 1,Application application(应用)其实就是用spark-submit提交到spark的程序.比方说spark examples中的计算pi的SparkPi.一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储(比方说collect收集输出到cons

Spark学习笔记—01 Spark集群的安装

一.概述 关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上.Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流. 2.易用 Spark支持Java.Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Sp

Spark学习笔记——手写数字识别

import org.apache.spark.ml.classification.RandomForestClassifier import org.apache.spark.ml.regression.RandomForestRegressor import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, NaiveBayes, SVMWithSGD} import org.apache.spark.ml