spark中的RDD以及DAG

今天,我们就先聊一下spark中的DAG以及RDD的相关的内容

  1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行

  

  2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候,

  也就是数据有网络的传递的时候),则一个wordCount有两个stage,

  一个是reduceByKey之前的,一个事reduceByKey之后的(图1),

  则我们可以这样的理解,当我们要进行提交上游的数据的时候,

  此时我们可以认为提交的stage,但是严格意义上来讲,我们提交的是Task

  sets(Task的集合),这些Task可能业务逻辑相同,就是处理的数据不同

  3.流程

  构建RDD形成DAG遇到Action的时候,前面的stage先提交,提交完成之后再交给

  下游的数据,在遇到TaskScheduler,这个时候当我们遇到Action的方法的时候,我们

  就会让Master决定让哪些Worker来执行这个调度,但是到了最后我们真正的传递的

  时候,我们用的是Driver给Worker传递数据(其实是传递到Excutor里面,这个里面执行

  真正的业务逻辑),Worker中的Excutor只要启动,则此后就和Master没有多大关系了

  4.宽窄依赖

  RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)以及

  宽依赖(wide dependency).

  

    窄分区的划分依据,如果后面的一个RDD,前面的一个RDD有一个唯一对应的RDD,

    则此时就是窄依赖,就相当于一次函数,y对应于一个x,而宽依赖则是类似于,前面的

    一个RDD,则此时一个RDD对应多个RDD,就相当于二次函数,一个y对应多个x的值

    5.DAG的生成

    DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就形成

    DAG,根据RDD的之间的依赖关系的不同将DAG划分为不同的stage,对于窄依赖,

    partition的转换处理在stage中完成计算,对于宽依赖,由于有shuffle的存在,只能在

    partentRDD处理完成后,才能开始接下来的计算,因此宽依赖是划分stage的依据

    一般我们认为join是宽依赖,但是对于已经分好区的join来说,我们此时可以认为这个

    时候的join是窄依赖

时间: 2024-10-20 20:36:26

spark中的RDD以及DAG的相关文章

spark 中的RDD编程 -以下基于Java api

1.RDD介绍:     RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化. Spark中的RDD就是一个不可变的分布式对象集合.每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上.RDD可以包含Python,Java,Scala中任意类型的对象,甚至可以包含用户自定义的对象. 用户可以使用两种方法创建RDD:读取一个

Spark中的RDD和DataFrame

什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格. RDD和DataFrame的区别 DataFrame与RDD的主要区别在于,DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型.使得Spark SQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标. RDD,

Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系

MapReduce过程.Spark和Hadoop以Shuffle为中心的对比分析 mapreduce与Spark的map-Shuffle-reduce过程 mapreduce过程解析(mapreduce采用的是sort-based shuffle) 将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行处理. map函数处理完成之后,进入collect阶段,对处理后的k/v对进行收集,存储在内存的环形缓冲区中. 当环形缓冲区中的数据达到阀值之后(也可能一直没有达到阀值

spark中的scalaAPI之RDDAPI常用操作

package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkContext} //spark中的RDD测试 object RddTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName(&q

Hadoop与 Spark中的Shuffle之区别与联系

Hadoop与 Spark中的Shuffle之区别与联系 2018年08月22日 20:24:46 小爷欣欣 阅读数:175 转自:http://mini.eastday.com/mobile/180114141035935.html mapreduce过程解析(mapreduce采用的是sort-based shuffle),将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行处理.map函数处理完成之后,进入collect阶段,对处理后的k/v对进行收集,存储在

Spark中RDD的常用操作(Python)

弹性分布式数据集(RDD) Spark是以RDD概念为中心运行的.RDD是一个容错的.可以被并行操作的元素集合.创建一个RDD有两个方法:在你的驱动程序中并行化一个已经存在的集合:从外部存储系统中引用一个数据集.RDD的一大特性是分布式存储,分布式存储在最大的好处是可以让数据在不同工作节点并行存储,以便在需要数据时并行运算.弹性指其在节点存储时,既可以使用内存,也可已使用外存,为使用者进行大数据处理提供方便.除此之外,RDD的另一大特性是延迟计算,即一个完整的RDD运行任务被分为两部分:Tran

Spark(Python) 从内存中建立 RDD 的例子

Spark(Python) 从内存中建立 RDD 的例子: myData = ["Alice","Carlos","Frank","Barbara"]myRdd = sc.parallelize(myData)myRdd.take(2) ----In [52]: myData = ["Alice","Carlos","Frank","Barbara"

Tachyon在Spark中的作用(Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译)

摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享.当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者是磁盘进行复制操作.Tachyon通过将"血统"技术引入到存储层进而消除了这个瓶颈.创建一个长期的以"血统机制"为基础的存储系统的关键挑战是失败情况发生的时候及时地进行数据恢复.Tachyon通过引入一种检查点的算法来解决问题,这样的方法保证了恢复过程的有限开销以及通过资源调度器下进行

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler. TaskScheduler:主要负责各stage中传入的task的执行与调度. DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行. 实例生成 TaskScheduler实例生成: scheduler实例生成,我目前主要是针对onyarn的spark进行的相关分析, 在appm