自己编写的spark代码执行流程

我们自己编写了spark代码后;放到集群中一执行，就会出现问题，没有序列化、指定的配置文件不存在、classnotfound等等。这其实很多时候就是因为我们对自己编写的spark代码执行流程的不熟悉导致的，源码阅读可以解决，但源码不是每个人都能看懂或能看进去的，下面我们就来讲一下，我们自己写的spark代码究竟是这么执行的。从执行的过程可分为三个部分来分析main方法，RDD处理方法，DStream处理方法，从执行的JVM虚拟机可以分为两个部分driver端，worker端

一、main方法

main方法就是在driver端执行的，当然这里是把RDD计算的Action剔除的情况，先看一段代码

1、driver端

除了rdd计算action中的代码其他都是在driver端执行，并且只执行一次

2、worker端

DSUtil.dSopt()这里的带就是处理DSTream的，其中有一部分代码是driver一部分是Worker的，这里姑且认为是在worker端

二、DStream处理方法

在sparkStreaming中spark引入了DStream，实际上就是RDD的map集合（不是很精确），在处理的时候代码是：

1、driver端

除了Dstram计算action中的代码其他都是在driver端并且只执行一次，

这里需要注意的是DStream的action方法（闭包）中的代码也不是全在worker端执行，只有在处理rdd时才会在Worker端执行，其他是在driver端执行的

与DStream的action方法外的代码区别是，这里是计算一次执行一次。

2、worker端

rdd的Action操作（闭包）中的代码都是在Worker端执行的

三、RDD处理方法

最后我们来看看RDD算子闭包在执行时代码如何执行

1、driver端

挡在调用count方法处理rdd时，与rdd算子无关的代码都是计算一次执行一次

2、worker端

rdd的算子闭包是在driver端中执行的

时间： 2024-08-04 03:18:04

自己编写的spark代码执行流程的相关文章

debian内核代码执行流程（一）

本文根据debian开机信息来查看内核源代码. 系统使用<debian下配置dynamic printk以及重新编译内核>中内核源码来查看执行流程. 使用dmesg命令,得到下面的开机信息: [ 0.000000] Initializing cgroup subsys cpuset [ 0.000000] Initializing cgroup subsys cpu [ 0.000000] Linux version 3.2.57 ([email protected]) (gcc versio

第一章 Java代码执行流程

说明:本文主要参考自<分布式Java应用:基础与实践> 1.Java代码执行流程第一步:*.java-->*.class(编译期) 第二步:从*.class文件将其中的内容加载到内存(类加载)(运行期) 第三步:执行代码(运行期) 2.代码编译 javac命令将源码文件编译为*.class文件. 后边将介绍: javac将*.java编译成*.class文件的过程 class文件的文件格式,以及其存储的内容 3.类加载主要是指将*.class文件加载到JVM,并形成Class对象的机

debian内核代码执行流程(三）

接续<debian内核代码执行流程(二)>未完成部分下面这行输出信息是启动udevd进程产生的输出信息: [ 3.306217] udevd[49]: starting version 175 175是udevd的版本号. 根据<essential linux device drivers>中关于udev的说明(英文书140页),设备可以分成热插拔和冷插拔. 热插拔是在已经运行的系统中连接的设备,冷插拔是系统启动前插入的设备. 当系统检测到热插拔设备时,系统使用netlink s

debian内核代码执行流程（二）

继续上一篇文章<debian内核代码执行流程(一)>未完成部分. acpi_bus_init调用acpi_initialize_objects,经过一系列复杂调用后输出下面信息: [ 0.147393] ACPI: SSDT 7f5e7cc0 0030F (v01 PmRef Cpu0Ist 00003000 INTL 20060912) [ 0.147566] ACPI: Dynamic OEM Table Load: [ 0.147569] ACPI: SSDT (null) 0030F

Spark Streaming 执行流程

Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流. 本节描述了Spark Streaming作业的执行流程. 图1 Spark Streaming作业的执行流程具体流程: 客户端提交作业后启动Driver,Driver是park作业的Master. 每个作业包含多个Executor,每个Executor以线程的方式运行task,Spark Streaming至少包含一个recei

Java中异常发生时代码执行流程

异常与错误: 异常: 在Java中程序的错误主要是语法错误和语义错误,一个程序在编译和运行时出现的错误我们统一称之为异常,它是VM(虚拟机)通知你的一种方式,通过这种方式,VM让你知道,你(开发人员)已经犯了个错误,现在有一个机会来修改它.Java中使用异常类来表示异常,不同的异常类代表了不同的异常.但是在Java中所有的异常都有一个基类,叫做Exception. 错误: 它指的是一个合理的应用程序不能截获的严重的问题.大多数都是反常的情况.错误是VM的一个故障(虽然它可以是任何系统级的服务).

Spark内部执行机制

Spark内部执行机制 1.1 内部执行流程如下图1为分布式集群上spark应用程序的一般执行框架.主要由sparkcontext(spark上下文).cluster manager(资源管理器)和?executor(单个节点的执行进程).其中cluster manager负责整个集群的统一资源管理.executor是应用执行的主要进程,内部含有多个task线程以及内存空间. 图1 spark分布式部署图详细流程图如下图2: 图2 详细流程图 (1) 应用程序在使用spark-submit提

【转】Spark架构与作业执行流程简介

原文链接 http://www.cnblogs.com/shenh062326/p/3658543.html Spark架构与作业执行流程简介 Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式). 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local 基于standalone的Spark架构与作业执行流程 Standalone模式下,集群启动时包括Master与Worker,其中Master负

Spark执行流程（转）

原文地址:http://blog.jobbole.com/102645/ 我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程.根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动.Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core.而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Standalone集群,也可以是其他的资源管

猜你喜欢

关于group by 两个或以上条件的分析

首先group by 的简单说明: group by 一般和聚合函数一起使用才有意义,比如 count sum avg等,使用group by的两个要素: (1) 出现在select后面的字段要 ...

巧妙解决百度云管家下载速度慢

经常从百度云盘下载东西的用户都知道,使用百度云盘下载文件超过2GB的就要必须要用百度云管家来下载了,更坑爹的是本来下载速度非常快的东西,用百度云管家下载速度就会变得比较慢,据说是百度云管家限速了,如遇 ...

Ubuntu ssh 登陆问题

报错信息:password authentication failed Permission denied, please try again 1 开启ubuntu上的ssh功能先安装,安装后就 ...

Java数据库连接——jdbc-odbc桥连接方式

jdbc-odbc桥连接方式操作数据库SU(Course) 步骤: 1.配置数据源控制面板下搜索管理工具->ODBC数据源(32位)->添加->选择sql server(填写名称m ...

1.js盒子模型指的是通过js中提供的一系列的属性和方法,获取页面中元素的样式信息值例: #box有很多自己的私有属性: HTMLDivElement.prototype->HTMLElem ...

word20161204

CA, certification authority / 证书颁发机构 cache / 高速缓存 cache file / 缓存文件 caching / 缓存 caching resolver / ...

[转]Struts1.x系列教程（1）：用MyEclipse开发第一个Struts程序

转载地址:http://www.blogjava.net/nokiaguy/archive/2009/01/13/251101.html 本系列教程将详细介绍Struts 1.x的基本原理和使用方法, ...

一元夺宝男性占比达97%！3%女性玩什么

2015年风生水起之后,一元夺宝火爆程度不敢想象,那么多人因此倾家荡产血本无归,也有极个别人通过平台获利,赚个盆满钵满让人羡慕不已. 暂且不谈一元夺宝的合理性,也不谈如何提高一元夺宝中奖概率和技巧攻略 ...

基础知识回顾第三篇数据库访问

前言:本篇主要针对数据库的操作,在这里不适用hibernate或者mybatis,用最原始的JDBC进行讲解,通过了解这些原理以后更容易理解和学习hibernate或mybatis. 1:jdbc的简 ...

Codeforces 687C The Values You Can Make（DP）

题目大概说给n个各有价值的硬币,要从它们中选出若干个组合成面值k,而要求的是各个方案里这些选出的硬币能组合出来的面值有哪些. 有点绕.. dp[i][j][k]表示前i个硬币中能否组合成面值j且选 ...

李洪强九宫格的实现

这就是我要是实现的效果 // // LHQOilSeriesViewCtrl.m // B01 - 首页 // 油品系列控制器 // Created by vic fan on 16/6/30 ...

实验三——for语句及分支结构else-if

1.本节课学习到的知识点: (1)for语句是循环语句,它可以实现c语句的重复执行 (2)for语句中的3个表达式的执行顺序和书写顺序不同 (3)遇到复合语句时要用大括号将几句话括起来,复合语句在语法 ...

NodeJS几个值得学习的开源框架

1.Primus Primus,是Transformer的创造者,并且也被称为通用包装器实时框架.Primus里包含了大量的用于Node.js的实时框架,并且它们都拥有各种不同的实时功能.此外,Pr ...

RxJava 和 RxAndroid 四（RxBinding的使用）

对Rxjava不熟悉的同学可以先看我之前写的几篇文章 RxJava 和 RxAndroid 一 (基础) RxJava 和 RxAndroid 二(操作符的使用) RxJava 和 RxAndroid ...

使用logrotate管理nginx日志文件

本文转载自:http://linux008.blog.51cto.com/2837805/555829 描述:linux日志文件如果不定期清理,会填满整个磁盘.这样会很危险,因此日志管理是系统管理员日 ...

Cannot open URL…

启动intellij时出现cannot open URl,原来是过滤器写错,把所有地址都拦截了..

extundelete数据恢复实战！！！

项目背景: 你误删掉了公司重要的数据,老板说:你妹的!快点给我找回来还补充了一句:我没钱!!! 试验环境: vmware workstation 11 服务器:centos6.5 ip:192. ...

LTE的GAA架构，LTE如何使用TLS

TR133919中给出GAA的架构其中,GBA包括HTTP Digest, Pre-Shared Key TLS, IKE with pre-shared secret and a priori a ...

Art下DexClassLoader将dex转化为oat文件格式的过程

经过看源码DexClassLoader最终会调用DexFile类中的native函数openDexFileNative. 下面来看看openDexFileNative函数做了什么. openDexFi ...

shell脚本，awk取中间列的方法。

解释 1.$(int(NF/2)+1) 中int(NF/2)等于3,然后加1,就得到中间的4了. 2.$(NF/2+0.5) 相当于得出的是整数.NF/2是3.5,再由3.5+0.5,所以就是4了,也 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.