Spark学习笔记——在集群上运行Spark

Spark运行的时候，采用的是主从结构，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（ Driver）节点。与之对应的工作节点被称为执行器（ executor）节点。

所有的 Spark 程序都遵循同样的结构：程序从输入数据创建一系列 RDD，再使用转化操作派生出新的 RDD，最后使用行动操作收集或存储结果 RDD 中的数据。

驱动器程序在 Spark 应用中有下述两个职责：1.把用户程序转为任务 2.为执行器节点调度任务

执行器进程有两大作用：第一，它们负责运行组成 Spark 应用的任务，并将结果返回给驱动器进程；第二，它们通过自身的块管理器（Block Manager）为用户程序中要求缓存的 RDD 提供内存式存储。

时间： 2024-10-10 05:11:41

Spark学习笔记——在集群上运行Spark的相关文章

在集群上运行Spark应用的详细过程

在集群上运行Spark应用的详细过程: (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管理器通信,申请资源以启动执行器节点 (4)集群管理器为驱动器程序启动执行器节点 (5)驱动器进程执行用户应用中的操作.根据程序中所定义的对RDD的转换操作和行动操作,驱动器节点把动作以任务的形式发送到执行器进程 (6)任务在执行器程序中进行计算并保存结果 (7)如果驱动器程序的main()方法退出,或

（7）在集群上运行Spark

7.2 Spark运行时架构 Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点.驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行. 7.2.1 驱动器节点 Spark驱动器节点是执行你的程序中main方法的进程.其实,当你启动Spark Shell时,你就启动了一个Spark驱动器程序,驱动器程序一旦终止,Spark应用也就结束了.驱动器程序在

将java开发的wordcount程序部署到spark集群上运行

1 package cn.spark.study.core; 2 3 import java.util.Arrays; 4 5 import org.apache.spark.SparkConf; 6 import org.apache.spark.api.java.JavaPairRDD; 7 import org.apache.spark.api.java.JavaRDD; 8 import org.apache.spark.api.java.JavaSparkContext; 9 impo

将java开发的wordcount程序提交到spark集群上运行

今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /spark.txt,即可. 第一:看整个代码视图打开WordCountCluster.java源文件,修改此处代码: 第二步: 打好jar包,步骤是右击项目文件----RunAs--Run Configurations 照图填写,然后开始拷贝工程下的jar包,如图,注意是拷贝那个依赖jar包,不是第

06、部署Spark程序到集群上运行

06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改代码中文件加载路径为hdfs路径: ... //指定hdfs路径 sc.textFile("hdfs://mycluster/user/centos/1.txt") ... ? 修改master地址 SparkConf中需要指定master地址,如果是集群上运行,也可以不指定,运行时可以通

storm学习之-在生产集群上运行topology

https://storm.apache.org/documentation/Setting-up-a-Storm-cluster.html -官方文档 http://xumingming.sinaapp.com/185/twitter-storm-在生产集群上运行topology/ --徐明明 http://blog.cheyo.net/84.html --运行一个

用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控

写在前面前文:用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题. 为了更好地模拟集群环境,我们可以在mapred-site.xml中增设reducer和mapper的最大数目(默认为2,实际可用数目大约是CPU核数-1). 假设你为Hadoop安装路径添加的环境变量叫$HADOOP_HOME(如果是$HAD

【转】Twitter Storm: 在生产集群上运行topology

Twitter Storm: 在生产集群上运行topology 发表于 2011 年 10 月 07 日由 xumingming 作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/185/twitter-storm-在生产集群上运行topology/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Running-topologi

在集群上运行caffe程序时如何避免Out of Memory

不少同学抱怨,在集群的GPU节点上运行caffe程序时,经常出现"Out of Memory"的情况.实际上,如果我们在提交caffe程序到某个GPU节点的同时,指定该节点某个比较空闲的gpu id,便可以避免"Out of Memory"的情况.步骤如下: 1. 在提交任务前,制作一个带有“nvidia-smi”命令的run_gpu.sh文件 #!/bin/bash #$ -V #$ -cwd #$ -j y #$ -S /bin/bash nvidia-smi

猜你喜欢

如何在Eclipse下，实现ant的web项目修改保存后，实时部署，直接刷新即可看到结果

最近碰到了一个老项目,是ant的web项目,把项目导入到Eclipse以后,发现修改了文件之后,要先执行build.xml,再把打包好的war丢到Tomcat下,再刷新才能看到效果.由于以前没用过an ...

Json to JObject转换的使用方法

Linq to JSON是用来操作JSON对象的.可以用于快速查询,修改和创建JSON对象.当JSON对象内容比较复杂,而我们仅仅需要其中的一小部分数据时,可以考虑使用Linq to JSON来读取和 ...

Matlab绘图详解

Matlab绘图强大的绘图功能是Matlab的特点之一,Matlab提供了一系列的绘图函数,用户不需要过多的考虑绘图的细节,只需要给出一些基本参数就能得到所需图形,这类函数称为高层绘图函数.此外,M ...

442C

贪心感觉思路很奥妙首先我们把那些比两边小的数删掉,因为不删的话两边的数就会选这个数,这样就成了先上升后下降的序列,很明显除了第一第二大的数都能选,然后统计就好了. #include<bits ...

传说中的数据结构

传说中的数据结构 Time Limit: 1000ms Memory limit: 65536K 有疑问?点这里^_^ 题目描述在大学里学习了一个学期了,大家大都对所学的专业有了基本的了解.许 ...

一些表达式

/[\u4e00-\u9fa5]|([A-Z]|[a-z]|\d){3,14}/g;/\S{6,12}/g;/\[email protected]\w+(\.[a-zA-Z]{2,3}){1,2}/g ...

造成win2008 500内部错误不能显示详细错误的原因和解决方法

造成500错误常见原因有:ASP语法出错.ACCESS数据库连接语句出错.文件引用与包含路径出错.使用了服务器不支持的组件如FSO等. 另外,对于win2008的IIS默认不显示详细出错信息的问题以下 ...

Unity3D对Component组件的管理机制

孙广东 2015.5.16 我们都知道Unity管理GameObject是采用树形结构就是在Hierarchy面板中的结构.但是具体是怎么管理组件的呢? 同事的测试发现了这个现象: 测试如下:在U5中 ...

多少夫妻一辈子都在做对方的差评师？

http://mp.weixin.qq.com/s?__biz=MzA5NzMzMzQ4MQ==&mid=222176108&idx=2&sn=295ef0a4c1441812 ...

【数字图像处理之（二）】图像的分类

在计算机中,按照颜色和灰度的多少可以将图像分为灰度图像.二值图像.索引图像和RGB图像四种基本类型.在计算机中,通常是以数组(或矩阵)的形式储存图像的. 灰度图像: 灰度图像矩阵元素的取值范围通常为[ ...

某些手机一直连不上adb的解决办法

首先看驱动,就是用各种手机助手连接,看是否能识别,如果能够成功进入连接模式,说明可用,注意勾选一直使用该台计算机进行调试,如果这一步不勾选在后面也是没有办法的. 第二个就是看端口占用的问题,adb n ...

初始JavaScript中的模块

模块模块可以提供一个接口,并且隐藏其中的状态与实现的的函数或者对象,利用模块我们可以完全屏蔽全局变量的使用(全局变量太坑了,55555) 一个小例子 Function.prototype.metho ...

OD: Protection for Heap in Windows

微软在堆中也增加了一些安全校验操作,使得原本是不容易的堆溢出变得困难重重: * PEB Random:在 Windows XP SP2 之后,微软不再使用固定的 PEB 基址 0x7FFDF000,而 ...

STL（四）：list

STL 中的list 可以说是与vector 相对应的一个容器. 什么意思呢? 嗯,在我看来,vector 是线性表,空间连续,它的特点是原生指针作为它的迭代器,支持随机存取.但是插入和删除的操作代价 ...

建立绩效管理体系

建立绩效管理体系就是确定企业的绩效管理方针.原则.标准和方法.其中明确各级人员的职责.设计企业绩效管理方案.规范绩效管理的操作步骤是重点.一般企业导入绩效管理体系的步骤如下: 第一, 首先确定绩 ...

深入理解java：1.1.1.反射机制

反射到底什么是反射(Reflection)呢? 反射有时候也被称为内省(Introspection),事实上,反射,就是一种内省的方式, Java不允许在运行时改变程序结构或类型变量的结构,但它允许 ...

[python]print简单用法

python打印变量: 1.在Eclipse中输入: print "Hello world!" myString = "Hello world!" print ...

java 基础笔记

JDK的安装: 下载.安装配置环境变量 a) path:.;%JAVA_HOME%\bin; b) JAVA_HOME:JDK的安装目录 c) clas ...

总结分享十大iOS开发者最喜爱的库

该10大iOS开发者最喜爱的库由"iOS辅导团队"成员Marcelo Fabri组织投票选举而得,参与者包括开发者团队,iOS辅导团队以及行业嘉宾.每个团队都要根据以下规则选出五个 ...

2014Esri全球用户大会之ArcGIS for Server&Portal for ArcGIS

1.ArcGIS10.3 for Server新特性相当多! 首先,ArcGIS 10.3版本为GIS和地图在组织内传递带来了非常令人兴奋的新功能. 很大程度上,这意味着带来了更多的apps.Arc ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.