在spark上运行独立程序（Self-Contained Applications）

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。

运行独立程序（SimpleApp.py）：

首先编写程序（这里用Pytho的API）：

from pyspark import SparkContext

logFile = "README.md" #注意这里的文件是在hdfs中的
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s:‘a‘ in s).count()
numBs = logData.filter(lambda s:‘b‘ in s).count()

print "lines with a: %i,lines with b: %i" %(numAs,numBs)

然后进入spark安装目录运行：

[email protected]:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ vi /home/hadoop/Public/SimpleApp.py
[email protected]:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ ./bin/spark-submit --master local
/home/hadoop/Public/SimpleApp.py

core spark concepts:

每一个spark应用都包含一个在集群上运行着多个并行操作的主驱动程序（driver program）。它包括你应用的main函数和在集群上定义的分布式数据集以及对他们的操作。比如在《spark-shell初体验》中的Driver Program就是Spark shell。

Driver Program连接集群是通过SparkContext对象，在shell中这个对象已经被创建，即 sc。一旦有了这个对象，你就可以用它创建分布式数据集RDDS。比如上面程序中的logData

为了运行这些操作，Driver Programs 管理着许多工作节点即executors。比如我们执行count()操作，不同的机器可能计算文件的不同部分。

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2024-12-27 20:49:02

在spark上运行独立程序（Self-Contained Applications）的相关文章

提交hadoop作业到spark上运行

1.引入spark包:spark-assembly-1.4.0-hadoop2.6.0,在spark的lib目录下 File-->project structure 2.用IDEA建立一个scala项目,新建一个WordCount的object 3.WordCount代码如下: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._

将java开发的wordcount程序部署到spark集群上运行

1 package cn.spark.study.core; 2 3 import java.util.Arrays; 4 5 import org.apache.spark.SparkConf; 6 import org.apache.spark.api.java.JavaPairRDD; 7 import org.apache.spark.api.java.JavaRDD; 8 import org.apache.spark.api.java.JavaSparkContext; 9 impo

将java开发的wordcount程序提交到spark集群上运行

今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /spark.txt,即可. 第一:看整个代码视图打开WordCountCluster.java源文件,修改此处代码: 第二步: 打好jar包,步骤是右击项目文件----RunAs--Run Configurations 照图填写,然后开始拷贝工程下的jar包,如图,注意是拷贝那个依赖jar包,不是第

在集群上运行Spark应用的详细过程

在集群上运行Spark应用的详细过程: (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管理器通信,申请资源以启动执行器节点 (4)集群管理器为驱动器程序启动执行器节点 (5)驱动器进程执行用户应用中的操作.根据程序中所定义的对RDD的转换操作和行动操作,驱动器节点把动作以任务的形式发送到执行器进程 (6)任务在执行器程序中进行计算并保存结果 (7)如果驱动器程序的main()方法退出,或

Apache Spark源码走读之10 -- 在YARN上运行SparkPi

y欢迎转载,转载请注明出处,徽沪一郎. 概要 “spark已经比较头痛了,还要将其运行在yarn上,yarn是什么,我一点概念都没有哎,再怎么办啊.不要跟我讲什么原理了,能不能直接告诉我怎么将spark在yarn上面跑起来,I'm a dummy, just told me how to do it.” 如果你和我一样是一个对形而上的东西不是太感兴趣,而只纠结于怎么去做的话,看这份guide保证不会让你失望, :). 前期准备本文所有的操作基于arch linux,保证下述软件已经安装 jdk

06、部署Spark程序到集群上运行

06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改代码中文件加载路径为hdfs路径: ... //指定hdfs路径 sc.textFile("hdfs://mycluster/user/centos/1.txt") ... ? 修改master地址 SparkConf中需要指定master地址,如果是集群上运行,也可以不指定,运行时可以通

[Spark内核] 第35课：打通 Spark 系统运行内幕机制循环流程

本课主题打通 Spark 系统运行内幕机制循环流程引言通过 DAGScheduelr 面向整个 Job,然后划分成不同的 Stage,Stage 是從后往前划分的,执行的时候是從前往后执行的,每个 Stage 内部有一系列任務,前面有分享過,任务是并行计算啦,这是并行计算的逻辑是完全相同的,只不过是处理的数据不同而已,DAGScheduler 会以 TaskSet 的方式把我们一个 DAG 构造的 Stage 中的所有任务提交给底层的调度器 TaskScheduler,TaskSchedu

用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控

写在前面前文:用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题. 为了更好地模拟集群环境,我们可以在mapred-site.xml中增设reducer和mapper的最大数目(默认为2,实际可用数目大约是CPU核数-1). 假设你为Hadoop安装路径添加的环境变量叫$HADOOP_HOME(如果是$HAD

2.Spark Streaming运行机制和架构

1 解密Spark Streaming运行机制上节课我们谈到了技术界的寻龙点穴.这就像过去的风水一样,每个领域都有自己的龙脉,Spark就是龙脉之所在,它的龙穴或者关键点就是SparkStreaming.这是上一节课我们非常清晰知道的结论之一.而且上一节课,我们采用了降维的方式.所谓降维的方式,是指把时间放大,就是把时间变长的情况下,我们做SparkStreaming的案例演示的实战,实战的结果是,我们发现在特定的时间段里面,确实是具体的RDD在工作,那么这一节课有必要在上一节课的基础上去谈一

猜你喜欢

oracle EBS dba SQL scripts

-查看EBS用户的所有职责: SELECT frt.responsibility_name, furg.END_DATE FROM fnd_user_resp_groups furg, ...

Asp 日期格式化问题沙比作者，我改过来。

Asp 日期格式化问题投稿:mdxy-dxy 字体:[增加减小] 类型:转载时间:2009-06-14我要评论 asp做网站经常遇到日期格式处理问题,介绍一个有用的vbscript函数forma ...

每天小练笔8-模拟进程调度

题目操作系统任务调度问题.操作系统任务分为系统任务和用户任务两种.其中, 系统任务的优先级 < 50,用户任务的优先级 >= 50且 <= 255.优先级大于255的为非法任务,应 ...

Javascript面向对象特性实现封装、继承、接口详细案例——进级高手篇

Javascript面向对象特性实现(封装.继承.接口) Javascript作为弱类型语言,和Java.php等服务端脚本语言相比,拥有极强的灵活性.对于小型的web需求,在编写javascript ...

整数相加程序实验追加

前些天的学习中,遇到定义参数强制转换然后相加的简单求和的简单程序,在课堂上没有完成这个例子,下课后查了一下相应的语句然后才运行出来了. 定义两个参数的过程已经掌握,接下来就是参数的累加,在类里定义一个 ...

[LintCode] Swap Nodes in Pairs 成对交换节点

Given a linked list, swap every two adjacent nodes and return its head. Example Given 1->2->3- ...

软件安装与配置

软件安装 DPKG Linux系统中,软件通常以源代码或者预编译包的形式提供. 软件源代码需要编译为二进制的机器代码才能够使用,安装比较耗时,不过您可以自行调节编译选项,决定需要的功能或组件,或者针对 ...

c#语音报时(含完整的声音资源文件).rar

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ...

2.1JAVA基础复习——JAVA语言的基础组成注释和常量变量

/** 这是 JAVA中独有的多行注释 */ JAVA语言的基础组成有: 1.关键字:被赋予特殊含义的单词. 2.标识符:用来标识的符号. 3.注释:用来注释说明程序的文字. 4.常量和变量:内存存储 ...

nginx启动停止

查看 nginx进程 ps -ef|grep nginx 如果开启了就会出现类似下面的 root 2700 1 0 09:35 ? 00:00:00 nginx: master process ng ...

bzoj 1964: hull 三维凸包计算几何

1964: hull 三维凸包 Time Limit: 1 Sec Memory Limit: 64 MBSubmit: 54 Solved: 39[Submit][Status][Discuss ...

Blender源码在Mac OS X上的编译（英）

Install Xcode Development Tools It is recommended to download the newest Xcode package from the Mac ...

学习NodeJs的第一天-安装环境

之前一直在网上看到NodeJs的话题,由于自身比较喜欢这方面的内容,期间也是有所关注,现在终于决定静下心来学习她了. 这是第一天,安装NodeJs并建立一个简单的例子.(我的系统是Win8) 1.首先 ...

关于 Java 中的 static 关键字

Java中的 static 关键字,确实是一个关键的字(key word),今天就来总结一下它的用法,说说为什么关键. Java中的 static 关键字主要是用来做内存管理的.理解了这句话才能够比较 ...

国家明确规划重点软件和集成电路设计领域

关于印发国家规划布局内重点软件和集成电路设计领域的通知发改高技[2016]1056号各省.自治区.直辖市及计划单列市发展改革委.工业和信息化主管部门.财政厅(局).国家税务局.地方税务局: 为贯彻 ...

《网络管理》子网掩码计算和子网计算

子网掩码计算--IPSubnetter 网络管理员不单要为网络分配IP地址,而且还应该清楚所使用的网络地址段IP地址分配是否合理.IP地址的使用情况等.IPSubnetter是一款免费软件,可以计算出 ...

spring boot Controller的使用

1.几种注解 2.spring boot 的使用创建一个 index.html 文件最后返回 "index" 3.部分注解使用 [email protected] 的使用 [e ...

Struts2中自定义的Result

引言所谓自定义Result,就是由我们自行开发Result,而不是使用由Struts2预定义的result. 在实际的开发中使用自定义的result机会不大,因为常见的各种页面展示技术,都有stru ...

Java自定义异常与异常使用最佳实践

异常的分类 1. 非运行时异常(Checked Exception) Java中凡是继承自Exception但不是继承自RuntimeException的类都是非运行时异常. 2. 运行时异常(Run ...

修改ubuntu开机启动项顺序 grub设置删除多余内核

1 最简单方法,装个软件,图形化操作. sudo apt-get install startupmanager 安装启动项管理器系统——系统管理——启动项管理器,后面不解释.然后会自动按照配置修改g ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.