06、部署Spark程序到集群上运行

6.1 修改程序代码

修改文件加载路径

在spark集群上执行程序时，如果加载文件需要确保路径是所有节点能否访问到的路径，因此通常是hdfs路径地址。所以需要修改代码中文件加载路径为hdfs路径：
```
...
//指定hdfs路径
sc.textFile("hdfs://mycluster/user/centos/1.txt")
...
```
?
修改master地址
SparkConf中需要指定master地址，如果是集群上运行，也可以不指定，运行时可以通过命令行动态获取。
```
//设置master地址或者注释掉该行
conf.setMaster("spark://s101:7077")
```

6.2 导出jar包

进入项目结构窗口
定位artifacts部分中
导出的jar中删除依赖的第三方jar包
通过builds -> build artifacts菜单导出jar包
到对应的导出目录查看jar文件
查看jar包中类的内容
```
$>jar -tf myspark.jar | more
```
执行结果如下图所示：

6.3 提交job到Spark集群

使用spark-submit命令提交jar包到spark集群执行。

$>spark-submit --class com.oldboy.spark.java.WordCountJava --master spark://s101:7077 myspark.jar

执行结果如下图所示：

原文地址：https://www.cnblogs.com/xupccc/p/9543979.html

时间： 2024-12-11 11:25:54

06、部署Spark程序到集群上运行的相关文章

将java开发的wordcount程序部署到spark集群上运行

1 package cn.spark.study.core; 2 3 import java.util.Arrays; 4 5 import org.apache.spark.SparkConf; 6 import org.apache.spark.api.java.JavaPairRDD; 7 import org.apache.spark.api.java.JavaRDD; 8 import org.apache.spark.api.java.JavaSparkContext; 9 impo

将java开发的wordcount程序提交到spark集群上运行

今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /spark.txt,即可. 第一:看整个代码视图打开WordCountCluster.java源文件,修改此处代码: 第二步: 打好jar包,步骤是右击项目文件----RunAs--Run Configurations 照图填写,然后开始拷贝工程下的jar包,如图,注意是拷贝那个依赖jar包,不是第

从认证到调度，K8s 集群上运行的小程序到底经历了什么？

作者 | 声东? 阿里云售后技术专家导读:不知道大家有没有意识到一个现实:大部分时候,我们已经不像以前一样,通过命令行,或者可视窗口来使用一个系统了. 前言现在我们上微博.或者网购,操作的其实不是眼前这台设备,而是一个又一个集群.通常,这样的集群拥有成百上千个节点,每个节点是一台物理机或虚拟机.集群一般远离用户,坐落在数据中心.为了让这些节点互相协作,对外提供一致且高效的服务,集群需要操作系统.Kubernetes 就是这样的操作系统. 比较 Kubernetes 和单机操作系统,Kuber

在集群上运行Spark应用的详细过程

在集群上运行Spark应用的详细过程: (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管理器通信,申请资源以启动执行器节点 (4)集群管理器为驱动器程序启动执行器节点 (5)驱动器进程执行用户应用中的操作.根据程序中所定义的对RDD的转换操作和行动操作,驱动器节点把动作以任务的形式发送到执行器进程 (6)任务在执行器程序中进行计算并保存结果 (7)如果驱动器程序的main()方法退出,或

用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控

写在前面前文:用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题. 为了更好地模拟集群环境,我们可以在mapred-site.xml中增设reducer和mapper的最大数目(默认为2,实际可用数目大约是CPU核数-1). 假设你为Hadoop安装路径添加的环境变量叫$HADOOP_HOME(如果是$HAD

在集群上运行caffe程序时如何避免Out of Memory

不少同学抱怨,在集群的GPU节点上运行caffe程序时,经常出现"Out of Memory"的情况.实际上,如果我们在提交caffe程序到某个GPU节点的同时,指定该节点某个比较空闲的gpu id,便可以避免"Out of Memory"的情况.步骤如下: 1. 在提交任务前,制作一个带有“nvidia-smi”命令的run_gpu.sh文件 #!/bin/bash #$ -V #$ -cwd #$ -j y #$ -S /bin/bash nvidia-smi

【转】Twitter Storm: 在生产集群上运行topology

Twitter Storm: 在生产集群上运行topology 发表于 2011 年 10 月 07 日由 xumingming 作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/185/twitter-storm-在生产集群上运行topology/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Running-topologi

storm学习之-在生产集群上运行topology

https://storm.apache.org/documentation/Setting-up-a-Storm-cluster.html -官方文档 http://xumingming.sinaapp.com/185/twitter-storm-在生产集群上运行topology/ --徐明明 http://blog.cheyo.net/84.html --运行一个

（7）在集群上运行Spark

7.2 Spark运行时架构 Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点.驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行. 7.2.1 驱动器节点 Spark驱动器节点是执行你的程序中main方法的进程.其实,当你启动Spark Shell时,你就启动了一个Spark驱动器程序,驱动器程序一旦终止,Spark应用也就结束了.驱动器程序在