本地开发spark代码上传spark集群服务并运行（基于spark官网文档）

打开IDEA 在src下的main下的scala下右击创建一个scala类名字为SimpleApp ,内容如下

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

打包文件：

File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices

点击Output Layout 看看是否没有第三方jar包，因为你使用spark集群环境，所以你不需要第三方jar包

重新build：

Build-->>Build Artifcat ..--->>build 或者rebuild

执行后就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar

上传到spark集群服务器的 spark_home下的myApp下

上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中

提交spark任务：

./bin/spark-submit --class "SimpleApp" --master local[4] myApp/study-scala.jar

执行结果为a:60,b:29

时间： 2024-10-22 06:36:17

本地开发spark代码上传spark集群服务并运行（基于spark官网文档）的相关文章

Spark-->combineByKey【请阅读Apache spark官网文档】

这篇文章,很有必要看,写的不错.但是看过后,不要忘记查看Apache spark官网.因为这篇文章理解还是和源码.官网文档不一致.有一点错误![cnblogs的代码编辑器不支持Scala,所以语言的关键字没有高亮显示] 在数据分析中,处理Key,Value的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组.聚合或者将两个包含Pair数据的RDD根据key进行join.从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)

将本地项目或代码上传到别人GitHub（码云）的远程分支上

今天碰到了这样一个问题,折腾了半天,就是将自己本地代码上传到人家的远程分支上. 首先要做的就是先将人家的项目克隆到本地:git clone + 项目地址然后进入项目目录:cd + 已克隆好的项目目录名然后切换分支,git checkout + 分支名(必须与所要提交代码的远程分支同名) 然后将所要提交的代码复制到该分支下,然后依次执行 (1)git add . (注意:add与句号间有空格,否则会报错) (2)git commit -m "change log" (3)gi

spark记录（5）Spark运行流程及在不同集群中的运行过程

摘自:https://www.cnblogs.com/qingyunzong/p/8945933.html 一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等.程序执行完毕后关闭SparkContext (3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运

实战CentOS系统部署Hadoop集群服务

导读 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序:HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming acces

学习Git的一点心得以及如何把本地修改、删除的代码上传到github中

一:学习Github的资料如下:https://git.oschina.net/progit/ 这是一个学习Git的中文网站,如果诸位能够静下心来阅读,不要求阅读太多,只需要阅读前三章,就可以掌握Git的常用命令. 二:学习Git中远程仓库的问题: Git的远程仓库:就是管理你代码的地方,这个是Github中提供的有,只要你在Github中注册一下你就可以获得无限个Git的远程仓库. 我的Github中的远程仓库如下图所示: 对远程仓库我首先理解为:在Gitbash中敲一个命令:Git init

git使用之如何将github库下载到本地与如何将代码上传github

git使用之如何将github库下载到本地与如何将代码上传github ------------------------------------------------------------------------- 原作者不详,如有侵权,我将以最快的速度删除该文,敬请谅解. 发布该文,仅仅是为了分享和传播技术. ------------------------------------------------------------------------- 一.如何将github库下载到本地

初识SVN与GIT代码上传

最近开始进行多人项目,但是从来没有做过多人项目,所以Google了一下多人项目需要的一些注意事项首先第一点:在多人开发项目时候要在自己建立的类,在建立类的时候要在前缀加上自己的标识符用来区分类名,避免冲突第二点:在书写代码时,两个开发者不要在同一个类中同时写一个类方法内容,这样在合并代码时会导致代码冲突,会引发很多问题 Git:git是一种分散式的代码上传方式,每个人在自己的电脑上都有一个完整的本地仓库,从网络仓库上克隆下来的都是完整的仓库,每个人都能看到整个项目的完整代码,当服务器宕机或

将代码上传到GitHub

本人是初学者,记录的都是初学者遇到的问题,就当学习笔记了. 以前没用过GitHub,导致项目开发时代码拷贝来拷贝去,很麻烦,于是自己研究了一下如何将代码上传到GitHub,和项目伙伴共用一个仓库,就方便多了.网上看了很多资料,都是用的命令行,比较难看懂,自己摸索了一下怎么样在图形界面上操作,最后还真是成功了.下面记录的只是简单的如何把本地仓库直接上传到服务器上,其他的内容以后研究到了继续补充. 在mac上下载个GitHub Mac客户端,安装好后运行,输入GitHub的账户密码登陆.然后点击屏幕

Spark 概述及其高可用集群部署

Spark入门一. 学习目标目标1:熟悉Spark相关概念目标2:搭建一个Spark集群二. Spark概述 2.1什么是Spark(官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Str