分别用Eclipse和IDEA搭建Scala+Spark开发环境

开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量。网上资料很多,安装过程忽略。此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本。

1. Eclipse开发环境搭建

1.1. 安装scala插件

安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html

解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可。

Window -> Open Perspective -> Other…,打开Scala,说明安装成功。

1.2. 创建maven工程

打开File -> New -> Other…,选择Maven Project:

点击Next,输入项目存放路径:

点击Next,选择org.scala-tools.archetypes:

点击Next,输入artifact相关信息:

点击Finish即可。默认创建好的工程目录结构如下:

修改pom.xml文件:

至此,一个默认的scala工程新建完成。

2. Spark开发环境搭建

2.1. 安装scala插件

开发机器使用的IDEA版本为IntelliJ IEDA 14.0.2。为了使IDEA支持scala开发,需要安装scala插件,如图:

插件安装完成后,IntelliJ IDEA会要求重启。

2.2. 创建maven工程

点击Create New Project,在Project SDK选择jdk安装目录(建议开发环境中的jdk版本与Spark集群上的jdk版本保持一致)。点击左侧的Maven,勾选Create from archetype,选择org.scala-tools.archetypes:scala-archetype-simple:

点击Next后,可根据需求自行填写GroupId,ArtifactId和Version(请保证之前已经安装maven)。点击Finish后,maven会自动生成pom.xml和下载依赖包。同1.2章节中eclipse下创建maven工程一样,需要修改pom.xml中scala版本。

至此,IDEA下的一个默认scala工程创建完毕。

3. WordCount示例程序

3.1. 修改pom文件

在pom文件中添加spark和hadoop相关依赖包:

<!-- Spark -->

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.10</artifactId>

<version>1.1.0</version>

</dependency>

<!-- Spark Steaming-->

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-streaming_2.10</artifactId>

<version>1.1.0</version>

</dependency>

<!-- HDFS -->

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

<version>2.6.0</version>

</dependency>

在<build></build>中使用maven-assembly-plugin插件,目的是package时把依赖jar也打包。

<plugin>

<artifactId>maven-assembly-plugin</artifactId>

<version>2.5.5</version>

<configuration>

<appendAssemblyId>false</appendAssemblyId>

<descriptorRefs>

<descriptorRef>jar-with-dependencies</descriptorRef>

</descriptorRefs>

<archive>

<manifest>

<mainClass>com.ccb.WordCount</mainClass>

</manifest>

</archive>

</configuration>

<executions>

<execution>

<id>make-assembly</id>

<phase>package</phase>

<goals>

<goal>assembly</goal>

</goals>

</execution>

</executions>

</plugin>

3.2. WordCount示例

WordCount用来统计输入文件中所有单词出现的次数,代码参考:

package com.ccb

import org.apache.spark.{ SparkConf, SparkContext }

import org.apache.spark.SparkContext._

/**

* 统计输入目录中所有单词出现的总次数

*/

object WordCount {

def main(args: Array[String]) {

val dirIn = "hdfs://192.168.62.129:9000/user/vm/count_in"

val dirOut = "hdfs://192.168.62.129:9000/user/vm/count_out"

val conf = new SparkConf()

val sc = new SparkContext(conf)

val line = sc.textFile(dirIn)

val cnt = line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _) // 文件按空格拆分,统计单词次数

val sortedCnt = cnt.map(x => (x._2, x._1)).sortByKey(ascending = false).map(x => (x._2, x._1)) // 按出现次数由高到低排序

sortedCnt.collect().foreach(println) // 控制台输出

sortedCnt.saveAsTextFile(dirOut) // 写入文本文件

sc.stop()

}

}

3.3. 提交spark执行

使用maven pacakge打包得到sparktest-1.0-SNAPSHOT.jar,并提交到spark集群运行。

执行命令参考:


./spark-submit --name WordCountDemo --class com.ccb.WordCount sparktest-1.0-SNAPSHOT.jar

即可得到统计结果。

时间: 2024-10-01 00:42:55

分别用Eclipse和IDEA搭建Scala+Spark开发环境的相关文章

ExtJS5 (一) 超简单整合到eclipse中,搭建简单的开发环境

个人一直欣赏大神们的唯美前端页面,而现在个人从事的是MIS系统等相关的开发,故决定学习ExtJS,目前最新版本是5.0,就从5.0开始吧. 作为java开发人员,自然而然的想在eclipse中搞个extjs的简单开发环境,以后再慢慢丰富,开始吧~ 第一步:从官网下载extjs,目前是5.0版本 第二步:用eclipse创建一个动态web工程 第三步:在工程的WebContent目录下创建一个文件夹,叫作ExtJS5. 第四步:解压从官网下载的extjs,解压之后,目录结构如下: 看一下根目录下的

Eclipse和PyDev搭建完美Python开发环境(Windows篇)(转)

摘要:本文讲解了用Eclipse和PyDev搭建Python的开发环境. 十一长假在家闲着没事儿,准备花点时间学习一下Python. 今儿花了一个下午搭建Python的开发环境,不禁感叹————开源的东西就是麻烦啊··· 唉,可怜我们这些被微软宠坏了的开发人员··· 为什么不用别的IDE呢? IDLE是小打小闹用的,那个WingIDE是要钱的,而且用不惯.Eclipse+PyDev插件是最主流的Python开发环境了. 1.准备工作: 下载32位的JDK6 Java的开发包  我也不想装这玩意儿

Eclipse和PyDev搭建完美Python开发环境(Windows篇)

http://blog.163.com/jackie_howe/blog/static/199491347201282272155373/ 1.准备工作: 下载32位的JDK6 Java的开发包 我也不想装这玩意儿,但是Eclipse依赖他,没办法. 下载32位的Eclipse 下载Python 2.x 2.配置java环境 Java环境搭建 3.安装Eclipse和Python Eclipse是绿色软件,找个地方解压一下就OK了 Python的安装就更不用说了 4.给Eclipse安装PyDe

idea 的搭建 maven spark开发环境

spark依赖配置网址http://mvnrepository.com/1.create new project2.meven,直接next3.输入group id等4.输入project name5.可以删掉main下的java和resources6.右键点击项目,选Add Framework Support,勾选Scala前面的复选框,然后点击确定即可7.在main文件夹中建立一个名为 scala 的文件夹,并右键点击 scala 文件夹,选择 Make Directory as,然后选择S

Eclipse和PyDev搭建完美Python开发环境 Windows篇

1,安装Python Python是一个跨平台语言,Python从3.0的版本的语法很多不兼容2版本,官网找到最新的版本并下载:http://www.python.org, 因为之前的一个项目是2版本开发的,故下载了2.7 2,在Windows命令行中使用Python 如果你想要从Windows命令行调用Python,那么需要先设置Python环境变量. 编辑PATH环节便利将;D:\dev\python2.7.11加到它的结尾.当然,是Python所在的安装目录. 3,测试python环境变量

eclipse+cygwin+cdt搭建c/c++开发环境

Cygwin 是一个用于 Windows 的类 UNIX shell 环境. 它由两个组件组成:一个 UNIX API 库,它模拟 UNIX 操作系统提供的许多特性:以及 Bash shell 的改写版本和许多 UNIX 实用程序,它们提供大家熟悉的 UNIX 命令行界面.前一个组件是一个 Windows 动态链接库 (DLL).后一个组件是一组基于 Cygwin DLL 的程序,其中许多是用未经修改的 UNIX 源代码编译的.它们合在一起提供大家熟悉的 UNIX 环境. Eclipse CDT

Spark入门三部曲之第二步Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境 提示 搭建开发环境常遇到的问题: 1.网络问题,导致sbt插件下载失败,解决方法,找到一个好的网络环境, 或者预先从我提供的网盘中下载jar(链接:http://pan.baidu.com/s/1qWFSTze 密码:lszc) 将下载的.ivy2压缩文件,解压后,放到你的用户目录下. 2.版本匹配问题,版本不匹配会遇到各种问题,解决方法,按照如下版本搭建, scala(2.10.3),sbt(0.13),sbt-assembly(

Mac上搭建spark开发环境

本文将介绍在Mac os上搭建Spark开发环境. 在安装spark环境之前,需要确保配置相应的java环境,jdk或者jre的版本需要在1.8.0版本以上. (1)首先下载开发IDE,目前比较流行的IDE是IntelliJ IDEA,可以在官网下载使用,下载地址:https://www.jetbrains.com/idea/.(2)Spark环境搭建:mac上启动终端,使用brew install scala命令(brew是一个软件包管理工具,类似于centos下的yum或者ubuntu下的a

javacard开发环境搭建 Eclipse+jcop+jcdk 配置完成的开发环境

javacard  开发环境搭建 Eclipse+jcop+jcdk  配置完成的开发环境,下载后安装jdk,并完成环境变量配置,即可开发javacard applet: 虽然有许多大神提供配置说明,但是配置很麻烦.提供一个配置好的环境给大家.如果好用,别忘了评价. 由于csdn上传限制,需要分别下载几个文件 http://download.csdn.net/detail/wyx100/7941899 http://download.csdn.net/detail/wyx100/7941669