01_PC单机Spark开发环境搭建_JDK1.8+Spark2.3.1+Hadoop2.7.1

本文档基于Windows搭建本地JAVA Spark开发环境。

1 JDK 1.8安装

官网下载JDK。

注意JDK安装目录不可以包含空格，比如：C:\Java\jdk1.8.0_171，否则可能导致后续运行Spark报错（提示找不到java.exe）。

2 Spark安装（V2.3.1）

1、到spark官网网站 http://spark.apache.org/downloads.html下载spark；

注意点击红框部分进入选择下载包，不要点击截图上步骤3后面链接。

2、参考截图下载 spark-2.3.1-bin-hadoop2.7.tgz

3、下载本地进行解压

比如解压后路径：D:\Tools\spark-2.3.1-bin-hadoop2.7

4、配置环境变量

1）SPARK_HOME

2）Path环境变量增加

%SPARK_HOME%\bin，%SPARK_HOME%\sbin

3 Hadoop安装（V2.7.1）

1、到 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1下载Hadoop 2.7.1；

2、将下载的hadoop解压缩在本地目录；

比如：D:\Tools\hadoop-2.7.1

3、配置环境变量

1）HADOOP_HOME

2）Path环境变量增加

%HADOOP_HOME%\bin

4、下载 winutils.exe 并复制到 hadoop的bin目录

https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

备注：如果不下载winutils.exe会导致启动spark-shell提示如下错误

4 启动Spark

1、CMD切换到spark-2.3.1-bin-hadoop2.7\bin目录

2、运行spark-shell

如果可以看到如下界面，则代表启动成功

可以访问截图中的网址查看Spark的管理界面。

5 启动IDEA运行小程序

1、新建一个Maven工程

New Project -->Maven -> maven-archetype-quickstart

2、java源码

 1 package com.spark;
 2
 3 import org.apache.spark.sql.Dataset;
 4 import org.apache.spark.sql.Row;
 5 import org.apache.spark.sql.SparkSession;
 6
 7 public class App {
 8
 9
10         public static void main( String[] args )
11         {
12             SparkSession spark= SparkSession.builder().appName("sparkTest").master("local[3]").getOrCreate();
13             Dataset<Row> result=spark.read().json("people.json");
14             System.out.println("Line count:" + result.count());
15             result.show();
16             result.printSchema();
17             spark.stop();
18         }
19 }

setMaster: "local[4]" to run locally with 4 cores,

3、POM.XML配置

 1 <?xml version="1.0" encoding="UTF-8"?>
 2 <project xmlns="http://maven.apache.org/POM/4.0.0"
 3          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 4          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 5     <modelVersion>4.0.0</modelVersion>
 6
 7     <groupId>com.spark</groupId>
 8     <artifactId>sparkTest</artifactId>
 9     <version>1.0-SNAPSHOT</version>
10
11     <properties>
12         <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
13         <spark.version>2.3.1</spark.version>
14         <hadoop.version>2.7.1</hadoop.version>
15     </properties>
16
17     <dependencies>
18         <dependency>
19             <groupId>org.apache.spark</groupId>
20             <artifactId>spark-sql_2.11</artifactId>
21             <version>${spark.version}</version>
22         </dependency>
23
24         <dependency>
25             <groupId>org.apache.spark</groupId>
26             <artifactId>spark-core_2.11</artifactId>
27             <version>${spark.version}</version>
28         </dependency>
29
30         <dependency>
31             <groupId>org.apache.spark</groupId>
32             <artifactId>spark-hive_2.11</artifactId>
33             <version>${spark.version}</version>
34         </dependency>
35         <dependency>
36             <groupId>org.apache.spark</groupId>
37             <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
38             <version>${spark.version}</version>
39         </dependency>
40
41         <dependency>
42             <groupId>org.apache.spark</groupId>
43             <artifactId>spark-streaming_2.11</artifactId>
44             <version>${spark.version}</version>
45         </dependency>
46
47         <dependency>
48             <groupId>org.apache.hadoop</groupId>
49             <artifactId>hadoop-common</artifactId>
50             <version>${hadoop.version}</version>
51         </dependency>
52
53         <dependency>
54             <groupId>org.apache.spark</groupId>
55             <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
56             <version>${spark.version}</version>
57         </dependency>
58
59     </dependencies>
60 </project>

4、新建一个 people.json 文件，并拷贝到工程目录

文件内容如下

1 {"name":"Michael"}
2 {"name":"Andy", "age":30}
3 {"name":"Justin", "age":19}

5、（可选）优化IDEA控制台打印，使得INFO级别日志不打印

1) 拷贝spark-2.3.1-bin-hadoop2.7\conf\log4j.properties.template到当前工程src\main\resources\ log4j.properties.

2）调整日志级别

log4j.rootCategory=WARN, console

6、启动工程，查看是否可以运行看到结果

原文地址：https://www.cnblogs.com/clarino/p/9241133.html

时间： 2024-10-16 18:36:36

01_PC单机Spark开发环境搭建_JDK1.8+Spark2.3.1+Hadoop2.7.1的相关文章

Spark入门三部曲之第二步Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境提示搭建开发环境常遇到的问题: 1.网络问题,导致sbt插件下载失败,解决方法,找到一个好的网络环境, 或者预先从我提供的网盘中下载jar(链接:http://pan.baidu.com/s/1qWFSTze 密码:lszc) 将下载的.ivy2压缩文件,解压后,放到你的用户目录下. 2.版本匹配问题,版本不匹配会遇到各种问题,解决方法,按照如下版本搭建, scala(2.10.3),sbt(0.13),sbt-assembly(

【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea（Scala版）

注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开发,所以必须版本对应 scala不是必须安装的,如果你是打算使用scala进行spark开发,则需要安装环境搭建步骤将spark-2.1.1-bin-hadoop2.x版本至c盘下即可将spark中的jar包全部提取出来另外放到一地方用于进行开发新建IDEA项目,将所有jar包导入到IDEA

HBase、Hive、MapReduce、Hadoop、Spark 开发环境搭建后的一些步骤（export导出jar包方式或 Ant 方式）

步骤一若是,不会HBase开发环境搭建的博文们,见我下面的这篇博客. HBase 开发环境搭建(Eclipse\MyEclipse + Maven) 步骤一里的,需要补充的.如下: 在项目名,右键, 然后,编写pom.xml,这里不多赘述.见 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) 完成之后呢,编写好代码,对吧. 步骤二 HBase 开发环境搭建后的一些步骤(export导出jar包方式或 Ant 方式) 这里,不多说,玩过大数据一段时间的博友们,

Ubuntu下Spark开发环境搭建

Ubuntu 64基本环境配置安装JDK,下载jdk-8u45-linux-x64.tar.gz,解压到/opt/jdk1.8.0_45 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 安装scala,下载scala-2.11.6.tgz,解压到/opt/scala-2.11.6 下地地址: http://www.scala-lang.org/ 安装Spark,下载spark-1.3.1-bin-h

分别用Eclipse和IDEA搭建Scala+Spark开发环境

开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量.网上资料很多,安装过程忽略.此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本. 1. Eclipse开发环境搭建 1.1. 安装scala插件安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html 解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可.

Spark编程环境搭建及WordCount实例

基于Intellij IDEA搭建Spark开发环境搭建基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 ·b)引入依赖(Spark 依赖.打包插件等等) 基于Intellij IDEA搭建Spark开发环境—maven vs sbt ● 哪个熟悉用哪个 ● Maven也可以构建scala项目基于Inte

Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】

http://blog.csdn.net/xiefu5hh/article/details/51707529 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例[附详细代码] 标签: SparkECLIPSEJAVAMAVENwindows 2016-06-18 22:35 405人阅读评论(0) 收藏举报分类: spark(5) 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 前言本文旨在记录初学Spark时,根据官网快速

Windows下基于eclipse的Spark应用开发环境搭建

原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3822985.html 一.软件下载 maven下载安装 :http://10.100.209.243/share/soft/apache-maven-3.2.1-bin.zip jdk下载安装: http://10.100.209.243/share/soft/jdk-7u60-windows-i586.exe(32位) http://10.100.209.243/sh

Intellij Idea搭建Spark开发环境

在Spark高速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置.在那里还介绍了使用spark-submit提交应用.只是不能使用vim来开发Spark应用.放着IDE的方便不用.这里介绍使用Intellij Idea搭建Spark的开发环境. 1.Intellij Idea的安装因为Spark安装在Ubuntu环境中.这里的Idea也安装在Ubuntu中.首先是下载,到官网下载就可以.下载完后解压到待安装的文件夹: sudo tar -zxvf ideaIU-2016.1