Spark环境搭建

Spark官网和下载地址

官网

http://spark.apache.org/

spark-2.2.0源码下载链接

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0.tgz

spark-2.2.0安装包下载连接

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.6.tgz

官方文档

进入官网：http://spark.apache.org/

官网查看编译步骤如下图所示，也可以直接访问http://spark.apache.org/docs/latest/building-spark.html

编译前置条件

自Spark 2.2.0起已删除了对Java 7，Python 2.6和2.6.5之前的旧Hadoop版本的支持。

从2.3.0版本开始，不再支持Scala 2.10。

从Spark 2.4.1开始不支持Scala 2.11，它将在Spark 3.0中删除。

这里以2.2.0为例子

编译环境

jdk8

Scala 2.11.8

mvn 3.5.4

由于maven中没有cdh版本的hadoop版本所以增加cloudera仓库，在spark目录下的pom.xml文件repositories下增加

 <repository>
   <id>cloudera</id>
   <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
 </repository>

设置maven内存

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

编译

mvm编译命令

./build/mvn -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package

#推荐使用
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz  -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

第二个命令，.sh文件中默认把maven内存设置了，跳过测试也默认加上了

编译完成后文件名：

spark-$VERSION-bin-$NAME.tgz

spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz

Spark Local模式环境搭建

这里由于编译比较慢，编译到一半就没进行下去，用的是官网的安装包，下载地址如下：

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.6.tgz

解压安装包

tar -zxvf spark-2.2.0-bin-hadoop2.6.tgz -C ~/app/

将spark配置到环境变量

$ vim ~/.bash_profile

export SPARK_HOME=/home/hadoop/app/spark-2.2.0-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH

$ source ~/.bash_profile
$ echo $SPARK_HOME

启动local模式

$ spark-shell --master local[2]

local[2] 2是指定多少个线程，不加默认单线程

监控页面

http://192.168.175.128:4040

Spark Standalong模式环境搭建

Spark Standalong模式的架构和Hadoop HDFS/YARN类似，

1 master + n worker

修改配置文件

spark-env.sh

$ cd $SPARK_HOME/conf
$ cp spark-env.sh.template spark-env.sh
$ vim spark-env.sh

# master 主机地址
SPARK_MASTER_HOST=hadoop000
# 每个worker节点所占有的CPU核数
SPARK_WORKER_CORES=2
# 每个worker节点能够最大分配给exectors的内存大小
SPARK_WORKER_MEMORY=2g
# 每台机器上开启的worker节点数
SPARK_WORKER_INSTANCES=1

spark-config.sh

$ cd $SPARK_HOME/sbin
$ vim spark-config.sh

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_201

在sbin目录下的spark-config.sh文件下未添加JAVA_HOME的索引.

启动master

$ cd $SPARK_HOME/sbin
$ ./start-all.sh

监控页面

http://192.168.175.128:8081/

多台机器可以修改slaves配置文件

hadoop0:master

hadoop1:worker

hadoop2:worker

slaver:

hadoop2

hadoop3

start-all.sh

会在hadoop0机器上启动master进程，在slaves文件配置的所有hostname的机器上启动worker进程

启动客户端

$ cd $SPARK_HOME/bin
$ spark-shell --master spark://hadoop000:7077

启动后在监控页面可以看到 Running Executors (1)

开发环境使用local即可

简单使用

Spark WordCount统计

scala> val file = spark.sparkContext.textFile("file:///home/hadoop/data/hello.txt")
scala> val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
scala> wordCounts.collect

hello.txt中内容

hello,world,hello
hello,world
welcome

执行结果

res1: Array[(String,Int)] = Array((hello,3), (welcome,1), (world,2))

原文地址：https://www.cnblogs.com/yanceyy/p/11978262.html

时间： 2024-09-29 00:27:52

Spark环境搭建的相关文章

Spark环境搭建（一）-----------HDFS分布式文件系统搭建

spark 环境搭建下载的压缩文件放在~/software/ 解压安装在~/app/ 一:分布式文件系统搭建HDFS 1,下载Hadoop HDFS环境搭建使用版本:hadoop-2.6.0-cdh5.7.0 下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz 解压:tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cd

Spark环境搭建（四）-----------数据仓库Hive环境搭建

Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题 2)构建中Hadoop上的数据仓库 3)Hive定义了一种SQL查询语言:HQL(类似SQl但又不完全相同) 4)通常进行离线处理(采用MapReduce) 5)多种不同的底层执行引擎(Hive on

大数据学习系列之六 ----- Hadoop+Spark环境搭建

引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了.在之前的大数据学习系列之一 ----- Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark 的环境.虽然搭建的是单机版,

iOS xmpp Openfire+spark环境搭建

配置这个遇到太多问题了,写下来分享首先到官网下载openfire+spark 下载地址:http://www.igniterealtime.org/downloads/index.jsp 安装 openfire 后如果不是如下图就安装spark会弹出一个框点详细信息下载java环境,安装好,就会和下图一样下面进行服务器配置下一步使用不需要标准数据库的就用自带的(我选的自带),接着下一步, 账号admin 密码,你设定的,没设定的话默认admin 如果无法登陆 com+shift+b前往文件

简单记录下spark环境搭建时的几个小问题

折腾了好几天,终于可以在CenOS下用eclipse写spark程序了当前环境是CentOS6.5,jdk7,scala2.10.4,spark0.9.1 前期因为对linux不熟悉的原因花了不少时间查阅命令.折腾了不少时间,终于把jdk8,scala2.11.0环境变量配置好了.在此环境下可以正常编译scala程序,但是在spark下运行sbt/sbt assembly时报了错误:rt.jar is broken.上google查了不少资料,大概是因为jdk8和jdk7之间的差异造成的,所以

iOS XMPP 探索研究：Openfire+spark环境搭建

首先到官网下载openfire+spark 下载地址:http://www.igniterealtime.org/downloads/index.jsp 选择MAC版下载dmg文件. 双击运行dmg文件,安装完成后,到finder->系统偏好设置->openfire->开启, 默认是开启的,然后点击进入管理页面,首先进入需要配置: 配置服务器: 选择中文配置域的时候,使用本机127.0.0.1,如果使用localhost,我这里出现用spark时,无法创建服务器,但是ping loca

Hadoop SPARK 环境搭建

http://www.linuxidc.com/Linux/2015-02/113486.htm http://www.cnblogs.com/lijingchn/p/5574476.html http://www.linuxidc.com/Linux/2015-02/113486p2.htm http://www.cnblogs.com/lijingchn/p/5573898.html

搭建Hbase和Spark环境

前期准备: 1.默认已经搭建好了hadoop环境(我的hadoop版本是2.5.0) 2.这里我用的Hbase是0.98.6,spark是1.3.0 一.搭建Hbase 1.上传Hbase安装包,将/opt/software下的hbase安装包解压到/opt/app目录下 2.进入hbase目录下,修改配置文件 1>修改hbase-env.sh文件将export JAVA_HOME = 你的Java安装路径,我的路径是/opt/app/jdk1.7.0_79 所以改完后是 export J

linux集群spark环境配置

第一章 linux集群spark环境配置一 Spark下载地址; http://spark.apache.org/downloads.html 图1 下载spark 图2 选择下载地址 Spark本身用scala写的,运行在JVM之上.JAVA版本:java 6 /higher edition.Jdk已经安装(版本) Hadoop提供存储数据的持久化层版本:hadoop-1.2.1Spark和scala需要安装在master和slave上面,配置步骤相同本次搭建的master为cluster,s