Spark环境搭建

Spark官网和下载地址

官网

http://spark.apache.org/

spark-2.2.0源码下载链接

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0.tgz

spark-2.2.0安装包下载连接

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.6.tgz

官方文档

进入官网:http://spark.apache.org/

官网查看编译步骤如下图所示,也可以直接访问http://spark.apache.org/docs/latest/building-spark.html

编译前置条件

自Spark 2.2.0起已删除了对Java 7,Python 2.6和2.6.5之前的旧Hadoop版本的支持。

从2.3.0版本开始,不再支持Scala 2.10。

从Spark 2.4.1开始不支持Scala 2.11,它将在Spark 3.0中删除。

这里以2.2.0为例子

编译环境

jdk8

Scala 2.11.8

mvn 3.5.4

由于maven中没有cdh版本的hadoop版本所以增加cloudera仓库,在spark目录下的pom.xml文件repositories下增加

 <repository>
   <id>cloudera</id>
   <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
 </repository>

设置maven内存

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

编译

mvm编译命令

./build/mvn -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package

#推荐使用
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz  -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

第二个命令,.sh文件中默认把maven内存设置了,跳过测试也默认加上了

编译完成后文件名:

spark-$VERSION-bin-$NAME.tgz

spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz

Spark Local模式环境搭建

这里由于编译比较慢,编译到一半就没进行下去,用的是官网的安装包,下载地址如下:

http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.6.tgz

解压安装包

tar -zxvf spark-2.2.0-bin-hadoop2.6.tgz -C ~/app/

将spark配置到环境变量

$ vim ~/.bash_profile

export SPARK_HOME=/home/hadoop/app/spark-2.2.0-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH

$ source ~/.bash_profile
$ echo $SPARK_HOME

启动local模式

$ spark-shell --master local[2]

local[2] 2是指定多少个线程,不加默认单线程

监控页面

http://192.168.175.128:4040

Spark Standalong模式环境搭建

Spark Standalong模式的架构和Hadoop HDFS/YARN类似,

1 master + n worker

修改配置文件

spark-env.sh

$ cd $SPARK_HOME/conf
$ cp spark-env.sh.template spark-env.sh
$ vim spark-env.sh

# master 主机地址
SPARK_MASTER_HOST=hadoop000
# 每个worker节点所占有的CPU核数
SPARK_WORKER_CORES=2
# 每个worker节点能够最大分配给exectors的内存大小
SPARK_WORKER_MEMORY=2g
# 每台机器上开启的worker节点数
SPARK_WORKER_INSTANCES=1

spark-config.sh

$ cd $SPARK_HOME/sbin
$ vim spark-config.sh

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_201

在sbin目录下的spark-config.sh文件下未添加JAVA_HOME的索引.

启动master

$ cd $SPARK_HOME/sbin
$ ./start-all.sh

监控页面

http://192.168.175.128:8081/

多台机器可以修改slaves配置文件

hadoop0:master

hadoop1:worker

hadoop2:worker

slaver:

hadoop2

hadoop3

start-all.sh

会在hadoop0机器上启动master进程,在slaves文件配置的所有hostname的机器上启动worker进程

启动客户端

$ cd $SPARK_HOME/bin
$ spark-shell --master spark://hadoop000:7077

启动后在监控页面可以看到 Running Executors (1)

开发环境使用local即可

简单使用

Spark WordCount统计

scala> val file = spark.sparkContext.textFile("file:///home/hadoop/data/hello.txt")
scala> val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
scala> wordCounts.collect

hello.txt中内容

hello,world,hello
hello,world
welcome

执行结果

res1: Array[(String,Int)] = Array((hello,3), (welcome,1), (world,2))

原文地址:https://www.cnblogs.com/yanceyy/p/11978262.html

时间: 2024-07-30 15:13:50

Spark环境搭建的相关文章

Spark环境搭建(一)-----------HDFS分布式文件系统搭建

spark 环境搭建 下载的压缩文件放在~/software/    解压安装在~/app/ 一:分布式文件系统搭建HDFS 1,下载Hadoop HDFS环境搭建    使用版本:hadoop-2.6.0-cdh5.7.0 下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz 解压:tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cd

Spark环境搭建(四)-----------数据仓库Hive环境搭建

Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题 2)构建中Hadoop上的数据仓库 3)Hive定义了一种SQL查询语言:HQL(类似SQl但又不完全相同) 4)通常进行离线处理(采用MapReduce) 5)多种不同的底层执行引擎(Hive on

大数据学习系列之六 ----- Hadoop+Spark环境搭建

引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了.在之前的大数据学习系列之一 ----- Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark 的环境.虽然搭建的是单机版,

iOS xmpp Openfire+spark环境搭建

配置这个遇到太多问题了,写下来分享 首先到官网下载openfire+spark 下载地址:http://www.igniterealtime.org/downloads/index.jsp 安装 openfire 后如果不是如下图就安装spark会弹出一个框点详细信息下载java环境,安装好,就会和下图一样 下面进行服务器配置 下一步使用不需要标准数据库的就用自带的(我选的自带),接着下一步, 账号admin 密码,你设定的,没设定的话默认admin 如果无法登陆 com+shift+b前往文件

简单记录下spark环境搭建时的几个小问题

折腾了好几天,终于可以在CenOS下用eclipse写spark程序了 当前环境是CentOS6.5,jdk7,scala2.10.4,spark0.9.1 前期因为对linux不熟悉的原因花了不少时间查阅命令.折腾了不少时间,终于把jdk8,scala2.11.0环境变量配置好了.在此环境下可以正常编译scala程序,但是在spark下运行sbt/sbt assembly时报了错误:rt.jar is broken.上google查了不少资料,大概是因为jdk8和jdk7之间的差异造成的,所以

iOS XMPP 探索研究:Openfire+spark环境搭建

首先到官网下载openfire+spark 下载地址:http://www.igniterealtime.org/downloads/index.jsp 选择MAC版下载dmg文件. 双击运行dmg文件,安装完成后,到finder->系统偏好设置->openfire->开启, 默认是开启的,然后点击进入管理页面,首先进入需要配置: 配置服务器: 选择中文 配置域的时候,使用本机127.0.0.1,如果使用localhost,我这里出现用spark时,无法创建服务器,但是ping loca

Hadoop SPARK 环境搭建

http://www.linuxidc.com/Linux/2015-02/113486.htm http://www.cnblogs.com/lijingchn/p/5574476.html http://www.linuxidc.com/Linux/2015-02/113486p2.htm http://www.cnblogs.com/lijingchn/p/5573898.html

搭建Hbase和Spark环境

前期准备: 1.默认已经搭建好了hadoop环境(我的hadoop版本是2.5.0) 2.这里我用的Hbase是0.98.6,spark是1.3.0 一.搭建Hbase 1.上传Hbase安装包,将/opt/software下的hbase安装包解压到/opt/app目录下 2.进入hbase目录下,修改配置文件 1>修改hbase-env.sh文件 将export  JAVA_HOME = 你的Java安装路径,我的路径是/opt/app/jdk1.7.0_79 所以改完后是 export  J

linux集群spark环境配置

第一章 linux集群spark环境配置一 Spark下载地址; http://spark.apache.org/downloads.html 图1 下载spark 图2 选择下载地址 Spark本身用scala写的,运行在JVM之上.JAVA版本:java 6 /higher edition.Jdk已经安装(版本) Hadoop提供存储数据的持久化层版本:hadoop-1.2.1Spark和scala需要安装在master和slave上面,配置步骤相同本次搭建的master为cluster,s