spark编译安装及部署

1、下载并编译spark源码

下载spark http://spark.apache.org/downloads.html 我下载的是1.2.0版本

解压并编译，在编译前，可以根据自己机器的环境修改相应的pom.xml配置，我的环境是hadoop2.4.1修改个小版本号即可，编译包括了对hive、yarn、ganglia等的支持

tar xzf ~/source/spark-1.2.0.tgz
cd spark-1.2.0
vi pom.xml
./make-distribution.sh --name 2.4.1 --with-tachyon --tgz -Pspark-ganglia-lgpl -Pyarn -Pkinesis-asl -Phive-0.13.1 -Phive-thriftserver -Phadoop-2.4 -Djava.version=1.6 -Dhadoop.version=2.4.1 -DskipTests

注：spark每个版本发布后，可能都会对pom.xml配置做出相应的调整，请根据pom.xml文件中的配置，对应调整编译时的参数。

2、spark相关配置

将编译后的.tgz文件解压，配置环境变量及spark配置文件，如下：

环境变量：（仅列出spark相关的配置）

export SCALA_HOME=/home/ocdc/bin/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH

export SPARK_HOME=/home/ocdc/bin/spark-1.2.0-bin-2.4.1
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin:

spark-env.sh

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=17077
export SPARK_MASTER_WEBUI_PORT=18080

export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_WEBUI_PORT=18081
export SPARK_WORKER_INSTANCES=1

#配置master的HA时，需要配置此项，ZK需要提前启动
#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,node1:2181,node2:2181"

slaves

node1
node2
node3

spark-default.conf

spark.master                     spark://master:17077

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://cluster1:8021/eventLogDir

spark.executor.memory	         512m
spark.driver.memory              512m

复制spark到各个节点

scp -r ~/bin/spark-1.2.0-bin-2.4.1/ [email protected]:~/bin/
scp -r ~/bin/spark-1.2.0-bin-2.4.1/ [email protected]:~/bin/
scp -r ~/bin/spark-1.2.0-bin-2.4.1/ [email protected]:~/bin/

3、启动spark（master单点）

cd $SPARK_HOME
sbin/start-all.sh

4、spark (基于zookeeper的master节点HA)

配置zookeeper集群，使用master、node1、node2三个节点，有关zookeeper集群的配置此处略过。三个节点启动zookeeper

zkServer.sh start

spark-env.sh配置文件增加zookeeper相关配置(注：因为HA后，master可以为多个，所以在配置文件中不可指定SPARK_MASTER_IP，否则无法正常启动)

#export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=17077
export SPARK_MASTER_WEBUI_PORT=18080

export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_WEBUI_PORT=18081
export SPARK_WORKER_INSTANCES=1
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,node1:2181,node2:2181"

master节点启动spark

sbin/start-all.sh

node1节点启动HA

sbin/start-master.sh

5、启动spark-shell

1)单个master进程启动

bin/spark-shell --master spark://master:17077

2）HA模式启动

bin/spark-shell --master spark://master:17077,node1:17077

6、启动history-server

在node1节点启动history-server,相关配置已经在spark-defaults.conf中配置

sbin/start-history-server.sh hdfs://cluster1:8020/eventLogDir

时间： 2024-10-24 00:00:36

spark编译安装及部署的相关文章

Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包.SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1.时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2.maven下载大文件是多线程进行,而SBT是

Spark编译安装和运行

一.环境说明 Mac OSX 10.10.3 Java 1.7.0_71 Spark 1.4.0 二.编译安装 tar -zxvf spark-1.4.0.tgz cd spark-1.4.0 ./sbt/sbt assembly ps:如果之前执行过编译,需要执行 ./sbt/sbt clean 清理后才能重新编译. 三.运行 adeMacBook-Pro:spark-1.4.0 apple$ ./bin/spark-shell log4j:WARN No appenders could b

CRFPP/CRF++编译安装与部署

下载CRF++ https://taku910.github.io/crfpp/#download 说明:在上面网站中下载CRF++ 0.58 解压 tar zxf CRF++-0.58.tar.gz -C /usr/local/ 说明:将文件解压到/usr/local/目录下编译安装CRF++-0.58 cd /usr/local/CRF++-0.58 ./configure make make install 配置ld.so.conf vim /etc/ld.so.conf 添加: inc

Spark编译与部署

Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建 [注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建.Hadoop编译安装和Spark编译安装,该环境作为后续实验基础: 3.文章演示了Hadoop.Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些

Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建

[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建.Hadoop编译安装和Spark编译安装,该环境作为后续实验基础: 3.文章演示了Hadoop.Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些编译好的安装包进行部署. 1.运行环境说明 1.1 硬软件环境 l 主机

Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

[注]该系列文章以及使用到安装包/測试数据能够在<[倾情大奉送–Spark入门实战系列] (http://blog.csdn.net/yirenboy/article/details/47291765)>获取 1 编译Hadooop 1.1 搭建好开发环境 1.1.1 安装并设置maven 1.下载maven安装包.建议安装3.0以上版本号,本次安装选择的是maven3.0.5的二进制包,下载地址例如以下 http://mirror.bit.edu.cn/apache/maven/maven

编译安装zabbix 3.0及分开部署配置详解

实验系统:CentOS 6.6_x86_64 实验前提:提前准备好编译环境,防火墙和selinux都关闭实验说明:本实验共有4台主机,IP及角色分配如拓扑下载地址:试验中用到mariadb软件的下载地址,http://pan.baidu.com/s/1bnnYiMr 实验拓扑: 一.准备工作 1.修改hostname和hosts文件为如下表格中内容: 说明:mysql是zabbix数据存放主机,server是zabbix主服务主机,web是zabbix前端展示主机,agent是被监控主机.通

Linux服务器集群架构部署搭建（六）数据库服务器MySQL编译安装及主从同步配置(1)

命运是大海,当你能够畅游时,你就要纵情游向你的所爱,因为你不知道狂流什么会到来,卷走一切希望与梦想. 作者:燁未央_Estelle声明:测试学习,不足之处,欢迎指正. 第一章数据库企业应用场景 1.1 数据库的企业应用 MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性.MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言.MySQL软件采用了双授权政策,它分为社区版和商业版,由于其体积小.速度快.总

Spark standalone安装（最小化集群部署）

Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式) 集群规划: 主机 IP 软件进程 sc1 192.168.1.61 spark Master.Worker sc2 192.168.1.62 spark Worker sc3 192.168.1.63 spark W