Spark安装部署(local和standalone模式)

Spark运行的4中模式:

Local

Standalone

Yarn

Mesos

一、安装spark前期准备

1、安装java


$ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/


export JAVA_HOME=/opt/service/jdk1.7.0_67

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH


alternatives --config java

alternatives --install /usr/bin/java java /opt/java/jdk1.7.0_67/bin/java 3

alternatives --config java

--如果不修改这里,可能在安装spark组件时报错。

2、安装scala


tar -zxvf scala-2.10.4.tgz -C /opt/

配置环境变量后scala即安装成功。

3、安装hadoop

参考:http://www.cnblogs.com/wcwen1990/p/6739151.html

4、安装spark

1)local模式安装部署


tar -zxvf spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/

cd /opt/cdh-5.3.6/

mv spark-1.3.0-bin-2.5.0-cdh5.3.6/ spark-1.3.0

spark安装local模式安装成功,通过bin/spark-shell可以进行spark基本操作。


Local模式下spark基本测试:

bin/spark-shell

scala> sc.textFile("/opt/datas/wc.input")

scala> res0.collect

scala> sc.stop()

scala> exit

2)standalone模式安装spark


tar -zxvf spark-1.3.0-bin-2.5.0-cdh5.3.6.tgz -C /opt/cdh-5.3.6/

cd /opt/cdh-5.3.6/

mv spark-1.3.0-bin-2.5.0-cdh5.3.6/ spark-1.3.0


编辑slaves文件,添加worker节点:

db02


设置log4j日志,内容默认


配置spark-env.sh环境变量:

JAVA_HOME=/opt/java/jdk1.7.0_67

SCALA_HOME=/opt/scala-2.10.4

HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop-2.5.0/etc/hadoop

SPARK_MASTER_IP=db02

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=2

SPARK_WORKER_MEMORY=5g

SPARK_WORKER_PORT=7078

SPARK_WORKER_WEBUI_PORT=8081

SPARK_WORKER_INSTANCES=1

SPARK_WORKER_DIR=/opt/cdh-5.3.6/spark-1.3.0/data/tmp


配置spark-defaults.conf文件:不配置此选项运行spark服务还是在local模式下运行。

spark.master                     spark://db02:7077

-----------------------------------------------------------------------------------------------------------------------------------------

如果没有配置此选项,也可以通过bin/spark-shell命令通过指定--master参数指定其运行在哪种模式下,例如:

# bin/spark-shell --master spark://db02:7077

或者

# bin/spark-shell --master local


启动spark:

sbin/start-master.sh

sbin/start-slaves.sh


此时http://db02:8080/可以登录web浏览器访问,如下:


运行bin/spark-shell,可以在web端看到下面任务,这是配置了spark-default.conf文件,否则将看不到任务:


测试standalone模式spark:

bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/input/

bin/hdfs dfs -ls /user/hadoop/wordcount/

Found 1 items

drwxr-xr-x   - root supergroup          0 2017-05-22 14:47 /user/hadoop/wordcount/input

bin/hdfs dfs -put /opt/datas/wc.input /user/hadoop/wordcount/input

bin/hdfs dfs -ls /user/hadoop/wordcount/input

Found 1 items

-rw-r--r--   3 root supergroup         63 2017-05-22 14:48 /user/hadoop/wordcount/input/wc.input

---------------------------------------------------------------------------------------------------------------------------------------

scala> sc.textFile("hdfs://db02:8020/user/hadoop/wordcount/input/wc.input")

scala> res0.collect

scala> sc.stop()

scala> exit

时间: 2024-11-10 00:18:07

Spark安装部署(local和standalone模式)的相关文章

Spark安装部署| 运行模式

Spark 一种基于内存的快速.通用.可扩展的大数据分析引擎: 内置模块: Spark Core(封装了rdd.任务调度.内存管理.错误恢复.与存储系统交互): Spark SQL(处理结构化数据).Spark Streaming(对实时数据进行流式计算) . Spark Mlib(机器学习程序库包括分类.回归.聚合.协同过滤等).Spark GraghX(图计算):独立调度器.Yarn.Mesos 特点: 快( 基于内存.多线程模型(而mapReduce是基于多进程的).可进行迭代计算(而ha

spark 安装部署

一.安装spark依赖的内容 1.JDK spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python.java.Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致) 2.scala 由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译 3.配置SSH免密码登录 集群节点无密码访问,与安装Hadoop时一致 4

spark安装部署

spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python.java.Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致) 由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译. hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装ya

spark安装部署手册

官网下载spark安装包 上传到服务器使用命令tar -zxvf 解压缩 解压后的spark通过start-master.sh启动,此时有可能启动报错,找不到java_home,这是需要修改spark-config.sh,需要在里面加上export JAVA_HOME=jdk路径 主节点启动后,一般是占用8080端口,如果不是依次类推,8081.... ,从管理控制台获取URL地址. 启动从节点,使用 start-slave.sh <master-spark-URL>(该URL)是从spark

【源码学习之spark core 1.6.1 standalone模式下的作业提交】

说明:个人原创,转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656876.html 未完待续

【Spark】Spark的Standalone模式安装部署

Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,假设企业已经有 Yarn 或者 Mesos 环境.也是非常方便部署的. local(本地模式):经常使用于本地开发測试,本地还分为local单线程和local-cluster多线程; standalone(集群模式):典型的

spark2.10安装部署(集成hadoop2.7+)

这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章 因为这里是spark和hadoop集成,我已经预先启动好了hdfs 和 yarn:MapReduce History Server也是需要启动的,详情往下看 Spark安装包:概述 类别 与Hadoop打包在一起的安装包 ? 比如:spark-2.1.0-bin-hadoop2.7.tgz,spark版本为

Spark的运行模式(1)--Local和Standalone

Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos. 1. Local Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行.这也是部署.设置最简单的一种模式 2. Standalone Standalone是Spark自身实现的资源调度框架.如果我们只使用Spark进行大数据计算,不使用其他的计算框架(如MapReduce或者Storm)时,就采用Standalone模式. Stan

Apache Spark技术实战之6 --Standalone部署模式下的临时文件清理

问题导读 1.在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件? 2.在Standalone部署模式下分为几种模式? 3.在client模式和cluster模式下有什么不同? 概要 在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答. 从资源使用的方面来看,一个进程运行期间会利用到这四个方面的资源,分别是CPU,内存,磁盘和网络.进程退出之后,CPU,内存和网络