Spark Standalone模式环境搭建

前提:安装好jdk1.7,hadoop

安装步骤:

1、安装scala

下载地址:http://www.scala-lang.org/download/

配置环境变量:

export SCALA_HOME=/..../scala

export PATH=.:$SCALA_HOME/bin   ....

验证:scala -version

2、安装spark

使用自己编译过的对应自己hadoop的spark

配置环境变量:

export SPARK_HOME=/.../spark

export PATH=.:$SPARK_HOME/bin   ....

修改spark配置文件:

1)$SPARK_HOME/conf/spark-env.sh

export SPARK_MASTER_IP=hadoop000

export SPARK_WORKER_CORES=1     #WorkNode分出几核给spark使用

export SPARK_WORKER_INSTANCES=1  #WorkNode使用几个spark实例,一般一个就行了

export SPARK_WORKER_MEMORY=1G  #WorkNode分出多少内存给spark使用

export SPARK_WORKER_PORT=8888     #指定spark运行时的端口号

2)$SPARK_HOME/conf/slave.sh

配置worknode节点hostname,一行配置一个

3、启动spark

$SPARK_HOME下的sbin和bin说明:
sbin:存放的是启动和停止spark集群等的命令;
bin:存放的是应用程序(spark-shell)启动和停止等的命令。

启动spark集群(sbin目录下):start-all.sh

启动后浏览器访问:http://hadoop000:8080/

注:hadoop000为hostname

启动spark-shell(bin目录下):

1)单机启动方式:spark-shell

2)集群启动方式:

spark-shell --master spark://hadoop000:7077

默认情况下Application的Memory是512M,申请所有的CPU资源;

指定executor的memory和cpu core数:spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1

注意:executor-memory是每个worker占用的,而executor-cores是所有worker一共占用

具体参数配置的来源:SparkSubmit.scala中的options属性

为了启动方便起见,可以将master配置到spark-env.sh中

export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

再启动spark-shell时,只需要: spark-shell

如果要指定参数,则使用:spark-shell --executor-memory 2g --total-executor-cores 1

Spark Standalone模式环境搭建

时间: 2024-10-07 22:50:38

Spark Standalone模式环境搭建的相关文章

spark JAVA 开发环境搭建及远程调试

spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息.以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文. 1. 环境介绍 本地开发环境是:IDEA2018.JDK8.windows 10.远程服务器 Ubuntu 16.04.3 LTS上安装了spark-2.3.1-bin-hadoop2.7 看spark官网

Spark Standalone模式

Spark Standalone模式 安装Spark Standalone集群 手动启动集群 集群创建脚本 提交应用到集群 创建Spark应用 资源调度及分配 监控与日志 与Hadoop共存 配置网络安全端口 高可用性 基于Zookeeper的Master 本地系统的单节点恢复 除了运行在mesos或yarn集群管理器中,spark也提供了简单的standalone部署模式.你可以通过手动启动master和worker节点来创建集群,或者用官网提供的启动脚本.这些守护进程也可以只在一台机器上以便

在myeclipse中使用Java语言进行spark Standalone模式应用程序开发

一.环境配置 Myeclipse中虽然已经集成了maven插件,但是由于这个插件版本较低,建立maven project会出现错误. 解决办法:自己到官网http://maven.apache.org/下载最新版本的maven插件,解压,在环境变量中注册. 新建环境变量M2_HOME 在PATH里加入maven的bin的路径 配置完毕后,在Windows命令提示符下,输入mvn -v测试一下,配置成功显示如图: 配置成功后,还需要在Myeclipse中用新的maven插件将就得替换掉,如图: 二

Windows下基于eclipse的Spark应用开发环境搭建

原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3822985.html 一.软件下载 maven下载安装 :http://10.100.209.243/share/soft/apache-maven-3.2.1-bin.zip       jdk下载安装:          http://10.100.209.243/share/soft/jdk-7u60-windows-i586.exe(32位)         http://10.100.209.243/sh

Hadoop+Spark:集群环境搭建

环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.04.2-server-amd64.iso): 192.168.1.200 master 192.168.1.201 node1 192.168.1.202 node2 在Master上安装Spark环境: 具体请参考我的文章:<Hadoop:搭建hadoop集群> Spark集群环境搭建: 搭建h

关于Spark下的standalone模式的搭建

1.介绍standalone Standalone模式是Spark自身管理资源的一个模式,类似Yarn Yarn的结构: ResourceManager: 负责集群资源的管理 NodeManager:负责当前机器的资源管理 CPU&内存 Spark的Standalone的结构: Master: 负责集群资源管理 Worker: 负责当前机器的资源管理 CPU&内存 2.在local得基础上搭建standalone 3.修改env.sh 4.修改slave 5.启动

spark standalone模式 zeppelin安装

1.  前置条件 None root account Apache Maven Java 1.7 2. 源码 https://github.com/apache/incubator-zeppelin git clone https://github.com/apache/incubator-zeppelin 3. 编译 本地模式:mvn clean package -DskipTests 集群模式:  mvn clean package -Pspark-1.4 -Dspark.version=1

JS 设计模式(工厂模式环境搭建)

<!--引入的核心JS文件--> <script type="text/javascript" src="CommonUtil.js"></script> <script type=text/javascript charset=utf-8> <!--JS设计模式(工厂模式)--> //搭建一个工厂环境 //卖车店 function CarShop(){}; CarShop.prototype={ cons

spark standalone模式的HA

参照官网文档:High Availability 一共有2中模式,基于文件系统.基于zookeeper. 1.基于文件系统,即将master的信息同步到某个文件目录中,当一个master挂掉之后,会启动宁外一个master读取目录的信息,正在执行的spark应用数据就不会丢失了.按照文档所说,在spark-env.sh中设置如下参数,重启即可. SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deplo