2.Spark 2.x 集群部署和测试

配置免密度登录

执行 ssh-keygen -t rsa
#建立 ssh 目录,一路敲回车, 生成的密钥对 id_rsa, id_rsa.pub,
默认存储在~/.ssh 目录下

chmod 755 .ssh #赋予 755 权限
cd .ssh
#ls – l
id_rsa id_rsa.pub

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys把公用密匙添加到 authorized_keys 文件中(此文件最后一定要赋予 644 权限) 

现在给slave1节点设置公钥

执行 ssh-keygen -t rsa
#建立 ssh 目录,一路敲回车, 生成的密钥对 id_rsa, id_rsa.pub,
默认存储在~/.ssh 目录下

chmod 755 .ssh #赋予 755 权限
cd .ssh
#ls – l
id_rsa id_rsa.pub

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys把公用密匙添加到 authorized_keys 文件中(此文件最后一定要赋予 644 权限) 

ssh slave1 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

有几个 slave 节点就需要运行几次命令, slave1 是节点名称
scp ~/.ssh/authorized_keys slave1:~/.ssh/
#把 authorized_keys 文件拷贝回每一个节点, slave1 是节点名称 

可以看到能相互之间实现了免密码登录。

解压 Scala Spark

1、 删除 cdh 中的 Spark:
rm -rf /usr/bin/spark*
rm -rf /etc/spark

2、 上传至 spark-2.0.0-preview-bin-hadoop2.6.tgz 和 scala-2.11.8.tgz 至 /opt/soft/spark2.0 下, 并进行解压

tar -zxf scala-2.11.8.tgz
tar -zxf spark-2.0.0-bin-hadoop2.6.tgz 

vi /etc/profile, 增加如下内容:

export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export SPARK_HOME=/opt/soft/spark2.0/spark-2.0.0-bin-hadoop2.6
export SCALA_HOME=/opt/soft/spark2.0/scala-2.11.8
export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin:$SPARK_HOME/bin:$HADOOP_HOME=/bin:$SCALA_HOME/bin
export HADOOP_CONF_DIR=/etc/hadoop/conf

source /etc/profile 起效

两个节点都配置环境变量

3、 修改 SPARK_HOME/conf 下
mv slaves.template slaves , slaves 里配置工作节点主机名列表

mv spark-env.sh.template spark-env.sh , spark-env.sh 配置一些环境变量, 由于我们用 Yarn 模式,
这里面不用配置

4、 运行测试
在 2.0 之前, Spark 在 YARN 中有 yarn-cluster 和 yarn-client 两种运行模式, 建议前者。
而在 2.0 里--master 的 yarn-cluster 和 yarn-client 都 deprecated 了, 统一用 yarn 。

用 run-example 方便测试环境:
run-example SparkPi               local 模式运行

分布式模式运行:
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 1 --driver-memory 1g --executor-memory 1g --executor-cores 1 --conf "spark.app.name=SparkPi" /opt/soft/spark2.0/spark-2.0.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.0.0.jar

可以看到报错了

内存不足, 报错的话, 在 cm 里进行 yarn 的配置, 如下 2 个设置为 2g:
yarn.scheduler.maximum-allocation-mb
yarn.nodemanager.resource.memory-mb

搜索

部署客户端配置的作用: 把 cm 界面里修改过的参数同步到每个节点的 xml 配置文件里。
然后重启 Yarn 服务起效

原文地址:https://www.cnblogs.com/braveym/p/12024024.html

时间: 2024-10-31 11:32:45

2.Spark 2.x 集群部署和测试的相关文章

集群部署及测试SolrCloud-5

SolrCloud-5.2.1 集群部署及测试 一. 说明 Solr5内置了Jetty服务,所以不用安装部署到Tomcat了,网上部署Tomcat的资料太泛滥了. 部署前的准备工作: 1. 将各主机IP配置为静态IP(保证各主机可以正常通信,为避免过多的网络传输,建议在同一网段). 2. 修改主机名,配置各主机映射:修改hosts文件,加入各主机IP和主机名的映射. 3. 开放相应端口或者直接关闭防火墙. 4. 保证Zookeeper集群服务正常运行.Zookeeper的部署参考:http://

redis3.0集群部署和测试

redis3.0集群部署和测试 环境介绍 两台Centos7的虚拟机模拟6个节点,A台3个master节点,B台3个slave节点A地址:172.16.81.140B地址:172.16.81.141redis版本:redis-3.2.4 部署前准备 关闭防火墙--->systemctl stop firewalld开机禁用防火墙--->systemctl disable firewalld临时关闭selinux--->setenforce 0永久关闭selinux--->sed -

Spark概述及集群部署

Spark概述 什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基

SolrCloud-5.2.1 集群部署及测试

一. 说明 Solr5内置了Jetty服务,所以不用安装部署到Tomcat了,网上部署Tomcat的资料太泛滥了. 部署前的准备工作: 1. 将各主机IP配置为静态IP(保证各主机可以正常通信,为避免过多的网络传输,建议在同一网段). 2. 修改主机名,配置各主机映射:修改hosts文件,加入各主机IP和主机名的映射. 3. 开放相应端口或者直接关闭防火墙. 4. 保证Zookeeper集群服务正常运行.Zookeeper的部署参考:http://www.cnblogs.com/wxisme/p

hbase集群部署与测试(2017)

部署hbase的集群首先我们要需要一个hadoop集群.至少要有一个hdfs的集群和zookeeper集群用HA集群的可用性号,由于做实验,没必要这么多集群,那么就不用HA集群第一步看一下hdfs是否正常启动hdfsstart-dfs.sh启动zookeeper看是否正常(每台机器上都手动启动zookeeper)./zkServer.sh start检查zookeeper的工作状态./zkServer.sh status我们可以输入hdfs dfsadmin -report 来查看集群的工作信息

redis集群部署配置

Redis集群部署配置 测试环境:服务器系统为centos6.5,redis版本为3.2.2,使用一台机器,模拟6个redis实例来创建redis集群,其中3主3从 分别建立redis的安装目录,并复制redis.conf到安装目录下. 2.修改每个目录下的redis.conf配置文件 port 7000   #端口 daemonize yes cluster-enabled yes   #开启集群模式 cluster-config-file nodes-7000.conf  #集群配置文件 c

Spark standalone安装(最小化集群部署)

Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    软件      进程    sc1        192.168.1.61    spark    Master.Worker    sc2        192.168.1.62    spark    Worker    sc3        192.168.1.63    spark    W

06、部署Spark程序到集群上运行

06.部署Spark程序到集群上运行 6.1 修改程序代码 修改文件加载路径 在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改代码中文件加载路径为hdfs路径: ... //指定hdfs路径 sc.textFile("hdfs://mycluster/user/centos/1.txt") ... ? 修改master地址 SparkConf中需要指定master地址,如果是集群上运行,也可以不指定,运行时可以通

Spark的介绍和集群部署

介绍 1.spark处理大数据的统一分析计算引擎: a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍: b.易用性:spark提供多种语言的API,如Java.Python.Scala.R.SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark SQL.spark Stresaming.spark MLLib和图计算: d.运行: spark支持在hadoop.Hadoop, Apache Mesos, Kubernetes, standalo