spark1.1.0部署standalone分布式集群

配置三个节点的spark集群，集群模式为standalone模式，其中sp1节点作为主节点，sp2节点和sp3节点为从节点。***注意所有操作均为root用户。

创建3个CentOS虚拟机，如下：

sp1 192.168.1.21 //master节点

sp2 192.168.1.22 //slave节点

sp3 192.168.1.23 //slave节点

配置/etc/sysconfig/network环境变量，如下：

在sp1节点上执行：vi /etc/sysconfig/network将HOSTNAME=localhost改成HOSTNAME=sp1

在sp2节点上执行：vi /etc/sysconfig/network将HOSTNAME=localhost改成HOSTNAME=sp2

在sp3节点上执行：vi /etc/sysconfig/network将HOSTNAME=localhost改成HOSTNAME=sp3

配置/etc/hosts主机名和IP地址映射关系，如下：

每个节点配置为：

192.168.1.21 sp1

192.168.1.22 sp2

192.168.1.23 sp3

关闭防火墙如下：

停止运行防火墙：service iptables stop

关闭防火墙自启动：chkconfig iptables off

验证防火墙是否关闭：chkconfig --list | grep iptables

生成ssh免密码登陆如下：

分别在每个节点上生成公钥私钥：

ssh-keygen -t rsa三次回车

cp id_rsa.put authorized_keys

将sp2节点和sp3节点的authorized_keys的内容复制到sp1节点上：

sp2节点上执行：ssh-copy-id -i sp1

sp3节点上执行：ssh-copy-id -i sp1

将sp1节点的authorized_keys(这个authorized_keys的内容是三个节点的公钥)的复制到sp2节点和sp3节点上：

sp1节点上执行：scp /root/.ssh/authorized_keys sp2:/root/.ssh/

sp1节点上执行：scp /root/.ssh/authorized_keys sp3:/root/.ssh/

配置ssh免密码登陆成功，验证如下：

sp1节点上执行：ssh sp2和ssh sp3

sp2节点上执行：ssh sp1和ssh sp3

sp3节点上执行：ssh sp2和ssh sp1

从网上下载jdk-6u45-linux-x64.bin文件，将这个文件使用WinSCP工具复制到sp1节点的/usr/local/jdk/下。

在sp1节点上安装jdk-6u45-linux-x64.bin，如下：

进入/usr/local/jdk/目录：cd /usr/local/jdk

为jdk-6u45-linux-x64.bin赋予执行权限：chmod u+x jdk-6u45-linux-x64.bin

将jdk-6u45-linux-x64.bin解压到/usr/local/jdk/文件夹下：./jdk-6u45-linux-x64.bin

将解压出来的jdk-1.6.43重命名为jdk6：mv jdk-1.6.43 jdk6

配置jdk到系统环境变量：vi /etc/profile添加内容如下：

export JAVA_HOME=/usr/local/jdk/jdk6

export PATH=.:$JAVA_HOME/bin:$PATH

使修改立即生效：source /etc/profile

验证jdk安装是否成功：java -version

从网上下载scala-2.9.3.tgz，spark-1.1.0-bin-hadoop2.4.tgz两个压缩包;将这两个压缩包使用WinSCP工具复制到sp1节点的/usr/local/spark1/下。

在sp1节点上安装scala-2.9.3.tgz，如下：

进入/usr/local/spark1/目录下：cd /usr/local/spark1/

解压scala-2.9.3.tgz：tar -zxvf scala-2.9.3.tgz

重命名解压出来的scala-2.9.3为scala：mv scala-2.9.3 scala

配置scala到系统环境变量：vi /etc/profile添加内容如下：

export SCALA_HOME=/usr/local/spark1/scala

export PATH=.:$SCALA_HOME/bin:$JAVA_HOME/bin:$PATH

使修改立即生效：source /etc/profile

验证scala安装是否成功：scala 或者 scala -version

在sp1节点上安装spark-1.1.0-bin-hadoop2.4.tgz，如下：

进入/usr/local/spark1/目录下：cd /usr/local/spark1/

解压spark-1.1.0-bin-hadoop2.4.tgz：tar -zxvf spark-1.1.0-bin-hadoop2.4.tgz

重命名解压出来的spark-1.1.0-bin-hadoop2.4为spark：mv spark-1.1.0-bin-hadoop2.4 spark

配置scala到系统环境变量：vi /etc/profile添加内容如下：

export SPARK_HOME=/usr/local/spark1/spark

export PATH=.:$SPARK_HOME/bin:$SCALA_HOME/bin:$JAVA_HOME/bin:$PATH

使修改立即生效：source /etc/profile

配置spark运行依赖的/usr/local/spark1/spark/conf/spark-env.sh文件，添加内容如下：

export SCALA_HOME=/usr/local/spark1/scala

export JAVA_HOME=/usr/local/jdk/jdk6

export SPARK_MASTER_IP=sp1

export SPARK_WORKER_CORES=1

export SPARK_WORKER_MEMORY=512m

export SPARK_WORKER_PORT=8888

export SPARK_WORKER_INSTANCES=1

配置spark的从节点/usr/local/spark1/spark/conf/slaves文件，将默认的localhost修改为如下：

sp1

sp2

sp3

配置成功后，将环境变量，/usr/local/spark1和/usr/local/jdk复制到sp2和sp3节点上，如下：

复制sp1节点环境变量到sp2节点：scp /etc/profile sp2:/etc/

复制sp1节点环境变量到sp3节点：scp /etc/profile sp3:/etc/

***注意：环境变量复制成功后需要分别在sp2节点和sp3节点上执行命令使修改立即生效：source /etc/profile

复制sp1节点解压出来配置好的spark和scala到sp2节点：scp -r /usr/local/* sp2:/usr/local/

复制sp1节点解压出来配置好的spark和scala到sp3节点：scp -r /usr/local/* sp3:/usr/local/

***注意：按照上述步骤完成后即可启动spark集群。

启动spark命令：start-all.sh

[[email protected] sbin]# start-all.sh

starting org.apache.spark.deploy.master.Master, logging to
/usr/local/spark1/spark/sbin/../logs/spark-root-org.apache.spark.deploy.master.Master-1-sp1.out

sp3: starting org.apache.spark.deploy.worker.Worker, logging to
/usr/local/spark1/spark/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-sp3.out

sp2: starting org.apache.spark.deploy.worker.Worker, logging to
/usr/local/spark1/spark/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-sp2.out

sp1: starting org.apache.spark.deploy.worker.Worker, logging to
/usr/local/spark1/spark/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-sp1.out

验证spark启动是否成功1：分别在三个节点上执行jps命令，结果如下为正确(忽略进程号)：

sp1

2305 Worker

2156 Master

2410 Jps

sp2

2057 Worker

2138 Jps

sp3

2056 Worker

2136 Jps

验证spark启动是否成功2：在浏览器中输入localhost:8080验证是否启动成功。

停止spark命令：stop-all.sh

至此spark的standalone模式集群(3个节点)部署完成。

在h2的yarn上部署spark集群

时间： 2024-12-06 16:30:46

spark1.1.0部署standalone分布式集群的相关文章

Linux下部署Kafka分布式集群，安装与测试

注意:部署Kafka之前先部署环境JAVA.Zookeeper 准备三台CentOS_6.5_x64服务器,分别是:IP: 192.168.0.249 dbTest249 Kafka IP: 192.168.0.250 Other250 Kafka IP: 192.168.0.251 webTest251 Kafka 一.安装Kafka # tar zxvf kafka_2.9.1-0.8.2.2.tgz -C /usr/local/ # cd /usr/local/kafka_2.9.1-0.

spring-session实现分布式集群session的共享

前言 HttpSession是通过Servlet容器创建和管理的,像Tomcat/Jetty都是保存在内存中的.但是我们把应用搭建成分布式的集群,然后利用LVS或Nginx做负载均衡,那么来自同一用户的Http请求将有可能被分发到多个不同的应用中.那问题来了,如何保证不同的应用能够共享同一份session数据呢?最简单的想法,就是把session数据保存到内存以外的一个统一的地方,例如Memcached/Redis等数据库中.那问题又来了,如何替换掉Servlet容器创建和管理的HttpSess

GaussDB T 1.0.2分布式集群部署故障总结

之前安装GaussDB T 1.0.2分布式集群的时候,安装过程中会报segmentation fault错误,如下: [[email protected] ~]$ gs_install -X /mnt/Huawei/db/clusterconfig.xml Parsing the configuration file. Check preinstall on every node. Successfully checked preinstall on every node. Creating

spark1.6分布式集群环境搭建

1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群. 2. 安装环境本安装说明的示例环境部署如下: IP 外网IP hostname 备注 10.47.110.38 120.27.153.137 iZ237654q6qZ Master.Slaver 10.24.35.51 114.55.56.190 iZ23pd81xqaZ Slaver 10.45.53.136 114.55.11.55 iZ23mr5ukpzZ

solr 集群（SolrCloud 分布式集群部署步骤）

SolrCloud 分布式集群部署步骤安装软件包准备 apache-tomcat-7.0.54 jdk1.7 solr-4.8.1 zookeeper-3.4.5 注:以上软件都是基于 Linux 环境的 64位软件,以上软件请到各自的官网下载. 服务器准备为搭建这个集群,准备三台服务器,分别为 192.168.0.2 -- master 角色192.168.0.3 -- slave 角色192.168.0.4 -- slave 角色搭建基础环境安装 jdk1.7 - 这个大家都会安装

分布式实时日志系统（四）环境搭建之centos 6.4下hbase 1.0.1 分布式集群搭建

一.hbase简介 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务.因此,它可以容错地存储海量稀疏的数据.HBase在列上实现了BigTable论文提到的压缩算法.内存操作和布隆过滤器.HBase的表能够作为MapReduce任务的输入和输出,可以通过Java API来存取数据,也可以

solrCloud 4.9 分布式集群部署及注意事项

环境搭建一.zookeeper 参考:http://blog.chinaunix.net/uid-25135004-id-4214399.html 现有4台机器 10.14.2.201 10.14.2.202 10.14.2.203 10.14.2.204 安装zookeeper集群在所有机器上进行 1.下载安装包解压 tar xvf zookeeper-3.4.5.tar.gz -C /export/ cd /export/ ln -s zookeeper-3.4.5 zookeeper

超详细从零记录Hadoop2.7.3完全分布式集群部署过程

超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Hadoop格式化.启动.(首更时间2016年10月27日) 主机名/hostname IP 角色 hadoop1 192.168.193.131 ResourceManager/NameNode/SecondaryNameNode hadoop2 192.168.193.132 NodeManager/

redis3.0.2 分布式集群安装详细步骤

redis3.0.2 分布式集群安装详细步骤 --(centos5.8 X64系统) 版本历史时间版本说明编写者 2015-06-5 1.0 redis3.0.2 分布式集群安装详细步骤 csc 一: redis cluster介绍篇 1:redis cluster的现状目前redis支持的cluster特性(已亲测): 1):节点自动发现 2):slave->master 选举,集群容错 3):Hot resharding:在线分片 4):进群管理:cluster xxx 5):基于

猜你喜欢

sed 实践案例（不定期更新）

删除每行第一个字符 sed -r 's/^.//g' /etc/passwd 删掉每行第二个字符 sed -r 's/^(.)(.)/\1/g' /etc/passwd 删掉每行最后一个字符 sed ...

mysql中bigint、int、mediumint、smallint 和 tinyint的取值范

mysql数据库设计,其中,对于数据性能优化,字段类型考虑很重要,搜集了些资料,整理分享出来,这篇为有关mysql整型bigint.int.mediumint.smallint 和 tinyint的语 ...

HTTP基础02--HTTP协议简介

客户端和服务器端: 仅从一条通信路线来说,服务器端和客户端是确定的: HTTP协议规定,通信一定是先从客户端开始建立,服务器端在没有接受到请求之前不会发送响应: 不保存状态: HTTP是无状态协议,对 ...

2.3.1 基本数据类型和运算符

1 在C语言中,要求运算对象必须是整型的运算符是 % 2 int i = j = 5:→这个定义方法是错的:note: each undeclared identifier is reported o ...

创建场景——03风域

学习笔记适合新手,如有错误请指正.?号处也请各位指点下,谢谢. 实现树的摆动,增加风域(Wind Zone) 点击导航菜单栏>GameObject>3D Object>Wind Zo ...

Install .NET Framework 4.5.2 on a Cloud Service Role

October Guest OS rollout is starting today October 15 2015, and projected to be released on November ...

Java系列学习(五)-流程控制语句

1.顺序结构 1.if语句 (1)图例 (2)三种格式 A:格式1 B:格式2 C:格式3 2.swich语句图例: 格式: [注]input可以是byte,short,int,char:JDK5以 ...

fork( )函数详解

一.fork入门知识一个进程,包括代码.数据和分配给进程的资源.fork()函数通过系统调用创建一个与原来进程几乎完全相同的进程, 也就是两个进程可以做完全相同的事,但如果初始参数或者传入的变量不 ...

leetcode_18 4Sum

Given an array S of n integers, are there elements a, b, c, and d in S such that a + b + c + d = tar ...

jquery中的$(document).ready(function() {});

当文档载入时执行function函数里的代码, 这部分代码主要声明,页面加载后 "监听事件" 的方法.例如: $(document).ready( $("a") ...

SDWebImage的实现原理（UIImageView+WebCach）

1.作用: SDWebImageView的功能很强大,其中UIImageView+WebCach.h的功能主要是下载图片,设置图片缓存. 2.原理: 下载图片的原理:通过图片的网站地址URL异步下载图 ...

ios 静态库冲突的解决办法

最近在做一个 iOS 的 cocos2d-x 项目接入新浪微博 SDK 的时候被“坑”了,最后终于顺利的解决了.发现网上也有不少人遇到一样的问题,但是能找到的数量有限的解决办法写得都不详细,很难让人理 ...

笔记-Microsoft SQL Server 2008技术内幕：T-SQL语言基础-10 可编程对象

关于批处理下列语句不能在同一批处理中和其他语句同时编译:CREATE DEFAULT.CREATE FUNCTION.CREATE PROCEDURE.CREATE RULE.CREATE SCHE ...

3D语音天气球（源码分享）——通过天气服务动态创建3D球

转载请注明本文出自大苞米的博客(http://blog.csdn.net/a396901990),谢谢支持! 开篇废话: 这个项目准备分四部分介绍: 一:创建可旋转的"3D球":3 ...

Kafka Tools

参考, https://cwiki.apache.org/confluence/display/KAFKA/System+Tools https://cwiki.apache.org/confluen ...

rman RMAN-06059: expected archived log not found

用rman备份数据库加上plus archivelog 备份归档日志报这个错误RMAN-00571: ================================================ ...

Phalcon 连接多个数据库

Phalcon连接多个数据库的时候需要配置多个连接 'tutorial' => [ //'adapter' => 'mysql', 'host' => '127.0.0.1', 'p ...

一种坠落的无知感---祭奠、致敬、反思三年生涯

不知道如何开场,就从自我介绍和借用一首麦词把. 我叫还我飘飘群.很多人都奇怪这个名字,也许是作为程序员的一种公认的奇葩,虽然我职业生涯最终并不是想做程序员,但目前程序员是必经之路,我也自豪和骄傲的说, ...

使用Web Deploy进行发布

在我们日常发布过程中,经常会遇到文件频繁增量更新,需要手动复制拷贝到远程服务器的问题.这样不仅耗时耗力,而且经常容易出错. 通常我们可以使用Web Deploy进行发布,解决以上问题. 我们再来看下W ...

python的subprocess无法进行通信（无法通过管道输入数据）的问题解决

1.在主进程使用 p.stdin.write("something\n") 要有回车!要有回车!要有回车! 2.在子进程使用 data = raw_input() 读取数据,再用 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.