蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验

一、集群原先配置:

从机名sparkMaster,Ubuntu12.04-32 ,用户名Root , 内存4g    (只用于任务调度和分配,不做计算节点)

从机名sparkSlave1,Ubuntu12.04-32 ,用户名Root , 内存4g    (计算节点)

从机名sparkSlave2,Ubuntu12.04-32 ,用户名Root , 内存1.7g (计算节点)

二、扩展原因:计算数据量增大,原先的两个工作节点已不不能满足实时性的需求,由于实验室计算资源有限,故将原先的调度节点也增加为计算节点,即扩展后的sparkMaster既是调度节点也是计算节点。

三、修改配置流程:cd /usr/local/spark/spark-1.0.2-bin-hadoop2/conf

vim slaves 修改slaves文件,将原先只有sparkSlave1、sparkSlave2的内容增添sparkMaster,保存退出;

(本来只需上面一步即可,但由于之前将spark-env.sh中的SPARK_WORKER_MEMORY=1g,内存过小会直接影响内存计算的容量,导致大文件频繁地读写磁盘而消耗大量时间,所以想将其修改为sparkSlave2最大的内存容量1.6g(SPARK_WORKER_MEMORY由集群中节点内存的最小值决定,也就是“木桶原理”),修改spark-env.sh文件,保存退出)

四、错误现象:master可以正常启动 ,但是worker启动时报错:

五、错误分析:分析其日志文件 cat   /usr/local/spark/spark-1.0.2-bin-hadoop2/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-zhangbo.out发现是SPARK_WORKER_MEMORY=1.6g造成的数据格式错误,这里不能用浮点数,只能使用整型,修改回原值后spark集群启动正常:

此时通过控制台也可以看见工作的worker节点由三个,说明集群扩展成功:

时间: 2024-10-08 03:15:11

蜗龙徒行-Spark学习笔记【三】Spark集群中worker节点扩展实战经验的相关文章

Hadoop学习笔记—13.分布式集群中的动态添加与下架

开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点. 一.实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构,其中三个从节点的性能配置各不相同,这里我们主要在虚拟机中的内存设置这三个从节点分别为:512MB.512MB与256MB.首先,我们暂时只设置两个从节点,另外一个作为动态添加节点的时候使用.主节点与

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点. 一.实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构,其中三个从节点的性能配置各不相同,这里我们主要在虚拟机中的内存设置这三个从节点分别为:512MB.512MB与256MB.首先,我们暂时只设置两个从节点,另外一个作为动态添加节点的时候使用.主节点与

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面

Etcd学习(三)集群搭建Clustering中Leader问题

参考我前面的一篇文章(点击这里),前面引入一个在Etcd集群环境下的关键性问题: 三个Etcd节点组成Clustering应该访问那个(进行操作请求)??? (1)针对读取操作三个任意一个都可以,即使它不是leader (2)针对写入操作,好像只能通过连接leader来进行写入. 我有一个由三个节点组成的集群(127.0.0.1:4001.127.0.0.1:4002以及127.0.0.1:4003),有一个连接到集群开启定时器定时注册服务(实际上是定时创建带TTL的Node)的程序,如下所示:

Oracle 学习之RAC(八) 向集群中添加节点

我们前面安装了两个节点的RAC. 我们现在将第三个节点11grac3,添加到我们集群中.第三个节点一定要按照集群环境准备一文描述,准备环境.请参考 http://lqding.blog.51cto.com/9123978/1684159 安装前检查 11grac1-> pwd /u01/app/11.2.0/grid/bin 11grac1-> ./cluvfy stage -pre nodeadd -n 11grac3 -fixup -verbose 检查结果 Performing pre-

Spark学习笔记—01 Spark集群的安装

一.概述 关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上.Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流. 2.易用 Spark支持Java.Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Sp

Spark 学习笔记之 Spark history Server 搭建

在hdfs上建立文件夹/directory hadoop fs -mkdir /directory 进入conf目录  spark-env.sh 增加以下配置 export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7777 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://bjsxt/directory" spark-defaults

Spark学习笔记-使用Spark History Server

在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是 说,Spark应用程序运行完后,将无法查看应用程序的历史记录.Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history server可以将这些运行信息装载并以web的方式供用户浏览. 要使用history server,对于提交应用

Elasticsearch学习笔记-03.1集群健康

本文系本人根据官方文档的翻译,能力有限.水平一般,如果对想学习Elasticsearch的朋友有帮助,将是本人的莫大荣幸. 原文出处:https://www.elastic.co/guide/en/elasticsearch/reference/current/_cluster_health.html 让我们以一个基础的健康检查开始,用这个检查我们可以得知我们的集群工作状态如何.咱们来使用curl做这个检查,不过你也可以使用任何能发起HTTP/REST请求的工具来做这个练习.假设我们仍旧在启动E