Spark HistoryServer服务迁移

由于目前spark的历史服务所在的机器内存不太够,导致spark的hisstory server经常卡死。所以决定将该服务迁移到一台内存稍微多点的机器上,并将historyserver内存由原来的3g调整为8g,下面开始记录一下本次操作过程的步骤,方便以后进行查阅. 我们的生产环境采用的是spark on yarn的模式.

1. 首先查看一下原本historyserver的启动用户:启动用户为hadoop, 所以后续的进程启动也应该是hadoop用户,这点绝对不能错

2. 将spark文件夹copy到hadoop2-client机器,修改权限为chown -R hadoop:hadoop spark-2.1.0-bin-hadoop2.7/ , 后续切换到hadoop账号进行操作

3. 开始修改spark的配置文件:

    配置spark-defaults.conf:

      spark.eventLog.enabled=true

      spark.eventLog.compress=true

      spark.eventLog.dir=hdfs://xxx/sparklogs ##sparklogs目录要提前创建

      spark.yarn.historyServer.address=hadoop2-client:18080

      ##hadoop2-client:18080指的是historyserver的地址,所以要在hadoop2-client上启动historyserver

    注:在conf/spark-defaults.conf配置文件中,每行是key-value对,中间可以是用空格进行分割,也可以直接用等号进行分割;

    配置spark-env.sh

      export SPARK_DAEMON_MEMORY=8g ##设置histroyserver的内存

      export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=50 -Dspark.history.fs.logDirectory=hdfs://xxx/sparklogs"

    注:以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog开头的配置在spark-defaults.conf;

    4.停止原来的historyserver,然后将修改完成之后将这两个配置文件copy到其它机器的spark配置中

    5.在新的机器上启动Historyserver:

      启动:在hadoop2-client上执行:sbin/start-history-server.sh ###进程名为HistoryServer

一个问题:spark.history.fs.logDirectory和spark.eventLog.dir指定目录有啥区别?

     spark.eventLog.dir:Application在运行过程中所有的信息均记录在该属性指定的路径下;

     spark.history.fs.logDirectory:Spark History Server页面只展示该指定路径下的信息;

参考:
http://blog.csdn.net/guanjunjian59/article/details/51427044
http://blog.csdn.net/oufuji/article/details/50370490

原文地址:https://www.cnblogs.com/wuxilc/p/9219069.html

时间: 2024-10-29 05:38:42

Spark HistoryServer服务迁移的相关文章

spark historyserver 页面反应很慢 jvm堆调参

我们的spark historyserver 最近页面打开很慢 jstat -gcutil pid 1000 发现full gc 相当严重 查看堆大小,发现默认堆1G,打算修改到4G jps -lvm |grep pid 30283 org.apache.spark.deploy.history.HistoryServer -Xmx1g 步骤 vi spark-env.sh # 加添 export SPARK_DAEMON_MEMORY=4096m # 重启 historyserver服务 sb

CDH5上安装Hive,HBase,Impala,Spark等服务

Apache Hadoop的服务的部署比较繁琐,需要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装. Cloudera Manager提供两种软件包安装源,Package 和 Parcel: Package就是一个个rpm文件,以yum的方式组织起来. Parcel是rpm包的压缩格式,以.parcel结

开源WebGIS实施方案(六):空间数据(PostGIS)与GeoServer服务迁移

研发环境的变更,或者研发完成进行项目现场实施.运维的时候,经常就会面临数据及服务的迁移,这其中就包含空间数据以及GeoServer服务的迁移工作. 这里需要提醒的是:如果采用的是类似的开源WebGIS技术方案,建议迁移前后的软件环境保持一致,以免发生一些意想不到的问题. 空间数据(PostGIS)迁移 这里借用PostgreSQL自带的pgAdmin3工具来进行数据的备份与恢复. 数据备份 数据恢复 数据恢复需要针对已存在的数据库进行操作,所以需要迁移的PostgreSQL里没有目标数据库,就需

ArcGIS for Sever 10.1 服务迁移与恢复

=== 声明:以下内容本是自己写给单位内部同事的参考手册,但是被传到百度文库中.陆续有用户就这方面的问题,通过电话,邮件等方式联系我.首先,感到荣幸.其次是,由于本人当时测试和编写的时候,由于仓促,可能有存在着缺陷的地方.如果大家在实际的工作中,按照这个方式出现问题或者想和我交流的话,请在该文章下面留言,尽量回复大家.最后,个人不代表单位,也不代表官方. 该文章百度文库的连接如下: 我是度娘 下面的内容与文库有点不一样,修改了诸如图片序列,错别字等低级错误. === 在实际的工作环境中,服务的备

Spark HistoryServer之Jetty简单使用

这两天在看Spark HistoryServer的代码,发现里面使用了Jetty,下面简单描述下Jetty的使用 有两个Servlet:HelloServlet和WorldServlet package com.luogankun.servlet; import java.io.IOException; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servle

安装PHP以及搭建博客(三)服务迁移分离

LNMP服务环境都在一台机器上(IP:125),现在要做到把mysql服务迁移出来(IP:129),把图片文件迁移到NFS服务器上(IP:130) mysql服务器(129) 安装mysql配置过程(下载略) useradd mysql -s /sbin/nologin -M mkdir -p /application tar xf mysql-5.5.59-linux-glibc2.12-x86_64.tar.gz mv mysql-5.5.59-linux-glibc2.12-x86_64

bitbucket灾难恢复或者服务迁移指南

? 注意:本教程适合bitbucket的灾难恢复或者服务迁移 前提条件已经使用bitbucket backup client 做了备份 环境说明 * centos 7* SQL Server 2012* Java 1.8* Bitbucket old edition - Atlassian Bitbucket v6.3.0new edition - Atlassian Bitbucket v6.10.0 术语bitbucket.home 指bitbucket的数据目录例如: /var/atlas

微服务迁移记(五):WEB层搭建(3)-简单的权限管理

一.redis搭建 二.WEB层主要依赖包 三.FeignClient通用接口 以上三项,参考<微服务迁移记(五):WEB层搭建(1)> 四.SpringSecurity集成 参考:<微服务迁移记(五):WEB层搭建(2)-SpringSecurity集成> 五.FreeMarker集成 参考:<微服务迁移记(五):WEB层搭建(3)-FreeMarker集成> 六.简单权限管理 实现一个简单的到按钮级权限管理,基于数据库扩展.不支持数据级权限,菜单只到二级(可以扩展至

Spark history-server 配置 !运维人员的强大工具

spark  history Server产生背景 以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息:但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录: Spark history Server就是为了应对这种情况而产生的,通过配置可以在Application执行的过程中记录下了