Spark配置Job History Server

PS：在运行Spark应用程序的时候，driver会提供一个webUI给出应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口，也就是说，Spark应用程序运行完后，将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的，通过配置，Spark应用程序在运行完应用程序之后，将应用程序的运行信息写入指定目录，而Spark history server可以将这些运行信息装载并以web的方式供用户浏览。

配置Job History Server

1.启动HDFS并创建directory目录

#start-dfs.sh

#hdfs dfs -mkdir /directory

2.进入到spark安装目录conf目录下

#cd /opt/software/spark-2.2.0-bin-hadoop2.7/conf

3.将spark-default.conf.template复制为spark-default.conf

#mv spark-defaults.conf.template spark-defaults.conf
#vi spark-defaults.conf　　　　在文件的末尾添加
spark.eventLog.enabled true 　　开启日志
spark.eventLog.dir hdfs://hadoop01:8020/directory 　　存储路径
spark.eventLog.compress true　　是否压缩

参数描述：
spark.eventLog.dir：Application在运行过程中所有的信息均记录在该属性指定的路径下
spark.eventLog.compress 这个参数设置history-server产生的日志文件是否使用压缩，true为使用，false为不使用。这个参数务可以成压缩哦，不然日志文件岁时间积累会过

4.修改spark-env.sh文件，添加如下配置

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=10 -Dspark.history.fs.logDirectory=hdfs://hadoop01:8020/directory"

spark.history.ui.port=4000 调整WEBUI访问的端口号为4000
spark.history.retainedApplications=10 指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。
spark.history.fs.logDirectory=hdfs://hadoop01:8020/directory 配置了该属性后，在start-history-server.sh时就无需再显式的指定路径，Spark History Server页面只展示该指定路径下的信息

5.配置完成后分发文件到相应节点
scp -r ./spark-env.sh [email protected]:$PWD
scp -r ./spark-defaults.conf [email protected]:$PWD

ps:最好不要是用IE内核的浏览器不然效果是显示不出来的，启动的时候是
start-all.sh start-history-server.sh

原文地址：https://www.cnblogs.com/yumengfei/p/12028920.html

时间： 2024-11-06 15:30:24

Spark配置Job History Server

Spark配置Job History Server的相关文章

Spark学习笔记-使用Spark History Server

Spark history Server配置实用

Spark History Server配置使用

Spark History Server 配置部署

Spark1.0.0 history server 配置

Spark history Server产生背景

hadoop 配置history server 和timeline server

spark 查看 job history 日志

spark配置详解