spark work目录处理 And HDFS空间都去哪了?

1、说在前面

过完今天就放假回家了(挺高兴),于是提前检查了下个服务集群的状况,一切良好。正在我想着回家的时候突然发现手机上一连串的告警,spark任务执行失败,spark空间不足。我的心突然颤抖了一下,于是赶紧去看服务器的磁盘容量:

#df  -h

确实,还剩下6.8G,赶紧排查是什么占用了空间。发现hadoop、spark站的空间比较大,一个50多G(data)、一个30多G(spark-events)。不对啊,这也没占多少啊,于是登录到hadoop的webui去看资源的使用情况:

发现Non DFS Used的值很大,接下来就是名词解释时间:

Capacity:可用的总空间

Used:已用的空间

Non DFS Used:非hdfs文件占用dfs的空间(侵占)

Remaining:剩余可用空间

发现Non DFS Used的值都很大,证明有很多的非hdfs文件侵占了大量的dfs空间。可以看到其中有一个加点只剩6.03G了。这个总空间的大小默认就是磁盘的大小,不过hadoop有个磁盘的配置项dfs.datanode.du.reserved,这个配置是设置hadoop保留一部分不用于hdfs存储的空间默认是0。

2、好了,明白这个后,开始去排查到底是什么文件侵占了dfs的空间。看了一下服务器上面部署的服务,有spark、hadoop(hdfs)、presto,如果是对大数据相对熟悉的人第一判断应该是spark,首先想到的是spark  work和spark-events,检查是否运行了history。简单科普一下,spark work存放的是一个spark work任务运行的依赖环境和日志输出,集群其他的节点都来这个地方拉取,spark-events存放的是运行日志,history  web就是去的这里的数据。经检查发现是work,已经201G了。

使用spark standalone模式执行任务,每提交一次任务,在每个节点work目录下都会生成一个文件夹,命名规则app-20180212191730-0249。该文件夹下是任务提交时,各节点从主节点下载的程序所需要的资源文件。 这些目录每次执行都会生成,且不会自动清理,执行任务过多会将内存撑爆。将历史没用的work目录下面的app目录删除:

3、解决方案

需要添加定时清理策略,只针对于standalong模式:

在spark-env.sh里面添加如下配置

export SPARK_WORKER_OPTS="

-Dspark.worker.cleanup.enabled=true

-Dspark.worker.cleanup.interval=1800

-Dspark.worker.cleanup.appDataTtl=3600"

注:

-Dspark.worker.cleanup.enabled=true:是否开启自动清理
-Dspark.worker.cleanup.interval=1800:清理周期,每隔多长时间清理一次,单位秒
-Dspark.worker.cleanup.appDataTtl=3600:保留最近多长时间的数据

参考:

https://spark.apache.org/docs/latest/spark-standalone.html

原文地址:https://www.cnblogs.com/cuishuai/p/8444386.html

时间: 2024-10-12 09:19:33

spark work目录处理 And HDFS空间都去哪了?的相关文章

Flume实时监控目录sink到hdfs

目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1.flume的配置,配置spoolDirSource_hdfsSink.properties,监控本地的一个目录,上传到hdfs一个目录下. agent1.channels = ch1agent1.sources = spoolDir-source1agent1.sinks = hdfs-sink1 # 定义channelagent1.channels.ch1.type =

du 命令,对文件和目录磁盘使用的空间的查看

Linux du命令也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间的查看,还是和df命令有一些区别的. 1.命令格式: du [选项][文件] 2.命令功能: 显示每个文件和目录的磁盘使用空间. 3.命令参数: -a或-all  显示目录中个别文件的大小. -b或-bytes  显示目录或文件大小时,以byte为单位. -c或--total  除了显示个别目录或文件的大小外,同时也显示所有目录或文件的总和. -k或--kilobytes  以KB(10

多个服务器总结: 将session保存到专门的一个服务器上,所有服务器都去请求数据共享Session

原理:多个服务器间想共享session,就相当于共享取多台主机上的一个变量,所以共享的思路就是让大家都能读取变量,实现的方法可以通过将session保存到专门的一个服务器上,所有服务器都去请求数据,也memcache实现session共享将这些服务器都配置成使用同一组Memcached服务器就可以, 一.提出问题: 为了满足足够大的应用,满足更多的客户,于是我们架设了N台Web服务器(N>=2),在多台Web服务器的情况下,我们会涉及到一个问题:用户登陆一台服务器以后,如果在跨越到另一台服务器的

曾经红火的中国互联网站长都去哪儿了?

曾经红火的中国互联网站长都去哪儿了? 高峰时期曾有过万人报名的中国互联网站长大会活动,今年却静悄悄. 知名个人站长卢松松在其博客爆料称,已经连续举办九届的活动今年停摆,并且活动在去年就改了名,原来的"站长"二字被抹去,取而代之的是互联网创业者大会. 早就有人唱衰站长,消息传开之后,"站长落伍论"重新占领市场.自媒体人楼东升一篇<创业这么热,为何站长消失了?>的网文更是引爆微信朋友圈,随之而来的探讨与反思无数. 中国互联网曾是众多个人站长缔造神话的行业.如

真实股市房市信托本质,金融故事三则:钱都去哪儿了?

什么叫做虚拟经济.泡沫经济.次贷危机.金融危机?看完本文这几个简短精辟故事,你就都知道了. 故事(1) 有一个商人到了一个山村,村子周围的山上全是猴子. 商人就和村子种地的农民说,我买猴子,100元一仅仅. 村民不知是真是假,试着抓猴子,商人果然给了100元. 于是全村的人都去抓猴子,这比种地合算得多了. 非常快商人买了两千多仅仅猴子,山上猴子非常少了. 商人这时又出价200元一仅仅买猴子,村民见猴价翻番,便又纷纷去抓,商人又买了,但猴子已经非常难抓到了. 商人又出价300元一仅仅买猴子,猴子差

携程在手,哪都去不了

最近互联网很不太平,玩起了连连蹲的游戏,网易蹲,网易蹲,网易蹲完支付宝蹲,支付宝蹲,支付宝蹲,支付宝蹲完携程蹲,携程蹲,携程蹲,携程蹲完好搜蹲,好搜蹲,好搜蹲,好搜蹲完... 携程以前的广告一直是"携程在手,想走就走",但是,从2015.5.28的11点09开始,携程网站便开始出现问题,从搜索引擎进入会提示404. 点击404页面的返回首页按钮后,打开的首页也不完整,并且提示网站暂时不能访问正在修复中 在携程网的官方发表的声明是这样写的"5月28日上午11:09,因携程部分服

基于spark的关系型数据库到HDFS的数据导入

package com.shenyuchong; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.spark.sql.SaveMode; import org.apache.spark.sql.SparkSession; import java.net.HttpURLCon

dglkjlkdsajglkjdslkgjlk空间都是立刻给家里的凯撒

http://w.dearedu.com/?q-1777298.html http://w.dearedu.com/?q-1777230.html http://w.dearedu.com/?q-1777163.html http://w.dearedu.com/?q-1777114.html http://w.dearedu.com/?q-1777051.html http://w.dearedu.com/?q-1776990.html http://w.dearedu.com/?q-1776

反对和规范空间都是高科技啊大哥

http://www.songtaste.com/user/10051423/info http://www.songtaste.com/user/10051424/info http://www.songtaste.com/user/10051433/info http://www.songtaste.com/user/10051442/info http://www.songtaste.com/user/10051456/info http://www.songtaste.com/user/