一、背景
实习的时候做了一段时间php + web前端,然后入职的时候开始做基础运维(python)以及web前端,顺便写了一两个structs页面的后台代码(java),现在准备专职做spark相关业务(scala)。这些经历现在回想起来,真是乱如麻,当初是怎么扛下来的。
目前手上有10多台机器专门用于spark服务,准备接业务需求,需要做好相关监控,要是服务挂了,老板那不好过关。
二、监控项
1.端口监控
目前使用的是spark on yarn,因此需要监控resource manage 以及 node manage,准备加上公司那套端口监控服务
2.application监控
yarn提供一套rest api<详细链接>,基于这个API,我们可以通过脚本获得application运行的详细信息,目前尚未开发,这个星期内完成吧
3.机器基础监控
这个不用详述,很多公司应该都有一套基础监控系统,监控诸如磁盘,负载,swap等情况
三、待定
这个帖子尚未写完,后续完成监控部署之后再来进行详细补充
时间: 2024-12-28 17:51:41