利用superlance监控supervisor运行状态

此文已由作者张家裕授权网易云社区发布。

欢迎访问网易云社区,了解更多网易技术产品运营经验。

最近开发问到supervisor管理下的进程重启了,有无办法做到主动通知,楼主最先想到的是supervisor自带的eventlistener,于是找到了下面的解决方法。

supervisor与superlance简介

supervisor是一款非常实用的进程管理工具,可以方便的通过命令开启、关闭、重启等操作,而且它管理的进程一旦崩溃会自动重启。在KM上面已有多篇文章介绍supervisor的优势以及使用技巧,此处对supervisor本身的介绍不予赘述。

这里主要介绍与supervisor协同工作的的利器superlance,是基于supervisor的事件机制实现的一系列命令行的工具集,它实现了许多supervisor本身没有实现的实用的进程监控和管理的特性,包括内存监控,http接口监控,邮件和短信通知机制等。同样的,superlance本身也是使用python编写的。

安装

由于superlance是一个python包,安装起来十分简单,通过easy_install或者pip就可以简单的安装:

easy_install superlance
pip install superlance

当然也可以到github上获得最新的源码(https://github.com/Supervisor/superlance)并安装。

python setup.py install

安装后执行以下httpok命令,如果该命令存在,则说明superlance已经正常安装了。

superlance的组件

superlance是一系列命令行工具的集合,其包括以下这些命令:

  1. httpok

    通过定时对一个HTTP接口进行GET请求,根据请求是否成功来判定一个进程是否处于正常状态,如果不正常则对进程进行重启。

  2. crashmail

    当一个进程意外退出时,发送邮件告警。

  3. memmon

    当一个进程的内存占用超过了设定阈值时,发送邮件告警。

  4. crashmailbatch

    类似于crashmail的告警,但是一段时间内的邮件将会被合成起来发送,以避免邮件轰炸。

  5. fatalmailbatch

    当一个进程没有成功启动多次后会进入FATAL状态,此时发送邮件告警。与crashmailbatch一样会进行合成报警。

  6. crashsms

    当一个进程意外退出时发送短信告警,这个短信也是通过email网关来发送的。

实际使用例子:

注意:在实际配置supervisor使用superlance之前,首先要安装sendmail,superlance使用这个命令行工具来发送email,利用各种包管理工具都可以简单的安装:

apt-get install sendmail

crashmail使用介绍

supervisor的配置内容如下:

cat /etc/supervisor/conf.d/redis.conf
[program:redis]
command=/usr/local/redis/bin/redis-server /home/redis/etc/redis.conf
directory=/usr/local/redis/bin/
user=mysql
autostart = trueautorestart = true#startsecs = 30stopwaitsecs = 1stopsignal = TERM
redirect_stderr = true
 [eventlistener:redis_monitor]
command=crashmail -p redis -m [email protected]
events=PROCESS_STATE_EXITED
redirect_stderr=false

首先配置了redis进程启动项目,随后配置了一个名为redis_monitor的事件监听器,它接受来自supervisor的PROCESS_STATE_EXITED事件,并且会触发crashmail的命令行调用。

PROCESS_STATE_EXITED是在一个supervisor的监控项对应的进程意外退出时会触发的事件,这就使得一个进程出现意外退出的情况下会通知到crashmail。

command参数中-p参数配置了crashmail只会对名为redis的监控项作出响应,而-m参数中则配置了崩溃邮件会被发送到的地址。

配置了上诉配置后,就可通过supervisorctl看到配置的两条内容,一条是redis监控项,另外一条则是事件监听器redis_monitor:

使用kill来杀掉redis进程

收到进程26039退出的邮件通知

该配置可以在进程重启时通过邮件的方式通知到用户。

memmon使用介绍

这里利用memmon监控进程的内存占用情况,这里有一段测试脚本:

这段脚本在执行的过程中会出现内存泄露的情况,导致内存占用越来越大,直至无法系统无法再分配内存导致程序异常退出,利用这段脚本我们可以配置一个memmon的事件监听来发出内存泄露的告警。

supervisor的配置如下:

[program:leak]
command=python /home/zhangjy/memoryleak.py
user=zhangjy
directory=/home/zhangjy
priority=999process_name=%(program_name)s
numprocs=1autostart = trueautorestart = truestopwaitsecs = 1stopsignal = TERM
exitcodes=0,2redirect_stderr = falsestdout_logfile_maxbytes = 1024MB
stdout_logfile_backups = 5stdout_logfile = /home/zhangjy/stdout.log
stderr_logfile_maxbytes = 1024MB
stderr_logfile_backups = 5stderr_logfile = /home/zhangjy/stderr.log
 
[eventlistener:leak_monitor]
command=memmon -p leak=1MB -m [email protected]
events=TICK_60
redirect_stderr=false

这里memmon事件监听器监听的是TICK_60事件,也就是每60秒间隔触发一次的事件,这使得memmon会每60秒检测一次对应的监控项的占用内存情况,这里设置的是监控leak监控项,如果其内存占用超过1MB,则会重启进程,并发送邮件进行告警。 起到该进程后,查看状态

运行60s后,leak进程的内存占用超过了1MB的告警值, leak的uptime也重置了,说明该进程已经被重启了,使得该进程可以保持正常运行,同时也达到了内存泄露告警的目的。

可以看到邮箱中收到了告警邮件:

利用superlance工具可以完成各种各样的告警需求,扩展了supervisor的功能,这些工具的具体使用方法可以参考官方文档:

https://superlance.readthedocs.org/en/latest/index.html

免费体验云安全(易盾)内容安全、验证码等服务

更多网易技术、产品、运营经验分享请点击

相关文章:
【推荐】 Java web 服务启动时Xss溢出异常处理笔记
【推荐】 react技术栈实践(2)

原文地址:https://www.cnblogs.com/163yun/p/9913128.html

时间: 2024-07-30 07:28:00

利用superlance监控supervisor运行状态的相关文章

LR如何利用siteScope监控MySQL性能

本次实验,是在自己的电脑上使用APMServ5.2.6部署Discuz2.X论坛下,对该论坛的数据库MySQL5.1进行性能测试的,下面讲述LoadRunner在设计场景时,如何利用siteScope工具监控MySQL数据库性能: 一.在网上下载siteScope 我在网上搜了很久,发现siteScope软件的下载资源很少,毕竟它是收费的,想找个破解版,不过还是有的,哈哈...但是版本旧了点siteScope7.9.5 下载地址:http://download.csdn.net/detail/y

Nagios利用NSClient++监控Windows主机(4)

在Nagios的libexec下有check_nt这个插件,它就是用来检查windows机器的服务的.其功能类似于check_nrpe.不过还需要搭配另外一个软件NSClient++,它则类似于NRPE.我们需要下载NSClient合适的版本,然后安装在被监控的windows主机上. Overview of NRPE NSClient++的原理如下图: 可以看到NSClient与nrpe最大的区别就是: NRPE: 被监控机上安装有nrpe,并且还有插件,最终的监控是由这些插件来进行的.当监控主

利用Zabbix监控Web性能和可用性

怎么利用Zabbix监控web性能和可用性呢? 我们这边分为几个步骤:打开网站.登陆.登陆验证.退出,一共4个小step,看实例. 检测流程 1. 打开网站:如果http code为200,并且响应的html中包含Zabbix SIA表示打开成功(zabbix页面有这个标示) 2. 登陆后台:post用户名和密码到index.php,如果响应200,那表示post成功.并且通过正则表达式从响应的html中匹配sid,这个sid也就是一个宏变量,退出可以使用到 3. 验证登陆:打开首页,检索htm

Nagios利用NRPE监控Linux主机(3)

一.利用NRPE监控远程Linux的"本地信息" 上面已经对远程Linux 主机是否存活做了监控,而判断远程机器是否存活,我们可以使用ping 工具对其监测.还有一些远程主机服务,例如ftp.ssh.http,都是对外开放的服务,即使不用Nagios,我们也可以试的出来,随便找一台机器看能不能访问这些服务就行了.但是对于像磁盘容量,cpu负载这样的"本地信息",Nagios只能监测自己所在的主机,而对其他的机器则显得有点无能为力.毕竟没得到被控主机的适当权限是不可能

利用shell监控cpu、磁盘、内存使用率

利用shell监控cpu.磁盘.内存使用率,达到警报阈值发邮件进行通知 并配合任务计划,即可及时获取报警信息 #!/bin/bash ############################################## #Author: Liuzhengwei - [email protected] #QQ:1135960569 #Last modified: 2017-04-19 21:50 #Filename: jiankong.sh #Description:  #########

实现Cacti监控nginx运行状态

生产环境如下: 操作系统:CentOS release 6.8 (Final) 实战任务:实现Cacti监控nginx运行状态 前期以实现Cacti对操作系统.数据库.Apache等象监,如下图: 对nginx安装编译过程省略,但要注意,编译安装nginx时,要开启此项--with-http_stub_status_module. 在/application/nginx/conf/extra/nginx_vhosts.conf,在该文件配置如下: server { listen 9090; se

编译安装 nginx的http_stub_status_module监控其运行状态

步骤: 1 编译nginx,加上参数 --with-http_stub_status_module 以我自己的编译选项为例: #配置指令 ./configure --prefix=/usr/local --user=nginx --group=nginx --with-http_ssl_module --with-http_realip_module --http-client-body-temp-path=/usr/local/var/tmp/nginx/client --http-proxy

利用Zabbix监控Lync的实时在线人数

大家都知道windows性能监控一般依靠性能计数器, Lync实时在线人数统计就是SQL数据库实时连接数. 使用windows性能监视器对Lync的实时在线人数进行监控. 这个数值就是lync的实时在线人数 通过zabbix监控 为了方便zabbix监控我们需要找出这个性能参数值 我们将SQL服务器的性能计数参数都导出来 我们需要为SQL服务器新建一个监控项目 键值为: perf_counter[\SQLServer:User Settable(User counter 1)\Query] 再为

C#实现软件监控外部程序运行状态的方法

本文实例讲述了C#实现软件监控外部程序运行状态的方法.分享给大家供大家参考.具体方法如下: 需要外挂一个程序,用于监控另一个程序运行状态,一旦检测到另一程序关闭,就触发一个事件做其他处理. using System.Diagnostics;//引入Process 类 private Process[] MyProcesses; MyProcesses = Process.GetProcessesByName("SajetManager");//需要监控的程序名,该方法带出该程序所有用到