监控的那些事儿

不知不觉中,自己已经成了一个老员工。这么多年,基本可以说或大或小,监控都是工作的一部分。负责监控的工作可以说从根本上提升了我的技术能力,但是并不是负责监控就能提升技术能力,最重要的还是自己对自身能力的认同。

无论是早期的OVO、之前的Nagios或是现在的Zabbix,作为扩展能力较强的监控系统(其实不光光是监控系统)来说,自带的功能能够满足我们需求的70%~80%,那些无法满足的怎么办呢,扔那里么?负责监控,就需要将力所能及的部分都实现了。

“你的能力有多大,你的责任就有多大”——这句话想必看过《蜘蛛侠》的朋友们都很耳熟。自身的能力如同一个瓶子,大小由你的看法设定,装多少、装什么由你的行动决定。监控的工作就是这样,有些事不是你做就是SA做,做了对能力有提升,做不了的没办法,能做而不想做的只能撇撇嘴了。

一日,需求分析时,获知要在Windows系统中检测某些cmd脚本的运行情况,处理步骤如下:

1、查找监控系统是否支持此功能——主要的功能都在脑海中,比较偏门的就不太清楚了,好像有吧——查得支持Linux的,Windows真可怜。

2、不支持此功能,我们能否通过脚本实现?Windows下脚本环境有BAT、VBS、Powershell、WMI等等,其中一个能够实现就可以了。所谓外事不决问Google,Google不稳定么,HTTPS的总可以了吧,金盾二期依然搞不定HTTPS。网上只要有一个案例就够了。

3、等等,第2步该我们管么?我们不是只负责监控么——监控工作包含服务器端和客户端,其实SA(系统管理员)应当只提需求的。但是现实是人手依然紧张,部分需求可能SA能够自身完成的我们就拜托给SA了。其他的我们应当尽可能实现,多学一些总是好的。

因此负责监控的领域知识和专业度要求比较高,比如对Windows的了解,为了要明白监控什么,如何监控,你必须对Windows整体有一个大概的了解,知道那些计数器能够反映什么,知道那些内容是可以通过脚本获取的,哪些不能等等。这些方向,其实前期内部Windows培训都有介绍过,不过很浅而已。

当然,部分特殊的对象我们可能没有办法监控,比如说某系统页面是用内部的一个网页表示系统状态,使用了红黄绿3个灯,要求监控红灯亮起时的状态——看了下源码,尼玛不管亮不亮,灯所使用的图片名字都不变的……爱莫能助了。

4、实现之后就要部署,调试等工作在测试环境中做就行了,别拿到正式环境中,否则很难说没有影响,调试出问题那就麻烦大了,切记。

5、这还没完,部署之后要确保正常监控——也就是说,当SA部署完成后,各项指标应当是正常的,我们不能在部署后监控状态一直处于故障状态(话说首次告警可以检测通知规则配置正常没:)),所以必须要全部正常后才能说监控配置工作完成了。

6、最后就是总结下,哪些工作做了,哪些工作没做(什么原因),反馈给SA和相关人员确认,至此,工作完成。

负责监控的我们现在多做一些工作,监控的质量就能提升一些,SA就轻松一些(虽然对于SA能力提升没什么帮助)。

另外,希望咱们的SA未来都会脚本,Windows下Powershell、BAT、VBS(太多了吧,请联系MS,他们没事就知道乱搞),Linux下主要就是Shell、Python了。脚本能够解决工作中的不少问题。

时间: 2024-08-05 16:41:47

监控的那些事儿的相关文章

构建Hadoop监控共同体

HDFS监控背后那些事儿,构建Hadoop监控共同体 原创: 应用研发部 京东云 2018-12-19 https://mp.weixin.qq.com/s/kulwDgwu-rYf4SvQ1dOwcw 原文地址:https://www.cnblogs.com/yuanjiangw/p/10941154.html

每个程序媛妹子都应该知道的那些事儿之--Linux服务器监控命令

(1) iostat 这个命令可以检测存储设备是否工作正常,显示存储系统的细节,可以看到每个磁盘的IO情况,也可以监控到CPU 的使用状态. 14:52 [[email protected]]$ iostat Linux 2.6.18-308.el5 (aaa) 2014年08月22日 avg-cpu: %user %nice %system %iowait %steal %idle 4.65 0.00 0.78 0.02 0.00 94.55 Device: tps Blk_read/s Bl

有些事儿,工程师可能今生仅此一次

郑昀 创建于2016/9/15 最后更新于2016/9/18 关键词:深度思考,碎片化阅读,做论文,深入研究, 早先在<技术高手如何炼成>一文中提到,我会问面试者,你日常如何构建自己的知识体系.有人会觉得你怎么就问出这么宏大的问题?知识体系,这是什么鬼? 面试时的交谈 工作之后你做过这样的事情吗? 面试是一个谁主张谁举证的过程,有时候需要面试者举出实例,自我证明. 而我认为问一些我们工作中遇到的难题和业务场景是在“欺负”面试者,所以我喜欢问开放型问题: 在你工作之后,你有没有像做毕业论文一样对

Cacti 模板(图形模板、数据模板、主机模板)与自定义监控脚本

Cacti定义了三种类型的模板,分别是 主机模板 数据模板 图形模板     主机模板(Host templates),它是图像模板和数据查询的一个集合,描述了监控某一类型的机器需要生成那些图像. 数据模板(Data templates),它描述了 Cacti 存储哪些数据到指定类型的 RRD 文件.该模板与 RRDTool 工具的 create 命令相关. 图形模板(Graph templates),描述了生成的一张图像应该是什么样子的.包括使用哪些数据模板.展示哪些元素.是否使用 CDEF

MVC之前的那点事儿系列(1)进入CLR(转载)

MVC之前的那点事儿系列(1)进入CLR MVC之前的那点事儿系列,是笔者在2012年初阅读MVC3源码的时候整理的,主要讲述的是从HTTP请求道进入MVCHandler之前的内容,包括了原创,翻译,转载,整理等各类型文章,当然也参考了博客园多位大牛的文章,对此表示感谢,这次有时间贴出来,希望对大家有用. 主要内容 本文讲解的是:服务器接受Http Request请求之后,是如何进入.Net CLR,从而进一步操作的. 我们大家都知道,IIS必须先接受请求,然后才能有机会进入CLR,但对请求(r

[Android]XML那些事儿-manifest属性1

在Froyo(android 2.2,API Level:8)中引入了android:installLocation.通过设置该属性可以使得开发者以及用户决定程序的安装位置. android:installLocation隶属于AndroidManifest.XML中的manifest节点.如下所示: <manifest xmlns:android="http://schemas.android.com/apk/res/android"package="string&q

一件大事儿与一些小事儿

前天晚上做了一件"大事"--核心业务系统数据库服务器迁移,用新采购的两台高配服务器代替原有的两台低配. 如果上面只是部署了数据库应用倒也好说. 两台主从复制,主库还好,从库呢,netstat一下监听的东西真不少!其他的业务包括(均要拆分走): web端合同数据实时备份 监控服务端 日志与行为收集服务端 此处是被忽略了的邮件发送客户端配置 也就是说除了要在新的服务器上部署新的系统(操作系统之前不统一,这次统一了),配置新版本的sql应用(升级为更新的稳定版),目录与用户管理重新做之外,还

基于phantomJS实现web性能监控

转载,原文链接http://www.webryan.net/2013/02/web-page-test-based-on-phontomjs/ 1.web性能监控背景描述 上期分享的<Web性能监控自动化探索之路–初识WebPageTest>从依赖webpagetest的角度给出了做性能日常检查的方案,但由于依赖结构相对复杂我们需要给出更简单的解决方案.测试同学没有快速投入的主要原因也是语言和维护成本相对比较大.但解决方案是多种多样的.那么我们再看下这个需求的本质:针对内外网环境需要定期对站点

数据库监控体系建设(一)

这篇文章先总结一下数据库监控体系建设那些事儿,下一篇文章描述具体的详细部署过程 1. 背景 作为核心IT业务模块,数据库的重要性毋庸置疑,数据库的稳定运行直接关系到应用系统的可用.稳定.高效性.因此,为确保数据库稳定.高效的运行,我们需要面临如下两个挑战 1.        数据库运行过程中的危险因子,怎么及时发现? 2.        数据库发生故障或因某些原因导致处于不正常工作状态时,怎样及时发现? 为了解决上述的两个难点,必须建立数据库监控体系,7*24实时监控数据库的运行状态,在数据库即