关于系统运维监控的几点建议

目前很多企业信息化系统都有自己的监控平台和监控手段,无论是采用哪种手段去实现对系统的实时监控和故障告警,大多采用的方式也只有两种:集中式监控和分布式监控。本文作者根据自身公司监控存在的问题,总结了一些经验并提出一些在监控平台的建议,以供大家参考学习,如有考虑不周的地方还希望大家多多批评指正。

为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测机制,统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识,就是了解服务器有可能出现哪些严重的问题,出现这些问题后该如何去迅速处理。比如数据库的数据丢失,日志容量过大,被黑客入侵等等。

一、上线之前的准备工作

1、首先是备份,做好定时备份策略,备份所有你认为重要的数据,并且定期检查你的备份是否有效、全面;

2、日志轮换,无论你想用哪种轮换方式,控制日志增长避免驱动器已满是你的目的;

3、做一定的安全措施,如防火墙iptables的访问控制,用denyhosts防止黑客远程暴力破解;

4、mysql远程登录权限等等;

5、最后就是服务器、网元设备的监控。

二、监控策略

1、定义告警优先级策略

一般的监控到的结果是成功或者失败,如Ping不通、访问网页出错、连接不到Socket,发生时这些称之为故障,故障是最优先的告警。除此之外,还能监控到返回的延时、内容等,如Ping返回的延时、访问网页的时间、访问网页取到的内容等。利用返回的结果可以自定义告警条件,如Ping监控的返回延时一般是10-30ms之间,当延时大于100ms时候,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否流量过大或者服务器CPU太高等问题。

2、定义告警信息内容标准

当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义,短信内容最多是70个字符,要在70个字符完全知道故障内容比较困难,更需要预先定义内容规范。如:“视频直播服务器10.0.211.65 在2012-10-18 13:00电信线路监控第到1次失败”,清晰明了的知道故障信息。

3、通过邮件接收汇总报表

每天收到一封网站服务器监控的汇总报表邮件,花个两三分钟就大致了解网站和服务器状态。

4、 集中监控和分布式监控相结合

  • 主动(集中)监控虽然能不需要安装代码和程序,非常安全和方便,但缺少很多细致的监控内容,如无法获取硬盘大小、CPU的使用率、网络的流量等,这些监控内容非常有用,如CPU太高表示有网站或者程序出问题,流量太高表示可能被攻击等。
  • 被动(分布式)监控常用的是SNMP(简单网络管理协议),通过SNMP能监控到大部分你感兴趣的内容。大部分操作系统支持SNMP,开通管理非常方便,也非常安全。SNMP缺点是比较占用带宽,会消耗一定的CPU和内存,在CPU太高和网络流量大情况下,无法有效进行监控。

5、定义故障告警主次

对于监控同一台服务器的服务,需要定义一个主要监控对象,当主要监控对象出现故障,只发送主要监控对象的告警,其它次要的监控对象暂停监控和告警。例如用Ping来做主要监控对象,如果Ping不通出现Timeout,表示服务器已经当机或者断网,这时只发送服务器Ping告警持续监控Ping,因为再继续监控和告警其它服务已经没有必要。这样能大大减少告警消息数量,又让监控更加合理、更加有效率。

本地监控脚本的规范化部署

6、对在本地部署的监控脚本要进行统一规范的部署并记录到KM系统。

7、实现对常见性故障业务自我修复功能

实现对常见性故障业务自我修复功能脚本进行统一部署并对修复后故障进行检查告警检查频次不多于3次。

8、对监控的业务系统进行分级

一级系统实现7*24小时告警,二级系统实现7*12小时告警,三级系统实现5*8小时告警。

9、 监控范围及目标

实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;同时自动收集、过滤、关联和分析各种管理功能产生的故障事件,实现对故障的提前预警和快速定位;对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为性能优化及未来系统扩容提供科学依据。

通常情况下,我们可以将监控对象这么来分:

1.服务器监控,主要监控服务器如:CPU 负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。

2.应用程序监控,主要监控该应用程序的服务状态,吞吐量和响应时间,因为不同应用需要监控的对象不同,这里不一一列举。

3.数据库监控,只所以把数据库监控单独列出来,足以说明它的重要性,一般监控数据库状态,数据库表或者表空间的使用情况,是否有死锁,错误日志,性能信息等等。

4.网络监控,主要监控当前的网络状况,网络流量等。

以上四条应该算是最基本的,也是保证网站正常运行必须要知道的几点内容,这样才能实现我们常说的“运筹帷幄之中,决胜千里之外”。

【附录】商业免费:百度云观测、360云监控、安全宝、监控宝(云智慧)、阿里云盾(自家产品) 斗波服务器监控、安全狗、云盾、AnyView(网络警)和西西服务器流量监控管家是一款服务器管理软件等

免费开源:cacti 、nagios 、ganglia 、zabbix 、Pingdom 、Munin、monitorix、MRTG、 Observer、 Zenoss 、Collectd、 Argus 、Monit、 Graphite 、Linux-dash和Simple Server Monitor 、sshtop等

商业收费:

sum服务器监控软件(www.zhetao.com)  *

PRTG_Network_Monitor(Paessler 公司) *

主机(服务器、小型机)监控服(www.create-china.com.cn)*

网络眼睛服务器监控系统

迈克菲SECURE技术 灵动服务器监控

OpManager(www.zohocorp.com.cn)*卓豪

听云基调检测中心(rpc.networkbench.com)

深信服(SANGFOR)

数据中心监控系统对决:DCIM vs.BMS

数据中心业务管理系统(www.idcbms.com/Solutions.htm)

美信科技服务器和业务监控平台(www.mxsoft.com)

超级监控(www.chaoji.com)

清竹服务器监控系统

Site24x7 服务器监控(www.site24x7.com/zhcn/index.html)

海思科服务器监控管理软件(www.deskview.com.cn)

应用系统监控服务(www.longtelchina.com)

机房监控系统一体化解决方案(www.macrounion.com)*

分布式数字监控平台(www.csydxx.com)

web服务监控(5istudio)

融智兴华

机房监控-机房环境监控系统-IDC机房集中监控(www.create-china.com.cn)

76服务器运行状态监控系统

的IDC客户管理系统(www.idccrm.cn)

Cyberoam安全产品(http://www.cyberoam.com/cn/productoverview.html)*

ChinaIDS非法信息系统(chinaids.net)

以及各个防火墙和安全软件的附加监控系统(*)等

企业自己二次开发:很多不一一列举

更多:http://server.51cto.com/sCollege-299411.htm和http://www.hao352.com/webmonitor/

http://www.forxing.com/introduce/2.html

http://www.zhetao.com/list8

http://www.freesinno.com/g/products/index.html

http://www.mxsoft.com/

http://www.netistate.com/

http://www.suninfo.com/view-313.html

http://www.jiankongbao.com/ (监控宝产品新版)  360|百度云测|阿里云盾以及各种C/S端软件程式

http://www.ruijie.com.cn/cp/riil-rj/smart

http://www.cissu.com.cn/brandview.asp?/36.html

http://www.betasoft.com.cn/

http://www.dhc-network.com/main-c1-173-c2-395-c3-401.html

http://www.techexcel.com.cn/solutions/servicewise/itmanage.html

http://www.bangzhutai.com/

http://www.01tech.com.cn/wug/

http://www.broada.com/view/product.php?func=detail&catalog=030201

http://fuyun.safedog.cn/

http://www.nstrong.com/product/ITMaster/chanpingaishu/

http://www.zhongdait.com/productsinfo.aspx?Col_ID=305&&col_menu=249

-----------------------------------------------------------------------------------

http://demo.forxing.com/home.php

帐号:guest   密码 :guest

http://sum.zhetao.com/console.dep

用户名:shengwei  密码:Windows10!

演示地址:http://182.92.99.5:8880/index.jsp

账号:shengwei

密码:sw123456

http://demo.freesinno.com

账号:admin    密码:free8admin

http://127.0.0.1:8121/login.html

账号:admin  密码:admin

http://demo.appmanager.com/MyPage.do?method=viewDashBoard

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-30 11:00:58

关于系统运维监控的几点建议的相关文章

《系统运维全面解析》新华网副总裁作序,360、触控等多位总监经理推荐

<系 统 运 维 全 面 解 析>前言 执笔: 韩晓光 (QQ群:117174700) 本书初衷 有朋友问我系统运维是做什么的,是不是类似网管天天修电脑?对此问题,我一言难尽,其实运维工作涉及的东西很多.此时我便有一种冲动,去写一本关于系统运维的书,介绍一些事实真相. 翻 读<史记>让人感到历史的厚重,人类的历史就是不断认识自己,认识社会,认识这个世界的过程,人类在自导自演中创造了社会文明.但是,试想山间花果的荣 枯,若你看不见闻不到,则对你来说它们似乎不存在.当然,也正是历史学家

Open-falcon运维监控系统——微信接口二次开发

1.Open-falcon运维监控系统简介 OpenFalcon是一款由小米运维团队从互联网公司的需求出发, 根据多年的运维经验,结合市面上使用的一些运维监控系统的使用经验和反馈,开发的一套企业级.高可用.可扩展的开源监控解决方案.简单了使用一下Open-falcon运维监控,结合使用过的zabbix,cacti,nagios来说,觉得有以下几个优点: 支持用户主动push,可以结合一些业务需求采集数据,同时也支持用户自定义的插件. 支持策略模板,模板继承和覆盖,多种告警方式,支持callbac

运维监控系统 PIGOSS BSM 为银行运维监控提供全力保障

IT运维服务在银行信息化建设和运行中的核心地位,而定量.实时的交易数据.事件和性能指标成为判断信息系统安全运行状态的主要依据.因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重要. 从信息系统期理论出发,信息系统大致分为规划与设计.开发与测试(或购买).实施.运维管理与持续改进五个阶段.而前三个阶段从时间角度看,只占整个周期的20%,其余时间基本上是对其进行运行维护.这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量.实时的交易数据.事件和性能指标成

【IT运维监控】集团宕机引发对运维人员的思考 

前不久某大型集团官网和APP突然无法正常使用引发热议,不少人幸灾乐祸,也引发出了各种的谣言和段子,根本难以体会集团内部所受的压力,特别是作为一个大集团内部的运维人员所承受的各种压力和不安. 后 来,原支付宝运维团队负责人针对此事发表了一篇文章,让不少的运维人员深有感触,作为肩负运维监控使命的运维监控工具--PIGOSS BSM 也同样感同身受.面对层出不穷的运维安全隐患,当下运维人员急需一套高效的7*24小时都能担负监控任务的工具,为自身的运维工作减负,告别之前加班熬夜 但没有工作成绩的"怪现像

江西畅行高速IT运维监控平台--PIGOSS BSM

案例所属行业:高速公路行业 项目实施时间:2014年 1.1    项目背景     江西畅行高速工程(以下简称"畅行高速")与高速公路周边系统的建设基于用户的消费账户支付系统和结算系统.既包括高速公路的收费,也包括高速公路周边的连锁超市的消费,互联网业务为江西畅行高速周边服务. 目前,江西畅行高速进行网络建设和核心生产平台应用系统的建设.随着江西畅行高速信息化应用的不断推广,核心生产平台的稳定运行对项目的影响越来越大.随 着更多江西畅行高速业务系统上线运行和日常办公对业务系统的日益依

Linux系统运维与架构设计

一 本章概览 介绍Linux系统运维与架构设计的方方面面 二 Linux基础入门 认识计算机核心硬件和服务器 Linux发展历史.系统组成.应用领域以及发行版 搭建运维环境:VMWareWorkStation.SecureCRT的使用 Linux系统的基本使用 Shell入门以及命令概述 三 Linux系统管理 文件目录管理 用户管理 权限管理 VIM编辑器的使用 文档压缩打包 程序包管理 网络管理 文件系统管理 内存管理 系统管理(监控.环境变量) 安全管理(selinux,iptables)

【解决方案】IDC、MA服务商IT运维监控解决方案

       文章摘自 pigoss 官网 http://www.netistate.com  如需转载,请标明出处! IDC与MA服务商现状 目前,大部分传统IDC服务商仍然处于卖场地.卖资源的阶段,通过租赁有限的场地和资源,同质化竞争和低价竞争愈演愈烈严重.如何为用户提供差异化增值IT运维服务成为新一代IDC的竞争目标. 同 样,大部分传统MA服务商的经营模式为提供维保服务,成熟.有经验的工程师便成为了众多MA服务商的重点争夺人才,人力成本不断攀升.技术人员巨大的人才 缺口,注定了专家级工程

【IT运维监控】讨论哪种运维监控工具才是IT运维人员的最爱?

选择运维工具的几大要素:一是看我哪些指标需要监控,二是看我监控到什么 三是看这种运维监控工具能监控到什么程度 有可能,这几个问题IT运维人员自己都没有弄的很明白,那么我们先看一下整个运维行业目前的现状: 目前来说,传统企业的IT运维大部分还是用户在使用过程中发现故障,然后通知运维人员,再邮运维人员确定是什么问题,采用哪种方式可以解决.大部分的运维人员目前还是充当的只是一个救火员的身份,没有起到真正的IT运维监控的作用.运维人员的大部分时间和经历都花在了处理简单而重复的问题上,导致同事及领导的不满

最简单也最难:运维监控的最后1公里

谈运维我们不得不提监控,监控是运维的起点,也是难点.随着IT架构逐渐复杂化,从前端到IT底层,中间涉及浏览器.网络.服务器.操作系统.中间件.应用.数据库等,每个环节厂商不尽相同.当出现异常需要定位哪个环节出了问题的时候,排查就耗时耗力,若使用优云监控产品,以上难题不再是问题.优云全栈运维监控覆盖了所有环节的监控,真正做到监控无盲区,运维无隐患. 运维最后一公里是指高度可视化.优云除了提升监控能力还注重可视化,深知可视化是运维的亮点更是本质,为了让每个环节监控的数据更好的展现出来,优云拥有一批在