监控运维系统实施方案--监控对象信息收集阶段

监控运维系统不是一件一蹴而就的事情,也不是一朝一夕就能轻易完成的,监控运维系统的规模与服务器规模和软件规模息息相关,需要仔细分析和筹划才能实现一个可用的监控运维系统。  
为了直观的表示当前系统(除非特殊说明都指操作系统)和应用的运行状态,能让不熟悉运维知识的leader看明白当前的运行状态,最好的方法就是运用图的方式将这些系统和应用之间的逻辑关系展示出来。根据系统和业务两种区分可以将它们分成三张图(这些图可以叫做系统架构图、软件架构图和业务逻辑图)。    
1.系统架构图:表示所有系统的堆叠关系,例如物理服务器和虚拟服务器用不同的形式在图中展示出来,通过此图一眼就能看到那些系统存在问题,存在什么问题    
2.业务逻辑图:单独表示业务逻辑,将业务逻辑之间的依赖关系和其他关系表示出来,便于在发现整体故障时,确定哪里存在问题能导致整体故障的发生,通过此图一眼就能看到那些业务存在问题,存在什么问题    
3.软件架构图:表示业务与系统的对应关系,即那些业务运行在哪些系统中,或每个系统运行着那些业务,便于当出现问题时该去排查哪些系统或者哪些模块

为了达到较好的监控效果,需要准备以下一些内容:  
1.硬件层面:当前服务器的实际使用情况,例如服务器的数量,主机名称(规范的FQDN),IP地址(有多少地址写多少地址),操作系统类别,管理方式和管理信息(如何远程登录、用户名和密码等);如果可能,最好包含有网络设备的相关信息,如与服务器的连接方式、带宽等相关信息    
2.操作系统层面:不管操作系统是虚拟的还是非虚拟的,对于监控来说都是一个完整的监控实体,与硬件层面的服务器一样,它也需要确切的知道主机名称(规范的FQDN),IP地址(有多少地址写多少地址,并区分管理地址和业务地址等),操作系统类别,管理方式和管理信息(如何远程登录、用户名和密码等)    
3.软件(业务)层面:每一个业务模块的名称、提供的功能,依赖关系(该业务模块需要哪些其他的业务模块,哪些业务模块需要该业务模块),进程或服务名称,监听的IP地址和端口(socket),每一个业务模块正常运行时的可监控状态(如返回值是多少正常,输出什么字符串是正常等)    
4.软件层面中每一个业务模块与操作系统层面的对应关系,业务模块需要操作系统中那些软件包(依赖关系)、安装路径、可用的诊断程序和维护工具等

一些可参考的表格

表1:服务器监控列表

服务器序号 主机名称 IP地址1 IP地址2 操作系统类别 登录方式 管理地址 管理用户名 管理密码 备注
1 rc220.domain.cn 221.0.92.31 192.168.1.100 Linux Ubuntu iDRAC 221.0.93.31 username password  
2 bb200.domian.cn - 192.168.1.200 VMware ESXi5.5 UCS Manager 192.168.1.200 username password  
                   

表2:操作系统监控列表

操作系统序号 主机名称 IP地址1 IP地址2 操作系统类别 是否虚拟机 登录方式 用户名 密码 备注
1 node1.domain.cn 221.0.92.31 192.168.1.100 Linux Ubuntu - SSH username password  
2 node2.domain.cn - 192.168.1.101 Linux Ubuntu - SSH username password  
3 vcenter.domian.cn - 192.168.1.201 Linux SUSE vSphere Client username password  
                   

表3:业务模块监控列表

业务模块序号 模块名称 模块功能描述 依赖关系A 依赖关系B 进程名称(完整命令行) 监听IP地址 监听端口 正常状态描述
1 关系数据库 MySQL数据库 - 信息收集服务        
信息查询服务
mysqld_safe --datadir=/data/mysql 192.168.1.100 3306 3306端口已监听,进程存在,允许连接,数据库存在,数据库表存在,数据库字段存在
2 信息采集服务 收集用户信息 关系数据库        
Web服务器1
最终用户        
信息查询服务
command --parameter=/path 192.168.1.101 8081 xxx端口已监听,xxx进程存在,返回值为xxx,xxx URL返回xxx
3 信息查询服务 查询用户信息 关系数据库        
信息采集服务
最终用户 command --parameter=/path 192.168.1.102 8082 xxx端口已监听,xxx进程存在,返回值为xxx,xxx URL返回xxx
4                

表4:业务模块与操作系统对应关系

编号 模块名称 业务模块序号 操作系统序号 软件包/编译参数 安装路径 可用诊断程序 维护工具 备注
1 关系数据库 1 1 mysql-server,mysql,musql-libs,mysql-devel /usr msyql,mysqladmin mysql,mysqladmin  
2 信息采集服务 2 2 - /usr/local/wwwroot curl,wget -  

参考图形:

参考图形可以用Visio绘制,构图需要根据上述表格制作,由系统架构师、软件架构师或者在公司多年了解系统架构和软件架构的系统运维人员制作。

以上三图依次为系统架构图,软件架构图,业务与操作系统对应关系图的大体示例。

--end--

时间: 2024-10-29 00:11:02

监控运维系统实施方案--监控对象信息收集阶段的相关文章

运维服务方案

运维服务方案(全)

Docker运维必备:监控宝Docker监控试用手记

本文由肖远昊深度实践docker监控的报告   非常荣幸得到监控宝的邀请,试用了他们最近推出的新产品--Docker监控. 9月7日,中国APM厂商云智慧CloudWise正式发布上线Docker监控,该产品从部署到使用,整个过程都非常的简单.不仅能够实时监控宿主机和Docker容器的性能信息(包括CPU.Mem.磁盘.Net In/Out),还可以自定义相应的告警策略.以下将从部署.监控信息.告警这几个方面聊聊试用体会.大家可以[注册]监控宝,免费使用Docker监控. 部署流程 阅读了Doc

自动运维模块批量监控linux主机

1.修改linux agent解压即用包用解压缩软件打开zabbix_linux_agent.zip并进入到以下目录: 右键install_zabbix_linux_agent.sh 选择 在记事本打开,在参数区找到Agent_Server参数,并且值改为zabbix服务器的地址.结果如下图: 保存并更新到压缩包中: 2.自动运维模块添加主机管理操作步骤:自动运维->主机管理->新增信息填写:分组名:Linux ,主机名:192.168.1.10 ,IP:192.168.1.10 ,操作系统:

运维自动化方案

运维自动化简写 自动化运维主要包括以下几个方面: 系统安装 系统优化 系统监控 日志监控和收集 应用自动化部署 代码自动化部署 自动化测试 自动化更新 自动化扩容 配置文件管理 系统自动化安装和优化系统的自动化安装和优化,可以使用到自动化工具cobbler结合kickstart完成.优点: 可以完美支持linux和VMware的esxi系统 配置简单 可配置性强 可以基于mac地址的系统安装,全程无需人工干预 可以配置脚本,在安装系统完成之后可以同于yum源和安装上必须要的客户端软件,如salt

监控运维日志

监控体系 grafana界面显示无数据展示 排错流程: 1.找到表盘所显示的数据源2.登陆到数据源所在机器,查看数据库是否在运行2.1.未运行,则运行数据库2.2.运行中,则登陆数据库2.2.1.influxdb直接在系统中influx登陆,2.2.2.prometheus直接登陆主机IP:90903.查看无数据显示的数据库中有无数据3.1.库中有数据,检查数据源与grafana之间连接3.2.库中无数据,检查数据源与采集软件(脚本)之间连接4.查看采集组件(node_exporter或采集脚本

Python运维-获取当前操作系统的各种信息

#通过Python的psutil模块,获取当前系统的各种信息(比如内存,cpu,磁盘,登录用户等),并将信息进行备份 # coding=utf-8 # 获取系统基本信息 import sys import psutil import time import os #获取当前时间 time_str = time.strftime( "%Y-%m-%d", time.localtime( ) ) file_name = "./" + time_str + ".

Python运维之获取操作系统的内存信息

试用一下这个博客,好用的话以后就彻底弃用CSDN,换这个了! 要使用Python获取计算机的内存信息需要用到psutil模块,能够获得的内存信息有内存总量.可用内存总量.已用内存量.内存使用百分比等信息. 写一个简单的小脚本,代码如下: #!/usr/bin/python import psutil pc_mem =psutil.virtual_memory() div_gb_factor =(1024.0 ** 3) print("totalmemor: %fGB" % float(

IT基础架构运维系统学习资源:第0阶段 IT职业规划和学习方法

第0阶段 IT职业规划和学习方法 适合对象 认可"知识改变命运,技术成就梦想"的各位IT技术爱好者,如果你: 快要毕业了,却对走出校园开始社会生涯感到迷惘和不知所措: 囤了成百上千G的学习资料,想开始学习却不知道从哪里下手: 当前做了一份IT类工作,却看不清自己的发展路径. 课程目标 这套免费视频课程将以过来者身份结合当前实际社会需要给你详细介绍和说明你的IT职业规划该如何做,以及如何实现. 课程列表 下载链接 链接:https://pan.baidu.com/s/160tR9MIVX

如何成为云中硬核“牧羊人”?云堡垒机服务高效运维,让云主机不再成为落单的小羊!

企业运维场景难点,自检你中招了哪些?? 企业运维账号众多企业运维的服务器数量众多,而维护人员数量有限,一个运维人员维护多台主机.多个系统的现象普遍存在.因此,运维人员不仅管理的机器账号密码多种多样,而且需要同时在多套主机系统之间切换.这种情况大大增加运维人员工作量,导致运维效率低下.易出错.影响IT系统正常运行. ? 权限分配粗放,缺乏细粒度企业运维授权一般是采用操作系统自身的授权系统,授权系统功能分散在各个设备和系统中,导致缺乏统一的运维操作授权策略:授权颗粒度粗,无法基于最小权限分配原则管理