01-运维监控

1、监控的重要性

听闻前辈所说,在监控不发达的时代,出行基本靠走,安全基本靠狗,那个时候没有自动化监控的概念,都是人工盯着机器,进行轮班;每天上班第一件事情就是去巡视一下,看看各项软件打印的信息是否有异常,顺便拿Execl记录一下。

现在如今的企业中,运维就要负责成百上千台的机器,传统的方式依然不行,没有高大上的方法是支持不起这种规模的监控,服务器随时随地可能出库长,需要通过监控来让机器来管理监控机器;不管是虚拟机还是物理机等等,当然有时候先上服务的运行,网络设备,业务状况以及用户体验也需要监控。

监控在企业中扮演着重要的监督角色是我们的眼睛,任何一个地方出现问题我们都需要及时知道确认情况,很多情况下我们对某些类型的监控需要非常敏感,例如用户地区是否正常访问等,一旦出现了问题,我们就需要通过监控确认问题,甚至通过监控触发后续操作来解决问题,减少损失。

监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题,所以监控的重要性就不言而喻了。

2、监控对于运维的比重

基础运维主要扮演处理日常任务,及时救火这样的角色,而监控的构建以及数据采集工作,很多时候都需要多方的协助;不管是基础运维还是高级运维亦或者运维架构师,在紧急的时候人人都要扮演救火英雄的角色,而救火为了更加精确及时发现问题,一套好的完善的监控系统就很自然的作为运维工作中的第一优先级任务。

3、监控组成部分

监控组成部分首先就需要确定数据源,数据不是凭空而来的,只能是通过运维采集而来;数据采集本身是一门学问,比如有针对系统的常规统计,还有针对业务的用户分析流量分析,同时还有安全策略,CC安全等等。

一般常见的数据源流程如下:

服务器/网络设配/用户数据 ---> 产生行为和状态 ---> 数据采集 ---> 监控系统

除了数据源监控系统的组成,监控系统一般包含:数据存储,查询分析,事件触发(报警),数据展示

数据存储:存储采集工具采集而来的数据,一般存储形式多为关系型数据库存储,以及时序行存储;通常一般数据存储根据采集量定相关的容量指标;

查询分析:有了数据我们就需要对数据进行分析,会对数据做多维聚合等,后续再介绍监控系统时在详细说明;

事件出发:一般事件出发主要使用在两方面一个是报警(发送邮件,语音网关,钉钉等);而另外一种则是根据现有系统规则,叫时间提交给机器人做出修复工作;比如我们发现流量高峰MySQL连接池不够使用,通过机器人迅速给MySQL扩容当前合适的配置;

数据展示:通过图表,对数据进行图形化展示,有利于发现问题。

小结

监控对于企业对于运维都是有很深的意义,本文是非常简单介绍了运维监控,后续在下一篇中我们将介绍下运维监控系统的设计。

原文地址:https://www.cnblogs.com/evan-blog/p/10166043.html

时间: 2024-11-10 13:41:48

01-运维监控的相关文章

【IT运维监控】集团宕机引发对运维人员的思考 

前不久某大型集团官网和APP突然无法正常使用引发热议,不少人幸灾乐祸,也引发出了各种的谣言和段子,根本难以体会集团内部所受的压力,特别是作为一个大集团内部的运维人员所承受的各种压力和不安. 后 来,原支付宝运维团队负责人针对此事发表了一篇文章,让不少的运维人员深有感触,作为肩负运维监控使命的运维监控工具--PIGOSS BSM 也同样感同身受.面对层出不穷的运维安全隐患,当下运维人员急需一套高效的7*24小时都能担负监控任务的工具,为自身的运维工作减负,告别之前加班熬夜 但没有工作成绩的"怪现像

江西畅行高速IT运维监控平台--PIGOSS BSM

案例所属行业:高速公路行业 项目实施时间:2014年 1.1    项目背景     江西畅行高速工程(以下简称"畅行高速")与高速公路周边系统的建设基于用户的消费账户支付系统和结算系统.既包括高速公路的收费,也包括高速公路周边的连锁超市的消费,互联网业务为江西畅行高速周边服务. 目前,江西畅行高速进行网络建设和核心生产平台应用系统的建设.随着江西畅行高速信息化应用的不断推广,核心生产平台的稳定运行对项目的影响越来越大.随 着更多江西畅行高速业务系统上线运行和日常办公对业务系统的日益依

【解决方案】IDC、MA服务商IT运维监控解决方案

       文章摘自 pigoss 官网 http://www.netistate.com  如需转载,请标明出处! IDC与MA服务商现状 目前,大部分传统IDC服务商仍然处于卖场地.卖资源的阶段,通过租赁有限的场地和资源,同质化竞争和低价竞争愈演愈烈严重.如何为用户提供差异化增值IT运维服务成为新一代IDC的竞争目标. 同 样,大部分传统MA服务商的经营模式为提供维保服务,成熟.有经验的工程师便成为了众多MA服务商的重点争夺人才,人力成本不断攀升.技术人员巨大的人才 缺口,注定了专家级工程

【IT运维监控】讨论哪种运维监控工具才是IT运维人员的最爱?

选择运维工具的几大要素:一是看我哪些指标需要监控,二是看我监控到什么 三是看这种运维监控工具能监控到什么程度 有可能,这几个问题IT运维人员自己都没有弄的很明白,那么我们先看一下整个运维行业目前的现状: 目前来说,传统企业的IT运维大部分还是用户在使用过程中发现故障,然后通知运维人员,再邮运维人员确定是什么问题,采用哪种方式可以解决.大部分的运维人员目前还是充当的只是一个救火员的身份,没有起到真正的IT运维监控的作用.运维人员的大部分时间和经历都花在了处理简单而重复的问题上,导致同事及领导的不满

最简单也最难:运维监控的最后1公里

谈运维我们不得不提监控,监控是运维的起点,也是难点.随着IT架构逐渐复杂化,从前端到IT底层,中间涉及浏览器.网络.服务器.操作系统.中间件.应用.数据库等,每个环节厂商不尽相同.当出现异常需要定位哪个环节出了问题的时候,排查就耗时耗力,若使用优云监控产品,以上难题不再是问题.优云全栈运维监控覆盖了所有环节的监控,真正做到监控无盲区,运维无隐患. 运维最后一公里是指高度可视化.优云除了提升监控能力还注重可视化,深知可视化是运维的亮点更是本质,为了让每个环节监控的数据更好的展现出来,优云拥有一批在

Storm流计算从入门到精通之技术篇(高并发策略、批处理事务、Trident精解、运维监控、企业场景)

对这个课程有兴趣的可以加我qq2059055336和我联系 Storm是什么? 为什么学习Storm? Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop. 随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计.推荐系统.预警系统.金融系统(高频交易.股票)等等, 大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流. 按照storm作者的说法,Storm对于实

企业运维监控平台架构设计与实现(ganglia篇)

一.Cacti/Nagios/Zabbix/centreon/Ganglia之抉择 1.cacti Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具. 简单的说Cacti 就是一个PHP 程序.它通过使用SNMP 协议获取远端网络设备和相关信息,(其实就是使用Net-SNMP 软件包的snmpget 和snmpwalk 命令获取)并通过RRDTOOL 工具绘图,通过PHP 程序展现出来.我们使用它可以展现出监控对象一段时间内的状态或者性能趋势图. 2

16 redis之sentinel运维监控

一:sentinel运维监控 Sentinel不断与master通信,获取master的slave信息. 监听master与slave的状态 如果某slave失效,直接通知master去除该slave. 如果master失效,,是按照slave优先级(可配置), 选取1个slave做 new master ,把其他slave--> new master 疑问: sentinel与master通信,如果某次因为master IO操作频繁,导致超时, 此时,认为master失效,很武断. 解决: s

DBA_Oracle数据库运维监控(案例)(待学习)

2014-07-27 BaoXinjian 一.摘要 1 - 数据库账户是否锁住监控 2 - 数据库表空间大小 3 - 进程异常停止监控 4 - Session中处理时间过长的进程监控 二.案例1 - 账户是否锁住监控 1. 如何监控 2. 如何处理 三.案例2 - 表空间大小不够监控 1. 如何监控 2. 如何处理 四.案例3 - 进程异常停止监控 1. 如何监控 2. 如何处理 五.案例4 - Session中处理时间过长的进程监控 1. 如何监控 2. 如何处理 DBA_Oracle数据库

全新SaaS运维监控平台构建书

第一部分 引言 伴随的IT服务的发展,IT服务的概念也在发生着巨大的变化.IT运维服务已经由原来局限在用户自身环境下的IT服务,延伸到覆盖公用云.私有云.外包服务商等多纬度.全天候的SaaS运维模式, 从狭义理解,IT服务仅仅是为了解决信息系统出现的故障,在系统出现停顿的时候可以快速的恢复.而目前的IT服务已经包含了更多的内容,IT服务渗透在信息系统的整个生命周期之中.本文基于该理念,对IT服务系统的实现进行分析研究.文章基于网脊运维通SaaS(Software as aService)模式理念