【运维监控】四款云服务监控工具介绍:Nagios 、 ganglia、zabbix、onealert

在我们日常的工作中,有时候需要监控和管理平台的运行状况,而服务运行是否存在异常,是否有软硬件bug等,均需要第一时间知道。对服务状态了如指掌,是一个很重要的事情。那么这个如何做到呢,我们之前在进行私有云平台研发过程中,曾经用过一些工具,在一定程度上能帮到大家,这里记录一下,希望对有需要的同学有帮助。

一些常见的监控、告警工具:Nagios 、 ganglia、zabbix、onealert

一.Nagios:

Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

参见:https://www.nagios.org/

功能介绍:

Nagios 可以监控的功能有:

1、监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);

2、监控主机资源(处理器负荷、磁盘利用率等);

3、简单地插件设计使得用户可以方便地扩展自己服务的检测方法;

4、并行服务检查机制;

5、具备定义网络分层结构的能力,用"parent"主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;

6、当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);

7、具备定义事件句柄功能,它可以在主机或服务的事件发生时获取更多问题定位;

8、自动的日志回滚;

9、可以支持并实现对主机的冗余监控;

10、可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等;

二.Ganglia:

Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。

参见:http://ganglia.info/

大致介绍:

每台计算机都运行一个收集和发送度量数据的名为 gmond 的守护进程。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。所有这些数据多次收集会影响节点性能。网络中的 "抖动"发生在大量小消息同时出现时,可以通过将节点时钟保持一致,来避免这个问题。

gmetad可以部署在集群内任一台节点或者通过网络连接到集群的独立主机,它通过单播路由的方式与gmond通信,收集区域内节点的状态信息,并以XML数据的形式,保存在数据库中。

由RRDTool工具处理数据,并生成相应的的图形显示,以Web方式直观的提供给客户端。

Ganglia包括如下几个程序,他们之间通过XDR(xml的压缩格式)或者XML格式传递监控数据,达到监控效果。集群内的节点,通过运行gmond收集发布节点状态信息,然后gmetad周期性的轮询gmond收集到的信息,然后存入rrd数据库,通过web服务器可以对其进行查询展示。

三.zabbix:

zabbix(音同 zæbix)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。

zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。

zabbix由2部分构成,zabbix server与可选组件zabbix agent。

zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,Free BSD,Open BSD,OS X等平台上。

?zabbix(音同 zæbix)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。

zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。

zabbix由2部分构成,zabbix server与可选组件zabbix agent。

zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,Free BSD,Open BSD,OS X等平台上。

zabbix agent需要安装在被监视的目标服务器上,它主要完成对硬件信息或与操作系统有关的内存,CPU等信息的收集。zabbix agent可以运行在Linux,Solaris,HP-UX,AIX,Free BSD,Open BSD, OS X, Tru64/OSF1, Windows NT4.0, Windows (2000/2003/XP/Vista)等系统之上。

zabbix server可以单独监视远程服务器的服务状态;同时也可以与zabbix agent配合,可以轮询zabbix agent主动接收监视数据(agent方式),同时还可被动接收zabbix agent发送的数据(trapping方式)。

另外zabbix server还支持SNMP (v1,v2),可以与SNMP软件(例如:net-snmp)等配合使用。

zabbix环境搭建:

要想搭建一个Zabbix的工作环境,需要从服务器入手。与服务器通信,管理员需要使用一个Zabbix前端界面,与Zabbix服务器和数据库进行通信。三个关键(界面、服务器和数据库)可以安装在同一台服务器上,但是如果你拥有一个更大更复杂的环境,将它们安装在不同的主机上也是一个选项。Zabbix服务器能够直接监控到同一网络中的设备,如果其他网络的设备也需要被监控,那还需要一台Zabbix代理服务器。

参见:http://www.zabbix.com/

关于zabbix的学习,可以看看zabbix中文社区: http://www.zabbix.org.cn/ ,这里面对于安装配置以及常用的优化等有较好的介绍。

zabbix的主要特点:

- 安装与配置简单,学习成本低

- 支持多语言(包括中文)

- 免费开源

- 自动发现服务器与网络设备

- 分布式监视以及WEB集中管理功能

- 可以无agent监视

- 用户安全认证和柔软的授权方式

- 通过WEB界面设置或查看监视结果

- email等通知功能

等等

Zabbix主要功能:

- CPU负荷

- 内存使用

-磁盘使用

- 网络状况

- 端口监视

- 日志监视。

四.onealert:

SaaS模式的云告警平台,目前支持Nagios报警、Zabbix报警 、Cacti报警、Solarwinds报警 、VmWare报警、阿里云报警、监控宝报警等...

在所有开源监控软件里面,Zabbix 的告警方式无疑是最棒的。告警的方式各式各样,从 Email 告警到飞信、139/189邮箱、最后到微信甚至电话告警,接入存在各种问题以及困难,有没有什么软件能够将他们All In one呢?

参见:http://www.onealert.com/

关于onealert的介绍,也可以看看这个文章:http://www.jianshu.com/p/88ed82372888

Zabbix传统告警方法

Email:调用 sendmail 、sendEmail 等脚本通过 SMTP 发送邮件

飞信:飞信已经退出历史舞台,不再有人使用

189/139:发送邮箱邮件至邮箱,邮箱将短信转到用户手机短信,存在一定的延迟

微信:需要申请一个微信公众号,并接入API,整个流程比较复杂,而且存在会话时间限制

短信:众多短信网关收费不同、稳定性也不确定,需要通过API接入

传统告警 VS OneAlert

在整个使用过程中,得出了传统告警方式的不足以及给个了 OneAlert 告警的功能,具体如下:

传统告警方式的不足
  • Zabbix 邮件告警经常发不出去
  • 如需短信告警,要么购买短信猫要么购买短信 API,整个流程太麻烦
  • 微信告警需要申请公众号以及 API 接入,而且会话有时间限制
  • 夜间的告警基本成为一个摆设,试问谁能被微弱的短信声叫醒
  • 阿里云、腾讯云、Zabbix 各种系统告警都需要单独配置,工作繁琐
  • 普遍缺少告警分析
  • 139/189 发送告警存在明显的延迟
OneAlert告警功能
  • 告警 All In One,支持微信、邮箱、短信、APP、电话告警
  • 支持接入 Zabbix、Nagios、阿里云、腾讯云、监控宝等等告警信息
  • 灵活的分配策略,可灵活的分配告警信息发送给相关人员
  • 微信、邮箱、app 等告警方式全部免费

时间: 2024-10-21 07:16:39

【运维监控】四款云服务监控工具介绍:Nagios 、 ganglia、zabbix、onealert的相关文章

Linux云自动化运维第四课

Linux云自动化运维第四课 一.vim 1.vim光标移动 1)在命令模式下 :数字  ###移动到指定的行 G  ###文件最后一行 gg  ###文件第一行 2)在插入模式下 i  ###光标所在位置插入 I  ###光标所在行行首 a  ###光标所在字符的下一个位置 A  ###光标所在行行尾 o  ###光标所在行下一行 O  ###光标所在行上一行 s  ###删除光标所在字符插入 S  ###删除光标所在行插入 2.vim的退出模式 :q  ###当用vim打开文件但没有对字符作

【IT运维监控】讨论哪种运维监控工具才是IT运维人员的最爱?

选择运维工具的几大要素:一是看我哪些指标需要监控,二是看我监控到什么 三是看这种运维监控工具能监控到什么程度 有可能,这几个问题IT运维人员自己都没有弄的很明白,那么我们先看一下整个运维行业目前的现状: 目前来说,传统企业的IT运维大部分还是用户在使用过程中发现故障,然后通知运维人员,再邮运维人员确定是什么问题,采用哪种方式可以解决.大部分的运维人员目前还是充当的只是一个救火员的身份,没有起到真正的IT运维监控的作用.运维人员的大部分时间和经历都花在了处理简单而重复的问题上,导致同事及领导的不满

优云双态运维之——开放您的服务

困局篇 IT部门,给人的第一反应就是“高深.冷漠”,好似金庸笔下的独孤求败.我亲历过太多这样的场景,一边是业务在跳脚“问题反映了这么久,IT的人究竟在干什么”,一边是IT淡定的解释“这个要实现起来很复杂,你不懂技术”,长此以往,矛盾逐步升级,IT部门逐渐被孤立. 其实IT部门也在寻求改变,管理的改变,提升交付的效率和质量.大多数IT管理部门或多或少的引进了服务管理标准,构建了人员.流程.工具体系.事件.变更.问题等管理过程被引进和实践,但矛盾似乎仍未完全解决. 满意度不高,问题出在哪里?我认为关

运维监控系统 PIGOSS BSM 为银行运维监控提供全力保障

IT运维服务在银行信息化建设和运行中的核心地位,而定量.实时的交易数据.事件和性能指标成为判断信息系统安全运行状态的主要依据.因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重要. 从信息系统期理论出发,信息系统大致分为规划与设计.开发与测试(或购买).实施.运维管理与持续改进五个阶段.而前三个阶段从时间角度看,只占整个周期的20%,其余时间基本上是对其进行运行维护.这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量.实时的交易数据.事件和性能指标成

最简单也最难:运维监控的最后1公里

谈运维我们不得不提监控,监控是运维的起点,也是难点.随着IT架构逐渐复杂化,从前端到IT底层,中间涉及浏览器.网络.服务器.操作系统.中间件.应用.数据库等,每个环节厂商不尽相同.当出现异常需要定位哪个环节出了问题的时候,排查就耗时耗力,若使用优云监控产品,以上难题不再是问题.优云全栈运维监控覆盖了所有环节的监控,真正做到监控无盲区,运维无隐患. 运维最后一公里是指高度可视化.优云除了提升监控能力还注重可视化,深知可视化是运维的亮点更是本质,为了让每个环节监控的数据更好的展现出来,优云拥有一批在

企业运维监控平台架构设计与实现(ganglia篇)

一.Cacti/Nagios/Zabbix/centreon/Ganglia之抉择 1.cacti Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具. 简单的说Cacti 就是一个PHP 程序.它通过使用SNMP 协议获取远端网络设备和相关信息,(其实就是使用Net-SNMP 软件包的snmpget 和snmpwalk 命令获取)并通过RRDTOOL 工具绘图,通过PHP 程序展现出来.我们使用它可以展现出监控对象一段时间内的状态或者性能趋势图. 2

全新SaaS运维监控平台构建书

第一部分 引言 伴随的IT服务的发展,IT服务的概念也在发生着巨大的变化.IT运维服务已经由原来局限在用户自身环境下的IT服务,延伸到覆盖公用云.私有云.外包服务商等多纬度.全天候的SaaS运维模式, 从狭义理解,IT服务仅仅是为了解决信息系统出现的故障,在系统出现停顿的时候可以快速的恢复.而目前的IT服务已经包含了更多的内容,IT服务渗透在信息系统的整个生命周期之中.本文基于该理念,对IT服务系统的实现进行分析研究.文章基于网脊运维通SaaS(Software as aService)模式理念

【IT运维监控】集团宕机引发对运维人员的思考 

前不久某大型集团官网和APP突然无法正常使用引发热议,不少人幸灾乐祸,也引发出了各种的谣言和段子,根本难以体会集团内部所受的压力,特别是作为一个大集团内部的运维人员所承受的各种压力和不安. 后 来,原支付宝运维团队负责人针对此事发表了一篇文章,让不少的运维人员深有感触,作为肩负运维监控使命的运维监控工具--PIGOSS BSM 也同样感同身受.面对层出不穷的运维安全隐患,当下运维人员急需一套高效的7*24小时都能担负监控任务的工具,为自身的运维工作减负,告别之前加班熬夜 但没有工作成绩的"怪现像

运维监控 ——Nagios

Nagios是一款开源监控软件.利用Nagios可以监控本地或远程主机资源,如磁盘空间.系统负载等情况,也可以监控各种应用服务,例如HTTP服务.FTP服务等.当主机或服务出现故障时,Nagios还可以通过邮件.手机短信等形式在第一时间通知系统维护人员.      一. Nagios综述     作为一名运维人员或系统管理员,难免会遇到主机或服务异常的情况,遭遇故障并不可怕,可怕的是故障出现后,系统管理人员不知道.由于没有及时发现故障,不但解决问题时存在困难,而且可能带来很大的损失.因此,一个能