k8s node alertmanager监控报警配置方法

概述

节点本身的监控主要监控CPU、内存、磁盘IO、文件系统可用空间即可。
比如,对于使用来prometheus的alertmanager来做node报警,rules配置可以参考如下点进行配置即可。

说明

不同的node-exporter版本,对应的metrics也不一样,需要自己对照更改一下。

CPU监控

(1 - avg(irate(node_cpu{mode="idle"}[10m])) by (instance)) * 100 < 90

内存监控

((node_memory_MemTotal - node_memory_MemFree) / node_memory_MemTotal) * 100 < 90

磁盘IO监控

(max(avg(irate(node_disk_io_time_ms[10m])) by (instance, device)) by (instance))/10

文件系统可用空间监控

max(((node_filesystem_size{fstype=~"ext4|vfat"} - node_filesystem_free{fstype=~"ext4|vfat"}) / node_filesystem_size{fstype=~"ext4|vfat"}) * 100) by (instance) > 90

参考:https://www.dogsbodytechnology.com/blog/turning-prometheus-data-into-metrics-for-alerting/

原文地址:http://blog.51cto.com/dangzhiqiang/2176843

时间: 2024-08-30 03:32:39

k8s node alertmanager监控报警配置方法的相关文章

动态应用分组发布,实现从云资源生产到监控报警配置的全自动化

摘要: 动态应用分组发布,实现从客户云资源生产到监控报警配置的全自动化 现状当前的监控报警体系里,用户生成新的ECS服务器后,需要手工将这些ECS归类到各个应用分组中,才能关联报警规则. 但是随着上云越来越深入,机器的创建次数越来越频繁,单次创建数量越来越多,相应手工操作的时间成本就会越来越高.因此云监控推出了动态配置应用分组的功能,可以在机器创建之初,通过维护好实例名称,自动匹配监控报警. 原理解读首先在创建应用分组时,配置ECS名称的匹配规则.创建机器的时候命名好实例名称,云监控便会按如下流

【转帖】Prometheus AlertManager 微信报警配置

Prometheus AlertManager 微信报警配置 https://segmentfault.com/a/1190000015400227 改天尝试一下 prometheus 阅读约 5 分钟 Prometheus AlertManager 微信报警配置 alertmanager支持email,webhook等报警源支持,看到可以支持微信报警信息推送觉得有意思把玩一下,alertmanager的0.15版本微信报警推送有问题,后来我把版本降到0.14后微信就能正常收到报警信息 微信企业

jconsole,jvisualvm监控jvm配置方法

在平常工作中监控jvm是一项必要的工作,但总是用命令行方式不能实时进行监控,jconsole就是一款可视化的即时监控工具.jvisualvm与jconsole用法基本一样. 个人倾向于使用jconsole,虽然jvisualvm界面更漂亮,但堆内存中每个区的使用情况不显示,只显示堆的总大小和已使用的大小,不能看到eden,surivor等详情使用情况,所以我一般使用jconsole来看堆内存更为详情的情况. 1.首先安装jdk,在bin目录下找到jconsole,双击打开. 2.一般采用远程安装

史上最全最正确的zabbix监控mysql配置方法

1.组态--主机--创建主机 2.在其他群组中选择linux server或者新建群组 3.主机名为mysql 4.模板中选择点击添加,选择Template App MySQL,点击存档 5.添加mysql监控脚本: cd /usr/local/zabbix/share/zabbix/alertscripts vi check_mysql.sh #!/bin/bash # 用户名 MYSQL_USER='zabbix' # 密码 MYSQL_PWD='123456' # 主机地址/IP MYSQ

Ganglia与Centreon整合构建智能化监控报警平台

一.智能运维监控报警平台的组成 随着大数据时代的来临,运维工作的难度越来越大,每个运维人员都要面临不计其数的服务器和海量的数据,如何保证众多服务器和业务系统稳定高效地运行并尽量减少死机时间,成为考核运维工作的重要指标,而要实现大规模的运维,必须要有一套行之有效的智能运维监控管理系统,本章就详细介绍下如何构建一套完善的运维监控报警平台. 运维的核心工作可以分为运行监控和故障处理两个方面,对业务系统进行精确.完善的监控,保证能够在第一时间发现故障并迅速通知运维人员处理故障是运维监控系统要实现的基础功

Prometheus 监控K8S Node监控

Prometheus 监控K8S Node监控 Prometheus社区提供的NodeExporter项目可以对主机的关键度量指标进行监控,通过Kubernetes的DeamonSet可以在各个主机节点上部署有且仅有一个NodeExporter实例,实现对主机性能指标数据的监控,但由于容器隔离原因,使用容器NodeExporter并不能正确获取到宿主机磁盘信息,故此本课程将NodeExporter部署到宿主机. node_exporter:用于*NIX系统监控,使用Go语言编写的收集器 使用文档

Zabbix监控 之sendEmail脚本邮件报警配置【5】

本次zabbix邮件报警时通过sendEmail这一个轻量级的命令行的smtp电子邮件客户端,使用脚本的方式实现邮件报警. 此次使用的Linux发行版是CentOS 6.5,zabbix版本为3.0.3 Zabbix监控之不发送邮件异常[附属] 一.下载sendEmail wget http://caspian.dotconf.net/menu/Software/SendEmail/sendEmail-v1.56.tar.gz sendEmail安装方法: 1 2 3 shell# tar xv

二进制搭建kubernetes多master集群【四、配置k8s node】

上一篇我们部署了kubernetes的master集群,参考:二进制搭建kubernetes多master集群[三.配置k8s master及高可用] 本文在以下主机上操作部署k8s node k8s-node1:192.168.80.10 k8s-node2:192.168.80.11 k8s-node3:192.168.80.12 以下kubeadm和kubectl命令操作都是在k8s-master1上执行的. kubernetes work 节点运行如下组件: docker kubelet

alertmanager报警添加企业微信监控报警

Prometheus机器:172.27.143.155alertmanager机器:172.27.143.150 一.上面配置了Prometheus和grafana服务在155机器上面接下来配置 alermanager服务1.wget https://github.com/prometheus/alertmanager/releases/download/v0.20.0/alertmanager-0.20.0.linux-amd64.tar.gz 2.tar zxf alertmanager-0