node exporter完整版

#(1)安装node exporter
node exporter 作用: 是收集操作系统的基本系统, 例如cpu, 内存, 硬盘空间等基本信息, 并对外提供api接口用于prometheus查询存储;

1)docker方式运行node exporter

docker run -d     --name node-exporter  -p 9100:9100   -v "/proc:/host/proc:ro"   -v "/sys:/host/sys:ro"   -v "/:/rootfs:ro"   --restart=always   --net="host"   prom/node-exporter --path.procfs /host/proc --path.sysfs /host/sys --collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc)($|/)" 

2)验证, 可以通过对外暴露的api接口获取数据

curl http://192.168.1.42:9100/metrics

#(2)安装consul
consul作用: 服务注册中心,向外提供服务的增删api接口, prometheus可以向consul动态获取节点信息以及自动加载配置

1)docker安装consul

 docker run  --restart=always --name consul -d -p 8500:8500 consul

2)向consul的api接口添加服务

curl -X PUT -d ‘{"id": "node03","name": "node03","address": "192.168.1.42","port": 9100,"tags": ["test"],"checks": [{"http": "http://192.168.1.42:9100/","interval": "5s"}]}‘ http://localhost:8500/v1/agent/service/register

扩展: 删除服务节点

 curl -X PUT  http://localhost:8500/v1/agent/service/deregister/node02

3)服务注册成功

#(3)安装和配置altermanger

altermanager作用: 接收prometheus发送的告警信息, 通过相关方式例如邮件和微信等方式发送给接收者;
0)准备目录

test -d /etc/alertmanager || mkdir -pv /etc/alertmanager

1)准备配置文件

# cat /etc/alertmanager/alertmanager.yml
global:
        resolve_timeout: 5m

templates:
- ‘/etc/alertmanager/wechat.tmpl‘

route:
        group_by: [‘alertname‘]
        group_wait: 10s
        group_interval: 10s
        repeat_interval: 1h
        receiver: ‘wechat‘
receivers:
- name: ‘wechat‘
        wechat_configs:
        - corp_id: ‘wwc08fcb42fc6fe93c‘
                to_party: ‘2‘
                agent_id: ‘1000002‘
                api_secret: ‘cLG91Xgcd3o3zPJp6NbOJV9m7SBIlhtCScxov3Hp-XQ‘
                send_resolved: true

2)准备模板文件

# cat /etc/alertmanager/wechat.tmpl
{{ define "wechat.default.message" }}
{{ range .Alerts }}
========start==========
告警程序:prometheus_alert
告警级别:{{ .Labels.severity }}
告警类型:{{ .Labels.alertname }}
故障主机: {{ .Labels.instance }}
告警主题: {{ .Annotations.summary }}
告警详情: {{ .Annotations.description }}
触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }}
========end==========
{{ end }}
{{ end }}

3)启动容器

docker run --restart=always   -d -p 9093:9093 -v /etc/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml -v /etc/alertmanager/wechat.tmpl:/etc/alertmanager/wechat.tmpl --name alertmanager prom/alertmanager

4)验证容器是否有报错

docker logs -f alertmanager

#(4)安装和配置prometheus
prometheus作用: 用于向exporter获取数据并保存数据, 同时可以设置规则和触发器, 向报警器发送信息;

1)准备目录

test -d /etc/prometheus || mkdir /etc/prometheus -pv

2)准备prometheus配置文件

rule_files : 报警规则文件
alerting: 当触发报警, 把报警相关发送给altermanager, 由altermanager接收告警信息在发送给接收人;
job_name: consul : prometheus 向consul注册;

# cat /etc/prometheus/prometheus.yml
global:
        scrape_interval:     15s
        evaluation_interval: 15s
rule_files:
        - "/etc/prometheus/*.rules"
alerting:
        alertmanagers:
        - static_configs:
                - targets:
                        - "192.168.1.82:9093"
scrape_configs:
        - job_name: prometheus
                static_configs:
                        - targets: [‘localhost:9090‘]
                                labels:
                                        instance: prometheus
        - job_name: ‘consul‘
                consul_sd_configs:
                        - server: ‘192.168.1.82:8500‘
                                services: []

                relabel_configs:
                        - source_labels: [__meta_consul_tags]
                                regex: .*test.*
                                action: keep

3)准备告警规则文件 , 注意该文件不能有tag键, 同时key和value之间必须要有空格

# cat /etc/prometheus/prometheus.rules
groups:
- name: alert-rule
    rules:
    - alert: NodeFilesystemUsage-high
        expr: (1-  (node_filesystem_free_bytes{fstype=~"ext3|ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext3|ext4|xfs"}) ) * 100 > 80
        for: 2m
        labels:
            severity: warning
        annotations:
            summary: "{{$labels.instance}}: High Node Filesystem usage detected"
            description: "{{$labels.instance}}: Node Filesystem usage is above 80% ,(current value is: {{ $value }})"
    - alert: NodeMemoryUsage
        expr: (100 - (((node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes)/node_memory_MemTotal_bytes) * 100))  > 80
        for: 2m
        labels:
            severity: warning
        annotations:
            summary: "{{$labels.instance}}: High Node Memory usage detected"
            description: "{{$labels.instance}}: Node Memory usage is above 80% ,(current value is: {{ $value }})"
    - alert: NodeCPUUsage
        expr: (100 - (avg by (instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100))  > 80
        for: 2m
        labels:
            severity: warning
        annotations:
            summary: "{{$labels.instance}}: Node High CPU usage detected"
            description: "{{$labels.instance}}: Node CPU usage is above 80% ,(current value is: {{ $value }})"

4)docker方式启动prometheus

docker run  --restart=always --name prometheus -d -p 9090:9090 -v /etc/prometheus:/etc/prometheus  prom/prometheus 

5)登录到prometheus验证

rule这里能看到相关规则

#(4)下载安装和配置grafana

1)下载和启动grafana

 wget https://dl.grafana.com/oss/release/grafana-6.0.2-1.x86_64.rpm
 yum  install grafana-6.0.2-1.x86_64.rpm -y
 systemctl start grafana-server
 systemctl enable grafana-server
 ss -anltup |grep 3000 

2)添加图形

https://grafana.com/dashboards 页面搜索node exporter 根据id导入模板 id 为8919

3)查看图形

9)安装饼图插件

grafana-cli plugins install grafana-piechart-panel
systemctl restart grafana-server

原文地址:https://blog.51cto.com/1000682/2374406

时间: 2024-08-30 01:22:26

node exporter完整版的相关文章

【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】

引言: 前面转载过一篇团队兄弟[伊利丹]写的NN HA实验记录,我也基于他的环境实验了NN HA对于Client的透明性. 本篇文章记录的是亲自配置NN HA的详细全过程,以及全面测试HA对客户端访问透明性的全过程,希望对大家有帮助. 实验环境: Hadoop2.2.0的4节点集群,ZK节点3个(ZK节点数最好为奇数个),hosts文件和各节点角色分配如下: hosts: 192.168.66.91 master 192.168.66.92 slave1 192.168.66.93 slave2

中国移动短信网关错误代码汇总(完整版)

中国移动短信网关错误代码汇总(完整版) 发短信的时候,平台里经常会提示一些不常见的错误网关代码,这里先移动短信网关错误代码先整理出来供大家查询,希望可以帮助到大家,若有的代码没有更新,还请大家跟帖留下,我会及时更新上. 错误码 原因描述 改进建议 MK:0255 未确定的错误原因. 保留. MK:0210 MS错误. 检查被叫手机是否有接收短消息的功能. MK:0209 SIM中没有存储短消息的能力. 检查被叫手机的SIM卡是否不能存储短消息. MK:0208 SIM(Subscriber Id

Redhat6.5下MySQL5.6集群配置完整版

1.准备三台服务器 2.为三台机器分别安装Linux操作系统(Oracle Linux / RHEL 6.5 x86_64bit) 3.分别IP地址 管理节点      192.168.1.110         (负责管理整个集群) SQL节点       192.168.1.111         (负责操作数据库) SQL节点       192.168.1.112         (负责操作数据库) 数据节点      192.168.1.111         (负责存储数据) 数据节

【甘道夫】Hadoop2.4.1尝鲜部署+完整版配置文件

引言 转眼间,Hadoop的stable版本已经升级到2.4.1了,社区的力量真是强大!3.0啥时候release呢? 今天做了个调研,尝鲜了一下2.4.1版本的分布式部署,包括NN HA(目前已经部署好了2.2.0的NN HA,ZK和ZKFC用现成的),顺便也结合官方文档 http://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/ClusterSetup.html  梳理.补全了关键的配置文件属性,将同类属性归

7天撸完KTV点歌系统,含后台管理系统(完整版)

博客园好丑啊,请看掘金文章 7天撸完KTV点歌系统,含后台管理系统(完整版) 最近手有点痒琢磨着做个啥,朝思暮想还是写个KTV点歌系统,模拟了一下KTV开户的思路,7天累死我了,不过技术点还挺多的,希望你可以看完(?^?^)? 用Node(Express)教你写KTV点歌系统,包括前台内容和后台管理系统,整合Express框架和Mongodb数据库服务器开发:教你用Vue.JS,ElementUI和iViewUI写出超漂亮的页面,随心点歌随心听 1 作者原创文章, 转载前请留言或联系作者!!!

office2016 软件全集 官方下载免费完整版(含破解文件)不含垃圾软件 win10完美激活

office2016官方下载免费完整版是新一代办公软件,office2016官方下载免费完整版已经分享到下面,office2016官方下载免费完整版包括了Word.Excel.PowerPoint.OneNote.Outlook.Skype.Project.Visio以及Publisher等组件和服务.下面分享:office2016软件的下载.安装及激活. 本文来自互联网,按原教程安装结果中招了,因含有垃圾软件,所以决定改写,以免你懂的... 注册文件下载中含有垃圾软件,请按下面的步骤操作会跳过

Hadoop实战视频教程完整版 完整的Hadoop大数据视频教程

分享一套迪伦老师的完整的Hadoop实战视频教程,教程从学习Hadoop需要的数据库.Java和Linux基础讲起,非常适合零基础的学员,课程最后结合了实战项目演练,理论结合实战,深入浅出,绝对是当前最为完整.实战的Hadoop教程. <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询QQ:1337192913(小公子)

rip路由协议 细节分析及实例配置【完整版】

rip路由协议 细节分析及实例配置[完整版] RIP呢,这是一个比较重要的知识点,所以它的知识覆盖面很广泛:但是呢,我将会对碰到的问题进行一些分析解刨(主要是为了帮助自己理清思维):也希望能够从中发现自己不足的问题,也希望能够找到一些比较冷僻的问题,这样子才会有意思多了.   先上图,这个就是我准备做实验的基本用图了.现在已经按照图上标注的IP将所有基本配置设置好了. 在这个实验中,大多数都是基于ripv1,只有在需要比较的时候才会把版本改成ripv2,然后判断完之后再切换为ripv1: 第一步

信号处理必读的文章(-)—傅里叶分析之掐死教程(完整版)_转载至知乎

傅里叶分析之掐死教程(完整版)更新于2014.06.06 http://zhuanlan.zhihu.com/p/19763358 作 者:韩 昊 知 乎:Heinrich 微 博:@花生油工人 知乎专栏:与时间无关的故事 谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师. 转载的同学请保留上面这句话,谢谢.如果还能保留文章来源就更感激不尽了. ——更新于2014.6.6,想直接看更新的同学可以直接跳到第四章———— 我保证这篇文章和你以前看过的所有文章都不同,这是12年