Prometheus+Grafan监控k8s集群详解

一，Prometheus概述

1，什么是Prometheus？
Prometheus是最初在SoundCloud上构建的开源系统监视和警报工具包，自2012年成立以来，许多公司和组织都采用了Prometheus，该项目拥有非常活跃的开发人员和用户社区。现在，它是一个独立的开源项目，并且独立与任何公司维护。为了强调这一点并阐明项目的治理结构，Prometheus在2016年加入了 Cloud Native Computing Foundation（云原生计算基金会（CNCF）），这是继kubernetes之后的第二个托官项目。

2，Prometheus的优势
Prometheus 的主要优势有：

由指标名称和键/值识别时间序列数据组成的多维数据模型。

强大的查询语言（PromQL）

不依赖分布式存储；单个服务节点具有自治能力。

通过基于HTTP的拉取方式采集时间序列数据。

可以通过中间网关来推送时间序列数据。

可以通过静态配置文件或服务发现来获取监控目标。

支持多种类型的图标和仪表盘，比如Grafana等。

3，Prometheus的核心组件
Prometheus生态系统有多个组件组成，其中有许多组件是可选的：

Prometheus Server：用于收集指标和存储时间序列数据，并提供查询接口。

client Library：客户端库（例如Go，python，java等），为需要监控的服务产生相应的/metrics（服务指标度量）并暴露给Prometheus server。

push gateway：推送网关，主要用于临时性的jobs。由于这类jobs存在时间较短，可能在Prometheus来pull之前就消失了，对此jobs定时将指标push到pushgateway，再由Prometheus server从pushgateway上pull。

Exporter：用于暴露已有的第三方服务的 metrics 给Prometheus。

alertmanager：用来处理告警，从Prometheus server端接收警告后，会进行去除重复数据，分组，并路由到对收的接收方式，发出报警。最常见的接收方式：电子邮件。

4，Prometheus的架构
Prometheus 的整体架构以及生态系统组件如下图所示：

Prometheus server直接从监控目标中或者间接通过推送网关来拉取监控指标，它在本地存储所有抓取到的样本数据，并对此数据执行一系列规则，以汇总和记录现有数据的新时间序列和生成告警。可以通过Grafana或者其他工具来实现监控数据的可视化。

5，Prometheus的优缺点
Prometheus对于采集纯数字值的时间序列非常在行，所以它适合以物理机为中心的监控，也适合监控高度动态的面向服务的架构体。在微服务领域，它的多维数据采集以及查询非常独到且很有竞争力。
Prometheus最大的价值在于可靠性，用户可以再任何时候看到整个被监控系统的统计信息，即使在系统有问题的是时候。但它不能做到100%的精确，比如如果你要按请求数据计费，那么Prometheus不太适合你，因为它收集的数据可能不够详细完整。这种情况下你最好使用其他系统来收集和分析数据以进行计费，并使用Prometheus来监控系统的其余部分。

二，Prometheus部署

部署环境：

节点名	主机ip	操作系统
master	172.16.1.30	Centos7
node01	172.16.1.31	Centos7
node02	172.16.1.32	Centos7

1，获得Prometheus的git项目：

1）安装git工具包：
[[email protected] ~]# yum install git -y

2）获取Prometheus的git项目：
[[email protected] prometheus]#  git clone https://github.com/coreos/kube-prometheus.git

#执行git pull命令进行更新，确保克隆到本地的是最新的：
[[email protected] kube-prometheus]# git pull
Already up-to-date.

2，导入部署Prometheus所需组件镜像：
1）在集群中的所有node上进行上传镜像包（包括master）

2）分别在集群中的node上进行load操作：

#注意：确定在当前路径下执行
[[email protected] images]# for i in `ls`; do docker load < $i; done
[[email protected] images]# for i in `ls`; do docker load < $i; done
[[email protected] images]#  for i in `ls`; do docker load < $i; done

以上镜像都是我通过国内阿里云镜像站下载好的（已修改tag），我已上传至网盘，大家可以去进行下载：链接：https://pan.baidu.com/s/1c8pP3vAS9qHCQqc-XaYRXQ
提取码：8zk2

注意：
考虑到以上组件的镜像版本在git项目上会经常的更新，所以大家就得根据最新版本去下载相对应的镜像；yaml文件中默认是从quay.io和gcr.io进行镜像拉取（其他的国内可直接拉取），我们知道，国内访问外网是被屏蔽的，我们无法直接将镜像下载下来，所以可以分别通过 quay-mirror.qiniu.com 和 registry.aliyuncs.com镜像站去拉取。
###例如：
拉取镜像：quay.io/coreos/prometheus-operator:v0.36.0
可以改为：quay-mirror.qiniu.com/coreos/prometheus-operator:v0.36.0

拉取镜像：gcr.io/google_containers/kube-proxy
可以改为：registry.aliyuncs.com/google_containers//kube-proxy

3，修改访问模式为nodeport

1）修改grafana-service文件：
[[email protected] kube-prometheus]# cd manifests/
[[email protected] manifests]# vim grafana-service.yaml

2）修改Prometheus-service文件：
[[email protected] manifests]# vim prometheus-service.yaml

3)修改alertmanager-service文件：

4，执行安装操作
1）先安装Prometheus所需要的资源（在manifests/setup目录下的yaml文件）：

[[email protected] manifests]# kubectl apply -f  setup/

2）安装Prometheus（在manifests/路径下的yaml文件）：
[[email protected] manifests]# cd ..
[[email protected] kube-prometheus]# kubectl apply -f manifests/

5，查看Prometheus资源（确保以下pod都达到所期望的状态值）
[[email protected] kube-prometheus]# kubectl get pod -n monitoring

[[email protected] kube-prometheus]# kubectl get svc -n monitoring

以上各组件说明：

MerticServer： k8s集群资源使用情况的聚合器，收集数据给k8s集群内使用；如kubectl，hpa，scheduler等。

PrometheusOperator：是一个系统监测和警报工具箱，用来存储监控数据。

NodeExPorter：用于各个node的关键度量指标状态数据。

kubeStateMetrics：收集k8s集群内资源对象数据，指定告警规则。

Prometheus：采用pull方式收集apiserver，scheduler，control-manager，kubelet组件数据，通过http协议传输。

Grafana：是可视化数据统计和监控平台。

6，Prometheus监控页面展示

1）访问Prometheus web页面：
访问url：http://172.16.1.30:30200/