使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控

摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1 背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.

1 背景
上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

     但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。

     通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。

本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

2 云监控Agent安装
云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。

也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

3 如何在云监控控制台查询GPU监控数据
目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

3.1 主机监控
在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/×××使用率、显存使用量、GPU功率、GPU温度等监控数据。

3.2 Dashboard中自定义监控大盘
可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

3.2.1 折线图
下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。

下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。

3.2.2 TopN表格
下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。

下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。

TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/×××利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

4 如何设置报警规则
新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:

推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践。

5 监控项说明
GPU相关监控指标提供3个维度的数据

5.1 GPU维度监控项
GPU维度的指标,采集每个GPU层面的监控数据。

5.2 实例维度监控项
实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

MetricName 单位 名称 dimensions
group_gpu_decoder_utilization % 分组维度GPU×××使用率 groupId
group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId
group_gpu_gpu_temperature ℃ 分组维度GPU温度 groupId
group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分组维度GPU显存空闲量 groupId
group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId
group_gpu_memory_totalspace Bytes 分组维度GPU显存总量 groupId
group_gpu_memory_usedspace Bytes 分组维度GPU显存使用量 groupId
group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId
group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

5.3 分组维度监控项
分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

MetricName 单位 名称 dimensions

group_gpu_decoder_utilization % 分组维度GPU×××使用率 groupId

group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId

group_gpu_gpu_temperature ℃ 分组维度GPU温度 groupId

group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId

group_gpu_memory_freespace Bytes 分组维度GPU显存空闲量 groupId

group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId

group_gpu_memory_totalspace Bytes 分组维度GPU显存总量 groupId

group_gpu_memory_usedspace Bytes 分组维度GPU显存使用量 groupId

group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId

group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

6 如何通过OpenAPI查询GPU监控数据
可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

原文链接请添加链接描述
本文为云栖社区原创内容,未经允许不得转载。

原文地址:http://blog.51cto.com/13876536/2149134

时间: 2024-10-09 12:01:23

使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控的相关文章

民政部拟规定:儿童福利机构的监控视频,至少保存3个月!又拍云为儿童健康成长保驾护航

2018 年 2 月 23 日,民政部出台了<儿童福利机构管理办法(征求意见稿)>,从各个角度加强.完善了儿童福利机构的运营.管理. △ 截图来自新华社App 为了加强儿童福利机构的安全管理,<征求意见稿>要求儿童福利机构应当实行24小时值班制度,保护儿童人身财产安全:更在第三十四条[安全保卫]中,明确规定"监控录像资料保存期不少于3个月": 儿童福利机构应当建立安全保卫制度,在各出入口.接待大厅.楼道.食堂等公共区域.观察室及婴幼儿居室等特殊区域安装具有存储功

阿里云服务器实例规格怎么选,阿里云所有实例规格适用场景汇总

现在提到上云服务器,大多用户首先想到的就是阿里云,但是用户在实际购买阿里云服务器的时候却发现阿里云有多大几十种实例规格,对于新手来说,往往就不知道怎么选择了,其实我们可以根据阿里云官方介绍的实例规格所适合的适用场景选择就可以了. 以下表格仅展示了阿里云每个实例规格所适用的场景,更多实例的具体信息(网络收发包能力.处理器等)请参考阿里云帮助中心-实例规格族介绍 以下为阿里云服务器实例规格所对应的适用场景: 实例类型 适用场景 突发性能实例规格族t5 Web应用服务器轻负载应用.微服务开发测试压测服

阿里云(ECS)Centos服务器LNMP环境搭建

阿里云( ECS ) Centos7 服务器 LNMP 环境搭建 前言 第一次接触阿里云是大四的时候,当时在校外公司做兼职,关于智能家居项目的,话说当时俺就只有一个月左右的 php 后台开发经验(还是因为无意中选修了一门电子商务的课程,要做课程设计逼迫出来的),因为公司没人接触过后台开发,所以我这个菜鸟就硬着头皮上了.刚开始入门我把精力放在公司业务功能实现上,所用的服务器环境是别人已经配置好的,就是把代码在本地写好,通过 ftp 上传到服务器目录,是用 postman 插件测试一下接口就行了,开

使用plupload绕过服务器,批量上传图片到又拍云

本文最初发布于我的个人博客:Jerry的乐园 综述 论坛或者贴吧经常会需要分享很多图片,上传图片比较差的做法是上传到中央服务器上,中央服务器再转发给静态图片服务器.而这篇文章讲介绍如何使用plupload对上传过程进行优化,并绕过服务器直接批量上传图片到又拍云上的方法.我写了一个Demo,大家可以到http://zry656565.github.io/bulk-upload-to-UPYUN/查看,而本文集中会讲到以下几个重点: plupload库 图片的本地压缩 多选图片 绕过服务器直接批量上

在阿里云上部署的node服务器不能通过公网IP访问的解决办法

首先,如果小伙伴有自己的node项目,在本地使用localhost/127.0.0.1 访问是没有任何问题的,然后部署到阿里云ECS实例上以后,通过公网IP加端口却不能访问了,可以继续往下看: 1.阿里云 ECS 实例 阿里云 ECS 实例就是在阿里云上购买的一台云服务器,然后可以上传代码,实现将自己的网站或者博客系统放置在公网上,以为需要的人提供帮助. 而阿里云却对自己的服务器实例出于对安全的考虑做了一些限制,其中限制端口,就是导致这次讨论的问题产生的根源. 2.登录阿里云实例的后台管理系统

阿里云2核4G云服务器1.4折啦!阿里云服务器2核4G 3年才600多块,省6000块

阿里云2核4G云服务器1.4折啦!阿里云服务器2核4G 3年才600多块,省5000块 活动专属页面:点这里 活动专属页面:点这里 阿里云大礼包 1000元抵扣券 点击领取一.活动对象 1.阿里云官网注册的个人实名认证用户.但只有未购买过云产品(即账号下无付费订单记录)的新用户方有资格参与拼团购买. 二.活动时间 2018年8月20日-2018年9月7日. 三.活动规则 1.活动期间,推荐者可推荐新用户通过活动专属页面购买指定云服务器,具体规格如下: ①实例规格:阿里云服务器入门型2核4G 带宽

单颗GPU计算能力太多、太贵?阿里云发布云上首个轻量级GPU实例

摘要: 阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在硅谷举办的2019年NVIDIA GPU技术大会(GTC)上,阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在该实例发布之前,业内均采用以单颗物理GPU为单位的

一位云架构师用服务打动客户的故事之六(阿里云上的MSP最佳实践项目分享)

最近找了一个典型的云服务客户的案例对内进行分享,今天把核心内容脱敏后分享出来.希望能给目前在路上(做云服务MSP)的同行,有一些借鉴意义或者帮助. 该用户据全年跟进情况,目前该客户距正式启用我们公司云服务(运维服务)的日子已经有半年有余了,目前整体趋于稳定,故将目前用户进行深度复盘剖析,让各位伙伴更好的从该客户案例中提取一些有用的"武器"."售前技巧". 云产商:阿里云 企业背景-日企上来的终极三问~ > 为什么选择我们做云服务商?PS:此云服务并非指的是阿里

【云简评】之二《不做不死的Verizon云服务48小时停机事件》

2015-01-12张晓东东方云洞察 [简评] 云服务的可靠性和可持续运行时间是最为重要的两个指标,Verizon长达2天的停机时间掀起了轩然大波. 云服务48小时的停机,可以说是极为疯狂和愚蠢的,这样的决定将流失大量客户,并对未来口碑造成巨大影响. Verizon的云服务有两套架构的云服务,停机的是新的Verizon Cloud服务,其上所有的客户都将受到影响.自2014年三季度上线,原有的Enterprise Cloud客户正在逐渐往新的云服务上迁移. 这次停机影响的客户占整体云客户的10%