[转]NMON服务器监控、指标说明

一、NMON中的各项参数指标:

SYS_SUMM:显示当前服务器的总体性能情况

Total System I/OStatistics:
Avg tps during an interval:显示采集间隔内磁盘平均I/O次数,该值等于Sheet DISK_SUMM中IO/sec列的平均值。
 Max tps during an interval:显示采集间隔内磁盘最大I/O次数,该值等于Sheet DISK_SUMM中IO/sec列的最大值。
 Max tps interval time:显示磁盘最大I/O所在时间点。
Total number of Mbytes read:显示采集间隔内磁盘读的总兆字节数,可能是nmon的bug,该值并不准确,并且使用LVM划分的虚拟磁盘可能会存在重复统计。
Total number of Mbytes written:显示采集间隔内磁盘写的总兆字节数,该值并不准确,理由同上。
Read/Write Ratio:显示Total number of Mbytes read/ Total number of Mbytes written的值。 实时读写比率
IO/sec:仅显示磁盘IO/sec的图,不包括Network的I/O。   每秒钟输出到物理磁盘的传输次数

如下图:

CPU:
Users%:显示采集间隔内所有CPU在User Mode下的Time占比(Avg、Max)。
Sys%:显示采集间隔内所有CPU在System Mode下的Time占比(Avg、Max)。
Wait%:显示采集间隔内所有CPU处于空闲且等待I/O完成的时间比例(Wait%是CPU空闲状态的一种,当CPU处于空闲状态而又有进程处于D状态(不可中断睡眠)时,系统会统计这时的时间,并计算到Wait%里),Wait%不是一个时间值,而是时间的比例,因此在同样I/O Wait时间下,服务器CPU越多,Wait%越低,它体现了I/O操作与计算操作之间的比例。对I/O密集型的应用来说一般Wait%较高,且Sheet PROC中Blocked也较高,这时需关注是什么导致了过多的进程等待。
 Idle%:显示采集间隔内所有CPU处于空闲Time的占比(Avg、Max)。
CPU%:显示采集间隔内所有CPU的user%+system%。
2.        AAA
显示当前服务器基本信息,如操作系统版本,当前LPAR名,采集时间和次数等如下图


3.        StrayLines
显示本次nmon分析文件中未生成的采集值。
4.        BBBP
由于本Sheet内容较多,见下图(部分截图):

(截图一)
如上图,显示当前服务器的基础资源信息,当前服务器操作系统是cent os版本。

MemTotal:显示当前服务器物理内存大小,本服务器有8063180 KB≈7874 MB左右。
MemFree:显示当前服务器的空闲内存大小,本服务器有5052336 KB≈4934 MB左右。
Buffers:显示当前服务器Buffer(在内存中要写到磁盘上的)缓存的大小,本服务器有459108 KB≈448 MB左右,注意,这里的数值仅是采集初期的静态值,具体Buffer的变化还需要看Sheet MEM。
 Cached:显示当前服务器Cache缓存的大小(从磁盘读取到内存的),本服务器有1032572 KB≈1008 MB左右。,这里的数值仅是采集初期的静态值,具体Buffer的变化还需要看Sheet MEM。

SwapCached:显示当前服务器Swap空间已缓存的大小,本服务器尚未使用到Swap空间。
SwapTotal:显示当前服务器Swap空间大小,本服务器有8385532 KB≈8189 MB左右。
SwapFree:显示当前服务器Swap空闲空间大小,本服务器Swap空间都空闲。

由于执行nmon时所属系统组权限不同,因此BBBP里磁盘的信息可能会缺失,如截图一是root权限执行nmon生成文件后显示的磁盘信息,可以看到每个磁盘的大小及磁盘下的分区用途。 
5.        CPU_ALL
显示当前服务器所有CPU在采集时间段内的利用率,按时间及User%、System%、Wait%显示。

当前服务器共有4颗CPU(Core)8核心。
一般情况下CPU利用率里User%应占70%左右,Sys%应占30%左右,如果Sys%或Wait%占比等于或超过了User%则应该关注是什么引起了过多的系统消耗,可能是大量的Disk或Network I/O。
如下图,这个项目随着并发的增加,应用进程对CPU的消耗都增加在Wait%上,经排查是由于NFS读写遇到瓶颈导致:

6.        CPU_SUMM
显示当前服务器所有CPU的利用率,当前服务器共有4个CPU(Core),每个CPU负载有所不同。

7.        DISK_SUMM
按采集时间显示所有磁盘和分区的Read/Write的速率(KB/s)和所有磁盘和分区的I/O率。某一采集时间点的IO/sec等于Sheet DISKXFER中该时间点上所有磁盘和分区的IO/sec之和。因此,这一时间点上的I/O值是重复的!另外,本Sheet中的I/O不包括NFS里的I/O。

如上图的WAvg按nmon Guide中的说法是为了去掉采集值中的零值以便贴近真实平均值,但WAvg的公式(对计算列中所有值取平方后加合,再除以列中所有值之和)却不是单纯的去掉零值,这里可以理解为WAvg比Avg更贴近资源消耗的均值,因此以后所有资源Sheet中都推荐关注WAvg。
IBM Redpaper《Linux Performance and Tuning Guidelines》中介绍Linux的I/O子系统架构如下:

nmon(包括iostat)对系统I/O的指标截取大部分来自/proc/diskstats,而这些值来自block layer层,LVM里的Logical Volume会“visible as a standard block device”,因此真实的磁盘,LVM的逻辑卷,分区等在这里都会显示,在nmon计算总值时会被重复统计。
Disk Read/Write KB是同一采集时间点下Sheet DISKREAD、DISKWRITE里该行(所有磁盘和分区)数值之和,必然包括了重复值,例如某一时刻sda磁盘共write 1000 KB,其中sda1分区write 700 KB,sda3分区write 300 KB,这一时刻Disk Write应是1000 KB,但这里却会重复统计分区数值,导致显示为Disk Write 2000 KB。Disk I/O也存在同样的问题!
还需注意一点,部分nmon生成文件里图中标题指标为kb(小写)/s,但实际统计的却是KB(大写)/s。

http://blog.csdn.net/he_jian1/article/details/41039709/

时间: 2025-01-01 21:39:56

[转]NMON服务器监控、指标说明的相关文章

jmeter服务器监控指标

以下是下载了服务器监控插件的各个组件的功能介绍,有助于以后jmeter的性能测试 [email protected] - Actiive Threads Over Time:不同时间的活动用户数量展示(图表) 当前的时间间隔是1毫秒,在setting中可以设置时间间隔以及其他的参数 2.[email protected] - AutoStop Listener :自动停止监听器 设置当发生某些预期之外的情况时自动停止测试 average Response Time is greater than

Windows服务器使用Telegraf采集服务器监控指标输出到influxdb

1.环境说明 操作系统:Windows Server 2008 R2 IP:192.168.10.135 官方文档地址 :https://docs.influxdata.com/telegraf/v1.10/ 2.安装包下载(windows) wget https://dl.influxdata.com/telegraf/releases/telegraf-1.10.3_windows_amd64.zip unzip telegraf-1.10.3_windows_amd64.zip 3.安装前

自动化运维工具之Zabbix服务器监控基本应用详解(一)

Zabbix基本概述:Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案.它能监视各种网络参数,保证服务器系统的安全运营:并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题. zabbix由zabbix server与可选组件zabbix agent构成:zabbix server:可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux, Solaris, H

[转载]你需要知道的 16 个 Linux 服务器监控命令

转载自: 你需要知道的 16 个 Linux 服务器监控命令 如果你想知道你的服务器正在做干什么,你就需要了解一些基本的命令,一旦你精通了这些命令,那你就是一个 专业的 Linux 系统管理员. 有些 Linux 发行版会提供 GUI 程序来进行系统的监控,例如 SUSE Linux 就有一个非常棒而且专业的工具 YaST,KDE 的 KDE System Guard 同样很出色.当然,要使用这些工具,你必须在服务器跟前进行操作,而且这些 GUI 的程序占用了很多系统资源,所以说,尽管 GUI

性能测试-监控指标数据分析

监控指标数据分析 1.最大并发用户数: 应用系统在当前环境(硬件环境.网络环境.软件环境(参数配置))下能承受的最大并发用户数. 在方案运行中,如果出现了大于3个用户的业务操作失败,或出现了服务器shutdown的情况,则说明在当前环境下,系统承受不了当前并发用户的负载压力,那么最大并发用户数就是前一个没有出现这种现象的并发用户数. 如果测得的最大并发用户数到达了性能要求,且各服务器资源情况良好,业务操作响应时间也达到了用户要求,那么OK.否则,再根据各服务器的资源情况和业务操作响应时间进一步分

mysql主要性能监控指标

1.系统mysql的进程数 ps -ef | grep "mysql" | grep -v "grep" | wc –l 2.Slave_running mysql > show status like 'Slave_running'; 如果系统有一个从复制服务器,这个值指明了从服务器的健康度 3.Threads_connected mysql > show status like 'Threads_connected'; 当前客户端已连接的数量.这个值

JMX对weblogic的监控指标小结

weblogicServier实现了JMX规范,提供了各种各样的MBeans对WebLogic Server的各项配置及性能进行监控的API. 通过weblogic提供的API可以对server(服务),cluster(集群)等进行监控.下面主要罗列对server进行监控的指标. 1.常用一般监控指标 指标名 指标描述 MBean属性 服务状态 此服务器的当前生命周期状态.例如,服务器可以处于 RUNNING 状态,在该状态下,它可以接收和处理请求,也可以处于 ADMIN 状态,在该状态下,它只

服务器监控(包括性能指标与web应用程序)

服务器监控 ?? 在搭建服务器时,除了部署webapp之外,还需要服务的异常信息与服务器性能指标进行监控,一旦有异常则通知管理员. ?? 服务器使用Linux+Nginx-1.9.15+Tomcat7+Java搭建的. ?? 编写脚本检测错误日志和服务器性能指标,一旦新生错误日志或者性能降低到设定的阈值时,则使用云监控将报警上传到云账号. 服务运行监控 ?? 错误日志包含以下三个方面: nginx 错误信息监控(nginx.conf配置) ${NGINX_HOME}/logs/error.log

明晚九点|一线互联网公司服务器监控系统架构分享

主题:一线互联网公司服务器监控系统架构 内容: 自动运维的一点体会 性能与可用性可扩展 功能可扩展 监控支撑业务扩展 主讲师:PC 老师 大学时期就负责学校官方网站的运维工作,实习期间加入豆瓣,有幸成为豆瓣 Top20 员工,从事 Python 开发及运维工作,后在 BAT 从事自动化运维,见证BAT 运维自动化从无到有.擅长系统底层.分布式系统开发,热衷于开源运动,给 memcached.[email protected] 等多个开源项目贡献过代码. 自动化运维的一点体会 不同公司的需求差异