概要简介
Perfstat是一个Netapp存储诊断数据命令行收集工具,该工具能够收集Netapp存储的详尽的信息,包括配置信息和性能数据,针对于Netapp存储OS的2种模式分别有两个版本:
存储模式 | Perfstat版本 |
7 mode | Perfstat 7 |
Cluster Mode | Perfstat 8 |
perfstat 7.x用于收集 7 mode Netapp存储的信息,perfstat 8.x主要用于收集Cluster mode Netapp存储信息
注意:
从Netapp Data Ontap 8.3之后,7 mode将退出历史舞台。
作为命令行工具,perfstat使用起来还是较为复杂,为了简化使用,Netapp给该工具做了一个GUI外壳,方便用户使用。下面以Windows为例说明perfstat 使用方法。
下载运行
该GUI工具可以在Windows和Linux运行,可以从Netapp官网下载(需要有Netapp的账号)
下载后会有一个.zip的压缩包,比如gPerfstat_Windows.zip。解压缩某个目录下,注意文件路径中不要包含空格,否则程序不能正常运行。
双击运行文件gPerfstat.exe。
数据收集
程序运行后出现以下界面,如果你的Perfstat版本不是最新,可以在此输入Netapp网站的账号更新软件,否则“Skip”跳过该页面
选择“Perfstat V8”,进入收集参数设定界面
- 如果收集Cluster mode存储在“Select Mode”选择“Cluster-mode”
- Cluster mode下存储有群集管理地址,参与群集的节点也有独立的地址,可以选择从群集管理地址或者节点地址进行收集。如下图,选择收集整个群集的信息,灾难Controller IP/Name(s)填写存储的群集管理地址,如果是双活群集,请勾选“Metrocluster”。此处可以填写多个群集管理地址,以逗号分隔开即可。如果填写主机名,请确保DNS解析正常。
- 在username/Password处填写群集管理用户名和密码。填写完以后,后台会调用openssh创建ssh密钥对,并上传到存储
- 在username/Password处填写群集管理用户名和密码。填写完以后,后台会调用openssh创建ssh密钥对,并上传到存储,这样建立本地主机和存储的SSH信任关系。
- 在“perfstat time”可以定义信息收集的时间,默认选择“6min(3x2)” interation:3 time:2min。即perfstat命令迭代收集3次,每次运行间隔2分钟。
- 如果要自定义时间间隔可以在下拉菜单选择“Customize Perfstat…”,然后选择运行次数和时间间隔,比如运行20次,每次间隔2分钟。该命名的执行时间将超过:20x2=40min
- 另外通过“Incremental”栏位指定Runs的值可以设定perfstat命令执行的次数,如果该值设定为10,那么,整个信息收集时间:40min*10=400min。
- 如果希望在指定的时间运行或者定期运行,那么在“Execute”栏位指定,Schedule表示在指定时间运行,Now表示马上运行;Once表示在指定时间运行一次,Daily表示在指定时间每天运行。
- 在“Preset file name”下拉菜单选择时,一般保留默认。除非perfstat执行时间过长,就选择“Critical_preset”。该配置下Perfstat将缩减收集信息的范围以尽快完成收集。
- 如果收集过程中需要给perfstat命令传递其他GUI不能定义的参数,将改参数添加填写到“generate cmd”栏位。
- 点击“generate cmd”按钮,以上配置的参数就生成命令行了。
- 点击“Start”按钮运行,出现以下对话框提示命令已经开始运行。
- 点击“OK”关闭提示窗口,等待运行完毕。运行完毕后会有提示窗口出现。
- 运行结果保存在安装目录“CLI_Logs”下。
- 如果中途需要终止程序,在Active Process区域,Process ID下选择进程号,然后点击“Abort”。同时也可以通过“Logs”按钮打开对应的运行结果输出文件。
数据上传
收集到的数据可以上传到netapp的网站https://latx.netapp.com,注意登录该网站需要有账号。
该网站可以将上传数据进行分析并且生产图表。利用这些图表可以很便利地分析现有存储的运行状况。
上传步骤:
1.登录https://latx.netapp.com后,看到如下Web页面
2.点击“New Perfstat”,出现上传的窗口
- case Number——可选项。如果你已经和Netapp 开了支持的案例,可以输入案例编号,随后Netapp可以根据该编号在Latx网站找到你上传的数据。也可以空白
- Case Status——必选项。下拉菜单中选择案例状态,“Associated with a Netapp support case”表示上传数据已经和一个已开的案例相关;“Not associated with a Netapp support case”表示上传数据和某个案例关联。
- data Status——必选项。”Captured during a performance issue“表示存储故障期间收集的数据;”Not captured during a performance issue“表示非存储故障期间收集的数据;“Data status unknow”数据状态未知
- 点击”Load files“按钮旁边的出现文件上传窗口,选择文件上传即可。注意上传文件的大小不能超过25MB,如果超过25MB只能直接上传”http://upload.netapp.com“
- 文件上传完毕后,点击”Load Files“按钮,网站后台程序将把上传文件进行解压分析。完成后会出现以下界面:
数据分析
利用Latx的图表可以分析存储的运行状态。
1.IO延迟
2.磁盘利用率
在Summary菜单下可以看总体磁盘利用率
如上图,当前的磁盘利用率为100%,说明磁盘非常繁忙,存储的响应能力肯定非常差。所以延迟比较高。
不过,在该视图下,不能精确反应磁盘的利用率,这个100%只是利用率最高的部分磁盘的数据。并不是所有磁盘的平均值。这是由于我们看到的这个图形是根据”sysstat“命令输出的结果生成。该命令输出的磁盘利用率是取所有磁盘中最高值。假设有这种情况,存储节点有30块磁盘,只有一块磁盘非常繁忙,使用率达到100%,其他29块都只有10%。那么,这个命令输出的磁盘利用率也是100%。
要获得精确的磁盘利用率,在”Summary“视图下,点击”Disk Utilization“
随后,出现精确磁盘利用视图,该试图基于命令 ”statit“的输出生成,可以获得每个磁盘的利用率,并且根据磁盘的繁忙程度用深浅不一的颜色进行标注,越是繁忙的磁盘,标识的颜色越深。
在”Configure“下拉菜单下,选择”Show Grid Lines“,在Grid Szie处将滑块移动到最右侧。如下图,小方块每一行代表一个磁盘,鼠标放置到小方块上,右下角状态栏会显示当前0b.01.20磁盘的利用率为98%
3.CPU的利用率
CPU的利用率同样可以在Summary视图下查看,如下图所示,数据收集期间,CPU的最大利用率为60%,平均利用率为15%。类似于磁盘利用率,因为CPU有多个核,该处显示的最大CPU利用率也是取利用率最高核的利用率。