SMART 磁盘监控方案

smartctl 命令行的使用.

命令行使用说明:

目前我们使用的服务器都带有lsi的raid卡,当磁盘为SAS盘时使用smartctl时需要添加:

 smartctl -d megaraid,$deviceid  /dev/$diskname

当磁盘为SATA盘时使用smartctl时需要添加:

 smartctl -d sat+megaraid,$deviceid  /dev/$diskname

可以使用raid卡工具来查看磁盘接口类型

    megacli -cfgdsply -aall |grep ‘PD TYPE‘

若没有使用raid卡则不需要加 -d参数.

命令行返回值

smartctl执行完毕之后可以从$? shell变量中取得返回值,如果磁盘完全正常则返回值为0,否则根据错误类型设置相应的bit位.
各个bit的说明如下:

       Bit 0: Command line did not parse.

       Bit 1: Device open failed, device did not return an IDENTIFY DEVICE structure, or device is in a low-power mode (see -n option above).

       Bit 2: Some SMART or other ATA command to the disk failed, or there was a checksum error in a SMART data structure (see -b option above).

       Bit 3: SMART status check returned "DISK FAILING".

       Bit 4: We found prefail Attributes <= threshold.

       Bit 5: SMART status check returned "DISK OK" but we found that some (usage or prefail) Attributes have been <= threshold at some time in the past.

       Bit 6: The device error log contains records of errors.

       Bit 7: The device self-test log contains records of errors.  [ATA only] Failed self-tests outdated by a newer successful extended self-test are ignored.

查看bit设置:

      status=$?
       for ((i=0; i<8; i++)); do
         echo "Bit $i: $((status & 2**i && 1))" 
       done

需要重点监控bit3, bit4, bit6, bit7,bit5是否设置,其他位置的设置需要提醒.

smartctl 显示的属性(Attribute)信息:

以公司内的一台服务器为例说明:

[[email protected] ~]#smartctl -A -P use  /dev/sdb
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.el6.x86_64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   086   086   016    Pre-fail  Always       -       10813449
  2 Throughput_Performance  0x0005   132   132   054    Pre-fail  Offline      -       105
  3 Spin_Up_Time            0x0007   117   117   024    Pre-fail  Always       -       615 (Average 615)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       314
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   112   112   020    Pre-fail  Offline      -       39
  9 Power_On_Hours          0x0012   097   097   000    Old_age   Always       -       23637
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       313
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       478
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       478
194 Temperature_Celsius     0x0002   222   222   000    Old_age   Always       -       27 (Min/Max 5/70)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

1,首先不同的磁盘厂商提供的ATTRIBUTE_NAME 列表可能不一样,只是S.M.A.R.T属性列表的子集,smart完整的属性列表及其每个属性的含义请参考这里:
http://en.wikipedia.org/wiki/S.M.A.R.T.#8

2,我们需要关注的字段 WHEN_FAILED
WHEN_FAILED字段显示的规则:

  if(VALUE <= THRESH)
           WHEN_FAILED = "FAILING_NOW";
  else if (WORST <= THRESH)
           WHEN_FAILED = "in_the_past"(or past);
  else 
           WHEN_FAILED = "-";

也就说当某个ATTRIBUTE_NAME的WHEN_FAILED字段为“-”时表示这个属性是正常的,也从没发生过异常.

同时当smartctl 命令的返回值的bit4,bit 5设置就可以检查看哪个ATTRIBUTE_NAME为非“-”就表示这个字段出问题了.

简单的smartctl监控方案

针对每块盘没半个小时执行一次smartctl扫描:

smartctl -a  /dev/$devname

每次都要检查smartctl的返回值,
如果返回值的bit2,可以使用smartctl -x -b warn /dev/$devname可以看到不支持哪些命令
Warning: device does not support SCT Data Table command
Warning: device does not support SCT Error Recovery Control command
如果返回值的bit4或者bit5设置,则需要检查smartctl输出中的START OF READ SMART DATA SECTION,即上节所讲的ATTRIBUTE,并记录WHEN_FAILED字段非“-”的ATTRIBUTE_NAME.
如果返回值的bit6设置,记录smartctl -l xerror  /dev/$devname 的执行结果.
如果返回值的bit7设置,记录smartctl -l xselftest /dev/$devname 的执行结果.
如果bit3设置表示smart自检失败.

以上的bit除了bit5.其他最好都能实时的发出警报信息,
其他bit如果置位,可以不需要实时的警报.

针对ATTRIBUTE_NAME的一些说明:

由于不同厂商的磁盘提供的ATTRIBUTE_NAME不完全一致, 加上我现在对某些字段的含义理解不够,所以警报信息暂时不按照ATTRIBUTE_NAME来区分.
比如我们比较关注的Throughput_Performance,公司内的日立的磁盘的smart包含有此信息,而希捷的盘没有.
至于需要更细化的监控方案需要对ATTRIBUTE_NAME中的属性有深入的理解再做定夺.

ssd盘的寿命监控

ssd 盘的寿命监控主要监控以下的ATTRIBUTE:

Media_Wearout_Indicator:    使用耗费, 表示SSD上NAND的擦写次数的程度
Reallocated_Sector_Ct:     出厂后产生的坏块个数
Host_Writes_32MiB:     已写32MiB的个数.
Available_Reservd_Space:    SSD上剩余的保留空间。

以上的ATTRIBUTE只要VALUE字段接近THRESH字段的值就需要报警,同样可以使用上边的说明来处理

时间: 2024-12-17 22:44:27

SMART 磁盘监控方案的相关文章

无线监控方案的优势

随着无线通信技术的快速发展,无线监控方案应用越来越被各行各业所采用.在无线监控方案建设时,往往受到地理环境的制约,造成布线施工周期长,成本高等缺点,甚至在某些环境下根本无法实现.面对此类问题,无线监控方案作为一个新的方式也逐渐被广大用户看好,开始利用无线监控来摆脱线缆的束缚,突显安装方便.灵活性强.性价比高等特性.无线监控技术已经在现代化小区.交通.运输.水利.航运.治安.消防等领域得到了广泛的应用. 无线监控方案和传统的监控方案相比,具有以下几个优点: 1.无线监控方案组建网络灵活方便.可扩展

客户端主动运维:查看磁盘监控状况

使用everest工具,查看PC硬盘情况.如下图: Reallocated Sector Count告警提示你硬盘出现坏道.无法修复.正在使用备用扇区.如果坏道过多,将会丢失数据. 作为运维人员,这个可以作为日常工作的一部分.属于主动运维,降低数据丢失的机会. 客户端主动运维:查看磁盘监控状况

Android TransactionTooLargeException 解析,思考与监控方案

最近公司遇到了一个很有意思的 Crash:android.os.TransactionTooLargeException,这个 Crash 大家可能见到过,错误堆栈的信息多种多样,下面是其中的常见错误堆栈信息之一: #1 main android.os.TransactionTooLargeException java.lang.RuntimeException:Adding window failed android.view.ViewRootImpl.setView(ViewRootImpl

dell物理服务器硬件磁盘监控

物理服务器硬件磁盘监控: 第一:安装Megacli 和 zabbix_sender MegaCli 参考:http://tenderrain.blog.51cto.com/9202912/1639865 rpm -ivh megacli-8.02.21-1-mdv2012.0.x86_64.rpm 查看安装路径(不同的安装包路径可能不同): rpm -ql megacli-8.02.21-1.x86_64 /sbin/megacli /usr/share/doc/megacli /usr/sha

详解k8s一个完整的监控方案(Heapster+Grafana+InfluxDB) - kubernetes

1.浅析整个监控流程 heapster以k8s内置的cAdvisor作为数据源收集集群信息,并汇总出有价值的性能数据(Metrics):cpu.内存.网络流量等,然后将这些数据输出到外部存储,如InfluxDB,最后就可以通过相应的UI界面显示出来,如grafana. 另外heapster的数据源和外部存储都是可插拔的,所以可以很灵活的组建出很多监控方案,如:Heapster+ElasticSearch+Kibana等等. 2.创建k8s资源对象 使用官方提供的yml文件有一些小问题,请参考以下

NET 的 ELK 监控方案

NET 的 ELK 监控方案 https://www.jianshu.com/p/3c26695cfc38 背景就不多说了,谁家没有个几个十系统在跑啊.如何监控这几十个系统的运行状况,对于非运营人员来说,太TM五花八门了.. 背景就不多说了,谁家没有个几个十系统在跑啊.如何监控这几十个系统的运行状况,对于非运营人员来说,太TM五花八门了... 名词 ELK = ElashticSearch + LogStash + Kibana Lucene 是搜索引擎,搜索引擎的特点就不用说了吧.但是使用起来

xshell远程连接服务器和Linux下磁盘分区方案

一,设置xshell进入xshell,选择文件,打开,新建.改会话名称,并改主意主机ip:二,远程连接服务器故障排查1,ip地址,也就是服务器的位置,地址:1)公网ip:指所有人都可以访问的ip,但是数量有限且大部分在美国:2)内网,也就是局域网,私网,是指在当前环境可以用的ip192.168.xx.oo 172.16.oo.xx 10.0.0.xx 192.168.21.xx10.0.0.xx 10.0.0.200:2,端口号:端口号是用来区分不同服务的(远程连接服务------->sshd-

张明贵-Linux磁盘分区方案

[听课保持最大化的输入,分享交流保持最大化的输出] 服务器选择软RAID还是硬RAID? 应该选择硬RAID,软RAID多了一层软件,性能受到了一定程度上的限制 LVM卷,可以对磁盘空间进行动态调整 但是不建议使用这种方式,多了一层软件,应该提前规划好空间 硬盘使用前 要分区,格式化(创建文件系统) 硬盘分区 主分区 扩展分区 逻辑分区 主分区+逻辑分区 <= 4 可以不要扩展分区 直接将磁盘分为4个主分区 三个主分区 一个扩展分区(扩展分区里再划分逻辑分区,就是扩展分区包含逻辑分区,且逻辑分区

centos磁盘安装与磁盘分区方案详解

安装前须知: 前几天自己研究了下几个linux系统,还是觉着centos要好一些.相对稳定点,起码桌面系统还是比 ubuntu 强安装centos并不难,安装方法多得是,像硬盘安装,U盘安装,最简单方便得当然是光盘安装,而且刻录一张管盘仅仅需要10分钟,比硬盘安装和U盘安装需要仔细研究大量得说明文档省事得多. 我得是windos7 和 centos 双系统安装.之前有个windows7的系统.后来我又把最后的一个磁盘 G盘删除了,用来安装 CentOS. 我给centos 留了20+G得硬盘空间