IBM520小型机RAID卡电池更换

1、 问题发现及分析
数据库服务器告警黄灯亮,检查日志发现时raid卡电池告警导致
2、 问题分析诊断
输入命令:# sisraidmgr -M o0 -l‘sisioa0‘
或输入命令:# smitty pxdam 后选择操作
或按如下操作:#smit ->Devices -Disk Array ->IBM PCI-X SCSI Disk Array->PCI-X SCSI Disk Array Manager Select -> Diagnostics and Recovery Options -> Select Controller Rechargeable Battery Maintenance. -> Select Display Controller Rechargeable Battery Information.
显示电池信息如下:

电池信息各参数含义如下:
battery state:显示电池当前具体状态,有以下几个可能的值
No battery warning/error:No warning or error condition currently exist 这种是电池的正常状态
Warning condition:A warning condition currently exists and an error has been logged 出现了一个警告并被记录在日志中
Error condition:An error condition currently exists and an error has been logged 电池已经出错
Unknow:Information is not available to determine whether a warning or error condition currently exists 无法判断
Power-on time(days):电池持续使用的天数
Adjusted power-on time(time):
Indicates the adjusted (prorated) power-on time, in units of days ,of the rechargeable Cache Battery Pack
Note:Some rechargeable Cache Battery Packs are negatively affected by higher temperatures and thus are prorated based on the amount of time that they spend at various ambient temperatures
Estimated(估算的) time to warning(days):
Estimated time, in units of days, until a message is issued indicating that the replacement fo the rechargeable Cache Bettery Pack should be scheduled
Estimated time to error(days):当值为0时,此时Cache被自动禁用,必须更换电池
Estimated time , in units of days ,until an error is reported indicating that the rechargeable Cache Bettery Pack must be replaced
Concurrently maintainable battery pack:该电池是否可以在线更换
Indicates that the rechargeable Cache Battery Pack can by replaced while the adapter continues to operate
Battery pack can be safely replaced:当值为YES时,该电池可以安全地更换,不会造成Cache数据丢失
Indicates that the adapter‘s write cache has been disabled and the rechargeable Cache Battery Pack can be safely replaced
根据信息显示:距离ERROR还有26天时间,电池安全取代更换状态为NO,需要强行控制电池错误才可以更换;如果电池包安全取代状态为YES,则可以直接更换。
3、 具体处理步骤如下:
1) 操作前先检查P52A系统状态,查看是否有其他报错信息;
2) 跟客户协调更换控制器电池时间并且在约定时间停止业务;
3) 检查电池信息是否没电了;
4) 请用户停止业务服务,不要关机;
5) 检查电池状态是否可以安全更换;
输入命令:# sisraidmgr -M o0 -l‘sisioa0‘
或输入命令:# smitty pxdam 后选择操作
或按如下操作:#smit ->Devices -Disk Array -> IBM PCI-X SCSI Disk Array->PCI-X SCSI Disk Array Manager Select -> Diagnostics and Recovery Options -> Select Controller Rechargeable Battery Maintenance. -> Select Display Controller Rechargeable Battery Information.

当Battery pack can be safely replaced . . : YES显示安全状态为YES,则可以直接关机更换RAID卡电池;如果显示为NO,需要强行控制电池错误后关机更换RAID卡电池。
6) 强行控制电池错误执行如下命令:
Smitty—> devices->Disk Array->IBM PCI-X SCSI Disk Array-> PCI -X SCSI Disk Array Manager->DiagnosticsandRecovery Options->Controller Rechargeable Battery Maintenance->Force Controller Rechargeable Battery Error;
或输入命令:# smitty pxdam 后选择操作
为了安全操作,再次查询RAID卡电池状态;
7) 系统关机;
8) 更换控制器RAID卡电池;
注意:必须将旧电池拆下来至少15秒后,再安装新电池,否则PCI-X SCSI RAID卡将不能正常识别电池已更换。
9) 更换完成后检查无问题后开机;
10) 系统启动后复查报错信息是否已经解决

电池天数1087天,电池更换成功。
11) 重新激活写cache
输入命令# smitty pxdam

12) 消除IBM小型机告警信息
操作步骤如下:# diag -> Task Selection (Diagnostics, Advanced Diagnostics, Service Aids, etc.) -> Log Repair Action -> sys0 System Object 回车确认此时,sys0前面出现了一个“+”符号,表示已选中该项
按F7(或ESC+7)提交确认
ESC+0退出
告警清除!
13) 确认无问题后开启业务;
14) 维修结束
可以参考:http://blog.51cto.com/eric1026/1883319
4、 风险及应急:
更换控制器电池需要停止业务,系统启动停止操作,在维修处理前一定要确认无其他报错信息不影响系统重新启动后方可操作
5、维护建议:
1) 对系统应定时检查,出现故障时及时联系维护人员,尽快解决故障,保证业务正常运行。
2) 当硬盘发生故障时,不要盲目更换配件,否则极易造成系统损坏,整个系统的瘫痪,因此要谨慎操作。
3) 当硬盘或背板故障时,不要盲目更换,应逐一排查,防止数据丢失。
5、 容易出现的问题
1、 更换电池后开机启动时,系统找不到镜像
问题分析:关机拔下raid卡,开机启动系统可以找到镜像,说明raid卡接触不良
解决办法:给raid卡除尘

原文地址:http://blog.51cto.com/cuijb/2322573

时间: 2024-10-28 11:17:21

IBM520小型机RAID卡电池更换的相关文章

服务器Raid卡电池自动充电

1 介绍 服务器上的Raid卡电池,简称BBU,是个很重要的组件,它对于磁盘的I/O性能影响很大,但一般的BBU电量只能用90天,电用完后系统会自动给其充电,但因充电一般需要几个小时,在充电期间,Raid卡的cache状态是处于write through的,即不带缓存功能.所以为了保证服务器处于正常运行状态,就需要手工进行BBU的充放电,通常把充放电时间定在夜里面,也就是服务器负载最小的时候. 2 过程 Cron里写入: #!/bin/sh #yes, 1 really does mean of

华为服务器RAID卡电池报错

前些天来的华为服务器 RH2288 H V2RAID卡没有电池,或者说没有电容,会报下面这样的错: 拍的有些模糊,但还是可以看清的. 有2种方法查服务器有没有带电池或者电容: 服务器上有一根ESN号,在服务器上有一个小标签,上面写着ESN:XXXXXXXXXX,把这个号给华为售后的说一下,他们能在后台给你看,这台服务器出厂的时候,有没有带电池. 第2种方法,在服务器启动的时候,按ctrl+H  进入RAID 配置界面,然后找到 Controller  properties  这个选项,点进去,然

【转】MegaSAS RAID卡 BBU Learn Cycle周期的影响

http://ju.outofmemory.cn/entry/140 背景 最近遇到有些带MegaSAS RAID卡的服务器,在业务高峰时突然IO负载飚升得很高,IO性能急剧下降,查了日志及各种设置最后才发现是RAID卡的Cache写策略由WriteBack变成WriteThrough了.更深入的原因是BBU进入了Learn Cycle周期,自动把Cache策略改为WriteThrough. WriteBack和WriteThrough 在开始之前,我需要提到两个词: WriteBack, Wr

mysql磁盘IO%util 居高不下之RAID卡 BBU Learn Cycle周期

最近遇到一个奇怪的问题 收到短信报警说磁盘IO很高 复制延迟 iostat -x 1 10 信息如下: QPS 如下: 负载很低  压力很低 这就很无解了. 只有一个MYSQL 其实这是个硬件问题 ,就是 MegaSAS RAID卡 BBU Learn Cycle周期 背景 最近遇到有些带MegaSAS RAID卡的服务器,在业务高峰时突然IO负载飚升得很高,IO性能急剧下降,查了日志及各种设置最后才发现是RAID卡的Cache写策略由WriteBack变成WriteThrough了.更深入的原

Linux RAID卡优化

介绍 我们的生产服务器经常会做raid存储,但是单单做了raid就能保证性能高效和数据安全吗?答案是否定的,我们一般建议使用带电池保护的RAID卡,这样既能保证性能有能保证数据安全,但是也需要经常对电池进行维护:由于成本原因一般的RAID卡会使用锂电池,因为锂电池有较强的惰性,它在非充电状态下会缓慢地自放电(电池特性),一段时间后电量就会和刚充满电时不同,为了能够及时校准电量避免电池因为自放电而导致电量不明确,于是阵列卡控制器会对电池进行周期性地充放电操作(Relearn),以此保证电量的准确性

Esxi 5.0下配置LSI SAS RAID卡

公司有几台服务器,安装的是ESXI5.0的虚拟机,原来使用的是普通的台式机,现在新购的专用服务器并安装的LSI 8708 SAS RAID卡(服务器自带的板载RAID卡ESXI不支持),现在要将虚拟机进行迁移. 本来最好的办法应该是挂载阵列,现将虚拟机移动到阵列中,然后再移到新的服务器上.但是公司的阵列中已经满了,没有足够的空间进行迁移.所以决定用最笨的办法,新服务器3块硬盘组RAID5(迁移完成后将扩展为4硬盘RAID5),台式机硬盘插在3号位组单盘RAID0,然后就是单机拷贝了. 办法到是没

HP_DELL RAID卡查看工具介绍

操作系统自带的命令查看RAID: 软件raid:查看raid级别,状态等信息  [生产环境没人敢用软raid,除非他不想干了] # cat/proc/mdstat 硬件raid:查看raid的厂商,型号,级别 # dmesg |grep -i raid # cat/proc/scsi/scsi DELL服务器 使用MegaCli64查看RAID: 安装 # rpm-ivh MegaCli64-8.07.14-1.noarch.rpm 默认是安装到/opt/MegaRAID目录下了. cd /op

Dell NX3200 NAS开机无法进入系统停留在raid卡配置界面

一台Dell NX3200 NAS存储(Dell R720),开机无法进入系统,停留在raid卡配置界面无法检测通过,按F10 F2 F12 F11 都会进入raid配置 故障提示:There are offline ormissing virtual drives with preserved cacheplease check the cables and ensure that all drives are presentpress any key to enter the configu

Linux中使用MegaCli工具查看、管理Raid卡信息

MegaCli是一款管理维护硬件RAID软件,可以通过它来了解当前raid卡的所有信息,包括 raid卡的型号,raid的阵列类型,raid 上各磁盘状态,等等.通常,我们对硬盘当前的状态不太好确定,一般通过机房人员巡检来完成,有没有通过软件的方式来检查确定这个问题呢.MegaCli就可以做到,一般通过 MegaCli 的Media Error Count: 0 Other Error Count: 0 这两个数值来确定阵列中磁盘是否有问题:Medai Error Count 表示磁盘可能错误,