AIX小机重启后磁盘missing引发的故障

这个是之前遇到的一个故障,这里总结分享下

【故障现象】

1、数据库服务器在重启之后,有个VG-othervg在激活的时候提示

2、在起数据库的时候,只能启动到mount状态,在open的时候提示

【问题分析】

1、由于部分lv无法读取,先查看该lv所在的VG状态,并查看该lv的权限

1      #lslv  dw_sys_104    --看出所在vg为othervg
2      #ls -l /dev/rdw_sys_104   --查看权限为oracle10:dba

2、用lsvg -p othervg 查看其中的一个vpath388盘的状态为“missing”

3、查看vpath388盘的对应关系

1 #lsvpcfg |grep vpath388
2 vpath388 (Avail pv othervg) 75BHKN10232 = hdisk884 (Avail ) hdisk1226 (Avail )

4、到DS8100存储通过LUNID号232查看盘状态正常,并未有锁

5、lscfg -vl vpath388 和lsattr -El vpath388查看该盘的属性

6、datapath query adapter  --查看链路状态正常

初步判断为盘的信息丢失

【处理措施】

1、rmdev -d vpath388

2、cfgmgr 扫出来的vpath388的pvid号丢失,多次尝试依然无效

3、varyonvg othervg 提示:

0516-008 varyonvg: LVM system call returned an unknown error code (3).

4、readvgda vpath388

Invalid lvm_rec!

00000E00   00000000 00000000 00000000 00000000  |................|

00000E10   00000000 00000000 00000000 00000000  |................|

00000E20   00000000 00000000 00000000 00000000  |................|

00000E30   00000000 00000000 00000000 00000000  |................|

00000E40   00000000 00000000 00000000 00000000  |................|

00000E50   00000000 00000000 00000000 00000000  |................|

--查看该盘的表头信息缺失,查看othervg中别的盘都有信息

5、lquerypv -h /dev/vpath388

00000000   00000000 00000000 00000000 00000000  |................|

00000010   00000000 00000000 00000000 00000000  |................|

00000020   00000000 00000000 00000000 00000000  |................|

--查看信息同样为空

6、dd if=/dev/vpath388 of=/dev/null bs=256k count=500  --用该命令查看该盘能正常读,说明盘没有被锁

7、经联系IBM原厂给出的处理建议:修复该盘:

Action plan:
1) upload the file vpath388.head to /tmp dir
2)  # dd if=/dev/vpath376 of=/dev/vpath388 bs=512k count=137
     # dd if=/tmp/vpath388.head of=/dev/vpath388 bs=512k count=1
     # rmdev -dl vpath388
     # cfgmgr
   to recognize the vpath388
     # lspv ! grep vpath388
   to check pvid of vpath388 has changed back to 00cdcf7b33230541
     # exportvg othervg
     # importvg -y othervg vpath33  

注:

# readvgda vpath33 > /tmp/vgda/readvgda.vpath33

# lqueryvg -Atp vpath33 > /tmp/vgda/lqueryvg.out

# lquerypv -h /dev/vpath33 > /tmp/vgda/lquerypv.out

datapath open device 388 path hdisk886

datapath open device 388 path 0

datapath remove 388 path 0

时间: 2024-08-05 19:56:11

AIX小机重启后磁盘missing引发的故障的相关文章

vsan主机重启后磁盘容量不正确

问题描述:在给客户主机安装显卡的时候需要关机,安装完显卡后重启主机,发现vsan存储空间不正确.少了一台主机的空间.出现如下报错 解决方法:通过监控vsan状态发现,这台主机的硬盘数据出现问题. 下图为出现报错的主机 下图为正常的主机 初步诊断可能是硬盘出现了问题,或者硬盘数据不同步.同事去机房检查的时候发现这台机器有块硬盘损坏,于是把坏的硬盘拆除掉,发现依旧是这个错误,然后把整个磁盘组删除,重新创建磁盘组,发现硬盘都正常了..可以正常存储数据了..

kubernetes 集群机器重启后磁盘盘符变化

1.[root@pserver78 ~]# kubectl -n rook-ceph exec -it rook-ceph-tools-c95b8496b-g4stp -- ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 2.43996 root default -4 0.48799 host pserver109 2 hdd 0.48799 osd.2 down 1.00000 1.00000 重启host和

rac 11g_第二个节点重启后无法启动实例:磁盘组dismount问题

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/41480075 rac第二个节点重启后无法启动实例:磁盘组dismount问题 实验案例: 实验环境:CentOS 6.4.Oracle 11.2.0.1 现象重演:1. 重启第二节点服务器2. 手工启动第二节点实例,报错[[email protected] ~]# s

使用ehcache持久化数据到磁盘 并且在应用服务器重启后不丢失数据

使用ehcache时如何持久化数据到磁盘,并且在应用服务器重启后不丢失数据1.如何持久化到磁盘使用cache.flush(),每次写入到cache后调用cache.flush() ,这样ehcache 会将索引(xxx.index)回写到磁盘.这样就不用担心程序是否非正常退出导致缓存丢失了. 2.附上配置文件修改: <ehcache xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchem

rac_第二个节点重启后无法启动实例:磁盘组dismount问题

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/41480075 rac第二个节点重启后无法启动实例:磁盘组dismount问题 实验案例: 实验环境:CentOS 6.4.Oracle 11.2.0.1 现象重演: 1. 重启第二节点服务器 2. 手工启动第二节点实例,报错 [[email protected] ~]

centos 格式化硬盘并挂载,添加重启后生效

[[email protected] /]# passwd 更改用户 root 的密码 . 新的 密码: 重新输入新的 密码: passwd: 所有的身份验证令牌已经成功更新. [[email protected] /]# fdisk Usage: fdisk [options] <disk> change partition table fdisk [options] -l <disk> list partition table(s) fdisk -s <partition

Oracle 数据库服务器使用aix小机,并且该小机作为nfs client使用的一级挂载点问题

大家要务必掌握一个知识点: 在aix操作系统中(仅仅aix有该问题,其他os没有该问题),若是本aix 小机 作为nfs client 使用,并且本小机也是oracle的数据库服务器,并且在本小机上df -g看到的 挂载点(比如说是/rman)是一级的目录,若是nfs 出现问题(包括nfs server宕机,nfs client 与nfs server之间 断网等等),会导致 nfs client (此处就是作为oracle 数据库服务器的小机) 上的oracle 数据库出现异常:实例冻结,新的

AIX系统错误之--添加磁盘错误

AIX系统错误之--磁盘错误 系统环境: 操作系统:AIX 5.3.8 Oracle:  Oracle 10gR2 案例分析:    在阵列上划分lun后,AIX系统识别后磁盘状态为defined状态: [[email protected]:/]#lsdev -c disk hdisk0 defined 06-08-02     Other FC SCSI Disk Drive hdisk1 Available 08-08-00-3,0 16 Bit LVD SCSI Disk Drive hd

转 由一次磁盘告警引发的血案:du 和 ls 的区别

如果你完全不明白或者完全明白图片含义, 那么你不用继续往下看了. 否则, 这篇文章也许正是你需要的. 背景 确切地说,不是收到的自动告警短信或者邮件告诉我某机器上的磁盘满了,而是某同学人肉发现该机器写不了新文件才发现该问题的. 说明我司告警服务还不太稳定 :) 第一次出现该问题时, 我的处理方式是: 先删了 /tmp/ 目录, 空闲出部分空间, 然后检查下几个常用的用户目录, 最终发现某服务A的日志文件(contentutil.log)占用了好几个大G, 询问相关开发人员后确定该日志文件不需要压