AIX小机重启后磁盘missing引发的故障

这个是之前遇到的一个故障，这里总结分享下

【故障现象】

1、数据库服务器在重启之后，有个VG-othervg在激活的时候提示

2、在起数据库的时候，只能启动到mount状态，在open的时候提示

【问题分析】

1、由于部分lv无法读取，先查看该lv所在的VG状态，并查看该lv的权限

1      #lslv  dw_sys_104    --看出所在vg为othervg
2      #ls -l /dev/rdw_sys_104   --查看权限为oracle10:dba

2、用lsvg -p othervg 查看其中的一个vpath388盘的状态为“missing”

3、查看vpath388盘的对应关系

1 #lsvpcfg |grep vpath388
2 vpath388 (Avail pv othervg) 75BHKN10232 = hdisk884 (Avail ) hdisk1226 (Avail )

4、到DS8100存储通过LUNID号232查看盘状态正常，并未有锁

5、lscfg -vl vpath388 和lsattr -El vpath388查看该盘的属性

6、datapath query adapter --查看链路状态正常

初步判断为盘的信息丢失

【处理措施】

1、rmdev -d vpath388

2、cfgmgr 扫出来的vpath388的pvid号丢失，多次尝试依然无效

3、varyonvg othervg 提示：

0516-008 varyonvg: LVM system call returned an unknown error code (3).

4、readvgda vpath388

Invalid lvm_rec!

00000E00 00000000 00000000 00000000 00000000 |................|

00000E10 00000000 00000000 00000000 00000000 |................|

00000E20 00000000 00000000 00000000 00000000 |................|

00000E30 00000000 00000000 00000000 00000000 |................|

00000E40 00000000 00000000 00000000 00000000 |................|

00000E50 00000000 00000000 00000000 00000000 |................|

--查看该盘的表头信息缺失，查看othervg中别的盘都有信息

5、lquerypv -h /dev/vpath388

00000000 00000000 00000000 00000000 00000000 |................|

00000010 00000000 00000000 00000000 00000000 |................|

00000020 00000000 00000000 00000000 00000000 |................|

--查看信息同样为空

6、dd if=/dev/vpath388 of=/dev/null bs=256k count=500 --用该命令查看该盘能正常读，说明盘没有被锁

7、经联系IBM原厂给出的处理建议：修复该盘：

Action plan:
1) upload the file vpath388.head to /tmp dir
2)  # dd if=/dev/vpath376 of=/dev/vpath388 bs=512k count=137
     # dd if=/tmp/vpath388.head of=/dev/vpath388 bs=512k count=1
     # rmdev -dl vpath388
     # cfgmgr
   to recognize the vpath388
     # lspv ! grep vpath388
   to check pvid of vpath388 has changed back to 00cdcf7b33230541
     # exportvg othervg
     # importvg -y othervg vpath33

注：

# readvgda vpath33 > /tmp/vgda/readvgda.vpath33

# lqueryvg -Atp vpath33 > /tmp/vgda/lqueryvg.out

# lquerypv -h /dev/vpath33 > /tmp/vgda/lquerypv.out

datapath open device 388 path hdisk886

datapath open device 388 path 0

datapath remove 388 path 0

时间： 2024-08-05 19:56:11

AIX小机重启后磁盘missing引发的故障的相关文章

vsan主机重启后磁盘容量不正确

问题描述:在给客户主机安装显卡的时候需要关机,安装完显卡后重启主机,发现vsan存储空间不正确.少了一台主机的空间.出现如下报错解决方法:通过监控vsan状态发现,这台主机的硬盘数据出现问题. 下图为出现报错的主机下图为正常的主机初步诊断可能是硬盘出现了问题,或者硬盘数据不同步.同事去机房检查的时候发现这台机器有块硬盘损坏,于是把坏的硬盘拆除掉,发现依旧是这个错误,然后把整个磁盘组删除,重新创建磁盘组,发现硬盘都正常了..可以正常存储数据了..

kubernetes 集群机器重启后磁盘盘符变化

1.[root@pserver78 ~]# kubectl -n rook-ceph exec -it rook-ceph-tools-c95b8496b-g4stp -- ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 2.43996 root default -4 0.48799 host pserver109 2 hdd 0.48799 osd.2 down 1.00000 1.00000 重启host和

rac 11g_第二个节点重启后无法启动实例：磁盘组dismount问题

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/41480075 rac第二个节点重启后无法启动实例:磁盘组dismount问题实验案例: 实验环境:CentOS 6.4.Oracle 11.2.0.1 现象重演:1. 重启第二节点服务器2. 手工启动第二节点实例,报错[[email protected] ~]# s

使用ehcache持久化数据到磁盘并且在应用服务器重启后不丢失数据

使用ehcache时如何持久化数据到磁盘,并且在应用服务器重启后不丢失数据1.如何持久化到磁盘使用cache.flush(),每次写入到cache后调用cache.flush() ,这样ehcache 会将索引(xxx.index)回写到磁盘.这样就不用担心程序是否非正常退出导致缓存丢失了. 2.附上配置文件修改: <ehcache xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchem

rac_第二个节点重启后无法启动实例：磁盘组dismount问题

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/41480075 rac第二个节点重启后无法启动实例:磁盘组dismount问题实验案例: 实验环境:CentOS 6.4.Oracle 11.2.0.1 现象重演: 1. 重启第二节点服务器 2. 手工启动第二节点实例,报错 [[email protected] ~]

centos 格式化硬盘并挂载，添加重启后生效

[[email protected] /]# passwd 更改用户 root 的密码 . 新的密码: 重新输入新的密码: passwd: 所有的身份验证令牌已经成功更新. [[email protected] /]# fdisk Usage: fdisk [options] <disk> change partition table fdisk [options] -l <disk> list partition table(s) fdisk -s <partition

Oracle 数据库服务器使用aix小机,并且该小机作为nfs client使用的一级挂载点问题

大家要务必掌握一个知识点: 在aix操作系统中(仅仅aix有该问题,其他os没有该问题),若是本aix 小机作为nfs client 使用,并且本小机也是oracle的数据库服务器,并且在本小机上df -g看到的挂载点(比如说是/rman)是一级的目录,若是nfs 出现问题(包括nfs server宕机,nfs client 与nfs server之间断网等等),会导致 nfs client (此处就是作为oracle 数据库服务器的小机) 上的oracle 数据库出现异常:实例冻结,新的

AIX系统错误之--添加磁盘错误

AIX系统错误之--磁盘错误系统环境: 操作系统:AIX 5.3.8 Oracle: Oracle 10gR2 案例分析: 在阵列上划分lun后,AIX系统识别后磁盘状态为defined状态: [[email protected]:/]#lsdev -c disk hdisk0 defined 06-08-02 Other FC SCSI Disk Drive hdisk1 Available 08-08-00-3,0 16 Bit LVD SCSI Disk Drive hd

转由一次磁盘告警引发的血案：du 和 ls 的区别

如果你完全不明白或者完全明白图片含义, 那么你不用继续往下看了. 否则, 这篇文章也许正是你需要的. 背景确切地说,不是收到的自动告警短信或者邮件告诉我某机器上的磁盘满了,而是某同学人肉发现该机器写不了新文件才发现该问题的. 说明我司告警服务还不太稳定 :) 第一次出现该问题时, 我的处理方式是: 先删了 /tmp/ 目录, 空闲出部分空间, 然后检查下几个常用的用户目录, 最终发现某服务A的日志文件(contentutil.log)占用了好几个大G, 询问相关开发人员后确定该日志文件不需要压