今天处理了一个非常有意思的故障问题,来龙去脉是这样的:
客户来电咨询控制文件无法扩展,数据库只能查询但不支持DML,需要远程支持。接到电话的第一反应就是CONTROL_FILE_RECORD_KEEP_TIME参数是不是设置太小了,因为这套数据库的备份保留时长达60天。
远程以后,首先查看控制文件视图:
换算以后,当前控制文件也就25M左右。如果各位网友有心的话,应该会有印象在HACMP+RAC+RAW架构下,控制文件通常都是126M或256M,当前值才25M,而且是ASM可以自动扩展。于是就觉得奇怪了
再建测试表做验证:
建表语句hang住了
此时检查数据库的alert日志:
原来数据库只能查询但不能DML的原因跟”控制文件无法扩展“没关系,肯定是由于归档路径满了,导致数据库hang住,等待在线日志归档
下面验证该想法:
归档目录也在DATA磁盘组
显示DATA磁盘组当前只有68M可用空间
到这里,问题根源已经算是找到,解决方法:
连接到RMAN,删除归档日志
delete noprompt archivelog all completed before 'sysdate-2';
再查询磁盘组使用率:
剩余35G可用空间,此时应用恢复正常。
启示:
最终的问题解决方法非常简单,但是想分享的是处理问题的思路:当接到问题的时候,要先从客户了解一下所遇到的问题,但记得对客户所提供的线索做一一验证,避免客户信息给我们诊断问题提供了错误方向,因为客户得到的信号源本身就是错误的,就像这个案例中,客户也是远程开发工程师打电话误报“控制文件无法扩展"的。
-------------------------------------------------------------------------------------------------
本文来自于我的技术博客 http://blog.csdn.net/robo23
转载请标注源文链接,否则追究法律责任!