最常见的5个导致 RAC 实例崩溃的问题

最常见的5个导致 RAC 实例崩溃的问题 (文档 ID 1549191.1)

适用于:

OracleDatabase - Enterprise Edition - 版本11.2.0.1 和更高版本

本文档所含信息适用于所有平台

用途

本文档的目的是总结可能导致 RAC 实例崩溃的最常见的5种问题以及较早版本（如 10.2.0.5）报告的常见问题。

适用范围

问题 1 到 5 仅适用于 11gR2 RAC。<版本>的问题仅适用于提及的版本。

详细信息

问题 1：ORA-29770 LMHB终止实例

症状：

LMON (ospid:31216) waits for event ‘control file sequential read‘ for 88 secs.

Errors in file /oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc(incident=2329):

ORA-29770: global enqueue process LMON (OSID 31216) is hung for more than 70seconds

LMHB (ospid: 31304) is terminating the instance.

或

LMON (ospid: 8594) waits for event ‘control file sequential read‘ for 118 secs.

ERROR: LMON is not healthy and has no heartbeat.

ERROR: LMHB (ospid: 8614) is terminating the instance.

可能的原因：

LMON 等待读取控制文件，导致LMHB 使实例崩溃

Bug 11890804 LMHB crashes instance withORA-29770 after long "control file sequential
read" waits

解决方案：

Bug 8888434 已在 11.2.0.2 及以上版本中得到修正

Bug 11890804 已在 11.2.0.3及以上版本中得到修正

请参阅 Document 1197674.1， Document
8888434.8 和 Document 11890804.8 了解详细信息

问题 2：ORA-481导致的实例崩溃

症状：

1. PMON (ospid:12585): terminating the instance due to error 481

LMON 进程跟踪文件显示:

Begin DRM(107) (swin 0)

* drm quiesce <kjxgmrcfg: Reconfiguration started, type 6

LMS<x> 进程跟踪文件显示:

2011-07-05 10:53:44.218905 : Start affinity expansion for pkey 81885.0

2011-07-05 10:53:44.498923 : Expand failed: pkey 81885.0, 229 shadowstraversed, 153 replayed 1 retries

2. PMON (ospid: 4915562): terminating the instance due to error 481

Sat Oct 01 19:21:37 2011

System state dump requested by (instance=2, osid=4915562 (PMON)),summary=[abnormal instance termination].

可能的原因：

1. Bug 11875294 LMS gets stuck during DRM,Instance crashed with ORA-481

2. HAIP 在部分集群节点上离线，或者 HAIP 在所有集群节点上都在线，但是无法通过其进行通信，例如ping操作失败。

解决方案：

1. Bug 11875294 已在 11.2.0.3 中得到修正，绕过问题的方法是：

通过设置

_gc_read_mostly_locking=FALSE 来禁用read mostly。

请参阅 < Document 11875294.8> 了解详细信息。

2. 修正 HAIP 问题，请参阅 Document 1383737.1

问题 3：ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]、ORA-600
[kjbrasr:pkey] 导致的实例崩溃

症状：

由于 ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]或 ORA-600 [kjbrasr:pkey] 导致 RAC 实例崩溃

可能的原因：

这一组 ORA-600 与 DRM（dynamic resourceremastering）消息或 read mostly 锁有关。涉及多个 bug，包括：

Document 9458781.8 Missing close message tomaster leaves closed lock dangling
crashing the instance with assorted Internalerror

Document 9835264.8 ORA-600 [kjbrasr:pkey] /ORA-600 [kjbmocvt:rid] in RAC with
dynamic remastering

Document 10200390.8 ORA-600[kjbclose_remaster:!drm]in RAC with fix for 9979039

Document 10121589.8 ORA-600[kjbmprlst:shadow] can occur in RAC

Document 11785390.8 Stack corruption /incorrect behaviour possible in RAC

Document 12408350.8 ORA-600 [kjbrasr:pkey]in RAC with read mostly locking

Document 12834027.8 ORA-600[kjbmprlst:shadow] / ORA-600 [kjbrasr:pkey] with
RAC read mostly locking

解决方案：

上述大部分 bug 都在 11.2.0.3 中得到了修正，安装 11.2.0.3 补丁集应该可以避免这些 bug，除了 Bug 12834027，此
bug 将在 12.1 中进行修正。绕过这个 bug 的方法是：

禁用 DRM

或

禁用read mostly

例如：设置 "_gc_read_mostly_locking"=FALSE

有关每个 bug 的说明和解决方案，请参阅上述相关文档。

问题 4：启用flash cache后产生kcldle/kclfplz/kcbbxsv_l2/kclfprm，导致实例崩溃

症状：

警报日志中报告了 ORA-7445[kcldle]

ORA-7445[kclfplz]

ORA-7445[kcbbxsv_12]

ORA-744[kclfprm]

可能的原因：

它们是由不同的 bug 引起的，而这些bug都归结为基础bug Bug 12337941 Dumps on kcldle / kclfplz
/kcbbxsv_l2 / kclfprm using flash

解决方案：

此 bug 已在 11.2.0.3 中得到修正，请安装补丁集或使用以下方法绕过这个问题：禁用 Flash Cache

请参阅 Document 12337941.8 ，了解更多详细信息

问题 5：LMS报 ORA-600[kclpdc_21]错误，实例崩溃

症状：

警报日志中报告了ORA-600[kclpdc_21]

可能的原因：

Document 10040035.8 LMS gets ORA-600[kclpdc_21] and instance
crashes

解决方案：

此 bug 已在 11.2.0.3 中得到修正

10.2.0.5的问题

症状：

1. LMS进程报ORA-600[kjccgmb:1]错误导致实例崩溃， LMS<n>:terminating instance due to error 484

2. 由于以下原因导致实例崩溃：

Received an instance abort message from instance 2 (reason 0x0)

Please check instance 2 alert and LMON trace files for detail.

LMD0: terminating instance due to error 481

可能的原因：

1. Bug 11893577 - LMD CRASHED WITH ORA-00600 [KJCCGMB:1]

2. Bug 9577274 - 1OFF:UNABLE TO VIEW REQUEST OUTPUT AND LOG AFTER APPLYING FIXTO ISSUE IN BUG 9400041

解决方案：

1. 对于 10.2.0.5.0，安装合并的补丁 12616787

2. 对于 10.2.0.5.5，安装合并的补丁 13470618

撰写本文时，只有特定平台才有可用补丁。对于任何 10.2.0.5.x 版本，不需要同时安装上述两个补丁。

时间： 2024-11-13 06:37:16

最常见的5个导致 RAC 实例崩溃的问题

问题 1：ORA-29770 LMHB终止实例

问题 2：ORA-481导致的实例崩溃

问题 3：ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]、ORA-600
[kjbrasr:pkey] 导致的实例崩溃

问题 4：启用flash cache后产生kcldle/kclfplz/kcbbxsv_l2/kclfprm，导致实例崩溃

问题 5：LMS报 ORA-600[kclpdc_21]错误，实例崩溃