【故障处理】队列等待之enq IV - contention案例

【故障处理】队列等待之enq IV -  contention案例

1.1  BLOG文档结构图

1.2  前言部分

1.2.1  导读和注意事项

各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~:

① 队列等待之enq IV -  contention案例(重点)

Tips:

① 本文在itpub(http://blog.itpub.net/26736162)、博客园(http://www.cnblogs.com/lhrbest)和微信公众号(xiaomaimiaolhr)上有同步更新。

② 文章中用到的所有代码、相关软件、相关资料及本文的pdf版本都请前往小麦苗的云盘下载,小麦苗的云盘地址见:http://blog.itpub.net/26736162/viewspace-1624453/

③ 若网页文章代码格式有错乱,请下载pdf格式的文档来阅读。

④ 在本篇BLOG中,代码输出部分一般放在一行一列的表格中。

本文如有错误或不完善的地方请大家多多指正,ITPUB留言或QQ皆可,您的批评指正是我写作的最大动力。

1.3  故障分析及解决过程

1.3.1  数据库环境介绍


项目


source db


db 类型


RAC


db version


12.1.0.2.0


db 存储


ASM


OS版本及kernel版本


SuSE Linux Enterprise Server(SLES 11) 64位

1.3.2  AWR分析

这里简单分析一下Up Time(hrs),其它几个指标都很熟悉了。表中的“Up Time(hrs)”代表自数据库实例启动到本次快照结束这段时间的小时数。例如,该AWR中数据库实例1的启动时间为“2016-08-11 20:51”,快照结束时间为“2016-12-14 21:00”,故“Up Time(hrs)”约为125.006天,转换为小时约为3000.14小时,如下所示:


[email protected]> SELECT trunc(UP_TIME_D,3),  trunc(trunc(UP_TIME_D,3)*24,2) UP_TIME_HRS FROM (SELECT (TO_DATE(‘2016-12-14 21:00‘, ‘YYYY-MM-DD HH24:MI‘) - TO_DATE(‘2016-08-11 20:51‘, ‘YYYY-MM-DD HH24:MI‘))  UP_TIME_D FROM DUAL);

TRUNC(UP_TIME_D,3) UP_TIME_HRS

------------------ -----------

125.006     3000.14

可以看到节点1的负载较大,而ADDM中,特殊类的等待事件较多。接下来查看等待事件的部分:

可以看到enq: IV - contention和DFS lock handle等待较为严重。这里需要说一下enq: IV - contention这个名称。在AWR中,IV和-的前后都是1个空格,而在数据库中记录的是-之后有2个空格,如下:

所以,采用搜索的时候需要注意。

根据ASH中的p1参数的值获得:


[email protected]> SELECT CHR(BITAND(1230372867, -16777216) / 16777215) ||

2         CHR(BITAND(1230372867, 16711680) / 65535) "LOCK",

3         BITAND(1230372867, 65535) "MODE"

4    FROM DUAL;

LO       MODE

-- ----------

IV          3

1.3.3  enq: IV -  contention解决

SELECT *

FROM V$EVENT_NAME A

WHERE A.NAME LIKE ‘%enq: IV -  contention%‘;

该等待事件为12c特有,12c相比11g多了大约500多个等待事件。该问题参考MOS:12c RAC DDL Performance Issue: High "enq: IV - contention" etc if CPU Count is Different (文档 ID 2028503.1)

The fix will be included in future PSU, patch exists for certain platform/version.

The workaround is to set the following parameter to the highest value in the cluster and restart:

_ges_server_processes

To find out the highest value, run the following grep on each node:

ps -ef| grep lmd

该等待事件主要是由于12c RAC的2个节点上的cpu_count这个变量不一致导致的。

从AWR中可以看出节点1的CPU为48,而节点2的CPU为96。

从dba_hist_parameter中可以看到CPU_COUNT这个参数的变化历史:


SQL> SHOW PARAMETER CPU

NAME                                 TYPE        VALUE

------------------------------------ ----------- ------------------------------

cpu_count                            integer     96

parallel_threads_per_cpu             integer     2

resource_manager_cpu_allocation      integer     96

SQL>  select snap_id, INSTANCE_NUMBER,PARAMETER_NAME,VALUE from dba_hist_parameter where PARAMETER_NAME=‘cpu_count‘ order by snap_id;

SNAP_ID INSTANCE_NUMBER PARAMETER_NAME                                                   VALUE

---------- --------------- ---------------------------------------------------------------- ------

。。。。。。。。。。。。。。。。。。。。。。。。。。。

3368               1 cpu_count                                                        48

3369               1 cpu_count                                                        48

3369               2 cpu_count                                                        48

3370               1 cpu_count                                                        48

3371               1 cpu_count                                                        48

3372               1 cpu_count                                                        48

3373               1 cpu_count                                                        48

3374               1 cpu_count                                                        48

      3375               2 cpu_count                                                        96

3375               1 cpu_count                                                        48

3376               1 cpu_count                                                        48

      3376               2 cpu_count                                                        96

3377               1 cpu_count                                                        48

3377               2 cpu_count                                                        96

3378               2 cpu_count                                                        96

3378               1 cpu_count                                                        48

3379               1 cpu_count                                                        48

3379               2 cpu_count                                                        96

。。。。。。。。。。。。。。。。。。。。

查询告警日志:more alert*|grep -i Cpu  也可以获取CPU的变化。

询问客户可知,是他们调整过系统的CPU资源,所以导致节点2上的CPU_COUNT自动变化,引起了enq: IV -  contention等待。

若主机的CPU个数变化,那么当主机重启后数据库的cpu_count参数的值会随之变化,该参数属于操作系统依赖参数。

调整主机的CPU个数之后,该等待事件消失。

1.4  MOS

1.4.1  12c RAC DDL Performance Issue: High "enq: IV - contention" etc if CPU Count is Different (文档 ID 2028503.1)

In this Document

Symptoms
Cause
Solution
References

APPLIES TO:

Information in this document applies to any platform.

SYMPTOMS

12c RAC database seeing high "enq: IV - contention":

From awr report:

Top 10 Foreground Events by Total Wait Time
===================================
Event Waits Total Wait Time (sec) Wait Avg(ms) % DB time Wait Class
enq: IV - contention 52,914 1688.4 31.91 42.8 Other
row cache lock 44,865 896.8 19.99 22.7 Concurrency

tkprof of 10046 trace of SQL statement shows the same event in the top:

Event waited on Times Max. Wait Total Waited 
---------------------------------------- Waited ---------- ------------ 
enq: IV - contention 6017 0.32 287.68 
row cache lock 957 0.20 7.48 
library cache lock 631 0.13 15.10 
library cache pin 616 0.11 14.54

CAUSE

Cluster nodes have different CPU count resulting in different number of LMD processes, on one node it has two while on the other it has three.

The issue is due to the following bug:

BUG 21293056 - PERFORMANCE DEGRADATION OF GRANT STATEMENT AFTER 12C UPGRADE

Which is closed as duplicate of:

BUG 21395269 - ASYMMETRICAL LMDS CONFIGURATION IN A CLUSTER LEADS TO POOR MESSAGE TRANSFER

SOLUTION

The fix will be included in future PSU, patch exists for certain platform/version.

The workaround is to set the following parameter to the highest value in the cluster and restart:

ps -ef| grep lmd

About Me


...............................................................................................................................

● 本文作者:小麦苗,只专注于数据库的技术,更注重技术的运用

● 本文在itpub(http://blog.itpub.net/26736162)、博客园(http://www.cnblogs.com/lhrbest)和个人微信公众号(xiaomaimiaolhr)上有同步更新

● 本文itpub地址:http://blog.itpub.net/26736162/viewspace-2131320/

● 本文博客园地址:http://www.cnblogs.com/lhrbest/p/6218042.html

● 本文pdf版及小麦苗云盘地址:http://blog.itpub.net/26736162/viewspace-1624453/

● QQ群:230161599     微信群:私聊

● 联系我请加QQ好友(642808185),注明添加缘由

● 于 2016-09-01 15:00 ~ 2016-10-20 19:00 在农行完成

● 文章内容来源于小麦苗的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

● 版权所有,欢迎分享本文,转载请保留出处

...............................................................................................................................

手机长按下图识别二维码或微信客户端扫描下边的二维码来关注小麦苗的微信公众号:xiaomaimiaolhr,免费学习最实用的数据库技术。

时间: 2025-01-05 05:47:26

【故障处理】队列等待之enq IV - contention案例的相关文章

【故障解决】enq: PS - contention

[故障解决]enq: PS - contention 一.1  BLOG文档结构图       一.2  前言部分   一.2.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① 等待事件 enq: PS - contention的解决办法 ② 一般等待事件的解决办法     Tips:        ① 若文章代码格式有错乱,推荐使用QQ或360浏览器,也可以下载pdf格式的文档来查看,pdf文档下载地址:htt

resetlogs开库遇到enq: DM – contention等待事件

最近遇到案例,10.2.0.5.12下的db, alter database open resetlogs 命令一直等待,alert_sid.log 的信息为: setting recovery target incarnation to  2 从v$session.event 得到的等待事件为enq: DM – contention 从 select  KSQSTTYP,KSQSTEXPL  from x$ksqst where KSQSTTYP='DM' 可以看到 对该等待事件的解释为: E

enq: TT – contention等待事件

客户数据库删除表空间异常,说各种办法都尝试过,我也想好好跟踪下: 删除的时候出现等待事件 本来想跟踪先,看看等待事件问题,结果由于需要要重启数据库,重启后,表空间可以正常删除,感觉略微有点失落, 现对该等待时间做简单分析: TT 队列锁在官方文档中介绍为TT, Temporary Table,但是实际在版本8i之后该队列锁更多参与在表空间管理事务中. 也可以称enqueue TT为tablespace lock. 作用 该enqueue TT队列锁用以在各种类型的表空间操作执行过程中避免出现死锁

【故障处理】队列等待之TX - allocate ITL entry引起的死锁处理

[故障处理]队列等待之TX - allocate ITL entry引起的死锁处理 1  BLOG文档结构图       2  前言部分 2.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① enq: TX - allocate ITL entry等待事件的解决 ② 一般等待事件的解决办法 ③ 队列等待的基本知识 ④ ITL死锁解决 ⑤ ITL死锁模拟 ⑥ Merge语句的非关联形式的查询优化   Tips: ①

Oracle Study之-- enq:SQ contention等待事件

Oracle Study之-- enq:SQ contention等待事件 通过AWR Report发现"enq:SQ contention"等待事件: 应用环境: 转自:http://www.xuebuyuan.com/1027129.html enq:SQ contention/row cache lock/DFS lock handle(SV) 这三个等待事件都与Oracle 的Sequence 有关. Oracle Sequence Cache 参数说明 http://blog

enq: SQ – contention、cursor: pin S wait on X等事件引发的故障处理

事情已经过去一年,发生在15年1月份,某全国业务系统,实时的号码办理系统,收到短信告警,该系统断开连接.数据库出现大量enq: SQ – contention.cursor: pin S wait on X等事件,alert日志中出现大量的ORA-04031报错.进行flush share pool后进行了相关查询操作. 9点前后,活动会话数突然攀升,与alert日志在1月31号首次出现ORA-04031错误时间吻合 TO_CHAR(TRUNC(SA   COUNT(*) -----------

【等待事件】等待事件系列(5.1)--Enqueue(队列等待)

[等待事件]等待事件系列(5.1)--Enqueue(队列等待)   1  BLOG文档结构图   2  前言部分   2.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① Enqueue队列等待 ② Enq数据字典 ③ enq: AE - lock ④ enq: MR锁 ⑤ enq: DX - contention ⑥ enq: SQ - contention 序列等待     2.2  相关参考文章链接 [推

理】队列等待之TX - allocate

[故障处理]队列等待之TX - allocate ITL entry引起的死锁处理     一.1  前言部分 一.1.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① enq: TX - allocate ITL entry等待事件的解决 ② 一般等待事件的解决办法 ③ 队列等待的基本知识 ④ ITL死锁解决 ⑤ ITL死锁模拟 ⑥ Merge语句的非关联形式的查询优化   Tips: ① 本文在ITpub(h

enq: SQ - contention

--每分钟执行情况 SQL> select  sql_id, mi, count(mi) 2    from (select event, sql_id, to_char(sample_time, 'yyyymmdd hh24mi') mi --, 3          --session_id 4            from dba_hist_active_sess_history 5           where sql_id = '7wxfw53bsmgpq' 6