经典案例：如何优化Oracle使用DBlink的SQL语句

转自 https://blog.csdn.net/Enmotech/article/details/78788083

作者介绍

赵全文

就职于太极计算机股份有限公司,在中央电化教育馆做Oracle DBA的驻场运维工作。具有3年左右的Oracle工作经验，目前擅长Oracle数据库的SQL脚本编写、故障诊断和性能优化，并且乐于分享Oracle技术。

一般在DBLINK的SQL语句中，将调用远程表的in-line view结果集返回的数据尽量减少，进而达到通过网络传输的数据减少的目的，而且也不会将数据传输的资源消耗在大量的网络等待事件上。在Oracle中这样的等待事件是：SQL*Net message from DBLINK。

正巧，前段时间我们的Oracle生产库正好也碰到了这样的几条类似的SQL。所以，今天向大家分享一下，一次针对Oracle中使用DBLINK的SQL语句的优化思路分析过程。

发现问题

首先从EMCC监控上，发现一条SQL语句执行好长时间没有执行完毕。

问题解析（一）

根据其SQL_ID的值抓取出的SQL完整语句如下所示：

发现上面的SQL语句里有一个绑定变量":1"。

通过视图v$sql_bind_capture(或者dba_hist_sqlbind)进行查看具体的值。

或者也可以用SQLT(全称SQLTXPLAIN，关于SQLT的下载、安装和使用，请看Oracle MOS 215187.1)生成分析SQL_ID为83gn36c1fu9dw的报告，从报告中找出绑定变量”:1”具体的值(可能有很多)，由于我的数据库服务器上已经部署了SQLT，生成报告的过程这里略过，查看绑定变量值的过程如下图所示。

然后，将上面查出的值”ff80808141c605e20141c9691f5a000c”带入原始的SQL语句并在SQL*Plus里执行，运行5分26秒才显示查询结果。可想而知，在当前的高并发情况下，这样的一条SQL语句花很长时间执行不完也就不足为奇了，整个过程如下图所示。

分析整个SQL语句的结构

其中最外层的SELECT是一个ROWNUM操作，也就是取内层结果集并返回前5行；

再往里的一层完全可以去掉，(这个我经过测试是可行的)；

再往里看的一层就是内联视图r (查询远程表sd_res_id_case返回的结果集)与本地表t进行左联接；

最终返回整个查询结果。

大家仔细看一下那个内联视图r，你会发现里面还有一个子查询(就是and rowid in下面的那层)。

生成带统计信息的执行计划，如下图所示：

看第3步的NESTED LOOPS，Starts*E-Rows=1*2=2，而A-Rows=926K，我们说Starts*E-Rows的值和A-Rows的值应该相等或者相差不多，再看第8行的REMOTE，Starts*E-Rows=926K*3，A-Rows=5，这两个值也相差很大。而且这个REMOTE的Starts是926K，这说明要执行这么多次，这个太消耗资源而且还是在远程库的表上。

接下来，在执行计划后面的”Remote SQL Information”中可以看出有两个REMOTE操作，也就是说这条SQL语句的内联视图r并不是整体从远程表上查询出结果再返回到本地库，而是先执行第5步，再执行第8步，总共查询了两次远程表。

那么试想一下看能不能让远程表只查询一次，也就是让内联视图r只执行一次就返回远程表sd_res_id_case的查询结果？

结果当然是可以的，用一个no_merge的Hint放在内联视图r的第一个select 之后，更改之后是下面这样的：

竟然发现大约7秒就查询出结果，如下图所示，

接着，查看附加统计信息的执行计划。

最主要的是，执行时间大大降低，而且在执行计划里只有一个REMOTE操作，第二步变成了HASH JOIN操作(原先的执行计划是NESTED LOOPS)，估计行和返回行都是5。

接下来再看第5行的VIEW操作，执行1次，估行行为5754，实际行为66165，这个相差10倍左右，估计还有优化的空间。

远程库上查看内联视图r的数据量

由于远程表的执行计划在本地库上无法查看，那么我们到远程库上查询一下原SQL语句的内联视图r，看看到底有多少数据。

在远程库上做如下操作。

竟然返回196372(约196K)行，这个值高的超乎我想象。

查看带统计信息的执行计划，如下图所示，

第2行的”NESTED LOOPS”操作实际返回行196K，也就是SQL语句中的最外层select count(*)操作；

第7行的”TABLE ACCESS BY USER ROWID”操作也是实际返回行196K(仔细看，Starts的值为196K，也就是执行196K次，这个好恐怖)，第7行的操作就是子查询”select min(rowid) from ……”。

这样看来SQL语句的外层select有多少行，里面的子查询就执行多少次，而现在的外层select是196K行，然后呢，196K*196K = ？我都不敢想……

总体上看，加一个no_merge的Hint，先是让SQL的执行时间与原先相比降低了好多。

于是，我和开发同事进行沟通，我才明白SQL是应用服务器里跑的一个定时任务，每天凌晨4点开始执行，最后他给程序里的SQL增加no_merge的Hint。

问题解析（二）

第二天，我用视图v$active_session_history查看凌晨4点到6点的DBLINK等待事件。