Join的表顺序

在今天的文章里，我想谈下SQL Server里一个非常有趣的话题：在表联接里，把表指定顺序的话是否有意义？每次我进行查询和性能调优的展示时，大家都会问我他们是否应该把联接中的表指定下顺序，是否会帮助查询优化器得出一个更好性能的执行计划。我们来看下这个重要又有趣的问题。

合并联接（Inner Joins）

假设在AdventureWorks数据库里，你要在Sales.SalesOrderHeader表和Sales.SalesOrderDetail表之间做一个内联接：

 1 USE AdventureWorks
 2 GO
 3
 4 -- Returns for each SalesOrderHeader record all associated SalesOrderDetail records
 5 -- SQL Server performs a Merge Join, because both tables are phyiscally sorted
 6 -- by the column "SalesOrderID".
 7 SELECT
 8     h.SalesOrderID,
 9     h.CustomerID,
10     d.SalesOrderDetailID,
11     d.ProductID,
12     d.LineTotal
13 FROM Sales.SalesOrderHeader h
14 JOIN Sales.SalesOrderDetail d
15 ON h.SalesOrderID = d.SalesOrderID
16 ORDER BY SalesOrderID
17 GO

当我们查看结果的执行计划时，我们可以看到查询优化器选择了合并联接（Inner Join）作为物理联接运算符，Sales.SalesOrderHeader表作为合并联接的外联接。在执行计划里表的顺序和我们在逻辑T-SQL查询里的顺序是一样的。

现在的问题是，当我们在逻辑T-SQL查询里交换下2个表的顺序，执行计划会发生什么？我们来试下：

 1 -- The logical ordering of the tables during an Inner Join
 2 -- doesn‘t matter. It‘s up to the Query Optimnizer to arrange
 3 -- the tables in the best order.
 4 -- This query produces the same execution plan as the previous one.
 5 SELECT
 6     h.SalesOrderID,
 7     h.CustomerID,
 8     d.SalesOrderDetailID,
 9     d.ProductID,
10     d.LineTotal
11 FROM Sales.SalesOrderDetail d
12 JOIN Sales.SalesOrderHeader h
13 ON d.SalesOrderID = h.SalesOrderID
14 ORDER BY SalesOrderID
15 GO

但我们现在看结果的执行计划，我们发现很有意思：

在执行计划里没有任何改变！查询优化器选择了和刚才查询一样的物理执行计划。但为什么？答案非常简单：查询优化器总引用最小的表（基于我们的统计信息！）作为每个物理连接运算符（嵌套循环联接，合并联接，哈希匹配联接）的外联接表。因此在T-SQL查询里的表的逻辑顺序不会对查询优化器造成任何影响。按正确的顺序访问我们的表是查询优化器的职责。

在表A和表B之间的合并联接与表B和表A之间的合并联接是一样的。

外联接（Outer Join）

在外联接（left join，right join）里，表顺序会有啥影响？我们来看下面的查询，在Sales.Customer表和 Sales.SalesOrderHeader表之间进行左联接。

 1 -- Execute the query with an Outer Join.
 2 -- Now we are also getting back customers that haven‘t placed orders.
 3 -- The left table is the preserving one, and missing rows from the right table are added with NULL values.
 4 -- SQL Server performs a "Merge Join (Left Outer Join)" in the execution plan.
 5 SELECT
 6     c.CustomerID,
 7     h.SalesOrderID
 8 FROM Sales.Customer c
 9 LEFT JOIN Sales.SalesOrderHeader h
10 ON c.CustomerID = h.CustomerID
11 GO

当我们查看结果执行计划时，我们会看到查询优化器已经隐藏了我们的表顺序。

当然这次我们不能修改T-SQL语句里的表顺序，不然查询会返回错误的结果。但当我们在查询里切换下表会发生什么，不是左联接，我们用右联接。我们来试下：

1 -- You can rewrite the query from above with a Right Outer Join when you swap the order
2 -- of the tables. This time you get back the same result (32166 rows).
3 SELECT
4     c.CustomerID,
5     h.SalesOrderID
6 FROM Sales.SalesOrderHeader h
7 RIGHT JOIN Sales.Customer c
8 ON c.CustomerID = h.CustomerID
9 GO

当我们看执行计划时，我们再次看到没有任何改变：查询优化器转化右联接为左联接，重排了下表还是返回正确的结果。查询优化器的目标是使用最小表作为物理联接运算符的外表。因此在外联接里表的顺序也不会影响查询优化器。只要我们的统计信息是正确的，查询优化器总会选择正确的顺序。

在表A和表B之间的左联接与表B和表A之间的右联接是一样的。

小结：

在这篇文章里我们讨论对于联接，表的顺序是否会影响执行计划。如我们所见，这完全由查询优化器来决定选择优化的表顺序——基于统计信息。在合并联接里表顺序完全不影响，使用外联接的话，SQL Server可以通过切换左联接/右联接来重排表，还是获得正确的结果。

时间： 2024-10-13 07:30:27

Join的表顺序

合并联接（Inner Joins）

外联接（Outer Join）

小结：

Join的表顺序的相关文章

MySQL JOIN 多表连接

【Spark调优】大表join大表，少数key导致数据倾斜解决方案

算法之线性表顺序结构

数据库sql的join多表

线性表>>顺序表--->逆置所有元素

数据结构与算法 1 :基本概念，线性表顺序结构，线性表链式结构，单向循环链表

java实现数据结构-线性表-顺序表，实现插入，查找，删除，合并功能

C++数据结构与算法_2_线性表 --顺序表的应用示例

C++数据结构与算法_1_线性表 --顺序表的实现与分析