Join的表顺序

在 今天的文章里,我想谈下SQL Server里一个非常有趣的话题:在表联接里,把表指定顺序的话是否有意义?每次我进行查询和性能调优的展示时,大家都会问我他们是否应该把联接中的表 指定下顺序,是否会帮助查询优化器得出一个更好性能的执行计划。我们来看下这个重要又有趣的问题。

合并联接(Inner Joins)

假设在AdventureWorks数据库里,你要在Sales.SalesOrderHeader表和Sales.SalesOrderDetail表之间做一个内联接:

 1 USE AdventureWorks
 2 GO
 3
 4 -- Returns for each SalesOrderHeader record all associated SalesOrderDetail records
 5 -- SQL Server performs a Merge Join, because both tables are phyiscally sorted
 6 -- by the column "SalesOrderID".
 7 SELECT
 8     h.SalesOrderID,
 9     h.CustomerID,
10     d.SalesOrderDetailID,
11     d.ProductID,
12     d.LineTotal
13 FROM Sales.SalesOrderHeader h
14 JOIN Sales.SalesOrderDetail d
15 ON h.SalesOrderID = d.SalesOrderID
16 ORDER BY SalesOrderID
17 GO

当我们查看结果的执行计划时,我们可以看到查询优化器选择了合并联接(Inner Join)作为物理联接运算符,Sales.SalesOrderHeader表作为合并联接的外联接。在执行计划里表的顺序和我们在逻辑T-SQL查询里的顺序是一样的。

现在的问题是,当我们在逻辑T-SQL查询里交换下2个表的顺序,执行计划会发生什么?我们来试下:

 1 -- The logical ordering of the tables during an Inner Join
 2 -- doesn‘t matter. It‘s up to the Query Optimnizer to arrange
 3 -- the tables in the best order.
 4 -- This query produces the same execution plan as the previous one.
 5 SELECT
 6     h.SalesOrderID,
 7     h.CustomerID,
 8     d.SalesOrderDetailID,
 9     d.ProductID,
10     d.LineTotal
11 FROM Sales.SalesOrderDetail d
12 JOIN Sales.SalesOrderHeader h
13 ON d.SalesOrderID = h.SalesOrderID
14 ORDER BY SalesOrderID
15 GO

但我们现在看结果的执行计划,我们发现很有意思:

在执行计划里没有任何改变!查询优化器选择了和刚才查 询一样的物理执行计划。但为什么?答案非常简单:查询优化器总引用最小的表(基于我们的统计信息!)作为每个物理连接运算符(嵌套循环联接,合并联接,哈 希匹配联接)的外联接表。因此在T-SQL查询里的表的逻辑顺序不会对查询优化器造成任何影响。按正确的顺序访问我们的表是查询优化器的职责。

在表A和表B之间的合并联接与表B和表A之间的合并联接是一样的。

外联接(Outer Join)

在外联接(left join,right join)里,表顺序会有啥影响?我们来看下面的查询,在Sales.Customer表和 Sales.SalesOrderHeader表之间进行左联接。

 1 -- Execute the query with an Outer Join.
 2 -- Now we are also getting back customers that haven‘t placed orders.
 3 -- The left table is the preserving one, and missing rows from the right table are added with NULL values.
 4 -- SQL Server performs a "Merge Join (Left Outer Join)" in the execution plan.
 5 SELECT
 6     c.CustomerID,
 7     h.SalesOrderID
 8 FROM Sales.Customer c
 9 LEFT JOIN Sales.SalesOrderHeader h
10 ON c.CustomerID = h.CustomerID
11 GO

当我们查看结果执行计划时,我们会看到查询优化器已经隐藏了我们的表顺序。

当然这次我们不能修改T-SQL语句里的表顺序,不然查询会返回错误的结果。但当我们在查询里切换下表会发生什么,不是左联接,我们用右联接。我们来试下:

1 -- You can rewrite the query from above with a Right Outer Join when you swap the order
2 -- of the tables. This time you get back the same result (32166 rows).
3 SELECT
4     c.CustomerID,
5     h.SalesOrderID
6 FROM Sales.SalesOrderHeader h
7 RIGHT JOIN Sales.Customer c
8 ON c.CustomerID = h.CustomerID
9 GO

当我们看执行计划时,我们再次看到没有任何改变:查询 优化器转化右联接为左联接,重排了下表还是返回正确的结果。查询优化器的目标是使用最小表作为物理联接运算符的外表。因此在外联接里表的顺序也不会影响查 询优化器。只要我们的统计信息是正确的,查询优化器总会选择正确的顺序。

在表A和表B之间的左联接与表B和表A之间的右联接是一样的。

小结:

在这篇文章里我们讨论对于联接,表的顺序是否会影响执行计划。如我们所见,这完全由查询优化器来决定选择优化的表顺序——基于统计信息。在合并联接里表顺序完全不影响,使用外联接的话,SQL Server可以通过切换左联接/右联接来重排表,还是获得正确的结果。

时间: 2024-10-13 07:30:27

Join的表顺序的相关文章

MySQL JOIN 多表连接

除了常用的两个表连接之外,SQL(MySQL) JOIN 语法还支持多表连接.多表连接基本语法如下: 1 ... FROM table1 INNER|LEFT|RIGHT JOIN table2 ON condition INNER|LEFT|RIGHTJOIN table3 ON condition ... JOIN 多表连接实现了从多个表中获取相关数据,下面是三个原始数据表: article 文章表: aid title content uid tid 1 文章1 文章1正文内容… 1 1

【Spark调优】大表join大表,少数key导致数据倾斜解决方案

[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一个RDD中的所有key都分布比较均匀,此时可以考虑采用本解决方案. [解决方案] 对有数据倾斜那个RDD,使用sample算子采样出一份样本,统计下每个key的数量,看看导致数据倾斜数据量最大的是哪几个key. 然后将这几个key对应的数据从原来的RDD中拆分出来,形成一个单独的RDD,并给每个ke

算法之 线性表顺序结构

package math; import java.util.ArrayList; import java.util.List; //线性表顺序结构 public class LinearTable { public int len = 0; //线性表表长度 public List list; public int currentLen = 0; //构造方法,申请一个对应长度得 线性表 public LinearTable(int i){ this.list = new ArrayList(

数据库sql的join多表

摘录文章 SQL join 用于根据两个或多个表中的列之间的关系,从这些表中查询数据.注意,join后的数据记录数不一定就是左或右表的简单连接,图表只代表集合关系,在数量上并不准确,如这个条件后结果,数量大于左表总数. 图解SQL Join 我认为 Ligaya Turmelle 关于 SQL Join 的文章是一篇非常棒的新手入门指南.由于 SQL Join 似乎被默认为基础,同时利用文氏图表来解释它,乍一看似乎是很自然的选择.然而,就像她的文章下面评论里说的,我也发现在实际测试中,文氏图并没

线性表>>顺序表--->逆置所有元素

1 /*顺序表中所有的元素逆置 2 * 3 */ 4 #include <iostream.h> 5 using namespace std; 6 7 int main(){ 8 void reverse_arr(int arr[],int n); 9 int a[]={0,1,2,3,4,5,6,7}; 10 int n=7; 11 reverse_arr(a,n); 12 for(int i=0;i<=n;i++){ 13 cout << a[i] << &q

数据结构与算法 1 :基本概念,线性表顺序结构,线性表链式结构,单向循环链表

[本文谢绝转载] <大纲> 数据结构: 起源: 基本概念 数据结构指数据对象中数据元素之间的关系  逻辑结构 物理结构 数据的运算 算法概念: 概念 算法和数据结构区别 算法特性 算法效率的度量 大O表示法 时间复杂度案例 空间复杂度 时间换空间案例 1)线性表: 线性表初步认识: 线性表顺序结构案例 线性表顺序结构案例,单文件版 线性表的优缺点 企业级线性表链式存储案例:C语言实现 企业级线性表链式存储案例:C语言实现 单文件版 企业级线性表链式存储案例,我的练习  线性表链式存储优点缺点

java实现数据结构-线性表-顺序表,实现插入,查找,删除,合并功能

package 顺序表; import java.util.ArrayList; import java.util.Scanner; public class OrderList { /** * @param args * @author 刘雁冰 * @2015-1-31 21:00 */ /* * (以下所谓"位置"不是从0开始的数组下标表示法,而是从1开始的表示法.) * (如12,13,14,15,16数据中,位置2上的数据即是13) * * 利用JAVA实现数据结构-线性表-顺

C++数据结构与算法_2_线性表 --顺序表的应用示例

h2.western { font-family: "Liberation Sans",sans-serif; font-size: 16pt; }h2.cjk { font-family: "微软雅黑"; font-size: 16pt; }h2.ctl { font-family: "AR PL UMing CN"; font-size: 16pt; }h1 { margin-bottom: 0.21cm; }h1.western { fon

C++数据结构与算法_1_线性表 --顺序表的实现与分析

顺序表的实现与分析 引 --线性表的抽象基类: template <typename T> class LinearList { public: LinearList(); ~LinearList(); virtual int Size() const = 0; //返回线性表所能够存储的最大长度 virtual int Length() const = 0; //当前线性表的长度 virtual int Search(T &x) const = 0; virtual int Loca