SQL Server里ORDER BY的歧义性

在今天的文章里,我想谈下SQL Server里非常有争议和复杂的话题:ORDER BY子句的歧义性。

视图与ORDER BY

我们用一个非常简单的SELECT语句开始。

1 -- A very simple SELECT statement
2 SELECT * FROM Person.Person
3 ORDER BY LastName
4 GO

从刚才列出的代码你可以看到,我们只想从Person.Person表以LastName列排序返回记录。因为我们想能尽可能简单的重用那个SQL语句,最后我们把它放到视图里,如下:

1 -- This doesn‘t work
2 CREATE VIEW v_Persons
3 AS
4     SELECT * FROM Person.Person
5     ORDER BY LastName
6 GO

但是你会看到,SQL Server不能创建那个视图,只返回一个错误信息:

这个错误信息告诉你,的那个你不使用TOP,OFFSET或FOR XML表达式时,在视图里你不允许使用ORDER BY子句。基于那个错误信息,我们可以通过增加TOP 100 PERCENT子句到视图里在轻松修正问题。

1 -- Let‘s make it work!
2 CREATE VIEW v_Persons
3 AS
4     SELECT TOP 100 PERCENT * FROM Person.Person
5     ORDER BY LastName
6 GO

现在视图创建没有任何问题!我们对视图执行一个SELECT语句。

1 SELECT * FROM v_Persons
2 GO

SELECT语句本身可以执行,但当你看返回的数据时,疯狂的事情发生了:返回的数据没有按LastName列排序——SQL Server按BusinessEntityID——表上的聚集键列排序!

这是SQL Server里的BUG么?不,并不是——它是“故意的”!我们来解释下为什么。首先你要知道ORDER BY子句在SQL(编程语言本身)里用2个不同的上下文:

  1. 使用ORDER BY子句你可以定义返回给你客户端程序的排序
  2. 另外ORDER BY子句用来定义从TOP表达式哪些行返回

你必须知道的最重要的事情是,你用视图定义了所谓的集合(Set),行内函数,派生表,子查询和通用表表达式(common table expressions(CTE))。集合是数学上的概念,关系数据库(例如SQL Server)上集合论(Set Theory)的组成。集合本身是没有排序的。因此用视图定义与ORDER BY组合是不允许的——如你刚才所见。如果你尝试这样做,SQL Server不允许你这样做并给你一个错误信息。

当然你可以在与TOP表达式里组合使用ORDER BY。但基本上你在愚弄SQL Server和你自己,因为ORDER BY没有告诉SQL Server要以怎样的排序返回数据给客户端程序。假设你使用TOP 10 PERCENT。表的前10%是什么?你需要确定性的方式里定义排序。

而且因为我们必须使用TOP 100 PERCENT与ORDER BY组合,查询优化器实际上在执行计划里不会引入排序运算符。TOP 100 PERCENT意味着一切,因此如你在下图所看到的,在执行计划里TOP运算符不需要排序输入。

在这个例子里,我们的返回行以从内在数据结构读取的排序。这由SQL Server的存储引擎来决定返回行的排序。这里我们从聚集索引里读取行。因此我们拿到的数据按BusinessEntityID排序,这是索引列里聚集键值。

现在我们修改下视图定义,从Person.Person表值返回10%的行。我们还是指定了ORDER BY子句。

1 -- Alter the view
2 ALTER VIEW v_Persons
3 AS
4     SELECT TOP 10 PERCENT * FROM Person.Person
5     ORDER BY LastName
6 GO

当你现在看结果集时,你会看到返回的行按LastName列排序的。现在才对了,因为你在执行计划里看到了排序运算符(SQL Server 2014里没有出现),因为TOP运算符最后能返回提供输入行的前10%的数据。

当然你可以通过ORDER BY子句在你引用的视图里按不同的排序返回10%的行给你的客户端程序。

1 SELECT * FROM v_Persons
2 ORDER BY FirstName
3 GO

现在当你看执行计划时,你会在计划里看到2个(SQL Server 2014里只有1个)。

第1个(右边)排序运算符为TOP运算符预排序(返回前10%)。第2个(左边)排序运算符用来最后定义的排序,返回给客户端程序。当你通过添加TOP 100 PERCENT来定义的视图里强制ORDER BY——你基本上就在愚弄SQL Server……

没有ORDER BY的TOP

另一个问题是没有ORDER BY子句的TOP表达式不会提供你确定性的结果。我们可以用具体的例子演示下这个问题。假设有下列SELECT语句:

1 SELECT TOP 1 LastName FROM Person.Person
2 GO

这个SQL语句用TOP 1表达式返回Person.Person表的第一行——没有用ORDER BY子句定义排序。这个排序是基于执行计划里选择的索引。在这个例子里SQL Server返回你“Abbas”给你作为结果,因为这是执行计划里查询优化器选择非聚集索引里第1条可用记录。

因此从这个查询返回的第1条记录取决于执行计划里选择的索引。如果现在我们把非聚集索引停用呢。

1 -- Let‘s deactivate this index
2 ALTER INDEX [IX_Person_LastName_FirstName_MiddleName] ON Person.Person
3 DISABLE
4 GO

然后当你再次执行刚才的SELECT语句,SQL Server返回你Sánchez值,意味只是在执行计划里现在选择的聚集索引的第1条记录。SQL Server从聚集索引里返回了用BusinessEntityID值为1的第1行。

因此你与非确定性记录打交道时:你的结果取决与执行计划里选择的索引!你可以通过增加ORDER BY子句来轻松实现查询结果排序的明确性。在这个情况下ORDER BY子句为TOP表达式使记录确定——这样话在执行计划里你会有Sort(Top N Sort)的运算符。

1 SELECT TOP 1 LastName FROM Person.Person
2 ORDER BY LastName
3 GO

在执行计划里,SQL Server从哪个索引读取行并不重要——Sort(Top N Sort)的运算符在执行计划里会物理预排序行,并从它返回第N行——很简单,是不是?

小结

在SQL(编程语言本身)里ORDER BY子句并不是一个最简单的概念。如你在这篇文章里所学的,ORDER BY使用2个不同的上下文,因此你总要考虑下你要使用哪个上下文。永远不要在视图定义里增加TOP 100 PERCENT来愚弄SQL Server和你自己——它不会在最终的记录集里体现排序。

感谢关注!

时间: 2024-11-03 03:31:03

SQL Server里ORDER BY的歧义性的相关文章

SQL Server里如何随机记录集

今天的文章,我想给你简单介绍下SQL Server里如何随机记录集. 1 SELECT * FROM Person.Person 2 ORDER BY NEWID() 3 GO 这会引入新的UNIQUEIDENTIFIER数据类型列,SQL Server会在那列上进行物理排序操作. 但是在记录集里列本身没有返回,因为ORDER BY子句在查询SELECT部分逻辑后发生,因此也不会改变记录集. 在SQL Server里,简单但很强大的方法用来随机化你的记录集. 感谢关注!

汇总SQL Server里的相关运算符、子句、谓词等

汇总SQL Server里的相关运算符.子句.谓词等 (后续我会往后追加并不断对现有的进行完善和扩展) ◆ TOP1)TOP一般与ORDER BY结合使用,否则TOP出来的结果集没太大意义,除非您另有它意. 2)TOP返回数可以是变量,但必须用括号括入3)结合WITH TIES谓词选项,如果您返回4行,但最后1行有2条相同的结果,那么您TOP 4,最后1行就只是随意返回1行,保证不了结果集的正确性,如果您指定了WITH TIES, 则返回5行,ORDER BY后将最后2条相同的结果都返回,用法:

SQL Server里Grouping Sets的威力

在SQL Server里,你有没有想进行跨越多个列/纬度的聚集操作,不使用SSAS许可(SQL Server分析服务).我不是说在生产里使用开发版,也不是说安装盗版SQL Server. 不可能的任务?未必,因为通过SQL Server里所谓的Grouping Sets就可以.在这篇文章里我会给你概括介绍下Grouping Sets,使用它们可以实现哪类查询,什么是它们的性能优势. 使用Grouping Sets的聚合 假设你有个订单表,你想进行跨多个分组的T-SQL聚集查询.在Adventur

在SQL Server里为什么我们需要更新锁

今天我想讲解一个特别的问题,在我每次讲解SQL Server里的锁和阻塞(Locking & Blocking)都会碰到的问题:在SQL Server里,为什么我们需要更新锁?在我们讲解具体需要的原因前,首先我想给你介绍下当更新锁(Update(U)Lock)获得时,根据它的兼容性锁本身是如何应对的. 一般来说,当执行UPDATE语句时,SQL Server会用到更新锁(Update Lock).如果你查看对应的执行计划,你会看到它包含3个部分 读取数据 计算新值 写入数据 在查询计划的第1部分

SQL Server里因丢失索引造成的死锁

原文:SQL Server里因丢失索引造成的死锁 在今天的文章里我想演示下SQL Server里在表上丢失索引如何引起死锁(deadlock)的.为了准备测试场景,下列代码会创建2个表,然后2个表都插入4条记录. 1 -- Create a table without any indexes 2 CREATE TABLE Table1 3 ( 4 Column1 INT, 5 Column2 INT 6 ) 7 GO 8 9 -- Insert a few record 10 INSERT IN

SQL Server里等待统计(Wait Statistics)介绍

在今天的文章里我想详细谈下SQL Server里的统计等待(Wait Statistics),还有她们如何帮助你立即为什么你的SQL Server当前很慢.一提到性能调优,对我来说统计等待是SQL Server了最重要的概念. 查询为什么等待 在SQL Server里每次你执行1个查询,查询总需要等待.什么?查询总需要等待?是的,你没有看错:但给你执行1个查询时,查询总需要等待.为什么查询需要等待的原因是SQL Server通过所谓的等待统计(Wait Statistics)来跟踪的.在我进入等

SQL Server里的INTERSECT

在今天的文章里,我想讨论下SQL Server里的INTERSECT设置操作.INTERSECT设置操作彼此交叉2个记录集,返回2个集里列值一样的记录.下图演示了这个概念. INTERSECT与INNER JOIN 你会发现,它和2个表间的INNER JOIN几乎一样.但今天我会介绍它们之间的一些重要区别.让我们从创建作为输入的2个简单表开始. 1 -- Create the 1st table 2 CREATE TABLE t1 3 ( 4 Col1 INT, 5 Col2 INT, 6 Co

SQL Server里的自旋锁介绍

在上一篇文章里我讨论了SQL Server里的闩锁.在文章的最后我给你简单介绍了下自旋锁(Spinlock).基于那个基础,今天我会继续讨论SQL Server中的自旋锁,还有给你展示下如何对它们进行故障排除. 为什么我们需要自旋锁? 在上篇文章我已经指出,用闩锁同步多个线程间数据结构访问,在每个共享数据结构前都放置一个闩锁没有意义的.闩锁与此紧密关联:当你不能获得闩锁(因为其他人已经有一个不兼容的闩锁拿到),查询就会强制等待,并进入挂起(SUSPENDED)状态.查询在挂起状态等待直到可以拿到

SQL Server里在文件组间如何移动数据?

平常我不知道被问了几次这样的问题:“SQL  Server里在文件组间如何移动数据?“你意识到这个问题:你只有一个主文件组的默认配置,后来围观了“SQL Server里的文件和文件组”后,你知道,有多个文件的自定义文件组会是个更好的主意.但你现在如何从主文件组里移动现有数据到新加的文件组? 这篇文章的目的是向你展示你如何在文件组间移动数据.首先我会谈下聚集和非聚集索引,然后我会谈下如何在堆表里移动数据.让我们开始吧! 移动聚集和非聚集索引 一般来说在你的表上通常应该有一个聚集索引.有了现存的聚集