高级T-SQL进阶系列 (一)【下篇】:使用 CROSS JOIN 介绍高级T-SQL

【译注:此文为翻译,由于本人水平所限,疏漏在所难免,欢迎探讨指正】

性能考虑
产生了笛卡尔积的这个CROSS JOIN操作符具有一些性能方面的问题需要考虑。因为SQL引擎需要将一个数据集的每一行与另一个数据集的每一行进行关联,其结果集合将会非常巨大。如果我将一个具有 1,000,000行数据的表与另一张具有 1,000,000行数据的表进行CROSS JOIN,那么我的结果集将会包含 1,000,000* 1,000,000行数据,也就是100,000,000,000行数据。这是一个非常巨大结果集合并且它将占用SQL SERVER大量的时间来创建它。

CROSS JOIN操作符是一个其用来识别两个集合之间所有可能的组合的很好的解决方案,比如说是每个客户每个月所有的销售订单,甚至于在某几个月某些客户没有销售单。当使用CROSS JOIN操作符的时候,如果你想要优化性能,你应该试着最小化用来CROSS JOIN的集合的行数。举个例子,假设我有一个表包含了最近两个月的销售单,如果我要展示一个报告展示一个月内没有销售单的客户,那么识别一个月的日期数的方式可以改变我的查询的性能。为了演示这个我首先创建一个包含1000个客户在两个月之间的销售单集合,我会用列表7的代码来做这件事:

CREATE TABLE Cust (Id int, CustName varchar(20));
CREATE TABLE Sales (Id int identity
                    ,CustID int
                    ,SaleDate date
                    ,SalesAmt money);
SET NOCOUNT ON;
DECLARE @I int = 0;
DECLARE @Date date;
WHILE @I < 1000
BEGIN
    SET @I = @I + 1;
    SET @Date = DATEADD(mm, -2, ‘2014-11-01‘);
    INSERT INTO Cust
    VALUES (@I,
            ‘Customer #‘ + right(cast(@I+100000 as varchar(6)),5));
    WHILE @Date < ‘2014-11-01‘
    BEGIN
        IF @I%7 > 0
            INSERT INTO Sales (CustID, SaleDate, SalesAmt)
            VALUES (@I, @Date, 10.00);
        SET @Date = DATEADD(DD, 1, @Date);
    END
END

列表7:用来创建性能测试数据示例的TSQL

列表7的代码为1000个不同的客户创建了2个月的数据。这段代码为每第七个用户不插入销售记录。这段代码为Cust表插入了1000条记录,并且为Sales 表插入了52,338 条记录。

为了演示使用CROSS JOIN操作符依赖于输入数据集大小会有如何的不同,让我们运行列表8和列表9的代码,对于每一个测试我会记录下它们返回结果所需要的时间。

SELECT CONVERT(CHAR(6),S1.SaleDate,112) AS SalesMonth, C.CustName,
       ISNULL(SUM(S2.SalesAmt),0) AS TotalSales
FROM Cust C
CROSS JOIN
(
SELECT SaleDate FROM Sales
) AS S1
LEFT OUTER JOIN
Sales  S2
ON C.ID = S2.CustID
AND S1.SaleDate = S2.SaleDate
GROUP BY CONVERT(CHAR(6),S1.SaleDate,112),C.CustName
HAVING ISNULL(SUM(S2.SalesAmt),0) = 0
ORDER BY CONVERT(CHAR(6),S1.SaleDate,112),C.CustName

列表8:所有记录的CROSS JOIN

SELECT CONVERT(CHAR(6),S1.SaleDate,112) AS SalesMonth, C.CustName,
       ISNULL(SUM(S2.SalesAmt),0) AS TotalSales
FROM Cust C
CROSS JOIN
(
SELECT DISTINCT SaleDate FROM Sales
) AS S1
LEFT OUTER JOIN
Sales  S2
ON C.ID = S2.CustID
AND S1.SaleDate = S2.SaleDate
GROUP BY CONVERT(CHAR(6),S1.SaleDate,112),C.CustName
HAVING ISNULL(SUM(S2.SalesAmt),0) = 0
ORDER BY CONVERT(CHAR(6),S1.SaleDate,112),C.CustName

列表9:去重销售日期记录的CROSS JOIN

在列表8中,CROSS JOIN操作符将1000条Cust表记录和52,338条Sales表记录进行关联用来产生52,338,000行的数据集合,这些记录随后用来决定在一个月中具有0条销售记录的客户。在列表9中,我改变了查询条件,从Sales表中仅仅返回SalesDate值的去重集合。这个去重的集合仅仅产生了61条不同的SalesDate值,因此列表9的CROSS JOIN操作符仅仅产生了61,000条记录。通过减少CROSS JOIN操作符的结果集,我的列表9的查询运行了少于1秒的时间,同时

原文地址:https://www.cnblogs.com/qianxingmu/p/11794884.html

时间: 2024-08-01 21:46:00

高级T-SQL进阶系列 (一)【下篇】:使用 CROSS JOIN 介绍高级T-SQL的相关文章

翻译:Gregory Larsen,2016/02/19(第一版:2014年12月17日)高级T-SQL阶梯1级:使用CROSS JOIN介绍高级T-SQL

原文链接:http://www.sqlservercentral.com/articles/Stairway+Series/119933/ 原文作者:Gregory Larsen,2016/02/19(第一版:2014年12月17日) 系列 本文是"Stairway Series:Stairway to Advanced T-SQL"的一部分 这个阶梯将包含一系列文章,这些文章将在前面两个T-SQL阶梯,T-SQL DML和T-SQL超越基础知识的T-SQL基础上进行扩展. 这个楼梯应

高级T-SQL进阶系列 (一):使用 CROSS JOIN 介绍高级T-SQL

这是一个新进阶系列的第一篇文章,我们将浏览Transact-SQL(T-SQL)的更多高级特性.这个进阶系列将会包含一系列的文章,它们会扩展你在之前的两个TSQL进阶系列所掌握的TSQL的基础. TSQL DML 进阶 TSQL进阶:超越基础 本系列“高级Transact-SQL”将会包含如下T-SQL主题: 使用CROSS JOIN 操作符 使用APPLY操作符 理解通用表表达式(CTE's) 使用TSQL游标的记录级别处理 使用UNPIVOT实现列转行 使用排序函数对数据进行排序 使用相关函

Linq To Sql进阶系列(六)用object的动态查询与保存log篇

动态的生成sql语句,根据不同的条件构造不同的where字句,是拼接sql 字符串的好处.而Linq的推出,是为了弥补编程中的 Data != Object 的问题.我们又该如何实现用object的动态查询呢? 1,用object的查询是什么?我们可以简单的举这么一个例子.我们到公安局查找一个人.首先,我们会给出他的一些特征,比如,身高多少,年龄多少,性别,民族等.那么,我们把这个人的一些特征输入电脑.我们希望,电脑能给我们返回这个人的信息.而实际上,有相同特征的人太多了,常常返回一个集合.那让

SQL进阶系列之7用SQL进行集合运算

写在前面 集合论是SQL语言的根基,因为这种特性,SQL也被称为面向集合语言 导入篇:集合运算的几个注意事项 注意事项1:SQL能操作具有重复行的集合(multiset.bag),可以通过可选项ALL来支持 SQL的集合运算符提供了允许重复和不允许重复两种用法,UNION和INTERSECT结果里不会出现重复的行,UNION ALL则会保留重复行:ALL的作用和SELECT子句中的DISTINCT相反.ALL有助于优化查询性能,这是因为使用ALL后不再进行排序 注意事项2:集合运算符存在优先级

SQL进阶系列之8EXISTS谓词的用法

写在前面 支撑SQL和关系数据库的基础理论:数学领域的集合论和逻辑学标准体系的谓词逻辑 理论篇 什么是谓词?谓词是返回值为真值(true false unknown)的函数 关系数据库里,每一个行数据可以看作是一个命题 实体的阶层 0阶实体(单行) -- 1阶谓词( = between and) 1阶实体(行集合/表) -- 2阶谓词 (exists) 2阶实体(表的集合) -- 3阶谓词 1970被毙掉,目前数据库均以二阶谓词为基准 全称量化与存在量化 全称量词:所有的\(x\)都满足条件\(

SQL进阶系列之9用SQL处理数列

写在前面 关系模型的数据结构里,并没有顺序的概念,但SQL处理有序集合也有坚实的理论基础 生成连续编号 --生成连续编号 CREATE TABLE Digits (digit INTEGER PRIMARY KEY); INSERT INTO Digits VALUES (0); INSERT INTO Digits VALUES (1); INSERT INTO Digits VALUES (2); INSERT INTO Digits VALUES (3); INSERT INTO Digi

MS SQL巡检系列&mdash;&mdash;检查外键字段是否缺少索引

前言感想:一时兴起,突然想写一个关于MS SQL的巡检系列方面的文章,因为我觉得这方面的知识分享是有价值,也是非常有意义的.一方面,很多经验不足的人,对于巡检有点茫然,不知道要从哪些方面巡检,另外一方面,网上关于MS SQL巡检方面的资料好像也不是特别多.写这个系列只是一个分享,自己的初衷是一个知识梳理.总结提炼过程,有些知识和脚本也不是原创,文章很多地方融入了自己的一些想法和见解的,不足和肤浅之处肯定也非常多,抛砖引玉,也希望大家提意见和建议.补充,指正其中的不足之处.Stay Hungry

.NET深入实战系列—Linq to Sql进阶

最近在写代码的过程中用到了Linq查询,在查找资料的过程中发现网上的资料千奇百怪,于是自己整理了一些关于Linq中容易让人困惑的地方. 本文全部代码基于:UserInfo与Class两个表,其中Class中的UserId与UserInfo中的Id对应 本文唯一访问地址:http://www.cnblogs.com/yubaolee/p/BestLinqQuery.html linq联合查询 内联查询 内联是一个实际使用频率很高的查询,它查询两个表共有的且都不为空的部分 from user in

【译】高级T-SQL进阶系列 (三)【上篇】:理解公共表表达式(CTEs)

---恢复内容开始--- 伴随着SQL SERVER 2005的首次展示,微软介绍了一种新的被称为“公共表 表达式”(CTE)的查询结构.一个CTE是由一个简单查询定义的临时结果集,并且用在一个单独的 INSERT/UPDATE/DELETE/SELECT的作用域中.在这篇文章中,我将介绍如何定义以及使用 CTEs. 定义及使用CTEs 随着微软对CTEs的介绍,现在你有了一种不同的方式来构造和书写复杂的TSQL代码了.通过使用一个CTE你可以书写并且命名一个TSQL SELECT语句,并且随后