锋利的SQL2014:基于窗口的排名计算

从SQL Server2005开始,提供了4个排名函数,分别是:ROW_NUMBER、RANK、DENSE_RANK和NTILE。ROW_NUMBER用于按行进行编号,RANK和DENSE_RANK用于按指定顺序排名,NTILE用于对数据进行分组。

对于排名函数而言,OVER子句中可以包含PARTITION BY和ORDER BY子句,其中,ORDER BY是必选的。因为对于排名而言,没有顺序的排名没有任何意义。

本节我们将使用9.1节创建的Students表为例进行介绍。像Students表这样的数据结构设计,相对于数据库存储而言是比较合理的,因为我们不可能为每个班级创建一个表,但确实又存在像为每个班级中的学生成绩进行排序或为学生编号这样的实际需求,SQL Server的窗口计算技术就有效解决了二者之间的矛盾。

9.3.1 ROW_NUMBER函数

ROW_NUMBER返回分区内行的序列号,每个分区的第一行从1开始。例如,下面的语句指定按ClassID进行分区,并按StudentName进行排序编号。查询结果如表9-11所示。

SELECT ClassID, StudentName, Achievement,

ROW_NUMBER() OVER(PARTITION BY ClassID ORDER BY StudentName) ASRowNumber

FROM dbo.Students;

表9-11                                                   按班级分区、按学生姓名进行编号


ClassID


StudentName


Achievement


RowNumber


1


Andrew


99.00


1


1


Grace


99.00


2


1


Janet


75.00


3


1


Margaret


89.00


4


2


Michael


72.00


1


2


Robert


91.00


2


2


Steven


86.00


3


3


Ann


94.00


1


3


Ina


80.00


2


3


Ken


92.00


3


3


Laura


75.00


4

为了理解SQL Server中排名函数的工作原理,我们来看一下查询优化器为查询生成的执行计划,如图9-4所示。

图9-4 为ROW_NUMBER( )生成的执行计划

由上图可以看出,为了计算排名,优化器首先按分区列排序,然后再对分区内行按ORDER BY子句指定的列排序。如果事先为表创建了符合该排序条件的索引,则会直接扫描该索引文件,不再进行排序。

“序列射影”运算符的工作是负责计算排名,“段”运算符用于确定分组边界。二者相互协调工作,来确定每一行的排名值。

“段”运算符在内存中会保留一行,用来与下一行的PARTITION BY列值进行比较。对于表中的第一行,“段”运算符自然会发送true信号。对于后面的行,直到PARTITIONBY列值有变化之前,会一直发送false信号。如果PARTITION BY列值发生了变化,说明已经到了下一个分区,“段”运算符会再次发送true信号。“序列射影”运算符在接收到true信号后,会重置排名值。

如果“序列射影”运算符接收到的是false信号,它会确认当前输入行的排序值是否不同于上一行,如果不同,则按排名函数所指示的递增排名值。自然,在该示例中,由于ROW_NUMBER( )函数需要为每一行递增值。因此,这个排序值比较步骤在该示例中是不存在的。但是,对于像RANK( )和DENSE_RANK( )函数,在执行计划中还会有另外一个“段”运算符,用于比较排序值是否有变化,以确定是否递增排名值。此问题我们在下面还会有介绍。

如果仅仅是为了编号,则可以省略掉PARTITION BY子句。例如,下面的语句为表中所有的行从1开始进行编号。

SELECT ClassID, StudentName, Achievement,

ROW_NUMBER() OVER(ORDER BY StudentName) AS RowNumber

FROM dbo.Students;

9.3.2 RANK和DENSE_RANK函数

ROW_NUMBER函数用于编号,它与排名具有不同的概念。例如,由表9-11可以看出,班级1中的Grace和Andrew的成绩相同,都是99分。如果使用ROW_NUMBER函数编号,有两种编号方案可供选择:一种是Grace第1、Andrew第2,另一种是Andrew第1、Grace第2。这虽然都是正确的,它具有不确定性。

而排名则不同了,它具有确定性,相同的排序值总是被分配相同的排名值。Grace和Andrew在排名的情况下都应当是第1,也就是我们常说的并列第1。那他们两人之后的名次是什么呢?是第2还是第3呢?从两人并列第1的角度讲,他们两人之后的名次应当是第2,这也是DENSE_RANK函数的排名方式;前面已经有2个人99分了,他们后面的人应当是第3个高分者,从这个角度理解,后面的名次应当是第3,这也是RANK( )的排名方式。DENSE_RANK函数的排名方式我们称之为密集排名,因为它的名次之间没有间隔。

下面的语句演示了RANK和DENSE_RANK的排名方式,查询结果如表9-12所示。

SELECT ClassID, StudentName, Achievement,

RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortRank,

DENSE_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) ASSortDense

FROM dbo.Students;

表9-12                              按班级和考试成绩分别使用RANK和DENSE_RANK排名


ClassID


StudentName


Achievement


SortRank


SortDense


1


Grace


99.00


1


1


1


Andrew


99.00


1


1


1


Margaret


89.00


3


2


1


Janet


75.00


4


3


2


Robert


91.00


1


1


2


Steven


86.00


2


2


2


Michael


72.00


3


3


3


Ann


94.00


1


1


3


Ken


92.00


2


2


3


Ina


80.00


3


3


3


Laura


75.00


4


4

图9-5是为语句生成的执行计划,与ROW_NUMBER相比,执行计划中多出了一个“段”运算符。右边段的分组依据是ClassID,左边段的分组依据是ClassID和Achievement,这是多出的“段”。右边的“段”用于分区操作,在到达下一个分区时发送true信号,“序列射影”运算符会重置排名值。而左边的“段”用于比较排序值是否有变化,如果有变化,则通知“序列射影”运算符递增排名值,递增方式则按RANK和DENSE_RANK函数的规则进行。

图9-5 为RANK和DENSE_RANK生成的执行计划

在SQL Server2005之前,也可以使用子查询的方式实现排名计算。语句的原理就是查询出比当前成绩高的个数,再加上1,就是该成绩的排名。例如,在第1个班级中,比99分高的成绩为0,加上1后,该成绩就是第1名。下面语句的执行结果与表9-12完全相同,但是由于对于每个成绩都要执行两次子查询,在性能方面与RANK和DENSE_RANK函数相差很远。

SELECT ClassID, StudentName, Achievement,

(SELECT COUNT(*) FROM dbo.Students AS S2

WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortRank,

(SELECT COUNT(DISTINCT achievement) FROM dbo.Students AS S2

WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortDense

FROM dbo.Students AS S1

ORDER BY ClassID, Achievement DESC;

9.3.3 NTILE函数

NTILE函数用于把行分发到指定数目的组中。各个组有编号,编号从1开始。对于每一个行,NTILE将返回此行所属的组的编号。

NTILE函数可以接受一个代表组数量的参数,分组的方式“均分”原则。例如,假设一个表有10行,需要分成2组,则每个组都会有5行。如果表有11行,需要分成3个组,这时候是无法均分的。它分配方法是先得到一个能够整除的基组大小(11/3=3),每组应当分配3行,剩余的2行(11-9)会被再次均分到前面的2组中。

例如,下面的语句指定将Students表按学生成绩划分为3个组,并且Students表恰好也是11行,分组结果如表9-13所示。

SELECT ClassID, StudentName, Achievement,

NTILE(3) OVER(ORDER BY Achievement DESC) AS Tile

FROM dbo.Students;

表9-13                                                                         分组结果


ClassID


StudentName


Achievement


Tile


1


Grace


99.00


1


1


Andrew


99.00


1


3


Ann


94.00


1


3


Ken


92.00


1


2


Robert


91.00


2


1


Margaret


89.00


2


2


Steven


86.00


2


3


Ina


80.00


2


3


Laura


75.00


3


1


Janet


75.00


3


2


Michael


72.00


3

也可以先分区,再分组。例如,下面的语句将每个班级的成绩划分为高、低两组,查询结果如表9-14所示。可以看出,包含4名学生的班级,每组是2人;包含3名学生的班级,第1组是2人,第2组是1人。

SELECT ClassID, StudentName, Achievement,

CASENTILE(2) OVER(PARTITION BY ClassID ORDER BY Achievement DESC)

WHEN 1 THEN ‘高‘

WHEN 2 THEN ‘低‘

ENDAS Tile

FROM dbo.Students;

表9-14                                                       按班级分区再按成绩分组结果


ClassID


StudentName


Achievement


Tile


1


Grace


99.00



1


Andrew


99.00



1


Margaret


89.00



1


Janet


75.00



2


Robert


91.00



2


Steven


86.00



2


Michael


72.00



3


Ann


94.00



3


Ken


92.00



3


Ina


80.00



3


Laura


75.00


时间: 2024-12-05 22:31:25

锋利的SQL2014:基于窗口的排名计算的相关文章

锋利的SQL-基于窗口的排名计算

在SQL Server中,窗口被定义为用户指定的一组行. 之所以要提出窗口这个概念,因为这种基于窗口或分区的重新计算在实际工作应用范围比较广泛.例如,假设我们要对每个班级中的学生按成绩进行排序,在对第1个班级排序完成后,对第2个班级进行排序时编号需要重新从1开始.在SQL Server 2005之前,像这种排序方式实现起来是比较烦琐的.可以说,对新窗口重新启动计算是窗口计算的重要特点. 为支持窗口计算,SQLServer提供了OVER子句和窗口函数.窗口函数在MSDN Library中被翻译为开

锋利的SQL2014:基于窗口的聚合计算

实际上,窗口聚合与分组聚合在功能上是相同的,唯一的差别是,分组聚合是通过GROUP BY进行分组计算,而窗口聚合是通过OVER子句定义的窗口进行计算.前面我们讲了,这个所谓的窗口,实际上也是一组数据. SQL Server提供的聚合函数包括:AVG.CHECKSUM_AGG.COUNT.COUNT_BIG.GROUPING.GROUPING_ID.MAX.MIN.SUM.STDEV.STDEVP.VAR.VARP.除了GROUPING和GROUPING_ID,都可以跟在OVER子句后面用于窗口的

锋利的SQL2014:基于窗口的分布计算

从SQL Server2012开始,提供了四个排名分布函数,包括PERCENT_RANK.CUME_DIST.PERCENTILE_CONT和PERCENTILE_DISC.其中PERCENT_RANK用于计算某行的相对排名,CUME_DIST用于计算行的累积分布(即相对位置),PERCENTILE_CONT和PERCENTILE_DISC用于根据指定的比例返回组中相应的数值,如中位值等.换句话说,PERCENT_RANK和CUME_DIST是根据数值计算比例,PERCENTILE_CONT和P

锋利的SQL2014:基于窗口的偏移计算

SQL Server 2012引入了四个偏移函数:LAG和LEAD.FIRST_VALUE和LAST_VALUE,用于从当前行的某个偏移量.或是一个窗口框架的开头或结尾的行返回一个元素. LAG和LEAD支持窗口分区和窗口排序子句,FIRST_VALUE和LAST_VALUE在支持窗口分区和窗口排序子句的基础上,还支持窗口框架子句. 9.5.1 LAG和LEAD函数 LAG函数用于在当前行之前查找,LEAD函数在之后查找.函数的第一个参数(必选)指定要返回值的列,第二个参数(可选)是偏移量(如果

基于Flink秒级计算时CPU监控图表数据中断问题

基于Flink进行秒级计算时,发现监控图表中CPU有数据中断现象,通过一段时间的跟踪定位,该问题目前已得到有效解决,以下是解决思路: 一.问题现象 以SQL02为例,发现本来10秒一个点的数据,有时会出现断点现象,会少1-2个点甚至更多: 二.问题定位 针对该问题,根据数据处理链路,制定了数据输出跟踪示意图,如下所示: 通过输出的实际数据发现: 1.监控Agent的数据已经正确上报Kafka 2.从Kafka中可以正确取到监控Agent上报的数据 3.从计算完毕的Kafka中取不到丢失点的数据

基于谷本系数计算相似度

//这段程序写的是忽略偏好值基于谷本系数计算相似度 //这个算法是基于谷本系数. //这个值也叫做Jaccard系数,由两个用户共同表达过偏好的物品数目除以至少 //一个用户表达过偏好的物品数目而得(就是两者得交集除以两者得并集) package byuser; import java.io.File; import java.io.IOException; import org.apache.mahout.cf.taste.common.TasteException; import org.a

轻松搞定你的IPython + Notebook 基于云的科学计算环境(含详细步骤)

IPython + Notebook 提供了一种基于云的科学计算开发环境.它既能够使开发者享受到云计算的强大计算能力,也能够使开发者无需在自己本地安装任何软件就能有良好的开发界面.此外,从本地到云端,带宽要求极低. 准备工作:只需要你的本地浏览器即可!! 注册一个云计算帐号 这里我们建议注册超能云(SuperVessel Cloud)(注册网址:http://www.ptopenlab.com).原因有两个: 超能云是OpenPOWER基金会支持下构建的,完全面向开发者免费的云平台. 超能云目前

使用Gephi做网页监控及PageRank排名计算

使用Gephi做网页监控及PageRank排名计算 1.下载httpGraph插件 2.新建一个httpGraph监控        3.配置浏览器,使用httpGraph做代理,使其可监控浏览器 4.观察监控结果 此时我们访问浏览器,Gephi会自动记录我们的访问痕迹 5.计算pagerank 6.查看结果 Gephi将我们的访问痕迹以及pagerank计算结果自动存储为数据资料

锋利的SQL2014:层次结构操作之Hierarchyid

在8.6.4节介绍了使用递归CTE查询层次结构数据的方法,本节将介绍一种使用hierarchyid数据类型解决此问题的方法.Hierarchyid数据类型是从SQL Server2008开始提供的,专门用于解决层次结构问题. hierarchyid使用"/"符号来表示层次结构,如顶层(根节点)为"/",其后的子节点可以是"/1/"."/2/"等.再之后的节点可以是"/1/1/"."/2/1/&qu