锋利的SQL2014:基于窗口的分布计算

从SQL Server2012开始,提供了四个排名分布函数,包括PERCENT_RANK、CUME_DIST、PERCENTILE_CONT和PERCENTILE_DISC。其中PERCENT_RANK用于计算某行的相对排名,CUME_DIST用于计算行的累积分布(即相对位置),PERCENTILE_CONT和PERCENTILE_DISC用于根据指定的比例返回组中相应的数值,如中位值等。换句话说,PERCENT_RANK和CUME_DIST是根据数值计算比例,PERCENTILE_CONT和PERCENTILE_DISC是根据指定的比例计算数值,类似于对PERCENT_RANK和CUME_DIST的逆运算。

9.4.1 PERCENT_RANK函数

PERCENT_RANK用于计算某行的相对排名,返回一个0~1之间的一个小数值。该函数的OVER子句允许有分区和排序子句,并且排序子句是必选项。

下面通过一个示例来说明这种相对排名的计算方法,这里我们仍旧使用9.1节创建的Students表,下面的语句用于计算学生成绩在自己班级的绝对排名和相对排名,查询结果如表9-15所示。

SELECT ClassID, StudentName, Achievement,

RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS A_Rank,

PERCENT_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) ASP_Rank

FROM dbo.Students;

表9-15                                           学生成绩在自己班级的绝对排名和相对排名


ClassID


StudentName


Achievement


A_Rank


P_Rank


1


Grace


99


1


0


1


Andrew


99


1


0


1


Margaret


89


3


0.666667


1


Janet


75


4


1


2


Robert


91


1


0


2


Steven


86


2


0.5


2


Michael


72


3


1


3


Ann


94


1


0


3


Ken


92


2


0.333333


3


Ina


80


3


0.666667


3


Laura


75


4


1

对于使用RANK函数获得绝对排名,我们在前面已经介绍过。现在看表中的P_Rank列的计算方法,公式如下:

(当前行的RANK排名-1)/(分区内总行数-1)

从表中可以看出,Grace、Andrew的RANK排名为第1,并且当前分区内共有4行,所以第一行和第二行的P_Rank列值均计算为:(1-1)/(4-1)=0。第三行Margaret的P_Rank列值计算方法为:(3-1)/(4-1)=0.666667,表示班级内有66.667%的人高于自己的成绩。

9.4.2 CUME_DIST函数

CUME_DIST用于计算某个值在一组值内的累积分布,也可以说是该值在一组值中的相对位置。函数返回一个0~1之间的一个小数值。该函数的OVER子句允许有分区和排序子句,并且排序子句是必选项。

下面通过一个示例来说明这种相对位置的计算方法,仍旧使用9.1节创建的Students表。下面的语句中,C_Num列计算的是大于或等于自己学生成绩的人数,C_Dist列计算的是大于或等于自己学生成绩的人数占全班人数的比例,查询结果如表9-16所示。

SELECT ClassID, StudentName, Achievement,

COUNT(*) OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS C_Num,

CUME_DIST() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) ASC_Dist

FROM dbo.Students;

表9-16                           计算的是大于或等于自己学生成绩的人数及占全班人数的比例


ClassID


StudentName


Achievement


C_Num


C_Dist


1


Grace


99.00


2


0.5


1


Andrew


99.00


2


0.5


1


Margaret


89.00


3


0.75


1


Janet


75.00


4


1


2


Robert


91.00


1


0.333333333333333


2


Steven


86.00


2


0.666666666666667


2


Michael


72.00


3


1


3


Ann


94.00


1


0.25


3


Ken


92.00


2


0.5


3


Ina


80.00


3


0.75


3


Laura


75.00


4


1

表中C_Dist列的计算公司为:

C_Num/班级总人数

C_Num是大于或等于自己学生成绩的人数。表中第1~4行是班级1的数据,第一行和第二行C_Dist列值的计算方法是:2/4=0.5,表示班级中有50%的大于或等于自己的成绩。

9.4.3 PERCENTILE_CONT和PERCENTILE_DISC函数

PERCENTILE_CONT和PERCENTILE_DISC用于根据指定的比例返回一组数据中相应位置的值,所指定比例应当是一个0~1之间的小数。例如,比例为0.5(即中位值),这组数字是1、3、9、12、18,则这个数值应当是9。

PERCENTILE_CONT和PERCENTILE_DISC函数的语法格式如下,其中的WITHIN GROUP子句用于指定要排序的数值列表,OVER子句可以指定一个分区列。

PERCENTILE函数 (numeric_literal )

WITHINGROUP ( ORDER BY order_by_expression [ ASC | DESC ] )

OVER ( [<partition_by_clause> ] )

下面通过示例来说明这两个函数的使用方法,参考下面的语句。查询结果如表9-17所示。

SELECT ClassID, StudentName, Achievement,

PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BYAchievement DESC)

OVER(PARTITION BYClassID) AS P_Cont,

PERCENTILE_DISC(0.6) WITHIN GROUP (ORDER BYAchievement DESC)

OVER(PARTITION BYClassID) AS P_Disc,

CUME_DIST() OVER(PARTITION BY ClassID

ORDER BY Achievement DESC) AS C_Dist

FROM dbo.Students;

表9-17                                                         根据指定比例返回相应数值


ClassID


StudentName


Achievement


P_Cont


P_Disc


C_Dist


1


Grace


99


94


89


0.5


1


Andrew


99


94


89


0.5


1


Margaret


89


94


89


0.75


1


Janet


75


94


89


1


2


Robert


91


86


86


0.333333


2


Steven


86


86


86


0.666667


2


Michael


72


86


86


1


3


Ann


94


86


80


0.25


3


Ken


92


86


80


0.5


3


Ina


80


86


80


0.75


3


Laura


75


86


80


1

表中P_Cont列计算的是班级中50%位置的值,班级1共有4行,因此94是Achievement列中第二行和第三行的平均值:(99+89)/2。也就是说,对于偶数行,PERCENTILE_CONT函数计算的是中间两个数值间的平均值。

而PERCENTILE_DISC函数不会这样做,它始终返回的是已有值。注意表中的C_Dist列,该列计算的是值得累积分布。当为PERCENTILE_DISC指定一个比例值时,它会查找大于或等于该比例的累积分布值所对应的值。例如,在该示例中我们为函数指定的比例是0.6,在班级1中第一个大于或等于该值的累积分布是0.75,因此该函数返回了89。

时间: 2024-10-12 03:05:51

锋利的SQL2014:基于窗口的分布计算的相关文章

锋利的SQL-基于窗口的排名计算

在SQL Server中,窗口被定义为用户指定的一组行. 之所以要提出窗口这个概念,因为这种基于窗口或分区的重新计算在实际工作应用范围比较广泛.例如,假设我们要对每个班级中的学生按成绩进行排序,在对第1个班级排序完成后,对第2个班级进行排序时编号需要重新从1开始.在SQL Server 2005之前,像这种排序方式实现起来是比较烦琐的.可以说,对新窗口重新启动计算是窗口计算的重要特点. 为支持窗口计算,SQLServer提供了OVER子句和窗口函数.窗口函数在MSDN Library中被翻译为开

锋利的SQL2014:基于窗口的聚合计算

实际上,窗口聚合与分组聚合在功能上是相同的,唯一的差别是,分组聚合是通过GROUP BY进行分组计算,而窗口聚合是通过OVER子句定义的窗口进行计算.前面我们讲了,这个所谓的窗口,实际上也是一组数据. SQL Server提供的聚合函数包括:AVG.CHECKSUM_AGG.COUNT.COUNT_BIG.GROUPING.GROUPING_ID.MAX.MIN.SUM.STDEV.STDEVP.VAR.VARP.除了GROUPING和GROUPING_ID,都可以跟在OVER子句后面用于窗口的

锋利的SQL2014:基于窗口的排名计算

从SQL Server2005开始,提供了4个排名函数,分别是:ROW_NUMBER.RANK.DENSE_RANK和NTILE.ROW_NUMBER用于按行进行编号,RANK和DENSE_RANK用于按指定顺序排名,NTILE用于对数据进行分组. 对于排名函数而言,OVER子句中可以包含PARTITION BY和ORDER BY子句,其中,ORDER BY是必选的.因为对于排名而言,没有顺序的排名没有任何意义. 本节我们将使用9.1节创建的Students表为例进行介绍.像Students表这

锋利的SQL2014:基于窗口的偏移计算

SQL Server 2012引入了四个偏移函数:LAG和LEAD.FIRST_VALUE和LAST_VALUE,用于从当前行的某个偏移量.或是一个窗口框架的开头或结尾的行返回一个元素. LAG和LEAD支持窗口分区和窗口排序子句,FIRST_VALUE和LAST_VALUE在支持窗口分区和窗口排序子句的基础上,还支持窗口框架子句. 9.5.1 LAG和LEAD函数 LAG函数用于在当前行之前查找,LEAD函数在之后查找.函数的第一个参数(必选)指定要返回值的列,第二个参数(可选)是偏移量(如果

基于Flink秒级计算时CPU监控图表数据中断问题

基于Flink进行秒级计算时,发现监控图表中CPU有数据中断现象,通过一段时间的跟踪定位,该问题目前已得到有效解决,以下是解决思路: 一.问题现象 以SQL02为例,发现本来10秒一个点的数据,有时会出现断点现象,会少1-2个点甚至更多: 二.问题定位 针对该问题,根据数据处理链路,制定了数据输出跟踪示意图,如下所示: 通过输出的实际数据发现: 1.监控Agent的数据已经正确上报Kafka 2.从Kafka中可以正确取到监控Agent上报的数据 3.从计算完毕的Kafka中取不到丢失点的数据

基于谷本系数计算相似度

//这段程序写的是忽略偏好值基于谷本系数计算相似度 //这个算法是基于谷本系数. //这个值也叫做Jaccard系数,由两个用户共同表达过偏好的物品数目除以至少 //一个用户表达过偏好的物品数目而得(就是两者得交集除以两者得并集) package byuser; import java.io.File; import java.io.IOException; import org.apache.mahout.cf.taste.common.TasteException; import org.a

轻松搞定你的IPython + Notebook 基于云的科学计算环境(含详细步骤)

IPython + Notebook 提供了一种基于云的科学计算开发环境.它既能够使开发者享受到云计算的强大计算能力,也能够使开发者无需在自己本地安装任何软件就能有良好的开发界面.此外,从本地到云端,带宽要求极低. 准备工作:只需要你的本地浏览器即可!! 注册一个云计算帐号 这里我们建议注册超能云(SuperVessel Cloud)(注册网址:http://www.ptopenlab.com).原因有两个: 超能云是OpenPOWER基金会支持下构建的,完全面向开发者免费的云平台. 超能云目前

电力系统【第3章:简单电力系统的潮流分布计算】

3.1电力系统线路运行状况的分析与计算 1.电流或功率从电源向负荷沿电力网流动时,在电力网元件上将产生功率损耗和电压降落. 2.电压降落是指线路始.末端电压的相量差. 3.电压损耗是指线路始.末端电压的数值差. 4.电压偏移是指网络中某一点电压与该网络额定电压的数值差. 5.在电力线路中电能损耗的大小与用户的用电负荷大小有关.负荷的运行方式为最大运行时,在网络中的有功功率损耗也最大,电能损耗也最大.反之也是一样. 3.2变压器运行状态的分析与计算 1.变压器的电能损耗等于励磁支路的电能损耗与阻抗

锋利的SQL2014:层次结构操作之Hierarchyid

在8.6.4节介绍了使用递归CTE查询层次结构数据的方法,本节将介绍一种使用hierarchyid数据类型解决此问题的方法.Hierarchyid数据类型是从SQL Server2008开始提供的,专门用于解决层次结构问题. hierarchyid使用"/"符号来表示层次结构,如顶层(根节点)为"/",其后的子节点可以是"/1/"."/2/"等.再之后的节点可以是"/1/1/"."/2/1/&qu