CMU Database Systems - Sorting,Aggregation,Join

Sorting

排序如果可在内存里面排,用经典的排序算法就ok,比如快排

问题在于,数据表中的的数据是很多的,没法一下都放到内存里面进行排序

所以就需要用到,外排,多路并归排序

看下最简单的,2路并归排序,

设文件分为N个page,memory中一次最多可以放入B个pages

所以在sort过程,一次性可以载入B个page,在内存中page内排序,写回disk,称为一轮,run
那么如果一共N个page,需要N/B+1个run

在merge过程,如果双路并归排序,只需要用到3个page的buffer,多了也没用

Merge过程的cost

每个pass都需要读写一遍所有的数据,cost为2N
2 way,所以一共有1 + logN个pass

多路并归排序的通用公式如下,

其他都比较容易理解,为什么way数是B-1?

因为memory一共B个buffer,需要留一个output,剩下的用于merge,所以最多是B-1路并归排序

如果我们有B+ index的情况下,

分两种情况,要排序的字段有Clustered B+索引,那么直接从左到右遍历叶子节点就好

排序的字段不是Clustered B+索引,比如是secondary 索引

那么从索引里面只能获取到排好序的id,然后要通过id去Clustered B+索引中取真正的value,效率也很低,每个record都需要一次io

Aggregation

Aggregation有两种思路,

一种先排序sorting,然后再按顺序做aggregate

这个方法明显的问题,就是比较费,有些场景不需要sort,比如group by,distinct

所以第二种思路是Hashing,

在memory里面临时维护一个hash table,去重或聚合都在hash table上完成

问题就是,如果hash table太大,内存放不下怎么办?

所以解法的思路,放不下,就切开,切成能放下的一个个partition,并且要保证一个key的数据都在一个partition里面,这样只要保证内存能够放下一个partition就可以aggregate,不需要去读其他的partition

这里有几个问题,

首先,一个partition应该不止一个key,如果只有一个,第二步里面的h2感觉没用
第二,假设数据是均匀分布的,不会出现太大的倾斜,不会有partition overflow

Join

为什么需要join?

因为不同的数据存在不同的表里面,所以要查询就需要关联
那么为什么不能放在一张表里面,关系表的设计有范式的要求,避免大量的数据重复

Join Operator Output

直接输出data,这样好处是,后续operator不用回到数据表再去读数据
这个方法比较实用于TP需求,结果数据较少的情况

仅仅输出ids,适合AP需求,join结果集非常大的情况

尤其适用于列存,因为这样你只需要读出join id列,也不浪费

然后在最后要显示的时候,才去把需要的数据从表里面查出来,这叫做late materialization

这样的好处,过程中可能还有其他的join,过滤等,所以开始读可能浪费,到最后真正需要的时候再读

Join Cost

如何去评价join算法的好坏,就是要评价cost

传统的数据库的瓶颈在disk IO,所以这里就以磁盘IO的次数来评价join算法的好坏,这个和为何使用B+tree作为index的理由一样
所以就是读写page的个数

Join算法

Nested Loop Join

Simple,直觉的方式就是遍历两个表
这里的概念,分为Outer和Inner表
从Cost上看,最要取决于Outer的tuples数,所以如果把较小的表N作为Outer会效率高些  

比较明显的问题是,没有必要读那么多遍的inner表

如果我能把outer表直接放在内存中,那么只需要读一遍inner就可以了,如果不行就用如下的block的方式

如果内存大小是B,那么要用两块来放inner和output,所以可以用B-2来放outer

Cost,outer表M需要读一次,inner表需要读M/(B-2)次

这里也写了,如果memory比较大,那么cost就是M+N,只需要读一遍inner

如果有index,是否可以加快join的效率?应该可以,但是效果要看是什么index,如果hash,C=O(1),B+tree,C=O(logn)

Sort-Merge Join 

这个方法要求,两个表先排序,然后做一轮幷归就可以完成join
所以这个方法适用于,两个表本身就有序,或是在join key上有index
这个方法附带的好处是结果有序

这个算法的Cost,主要是两个表排序的cost,幷归的cost就是M+N

Hash Join

HashJoin分为两步,两步的hash函数用同一个

Build,对较小的表建临时的hash table

Probe,读取另一张表,进行join

这有个类似的问题,Hash Table里面存什么?

当然可以直接存join的结果,也可以存tuple id,这个选择就取决于场景

自然有个疑问,如果内存放不下这个hash table怎么办?

既然放不下,就需要分而治之,两个表用相同的hash函数,hash到相同数目的buckets里面去

在内存中,一次只读一组bucket来进行join,是不是很ok

那么如果hash成bucket的时候,不均衡,一个bucket也overflow,怎么办?答案是继续分

Grace Hash Join的cost

所有join算法的Cost对比,

原文地址:https://www.cnblogs.com/fxjwind/p/10906161.html

时间: 2024-11-02 22:04:00

CMU Database Systems - Sorting,Aggregation,Join的相关文章

CMU Database Systems - Two-phase Locking

首先锁是用来做互斥的,解决并发执行时的数据不一致问题 如图会导致,不可重复读 如果这里用lock就可以解决,数据库里面有个LockManager来作为master,负责锁的记录和授权 数据库里面的基本的锁类型, 其实就是读锁,写锁 但是如果光是有读写锁,只能解决当个操作互斥和正确,无法解决transaction的正确 所以我们需要一个事务级别的锁,就是2PL,两阶段提交 最核心的想法,在growing阶段需要拿到所有需要的锁,否则就会block:shrinking阶段,不能去增加锁,只能释放锁

EF 之 MVC 排序,查询,分页 Sorting, Filtering, and Paging For MVC About EF

最近悟出来一个道理,在这儿分享给大家:学历代表你的过去,能力代表你的现在,学习代表你的将来. 十年河东十年河西,莫欺少年穷 学无止境,精益求精    上篇博客我们学习了EF CodeFirst增删改查之'CRUD',今儿,我们来探讨下MVC下的EF 排序.查询.分页操作 在此,本人先从分页说起 话说,做过webForm项目的程序员用AspNetPage.DLL做过分页,做过EasyUI框架的程序员,用JS AJAX请求分页,那么,MVC 程序员用什么进行分页呢? 当然,MVC程序亦可以使用上述方

Inheritance, Association, Aggregation, and Composition 类的继承,关联,聚合和组合的区别

在C++中,类与类之间的关系大概有四种,分别为继承,关联,聚合,和组合.其中继承我们大家应该都比较熟悉,因为是C++的三大特性继承Inheritance,封装Encapsulation,和多态Polymorphism之一. 继承Inheritance:是指一个类(子类)来继承另一个类(基类),并增加自己的功能,可以通过重写基类中的函数来实现.可以将继承理解成“IS A”的关系,比如A cat "IS A" animal, or A car "IS A" vehicl

“,”、“natural join”、“natural left outer join”、“natural right outer join”的用法总结

",":代表笛卡尔积: "natural join":代表自然连接,即同名列等值连接: "natural left outer join":表示左外连接: "natural right outer join":表示右外连接. 注意:以下的写法在Oracle中都是不正确的. 1.r1 join r2 2.r1 inner join r2 3.r1 left outer join r2(如果要用左外连接,需要加natural关键字

UNIX常见命令索引(rev,paste,join,tr,bc,readelf,strings,xxd)

rev rev file 对读入的每一行,输出其倒序后的结果 paste paste [options] files 将files中的文件每个各自获取一行,并用tab(默认)将它们连接起来合成新的一行. -d LIST 不使用默认的tab,而是用LIST中的字符来逐个连接每一行.LIST可以是一个或者多个\n,\t,\\或者\0,多个字符时逐个使用每个字符. -s 先将单个输入文件中的每一行连接起来(使用默认tab或者-d指定的字符),再用换行符连接文件列表中的各个文件. - 放在files列表

SQL 连接 JOIN 例解。(左连接,右连接,全连接,内连接,交叉连接,自连接)

SQL 连接 JOIN 例解.(左连接,右连接,全连接,内连接,交叉连接,自连接) 最近公司在招人,同事问了几个自认为数据库可以的应聘者关于库连接的问题,回答不尽理想-现在在这写写关于它们的作用假设有如下表: 一个为投票主表,一个为投票者信息表-记录投票人IP及对应投票类型,左右连接实际说是我们联合查询的结果以哪个表为准-1:如右接连 right join 或 right outer join:我们以右边voter表为准,则左表(voteMaster)中的记录只有当其ID在右边(voter)中存

关于sql server中的 jion,inner join, left join ,left outer join, right join,right outer join 的几点使用心得

平时我们做关联,一般都是2~3张表,不太关注这样繁杂的写法,那今天咱们就看看这些写法吧 对将要说的这三种,先说一下要介绍的要点:on后面的条件可以放几个?什么时候结合着where条件一起使用? 大家可以先看看这个帖子,帖子的名字是:sqlserver left join的on中如何添加多个查询条件?? 链接:http://bbs.csdn.net/topics/270023422 开始咱们的介绍吧 首先对于join 分三块: 1.  join .join inner (内联) 我们平时的写法是:

Oracle,用left join 替代 exists ,not exists,in , not in,提高效率

Not IN问题 Exists,not Exists,in,not in 例如: DELETE FROM YSHA WHERE NOT EXISTS(SELECT 1 FROM YSHB B WHERE YSHA.code=b.code ) 等同于 DELETE A FROM YSHA A LEFT JOIN YSHB B ON A.code=b.code WHERE b.code is NULL

python字符串的操作(去掉空格strip(),切片,查找,连接join(),分割split(),转换首字母大写, 转换字母大小写...)

#可变变量:list, 字典#不可变变量:元祖,字符串字符串的操作(去掉空格, 切片, 查找, 连接, 分割, 转换首字母大写, 转换字母大小写, 判断是否是数字字母, 成员运算符(in / not in))字符串使用时用单引号或者双引号括起来: var1 = 'hello' var2 ="world" 字符串不能修改值, 如下例所示: 以下是字符串常用的一些操作. 1. 去掉空格str.strip() # 去掉两边的空格和换行符str.strip('a') # 去掉两边指定的字符st