【连载】关系型数据库是如何工作的?(11) - 查询管理器之重写

在重写这一步,我们拿到了查询SQL的内部表示,重写的目的是:

  • 预优化SQL
  • 避免不必要的操作
  • 帮助优化器找到尽可能好的解决方案

重写器会在查询上匹配一系列规则,如果匹配一个规则就应用它重写查询,以下是部分可选的规则:

  • 视图合并:如果你在查询中用了视图,那么视图就会被转换为一段代码;
  • 优化子查询:由于一个子查询非常难以优化,因此重写器会修改子查询并删除子查询。

    例如:

SELECT PERSON.*
FROM PERSON
WHERE PERSON.person_key IN
(SELECT MAILS.person_key
FROM MAILS
WHERE MAILS.mail LIKE ‘christophe%‘);

会被重写器转换为:

SELECT PERSON.*
FROM PERSON, MAILS
WHERE PERSON.person_key = MAILS.person_key
and MAILS.mail LIKE ‘christophe%‘;
  • 移除不必要的操作:如果在某个或某组字段上使用了DISTINCT关键字,但是同时在这些字段上又增加了防止数据不唯一的唯一性约束,则重写器会移除DISTINCT;
  • 移除多余的join:如果两次使用同一个join条件(可能是一个join条件被视图所隐藏),或者可能因为传递性导致一个不必要的join,它们都会被移除;
  • 数学常量代换:如果你使用了一些数学运算,那么它只会被重写器计算一次。例如WHERE AGE > 10+2会被转换为WHERE AGE > 12、TODATE(“some date”) 会被转换为DateTime类型的日期;
  • (高级)分区优化:如果你使用的是分区表,重写器会找到实际使用的分区;
  • (高级)物化视图重写:如果有物化视图匹配查询的子集,重写器会检查其是否是最新的,并用物化视图替换实际的表;
  • (高级)定制规则:如果你为了修改查询(像Oracle策略)定制了一些规则,重写器会执行这些规则;

重写后的查询会被转发给优化器继续处理。

时间: 2024-07-29 21:42:00

【连载】关系型数据库是如何工作的?(11) - 查询管理器之重写的相关文章

【连载】关系型数据库是如何工作的?(7) - 数据库架构视图

现在我们可以看看数据库内部都有什么组件.一个数据库就是容易访问和修改的信息集合,实际上,一组简单的文件就可以做到.最简单的数据库SQLite就是由一组简单文件组成的,并且是一组精心设计的一组文件,它允许你: 通过事务保证数据的安全性和一致性: 即时海量数据也能保证快速处理数据. 通常,一个数据的组件视图如下: 在写下这部分内容之前,我阅读了很多书籍和论文,每一个都有其特有的方式来描述数据库.因此就不要纠结我怎么组织数据库,或者我怎么命名这些组件,因为我已经为此考虑良久来适合这篇文章.不同的组件并

【连载】关系型数据库是如何工作的?(9) - 查询管理器

查询管理器 查询管理是一个数据库强大与否的一个判断指标.通过查询管理,可以把一个糟糕的查询语句转换为一段快速执行的代码,代码执行后返回结果给客户端管理器.整个过程分为多步: 查询首先被解析并检查其有效性: 重写查询并删除不必要的操作,另外做一些预优化: 为了提升性能进行必要的优化,最终转换为一个执行计划: 编译执行计划: 最后运行执行计划. 在读了这一章节之后,如果对查询优化想更深入的理解,我推荐阅读以下资料: 1979年发表的一篇最早的关于基于成本优化的论文:Access Path Selec

【连载】关系型数据库是如何工作的?(4) - 数组、二叉搜索树

在我们理解了隐藏在时间复杂度和排序后面的思想之后,我必须再谈谈3种数据结构了.它们极其重要,因为它们是现代数据库的基石.我也会顺便介绍下索引的概念. 数组 二维数组是最简单的数据结构,一张数据库表就可以看做一个二维数组,例如: 二维数组就是一个既有行又有列的表: 一行就表示一个主题(记录) 一列就是描述主题(记录)的一个特性 每一列存储同一个类型的数据(integer, string, date -) 虽然表能很好的存储并展示数据,但是当你需要搜索数据时,它的表现就很糟糕了. 例如,如果你要找到

【连载】关系型数据库是如何工作的?(6) - Hash表

最后我们介绍的重要数据结构就是Hash表.当你需要快速查找的时候非常有用,而且理解Hash表会有助于我们以后理解常用数据库Join方式之一Hash join.这种数据结构常被数据库用作存储内部数据结构:表锁或缓存池(后续章节会介绍). Hash表能够通过元素Key快速找到元素的,为了构建一张Hash表,你需要定义: 一个元素的Key: 一个关于Key的Hash函数,Key的hash值就代表元素所在的位置(我们通常称为Hash桶): 一个关于Key的比较函数,一旦你找到了正确的桶,你就可以通过比较

【连载】关系型数据库是如何工作的?(5) - B+Tree索引

虽然上一章节介绍的二叉搜索树在查询指定值时表现很好,但是当查询两个值之间的多个节点时,就会遇到很大的问题.因为需要遍历整个树的节点,并检查每个节点是否在指定的区间内.而且遍历整颗树是随机磁盘IO(译者注:随机IO会导致频繁的磁头换道,所以相比顺序IO来说非常耗时),所以我们需要找到一种更有效做范围查询的方法.为了解决这个难题,现代数据库修正了之前介绍的二叉搜索树,我们称修正后的数据结构为B+Tree: 只有叶子节点(树最底层的节点,图中橘黄色的节点)存储信息,即:行在表中精确的位置,也就是row

关系型数据库工作原理-事务管理(二)(翻译自Coding-Geek文章)

本文翻译自Coding-Geek文章:< How does a relational database work>. 原文链接:http://coding-geek.com/how-databases-work/#Buffer-Replacement_strategies 紧接上一篇文章,本文翻译了如下章节: 一. Log manager(日志管理) 通过前面的章节,我们已经知道,为了提升性能,数据库会将数据缓存在内存中.但是,如果在事务提交过程中,数据库服务器崩溃了.缓存在内存的数据就会丢失

关系型和非关系型数据库的区别--转载

关系型数据库和非关系型数据库 关系数据库和非关系数据库的区别是,关系数据库只有“表”这一种数据结构:而非关系数据库系统还有其他数据结构,对这些数据结构还有其他操作. 随着网络的不断发展,单纯关系数据库面临挑战. 关系与非关系型数据库的特点 1.关系型数据库 关系型数据库,是指采用了关系模型来组织数据的数据库. 简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织. 关系模型中常用的概念: 关系:可以理解为一张二维表,每个关系都具有一个关系名,就

深入理解关系型数据库(一)

前言:是否写了很多年的SQL查询,仍然不知道这个大盒子里怎么运作的? 如果你感兴趣,不妨读读本文. 每当说到关系型数据库时,我总感觉少点什么.各式各样的数据库被到处使用,从轻量的SQLite到强大的Teradata.但是,几乎没有一篇文章来解释这些关系型数据库到底是怎样工作的.你使用谷歌搜索“关系型数据库的运行原理”,基本上搜不到什么结果.现在,如果你有接触到比较流行的技术(Big Data, NoSQL或者JavaScript),你却可以找到一些比较深入的介绍它们原理的文章. 难道关系型的数据

关系型数据库与非关系型数据库的区别?

当前主流的关系型数据库有Oracle.DB2.Microsoft SQL Server.Microsoft Access.MySQL等. 非关系型数据库有 NoSql.Cloudant. nosql和关系型数据库比较? 优点: 1)成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜. 2)查询速度:nosql数据库将数据存储于缓存之中,关系型数据库将数据存储在硬盘中,自然查询速度远不及nosql数据库. 3)存储数据的格