<<高性能mysql>>笔记2

转载请注明: TheViper http://www.cnblogs.com/TheViper

这篇说下mysql查询语句优化

  • 是否请求了不需要的数据

典型案例:查询不需要的记录,多表关联时返回全部列,总是取出全部列,重复查询相同的数据。

  • 是否在扫描额外的记录

最简单的衡量查询开销的指标。

  1. 响应数据
  2. 扫描的行数
  3. 返回的行数
  • 访问类型

在评估查询开销时,需要考虑下从表中找到某一行数据的成本,mysql有好多种方式可以查找并返回一行结果。有些访问方式可能需要扫描很多行才能返回一行结果,也有些方式可能无须扫描就能返回结果。

在EXPLAIN语句中type列反应了访问类型。访问类型有很多种,从全表扫描到索引扫描,范围扫描,唯一索引查询,常数引用等。这里列的这些,速度是从慢到快,扫描的行数也是从小到大。

因此,要尽力避免让每一条sql做全表扫描。

如果查询没办法找到合适的访问类型,那么解决的最好方式通常就是增加一个合适的索引,这个上一篇里说到过。索引让mysql以最高效,扫描行数最少的方式找到需要的记录。

一般mysql有三种方式应用where条件。从好到坏依次为

  • 在索引中使用where条件过滤不匹配的记录,这是在存储引擎层中完成。
  • 使用索引覆盖扫描(在extra列中出现using index)来返回记录,直接从索引中过滤不需要的记录并返回命中的结果。这是在mysql服务层完成的,但不用再回表查询记录。
  • 从表中返回数据,然后过滤不满足条件的记录(在extra列中出现where),这是在mysql服务层完成的,mysql需要先从数据表中读取记录然后过滤。

如果发现查询中扫描大量的数据却只返回少量的行。可以尝试下面方法优化。

  • 使用索引覆盖扫描,把所有需要用到的列都放到索引中,这样存储引擎不用回表获取对应行就可以返回结果了。
  • 改变表的结构,例如使用单独的汇总表
  • 重写这个复杂的查询,让mysql优化器以更优化的方式执行这个查询
  • 重构查询方式

一个复杂查询还是多个简单查询?

在传统实现中,总是强调数据库层完成尽可能多的工作,这样做的逻辑在于以前总是认为网络通信,查询解析,优化是一件代价很高的事。

但是这样的想法对于mysql并不适用,mysql从设计上让连接和断开连接都很轻量,在返回一个小的查询结果方面很高效。另外,现在的网络速度比以前快的多,无论是宽带还是延迟。在某些版本的mysql上,即便在一个通用的服务器上,也能运行每秒超过10万的查询。即使是一个千兆网卡也能轻松满足每秒超过2000次的查询。

切分查询

即所谓的分而治之,将大查询切分成小查询,每个查询功能完全一样,每次只返回一小部分结果。

删除旧的数据就是个很好的例子,定期的清理大量数据时,如果用一个大语句一次性完成的话,则可能一次锁住很多数据,占满整个事务日志,耗尽系统资源,阻塞很多小的但很重要的查询。

因此可以

分解关联查询

简单说,就是对每个表进行一次单表查询,然后将结果在应用程序中进行关联。例如

可以将其分解成下面查询来替代

乍一看,这样做没有好处。事实上,有下面这些优势

  1. 让缓存效率更高。许多应用程序可以方便的缓存单表查询对应的结果对象。
  2. 将查询分解后,执行单个查询可以减少锁的竞争。
  3. 在应用层做关联,可以更容易对数据库进行拆分,更容易做到高性能,可扩展。
  4. 查询本身效率也会有所提升。在这个例子中,使用in代替关联查询,可以让mysql按照id顺序进行查询,这可能比随机的关联更高效。
  5. 可以减少冗余记录的查询。做关联查询时,可能需要重复访问一部分数据。从这点看,这样的重构还可能减少网络和内存的消耗。
  6. 实现了哈希关联,而不是使用mysql的嵌套循环关联。某些场景,哈希关联的效率要高很多。
  •  mysql如何执行关联查询

mysql中“关联”一词所包含的意义比一般理解上要更广泛。总的来说,mysql认为任何一个查询都是一次“关联”,并不仅仅是一个查询需要到两个表匹配才叫关联。所以,在mysql中,每个查询,每个片段(包括子查询,甚至基于单表的select)都可能是关联。

下面看下mysql如何执行关联查询。

先看union查询。mysql先将一系列的单个查询结果放到一个临时表中,然后再重新读取临时表数据完成union查询。在mysql概念中,每个查询都是一次关联,所以读取结果临时表也是一次关联。

mysql对任何关联都执行嵌套循环关联策略,即mysql先在一个表中循环取出单条数据,然后再嵌套循环到下一个表中寻找匹配的行,依次下去,直到所有表中匹配的行为止。然后根据各个表匹配的行,返回查询中所需要的各个列。

可以看到查询是从actor表开始的,这是mysql关联查询优化器自动做的选择。现在用STRAIGHT_JOIN关键字,不让mysql自动优化关联。

这次的关联顺序倒转过来,可以看到,倒转后第一个关联表只需要扫描很少的行数。而且第二个,第三个关联表都是根据索引查询,速度都很快。

  • 排序优化

无论如何排序都是一个成本很高的操作。所以从性能角度考虑,应尽可能避免排序或避免对大量数据进行排序。

上一篇说到了如何通过索引排序。当不能使用索引生成排序结果时,mysql需要自己进行排序,如果数据量小,就在内存中进行,数据量大,则需要使用磁盘。mysql统一将这一过程称为文件排序(filesort)。

在关联查询时如果需要排序,mysql会分两种情况处理文件排序。

1.如果order by子句中的所有列都来自关联的第一个表,mysql在关联处理第一个表时就进行文件排序。如果是这样,在EXPLAIN结果中的Extra字段会有Using filesort.

2.除此之外的所有情况,mysql都会先将关联的结果存放到一个临时表中,然后在所有的关联结束后再进行文件排序。如果是这样,在EXPLAIN结果中的Extra字段会有Using temporary;Using filesort.如果查询中有LIMIT的话,LIMIT也会在排序之后应用。所以即使需要返回较少的行数,临时表和需要排序的数据量仍然会非常大。

mysql5.6在这里做了很多重要的改进。当只需要返回部分排序结果的时候,例如,使用LIMIT子句,mysql不再所有结果排序,而是根据实际情况,选择抛弃不满足条件的结果,然后再排序。

  • 关联子查询

mysql的子查询实现非常糟糕,最糟糕的一类查询是where条件中包含in的子查询语句。

mysql对in()列表中的选项有专门的优化策略,一般会认为,mysql会先执行子查询。但是,很不幸,mysql会先将相关的外层表押到子查询中。例如

mysql会将查询改成这样

可以看到,mysql会先对film进行全表扫描,然后根据返回的film_id逐个执行子查询。如果外层表是个非常大的表,那这个查询的性能会非常糟糕。当然很容易重写这个查询,直接用关联就可以了。

另一个优化方法是使用函数GROUP_CONCAT()在IN()中构造一个由逗号分隔的列表。

另外,通常建议用EXISTS()等效的改写IN()子查询。

时间: 2024-10-25 14:51:06

<<高性能mysql>>笔记2的相关文章

【安全牛学习笔记】

弱点扫描 ╋━━━━━━━━━━━━━━━━━━━━╋ ┃发现弱点                                ┃ ┃发现漏洞                                ┃ ┃  基于端口五福扫描结果版本信息(速度慢)┃ ┃  搜索已公开的漏洞数据库(数量大)      ┃ ┃  使用弱点扫描器实现漏洞管理            ┃ ╋━━━━━━━━━━━━━━━━━━━━╋ [email protected]:~# searchsploit Usage:

51CTO持续更新《通哥的运维笔记》

<通哥的运维笔记>将持续在51CTO网站更新,希望大家多多关注.互相学习,后期,我将会退出<通哥的运维笔记>系列视频教程,希望带给大家最大的收获,帮助大家更好的学习.进步.<通哥的运维笔记>主要从linux系统管理.虚拟化.cloudstack云平台以及网络管理之CCNA.CCNP.CCIE,等等方面深入讲解.

WPF笔记整理 - Bitmap和BitmapImage

项目中有图片处理的逻辑,因此要用到Bitmap.而WPF加载的一般都是BitmapImage.这里就需要将BitmapImage转成Bitmap 1. 图片的路径要用这样的,假设图片在project下的Images目录,文件名XXImage.png. pack://application:,,,/xxx;component/Images/XXImage.png 2. 代码: Bitmap bmp = null; var image = new BitmapImage(new Uri(this.X

java String 类 基础笔记

字符串是一个特殊的对象. 字符串一旦初始化就不可以被改变. String s = "abc";//存放于字符串常量池,产生1个对象 String s1=new String("abc");//堆内存中new创建了一个String对象,产生2个对象 String类中的equals比较字符串中的内容. 常用方法: 一:获取 1.获取字符串中字符的个数(长度):length();方法. 2.根据位置获取字符:charAt(int index); 3.根据字符获取在字符串中

vector 学习笔记

vector 使用练习: /**************************************** * File Name: vector.cpp * Author: sky0917 * Created Time: 2014年04月27日 11:07:33 ****************************************/ #include <iostream> #include <vector> using namespace std; int main

学习笔记之邮件发送篇

用脚本语言发送邮件是系统管理员必备技能 对系统定期检查或者当服务器受到攻击时生成文档和报表. 发布这些文档最快速有效的方法就是发送邮件. python中email模块使得处理邮件变得比较简单 发送邮件主要用到了smtplib和email两个模块,这里首先就两个模块进行一下简单的介绍: 本段摘录于    http://www.cnblogs.com/xiaowuyi/archive/2012/03/17/2404015.html 1.smtplib模块 smtplib.SMTP([host[, p

15.1-全栈Java笔记:Java事件模型是什么?事件控制的过程有哪几步??

应用前边两节上一章节的内容,大家可以完成一个简单的界面,但是没有任何的功能,界面完全是静态的,如果要实现具体功能的话,必须要学习事件模型. 事件模型简介及常见事件模型 对于采用了图形用户界面的程序来说,事件控制是非常重要的. 一个源(事件源)产生一个事件并把它(事件对象)送到一个或多个监听器那里,监听器只是简单地等待,直到它收到一个事件,一旦事件被接收,监听器将处理这些事件. 一个事件源必须注册监听器以便监听器可以接收关于一个特定事件的通知. 每种类型的事件都有其自己的注册方法,一般形式为: v

Java设计模式学习笔记,一:单例模式

开始学习Java的设计模式,因为做了很多年C语言,所以语言基础的学习很快,但是面向过程向面向对象的编程思想的转变还是需要耗费很多的代码量的.所有希望通过设计模式的学习,能更深入的学习. 把学习过程中的笔记,记录下来,只记干货. 第一部分:单例模式的内容 单例模式:类只能有一个实例. 类的特点:1.私有构造器:2.内部构造实例对象:3.对外提供获取唯一实例的public方法. 常见的单例模式实现有五种形式: 1.饿汉式. 2.懒汉式. 3.双重检查锁式. 4.静态内部类式. 5.枚举式. 以下分别

Caliburn.Micro学习笔记(一)----引导类和命名匹配规则

Caliburn.Micro学习笔记(一)----引导类和命名匹配规则 用了几天时间看了一下开源框架Caliburn.Micro 这是他源码的地址http://caliburnmicro.codeplex.com/ 文档也写的很详细,自己在看它的文档和代码时写了一些demo和笔记,还有它实现的原理记录一下 学习Caliburn.Micro要有MEF和MVVM的基础 先说一下他的命名规则和引导类 以后我会把Caliburn.Micro的 Actions IResult,IHandle ICondu

机器学习笔记_PRML_Adaboost 算法的原理与推导

转自:http://blog.csdn.net/v_july_v/article/details/40718799 Adaboost 算法的原理与推导 1 Adaboost的原理 1.1 Adaboost是什么 AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出.它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器.同时,在每一轮中加