<<高性能mysql>>笔记2

转载请注明： TheViper http://www.cnblogs.com/TheViper

这篇说下mysql查询语句优化

是否请求了不需要的数据

典型案例：查询不需要的记录，多表关联时返回全部列，总是取出全部列，重复查询相同的数据。

是否在扫描额外的记录

最简单的衡量查询开销的指标。

响应数据
扫描的行数
返回的行数

访问类型

在评估查询开销时，需要考虑下从表中找到某一行数据的成本，mysql有好多种方式可以查找并返回一行结果。有些访问方式可能需要扫描很多行才能返回一行结果，也有些方式可能无须扫描就能返回结果。

在EXPLAIN语句中type列反应了访问类型。访问类型有很多种，从全表扫描到索引扫描，范围扫描，唯一索引查询，常数引用等。这里列的这些，速度是从慢到快，扫描的行数也是从小到大。

因此，要尽力避免让每一条sql做全表扫描。

如果查询没办法找到合适的访问类型，那么解决的最好方式通常就是增加一个合适的索引，这个上一篇里说到过。索引让mysql以最高效，扫描行数最少的方式找到需要的记录。

一般mysql有三种方式应用where条件。从好到坏依次为

在索引中使用where条件过滤不匹配的记录，这是在存储引擎层中完成。
使用索引覆盖扫描（在extra列中出现using index）来返回记录，直接从索引中过滤不需要的记录并返回命中的结果。这是在mysql服务层完成的，但不用再回表查询记录。
从表中返回数据，然后过滤不满足条件的记录（在extra列中出现where）,这是在mysql服务层完成的,mysql需要先从数据表中读取记录然后过滤。

如果发现查询中扫描大量的数据却只返回少量的行。可以尝试下面方法优化。

使用索引覆盖扫描，把所有需要用到的列都放到索引中，这样存储引擎不用回表获取对应行就可以返回结果了。
改变表的结构，例如使用单独的汇总表
重写这个复杂的查询，让mysql优化器以更优化的方式执行这个查询

重构查询方式

一个复杂查询还是多个简单查询？

在传统实现中，总是强调数据库层完成尽可能多的工作，这样做的逻辑在于以前总是认为网络通信，查询解析，优化是一件代价很高的事。

但是这样的想法对于mysql并不适用，mysql从设计上让连接和断开连接都很轻量，在返回一个小的查询结果方面很高效。另外，现在的网络速度比以前快的多，无论是宽带还是延迟。在某些版本的mysql上，即便在一个通用的服务器上，也能运行每秒超过10万的查询。即使是一个千兆网卡也能轻松满足每秒超过2000次的查询。

切分查询

即所谓的分而治之，将大查询切分成小查询，每个查询功能完全一样，每次只返回一小部分结果。

删除旧的数据就是个很好的例子，定期的清理大量数据时，如果用一个大语句一次性完成的话，则可能一次锁住很多数据，占满整个事务日志，耗尽系统资源，阻塞很多小的但很重要的查询。

因此可以

分解关联查询

简单说，就是对每个表进行一次单表查询，然后将结果在应用程序中进行关联。例如

可以将其分解成下面查询来替代

乍一看，这样做没有好处。事实上，有下面这些优势

让缓存效率更高。许多应用程序可以方便的缓存单表查询对应的结果对象。
将查询分解后，执行单个查询可以减少锁的竞争。
在应用层做关联，可以更容易对数据库进行拆分，更容易做到高性能，可扩展。
查询本身效率也会有所提升。在这个例子中，使用in代替关联查询，可以让mysql按照id顺序进行查询，这可能比随机的关联更高效。
可以减少冗余记录的查询。做关联查询时，可能需要重复访问一部分数据。从这点看，这样的重构还可能减少网络和内存的消耗。
实现了哈希关联，而不是使用mysql的嵌套循环关联。某些场景，哈希关联的效率要高很多。

mysql如何执行关联查询

mysql中“关联”一词所包含的意义比一般理解上要更广泛。总的来说，mysql认为任何一个查询都是一次“关联”，并不仅仅是一个查询需要到两个表匹配才叫关联。所以，在mysql中，每个查询，每个片段（包括子查询，甚至基于单表的select）都可能是关联。

下面看下mysql如何执行关联查询。

先看union查询。mysql先将一系列的单个查询结果放到一个临时表中，然后再重新读取临时表数据完成union查询。在mysql概念中，每个查询都是一次关联，所以读取结果临时表也是一次关联。

mysql对任何关联都执行嵌套循环关联策略，即mysql先在一个表中循环取出单条数据，然后再嵌套循环到下一个表中寻找匹配的行，依次下去，直到所有表中匹配的行为止。然后根据各个表匹配的行，返回查询中所需要的各个列。

可以看到查询是从actor表开始的,这是mysql关联查询优化器自动做的选择。现在用STRAIGHT_JOIN关键字，不让mysql自动优化关联。

这次的关联顺序倒转过来，可以看到，倒转后第一个关联表只需要扫描很少的行数。而且第二个，第三个关联表都是根据索引查询，速度都很快。

排序优化

无论如何排序都是一个成本很高的操作。所以从性能角度考虑，应尽可能避免排序或避免对大量数据进行排序。

上一篇说到了如何通过索引排序。当不能使用索引生成排序结果时，mysql需要自己进行排序，如果数据量小，就在内存中进行，数据量大，则需要使用磁盘。mysql统一将这一过程称为文件排序（filesort）。

在关联查询时如果需要排序，mysql会分两种情况处理文件排序。

1.如果order by子句中的所有列都来自关联的第一个表，mysql在关联处理第一个表时就进行文件排序。如果是这样，在EXPLAIN结果中的Extra字段会有Using filesort.

2.除此之外的所有情况，mysql都会先将关联的结果存放到一个临时表中，然后在所有的关联结束后再进行文件排序。如果是这样，在EXPLAIN结果中的Extra字段会有Using temporary;Using filesort.如果查询中有LIMIT的话，LIMIT也会在排序之后应用。所以即使需要返回较少的行数，临时表和需要排序的数据量仍然会非常大。

mysql5.6在这里做了很多重要的改进。当只需要返回部分排序结果的时候，例如，使用LIMIT子句，mysql不再所有结果排序，而是根据实际情况，选择抛弃不满足条件的结果，然后再排序。