联表查询时始终以小结果集驱动大结果集

写在前面的话

不要求每个人一定理解 联表查询(join/left join/inner join等)时的mysql运算过程;

不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小;

但要经常使用explain查看执行计划,这是一种美德!

联表查询的基础知识

下面两个查询,它们只差了一个order by,效果却迥然不同。

第一个查询:

EXPLAIN extended

SELECT ads.id

FROM ads, city 

WHERE

   city.city_id = 8005

   AND ads.status = ‘online‘

   AND city.ads_id=ads.id

ORDER BY ads.id desc

执行计划为:

id  select_type  table   type    possible_keys   key      key_len  ref                     rows  filtered  Extra
------  -----------  ------  ------  --------------  -------  -------  --------------------  ------  --------  -------------------------------
 1  SIMPLE       city    ref     ads_id,city_id  city_id  4        const                   2838    100.00  Using temporary; Using filesort
 1  SIMPLE       ads     eq_ref  PRIMARY         PRIMARY  4        city.ads_id       1    100.00  Using where                 

第二个查询:

EXPLAIN extended

SELECT ads.id

FROM ads,city 

WHERE

   city.city_id =8005

   AND ads.status = ‘online‘

   AND city.ads_id=ads.id

ORDER BY city.ads_id desc

执行计划里没有了using temporary:

 id  select_type  table   type    possible_keys   key      key_len  ref                     rows  filtered  Extra
------  -----------  ------  ------  --------------  -------  -------  --------------------  ------  --------  ---------------------------
  1  SIMPLE       city    ref     ads_id,city_id  city_id  4        const                   2838    100.00  Using where; Using filesort
  1  SIMPLE       ads    eq_ref  PRIMARY         PRIMARY  4        city.ads_id       1    100.00  Using where      

为什么第一个查询using temporary,第二个查询不用临时表呢?

DBA告诉我们,MySQL 表关联的算法是 Nest Loop Join,是通过驱动表的结果集作为循环基础数据,然后一条一条地通过该结果集中的数据作为过滤条件到下一个表中查询数据,然后合并结果。

EXPLAIN 结果中,第一行出现的表就是驱动表(Important!)

以上两个查询语句,驱动表都是 city,如上面的执行计划所示!

对驱动表可以直接排序对非驱动表(的字段排序)需要对循环查询的合并结果(临时表)进行排序(Important!)

因此,order by ads.id desc 时,就要先 using temporary 了!

驱动表的定义

当进行多表连接查询时, 驱动表的定义为:
1)指定了联接条件时,满足查询条件的记录行数少的表为驱动表;
2)未指定联接条件时,行数少的表为驱动表(Important!)

忠告:如果你搞不清楚该让谁做驱动表、谁 join 谁,请让 MySQL 运行时自行判断

既然未指定联接条件时,行数少的表为驱动表了,而且你也对自己写出的复杂的 Nested Loop Join 不太有把握(如下面的实例所示),那就别指定谁 left/right join 谁了,请交给 MySQL优化器 运行时决定吧。

小结果集驱动大结果集

我们优化的目标是尽可能减少JOIN中Nested Loop的循环次数,以此保证:永远用小结果集驱动大结果集(Important!)

实例讲解

先了解一下 mb 表有 千万级记录,mbei 表要少得多。慢查实例如下:

explain
SELECT mb.id, ……
FROMmb LEFT JOIN mbei ON mb.id=mbei.mb_id INNER JOIN u ON mb.uid=u.uid
WHERE 1=1
ORDER BY mbei.apply_time DESC
limit 0,10

够复杂吧。Nested Loop Join 就是这样,以驱动表的结果集作为循环的基础数据,然后将结果集中的数据作为过滤条件一条条地到下一个表中查询数据,最后合并结果;此时还有第三个表,则将前两个表的 Join 结果集作为循环基础数据,再一次通过循环查询条件到第三个表中查询数据,如此反复。

这条语句的执行计划如下:

id  select_type  table   type    possible_keys   key             key_len  ref                     rows  Extra
------  -----------  ------  ------  --------------  --------------  -------  -------------------  -------  --------------------------------------------
  1  SIMPLE       mb      index   userid          userid          4        (NULL)               6060455  Using index; Using temporary; Using filesort
  1  SIMPLE       mbei    eq_ref  mb_id  mb_id  4        mb.id             1
  1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY         4        mb.uid        1  Using index                                

由于动用了“LEFT JOIN”,所以攻城狮已经指定了驱动表,虽然这张驱动表的结果集记录数达到百万级!

如何优化?

优化第一步:LEFT JOIN改为JOIN

干嘛要 left join 啊?直接 join!

explain
SELECT mb.id……
FROM mb JOIN mbei ON mb.id=mbei.mb_id INNER JOIN u ON mb.uid=u.uid
WHERE 1=1
ORDER BY mbei.apply_time DESC
limit 0,10

立竿见影,驱动表立刻变为小表 mbei 了, Using temporary 消失了,影响行数少多了:

  id  select_type  table   type    possible_keys   key      key_len  ref                             rows  Extra
------  -----------  ------  ------  --------------  -------  -------  ----------------------------  ------  --------------
   1  SIMPLE       mbei    ALL     mb_id  (NULL)   (NULL)   (NULL)                         13383  Using filesort
   1  SIMPLE       mb      eq_ref  PRIMARY,userid  PRIMARY  4        mbei.mb_id       1
   1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY  4        mb.uid                1  Using index  

优化第一步之分支1:尽量不要根据非驱动表的字段排序

left join不变。干嘛要根据非驱动表的字段排序呢?我们前面说过“对驱动表可以直接排序,对非驱动表(的字段排序)需要对循环查询的合并结果(临时表)进行排序!”的。

explain
SELECT mb.id……
FROM mb LEFT JOIN mbei ON mb.id=mbei.mb_id INNER JOINu ON mb.uid=u.uid
WHERE 1=1
ORDER BY mb.id DESC
limit 0,10

也满足业务场景,做到了rows最小:

 id  select_type  table   type    possible_keys   key             key_len  ref                    rows  Extra
------  -----------  ------  ------  --------------  --------------  -------  -------------------  ------  -----------
  1  SIMPLE       mb      index   userid          PRIMARY         4        (NULL)                   10
  1  SIMPLE       mbei    eq_ref  mb_id  mb_id  4        mb.id            1  Using index
  1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY         4        mb.uid       1  Using index

优化第二步:去除所有JOIN,让MySQL自行决定!

写这么多密密麻麻的 left join/inner join 很开心吗?

explain
SELECT mb.id……
FROM mb,mbei,u
WHERE
    mb.id=mbei.mb_id
    and mb.uid=u.user_id
order by mbei.apply_time desc
limit 0,10

立竿见影,驱动表一样是小表 mbei:

 id  select_type  table   type    possible_keys   key      key_len  ref                             rows  Extra
------  -----------  ------  ------  --------------  -------  -------  ----------------------------  ------  --------------
  1  SIMPLE       mbei    ALL     mb_id  (NULL)   (NULL)   (NULL)                         13388  Using filesort
  1  SIMPLE       mb      eq_ref  PRIMARY,userid  PRIMARY  4        mbei.mb_id       1
  1  SIMPLE       u       eq_ref  PRIMARY         PRIMARY  4        mb.uid                1  Using index  

总结

不要过于相信你的运气!

不要相信你的开发环境里SQL的执行速度!

请拿起 explain 武器,

如果你看到以下现象,请优化:

  • 出现了Using temporary;
  • rows过多,或者几乎是全表的记录数;
  • key 是 (NULL);
  • possible_keys 出现过多(待选)索引。

原文地址:https://www.cnblogs.com/shamo89/p/8733025.html

时间: 2024-10-10 06:33:58

联表查询时始终以小结果集驱动大结果集的相关文章

SQL联表查询

数据库中最最常用的语法----select.简单的select语法很直白: select column from table where expression: 从((from)存储数据的地方(table)按照(where)一定的条件(expression)查找(select)我要的数据(column); 但是在实际工作中用到的比较多的往往还是多联表查询,所以在这里记下自己学习多联表查询的心得. 首先聊一聊笛卡尔积,这是几乎所有数据库书籍在讲多联表查询时第一个要讲的东西,我等P民也只能是把笛卡尔

mybatis之联表查询

今天碰到了一个问题,就是要在三张表里面各取一部分数据然后组成一个list传到前台页面显示.但是并不想在后台做太多判断,(因为涉及到for循环)会拉慢运行速度.正好用的框架是spring+springMVC+mybatis,所以很自然的就想到了联表查询. 一开始认为mybatis编写语句很简单,但是在编写的时候遇到了一些细节问题,所以发文记录一下. 先说一下背景: 框架:spring+springMVC+mybatis 表结构: 1.主表 2.从表 从表的uid对应主表的id,并将主表的id设为主

ORM::联表查询

按顺序来一步一步走: 第一先建立好数据库:我的数据库是mysql数据库,数据库共分为以下几个表: users  用户表(刚开始的时候我用的是user表名,由于kohana有喜欢建立model时在后面加复数的习惯,但是估计 user这个名字已经被占用了,指定$_table_name="user"也不行) posts 帖子 数据库导出代码如下: -- phpMyAdmin SQL Dump -- version 3.4.10.1deb1 -- http://www.phpmyadmin.n

自动化运维Python系列之ForeignKey、relationship联表查询

一对多和多对多 数据库表结构设计是程序项目开发前的重要环节,后期数据库操作都是围绕着这个已经设计好的表结构进行,如果表结构设计有问题,整个程序项目就有存在需要整个推翻重构的风险... 数据库表结构除了简单的单表操作以外,还有一对多.多对多等. 一对多 基于SQLAlchemy我们可以先创建如下结构的2张表,然后来看看具体怎样通过外键ForeignKey或者relationship联表操作 创建表 from sqlalchemy.ext.declarative import declarative

mycat学习日记:关于联表查询

在使用数据库中间件之前,我就想到分库分表的操作对于联表操作可能会显得非常复杂.因为如果数据是分片存储的,如果主表的数据在1分片,从表对应的数据在2分片,那么这一次联表查询就需要跨节点,如果业务再复杂一点,显然会造成不必要的性能损耗.今天在研究mycat文档的时候看到mycat很巧妙的解决了这个问题: ”MyCAT借鉴了NewSQL领域的新秀Foundation DB的设计思路,Foundation DB创新性的提出了Table Group的概念,其将子表的存储位置依赖于主表,并且物理上紧邻存放,

MYSQL数据库表排序规则不一致导致联表查询,索引不起作用问题

Mysql数据库表排序规则不一致导致联表查询,索引不起作用问题 表更描述: 将mysql数据库中的worktask表添加ishaspic字段. 具体操作:(1)数据库worktask表新添是否有图片字段ishaspic:新添字段时,报错 [SQL] alter table WorkTask add ishaspic int(10) Null;[Err] 1034 - Incorrect key file for table 'WorkTask'; try to repair it 解决方案:新建

Spring Hibernate JPA 联表查询 复杂查询

(转自:http://www.cnblogs.com/jiangxiaoyaoblog/p/5635152.html) 今天刷网,才发现: 1)如果想用hibernate注解,是不是一定会用到jpa的? 是.如果hibernate认为jpa的注解够用,就直接用.否则会弄一个自己的出来作为补充. 2)jpa和hibernate都提供了Entity,我们应该用哪个,还是说可以两个一起用? Hibernate的Entity是继承了jpa的,所以如果觉得jpa的不够用,直接使用hibernate的即可

单表多表操作 联表查询

目录 一.单表操作 1. 分组--> group by 2. 排序--> order by 3. 分页--> limit 4. 总结(很重要) 二.多表操作 1. 外键 2. 一对多(很常见类型) 3. 多对多(常见类型) 4. 一对一(不常见类型) 三.多表联查 1. 左连接-->left join...on 2. 右连接-->right join...on 3. 内连接-->inner join...on 一.单表操作 1. 分组--> group by 分组

mysql联表查询,使用phpStudy自带的

一.内联结.外联结.左联结.右联结的含义及区别在SQL标准中规划的(Join)联结大致分为下面四种:1.内联结:将两个表中存在联结关系的字段符合联结关系的那些记录形成记录集的联结.2.外联结:分为外左联结和外右联结.左联结A.B表的意思就是将表A中的全部记录和表B中联结的字段与表A的联结字段符合联结条件的那些记录形成的记录集的联结,这里注意的是最后出来的记录集会包括表A的全部记录.右联结A.B表的结果和左联结B.A的结果是一样的,最后出来的记录集会包括表B的全部记录.具体如下: Select l