(转)一个MySQL 5.7 分区表性能下降的案例分析

一个MySQL 5.7 分区表性能下降的案例分析

原文:http://www.talkwithtrend.com/Article/216803

前言

希望通过本文,使MySQL5.7.18的使用者知晓分区表使用中存在的陷阱,避免在该版本上继续踩坑。同时通过对源码的分享,升级MySQL5.7.18时分区表性能下降的根本原因,向MySQL源码爱好者展示分区表实现中锁的运用。

问题描述

MySQL 5.7版本中,性能相关的改进非常多。包括临时表相关的性能改进,连接建立速度的优化和复制分发相关的性能改进等等。基本上不需要做配置修改,只需要升级到5.7版本,就能带来不少性能的提升。

我们在测试环境,把数据库升级到5.7.18版本,验证MySQL 5.7.18版本是否符合我们的预期。观察运行了一段时间,有开发反馈,数据库的性能比之前的5.6.21版本有下降。主要的表现特征是遇到比较多的锁超时情况。开发另外反馈,性能下降相关的表都是分区表。更新走的都是主键。这个反馈引起了我们重视。我们做了如下尝试:

  1. 数据库的版本为5.7.18, 保留分区表,性能会下降。
  2. 数据库版本为5.7.18,把表调整为非分区表,性能正常。
  3. 把数据库的版本回退到5.6.21版本,保留分区表,性能也是正常

通过上述测试,我们大致判定,这个性能下降和MySQL5.7版本升级有关。

问题重现

测试环境的数据库表结构比较多,并且调用关系也比较复杂。为了进一步分析并定位问题,我们抽丝剥茧,构建了如下一个简单的重现过程。

  1. // 创建一个测试分区表t2:
  2. CREATE TABLE `t2`(
  3. `id` INT(11) NOT NULL,
  4. `dt` DATETIME NOT NULL,
  5. `data` VARCHAR(10) DEFAULT NULL,
  6. PRIMARYKEY (`id`,`dt`),
  7. KEY`idx_dt`(`dt`)
  8. ) ENGINE=INNODB DEFAULTCHARSET=latin1
  9. /*!50100 PARTITION BY RANGE (to_days(dt))
  10. (PARTITION p20170218 VALUES LESS THAN (736744)ENGINE = InnoDB,
  11. PARTITIONp20170219 VALUES LESS THAN (736745) ENGINE = InnoDB,
  12. PARTITIONpMax VALUES LESS THAN MAXVALUE ENGINE = InnoDB) */
  13. // 插入测试数据
  14. INSERT INTO t2 VALUES (1, NOW(), ‘1‘);
  15. INSERT INTO t2 VALUES (2, NOW(), ‘2‘);
  16. INSERT INTO t2 VALUES (3, NOW(), ‘3‘);
  17. // SESSION 1 对id = 1的 记录 做一个更新操作,事务先不提交。
  18. BEGIN;UPDATE t2 SET DATA = ‘12‘ WHERE id = 1;
  19. // SESSION 2 对id = 2 的记录做一个更新。
  20. BEGIN;UPDATE t2 SET DATA = ‘21‘ WHERE id = 2;

在SESSION 2,我们发现,这个更新操作一直在等待。ID是主键,按道理,主键id = 1 的记录更新,不至于影响到主键id = 2的记录更新。

查询information_schema下的innodb_locks这张表。这张表是用于记录InnoDB事务尝试申请但还未获取的锁,以及阻塞其他事务的事务所拥有的锁。有两条记录:

观察此时的innodb_locks表,事务id=40021锁住第3页的第2行记录,导致事务id=40022无法进行下去。

我们把数据库回退到5.6.21版本,则不能重现上述场景。

进一步分析

根据innodb_locks表提供的信息,我们知道问题在于InnoDB锁定了不恰当的行。该表是memory存储引擎。我们在memory 存储引擎的插入接口设置断点,得到如下堆栈信息。确定是红框部分,将锁信息写入到innodb_locks表中。

并在函数fill_innodb_locks_from_cache中得以确认,每次写入行的数据,都是从如下代码中Cache对象中获取的。

我们知道Cache中保存了事务锁的信息,因此需要进一步查找Cache中的数据,是如何添加进去的。通过搜索cache对象在innodb代码中出现的位置,找到函数add_lock_to_cache。在此函数设置断点进行调试后,发现其内容与填写innodb_locks表的数据一致。确定该函数使用的lock对象,就是我们要找的锁对象。

针对lock_t 类型的使用位置进行排查。经过筛选和调试,发现函数RecLock::lock_add中,生成的行锁被加入到该锁所在的事务链表中。

RecLock::lock_add函数可以推出行锁的生成原因。因此,通过对该函数进行断点设置,查看函数堆栈,在如下堆栈内,定位到红框位置的函数:

针对Partition_helper::handle_ordered_index_scan的如下代码进行跟踪,根据该段代码的分析,m_part_spec.end_part 决定了进行上锁的最大行数,此处即为非正常行锁生成的原因。

最终问题归结到m_part_spec.end_part 的生成原因。通过对end_part 使用地方进行排查,最终在get_partition_set函数中定位到该变量在使用前的初始设置值。从代码中可以看出,每次单条记录的update操作,在进行index scan上锁时,对分区表数目相同的行数进行上锁。这个是根本原因。

验证结论

根据之前的分析,每次单条记录的update操作,会对分区表数目相同的行数进行上锁。我们尝试验证我们的发现。

  1. 新增如下两条记录:
  2. INSERT INTO t2 VALUES (4, NOW(), ‘4‘);
  3. INSERT INTO t2 VALUES (5, NOW(), ‘5‘);
  4. // SESSION 1 对id = 1的 记录 做一个更新操作,事务先不提交。
  5. BEGIN;UPDATE t2 SET DATA = ‘12‘ WHERE id = 1;
  6. // SESSION 2 现在对id = 4 的记录做一个更新。
  7. BEGIN;UPDATE t2 SET DATA = ‘44‘ WHERE id = 4;

我们发现,对id = 4的更新可以正常进行。不会受到id = 1 的更新影响。这是因为id=4的记录,超过了测试案例的分区个数,不会被锁住。在实际应用中,分区表所定义分区数不会如测试用例中的只有3个,而是数十个乃至数百个。这样进行上锁的结果,将加剧更新情况下的锁冲突,导致事务处于锁等待状态。如下图所示,每个事务都上N个行锁,那么这些上锁记录互相覆盖的可能性就极大的提高,也就导致并发下降,效率降低。

结论

通过上述分析,我们非常确认,这个应该是MySQL 5.7版本的一个regression。我们提交了一个Bug到开源社区。Oracle确认是一个问题,需进一步分析调查这个Bug。

时间: 2024-12-28 17:45:11

(转)一个MySQL 5.7 分区表性能下降的案例分析的相关文章

Mysql大表查询优化技巧总结及案例分析

http://www.169it.com/article/3219955334.html sql语句使用基本原则:1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引.2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id... sql语句使用基本原则: 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2

一次Mysql下批量更新造成的死锁案例分析

最近,公司现网的业务中出现上图所示的死锁异常,沿着问题分析,发现这个问题涉及很多数据库的基础知识. 背景: 使用数据库:Mysql 涉及表格:t_invest 数据库隔离级别:可重复读(Repeatable Read) 死锁场景:saveRepaymentInfo事务的A()方法对t_invest表执行如下update操作: <update id = "A" parameterType = "java.util.List"> <foreach co

SQL性能优化案例分析

这段时间做一个SQL性能优化的案例分析, 整理了一下过往的案例,发现一个比较有意思的,拿出来给大家分享. 这个项目是我在项目开展2期的时候才加入的, 之前一期是个金融内部信息门户, 里面有个功能是收集各个上市公司的财报, 然后做各种分析, 数据图表展示, 使用的人数并不多, 仅百人左右. 2期打算面向行外用户, 刚开始预计同时在线人数不超过50, 就以50访问用户/秒的性能测试, 结果在把1期的图表类数据展示响应基本在5分钟左右, 属于严重不可用, 说说我们的服务器配置, 有2台网站前端承载用户

Mysql中where条件一个单引号引发的性能损耗

日常写SQL中可能会有一些小细节忽略了导致整个sql的性能下降了好几倍甚至几十倍,几百倍.以下这个示例就是mysql语句中的一个单引号('')引发的性能耗损,我相信很多朋友都遇到过,甚至还在这样写. 先看下我的表结构: CREATE TABLE `d_sku` ( `id` varchar(36) NOT NULL, `commodity_id` varchar(36) DEFAULT NULL, `counts` int(11) DEFAULT NULL, `price` double(15,

MySQL批量SQL插入性能优化

对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长.特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久.因此,优化数据库插入性能是很有意义的.经过对MySQL innodb的一些性能测试,发现一些可以提高insert效率的方法,供大家参考参考. 1. 一条SQL语句插入多条数据.常用的插入语句如: INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUE

MySQL批量SQL插入性能优化详解

对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长.特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久.因此,优化数据库插入性能是很有意义的.经过对MySQL innodb的一些性能测试,发现一些可以提高insert效率的方法,供大家参考参考.1. 一条SQL语句插入多条数据.常用的插入语句如: INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES

《高性能MySQL》- 03 服务器性能剖析

最近Python关于协程和元编程我实在看不下去了,就来补一下MySQL的坑,第二章关于基准测试的部分先放着,放到最后再说. 先说重点吧,3-6掌主要是讲优化的.我看了一遍只能说懵懂懵懂,就借着写blog的机会再次学习一下. 我们常遇到的三个性能相关的服务请求是:如何确认服务器是否达到了性能最佳状态,找出某条语句为什么执行不够快,以及诊断被用户描述成“停顿”,“堆积”或者“卡死”的某些间歇性疑难故障. 性能优化简介 关于性能的描述,基于不同的环境每个人的理解可能都不同.这里我们将性能规定一下,将其

mysql性能优化-慢查询分析、优化索引和配置

一.优化概述 二.查询与索引优化分析 1性能瓶颈定位 Show命令 慢查询日志 explain分析查询 profiling分析查询 2索引及查询优化 三.配置优化 1)      max_connections 2)      back_log 3)      interactive_timeout 4)      key_buffer_size 5)      query_cache_size 6)      record_buffer_size 7)      read_rnd_buffer

压力测试tps性能下降问题解决方案

压力测试tps性能下降问题解决方案 背景 测力测试时反映tps一直下滑的问题,为了重现该问题,开发一个简单交易进行测试,测试代码如下 录制该交易脚本,并放在LoadRunner11中进行测试,场景为10个用户同时启动并持续的跑.可以看到1分钟之后tps开始下降,并在后期持续下降. 此时分析服务端日志.javacore.heapdump.gc等,并未发现异常现象.修改服务端线程池相关等,但测试结果却是一如既往的下滑.记录服务端处理请求时间,发现一直很稳定,初步怀疑是客户端压力不够导致,但一直无具体