MYSQL优化_MYSQL分区技术[转载]

MySQL分区技术是用来减轻海量数据带来的负担,解决数据库性能下降问题的一种方式,其他的方式还有建立索引,大表拆小表等等。
MySQL分区按照分区的参考方式来分有RANGE分区、LIST分区、HASH分区、KEY分区。本文对这几种分区方式进行了详细的介绍,并且给出了简单的示例,文章简洁明了,对于想要初步了解MySQL分区技术的同学来说是很不错的参考材料。

一、背景介绍

当 MySQL中一个表的总记录数超过了1000万,会出现性能的大幅度下降吗?答案是肯定的。但性能下降的比率由系统的架构、应用程序、数据库索引、服务器硬件等多种因素而定。数据库多达上亿的数据量,分表之后的单个表也已经突破千万,那么单个表的更新等均影响着系统的运行效率。甚至是一条简单的SQL都有可能压垮整个数据库,如整个表对某个字段的排序操作等。

目前,针对海量数据的优化主要有2种方法:大表拆小表的方式、SQL语句的优化

SQL语句的优化:可以通过增加索引等来调整,但是数据量的增大将会导致索引的维护代价增大。在此不详述,建议大家参考相应的《High Performance MySQL》等书籍。

大表拆小表的方式主要有两种:

1,垂直分表:

图1,垂直分区示意图

对于垂直分表,它将一个N1+N2个字段的表Tab拆分成N1字段的子表Tab1和(N2+1)字段的子表Tab2;其中子表Tab2包含了关于子表Tab1的主键信息,否则两个表的关联关系就会丢失。当然垂直分表会带来程序端SQL的修改,若是应用程序已经应用很长的一段时间,然后程序的升级将是耗时而且易出错的,即升级的代价将会很大。

2,水平分表:

图2,水平分区示意图

水平分区技术将一个表拆成多个表,比较常用的方式是将表中的记录按照某种Hash算法进行拆分,简单的拆分方法如取模方式。同样,这种分区方法也必须对前端的应用程序中的SQL进行修改方可使用。而且对于一个SQL,它可能会修改两个表,那么你必须得写成2个SQL语句从而可以完成一个逻辑的事务,使得程序的判断逻辑越来越复杂,这样也会导致程序的维护代价高,也就失去了采用数据库的优势。因此,分区技术可以有力地避免如上的弊端,成为解决海量数据存储的有力方法。

二、MySQL分区介绍

MySQL的分区技术不同与之前的分表技术,它与水平分表有点类似,但是它是在逻辑层进行的水平分表,对与应用程序而言它还是一张表。MySQL5.1有5种分区类型:

RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区;

LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择;

HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL中有效的、产生非负整数值的任何表达式;

KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL服务器提供其自身的哈希函数。

1,RANGE分区

对于RANGE分区,举个例子:

例1:假定你创建了一个如下的表,该表保存有20家音像店的职员记录,这20家音像店的编号从1到20。如果你想将其分成4个小分区,那么你可以采用RANGE分区,创建的数据库表如下:

图3,RANGE分区实例1

在这个例子,key是一个整型的数据,那是否对于其它类型的字段就无法作为key呢?答案是否定的,例子2说明这种情况。

例2:假定你创建了一个如下的表,该表保存有20家音像店的职员记录,这20家音像店的编号从1到20。你想把不同时期离职的员工进行分别存储,那么你可以将日期字段separated(即离职时间)作为一个key,创建的SQL语句如下:

图4,RANGE分区实例2

这样你就可以对一个日期类型的字段调用mysql的日期函数YEAR()转换为一种整数类型,从而可以作为RANGE分区的key。这个时候你可以看到,分区后的物理文件是相对独立的:

图5,RANGE分区后物理文件

可知,每个分区有自己独立的数据文件和索引文件,这是为什么你对某一个查询,它只会访问它需要访问的数据块,而不访问根本不是结果的物理块,从而可以大大提高系统的效率。

2,LIST分区

LIST分区与RANGE分区有类似的地方,举个与例1类似的例子如下:

例3:假定你创建了一个如下的一个表,该表保存有20家音像店的职员记录,这20家音像店的编号从1到20。而这20个音像店,分布在4个有经销权的地区,如下表所示:

图6,LIST分区实例3

那么你可以采用如下的LIST分区语句创建数据表:

图7,LIST分区实例SQL语句

同样,它在物理文件上也会标识不同的分区:

图8,LIST分区后物理文件

3,HASH分区

HASH分区主要用来确保数据在预先确定数目的分区中平均分布。它可以基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。

例4:假定你创建了一个如下的一个表,该表保存有20家音像店的职员记录,这20家音像店的编号从1到20。你想把不同时期加入的员工进行分别存储,那么你可以将日期字段hired(即离职时间)作为一个key,创建的SQL语句如下:

图9,HASH分区实例4

那么要插入一个在2005-09-15日入职的员工E1,那么按照取模函数会将其放置到第2分区中:

MOD(YEAR(‘2005-09-01’), 4)= MOD(2005,4)= 1 //即第2分区

4,KEY分区

与HASH分区类似,但它的key可以不是整数类型,如字符串等类型的字段。MySQL 簇(Cluster)使用函数MD5()来实现KEY分区;对于使用其他存储引擎的表,服务器使用其自己内部的哈希函数,这些函数是基于与PASSWORD()一样的运算法则。

5,不同分区技术的对比

如上分别列出了不同的分区技术,接下来进行对比,如下表所示:

图10,不同分区技术对比

三、案例分析

这个案例是针对有个员工、部门、部门经理、头衔和销售记录的模拟数据,其ER图如下所示,数据量大概有4百万左右。数据下载URL:https://launchpad.net/test-db

图11,案例分析

通过如上可知,对于同样的数据按照分区和不分区的技术分别存储,从而便于如下的查询性能分析和对比。对于salaries表,它采用RANGE分区,定义如下:

图12,案例分析

1,单表查询

从销售记录中找到1999年整年的销售记录有多少条,这个很简单,查询语句如下:

select count(*) from salaries s where s.from_date between"1999-01-01" and "1999-12-31" ;

那么对于分区前后的查询性能却有很大的差别:

图13,分区前后查询性能对比

通过如上可知,利用分区之后它只需扫描p16分区,访问的记录明显减少,所以性能自然有较大的提升:

图14,无采用分区技术和采用分区技术性能对比

2,单表查询的badcase

若现在有如下查询:

select count(*) from salaries s where year(s.from_date)=1999;

那么它是否能够利用到分区技术呢,答案是否定的。为什么呢,因为分区中的key是s.from_date,而不是year(s.from_date),mysql并不能很智能地判断year是1999的,那么它就是分为p16分区,这个可以通过如下的查询计划可以证实:

图15,未优化前的单表查询

也就是其实它访问了所有的分区,所以并没有很好地利用分区功能,将SQL改写如下:

select count(*) from salaries s where year between ‘1999-01-01‘ and‘1999-12-31‘ ;

则查询计划如下:

图16,改进后的单表查询

可知,书写正确的SQL可以完全表现出两种相差特别大的性能。

3,连接查询

同样地,对于连接查询,在有没有分区的条件下,将有性能3倍左右的差距。对于更大的数据量,可能会有更大的性能差距。SQL如下:

select count(*) from salaries s left join employees e ons.emp_no=e.emp_no where s.from_date between ‘1999-01-01‘ and ‘1999-12-31‘ ;

图17,无采用分区和采用分区的性能对比

4,删除查询

为了删除1998年的销售数据,那么在有分区情况下可以不利用delete查询快速地完成垃圾数据的清理。

图18,删除查询性能对比

可知,对于有分区的情况下,只需要将某个分区删除掉即可,时间仅为0.05s,相对应原来的2.82s,这个提升是非常高的。当然,利用分区功能删除之后的数据文件信息如下:

图19,利用分区功能删除后的文件信息

那么接下来如果接着插入1998年的数据,数据是否丢失了呢?还是会写不进去?答案也都是否定,它会将数据写入p16分区中。有兴趣的读者可以自己收到试试。

四、总结和不足

分区的好处有很多:

1,与单个磁盘或文件系统分区相比,可以存储更多的数据;

2,对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据;

3,一些查询可以得到极大的优化,如where语句数据可以只保存在一个或多个分区内;

4,涉及到例如SUM()和COUNT()这样聚合函数的查询,可以很容易地进行并行处理;

5,通过跨多个磁盘来分散数据查询,来获得更大的查询吞吐量。

在设计分区过程中,需要考虑的因素有很多,如:

1,分区的列;

2,分区使用的函数,特别是非Integer类型的列;

3,服务器性能;

4,内存大小。

根据分区技术,有一些技巧:

1,若索引的大小> RAM,考虑选用分区,不采用索引;

2,尽量不采用Primary Key做分区的key;

3,当CPU性能高的时候,考虑使用Archive存储引擎;

4,对于大量的历史数据,考虑使用Archive+PARTITION。

总之,

1,MySQL分区技术是一种逻辑的水平分表技术;

2,它只访问需要访问的分区,从而提高性能;

3,支持range, hash, key, list和复合分区方法;

4,支持MySQL服务器所支持的任何存储引擎;

5,除了Key分区方法,Partition的key 必须是整数(或者能转化成整数)。

参考:

[1]http://baidutech.blog.51cto.com/4114344/748675

[2]http://baidutech.blog.51cto.com/4114344/748627

时间: 2024-10-12 22:54:27

MYSQL优化_MYSQL分区技术[转载]的相关文章

Mysql5.7—mysql优化分区、分表(必备)

小生博客:http://xsboke.blog.51cto.com 小生 Q Q:1770058260 -------谢谢您的参考,如有疑问,欢迎交流 一. 分表 1. 分表简介 分表是将一个大表按照一定的规则分解成多张具有独立存储空间的实体表. 如果正在使用的表需要进行分区,就需要同时修改app的规则,使mysql可以得知用户查询的数据在哪. 2. 分表类型 分为垂直切分和水平切分 垂直切分:将某些列分到另一个表 水平切分:将某些行分到另一个表 3. 分表的方式 1) Mysql集群 它并不是

MySQL优化核心理论与实践

背景描述:朋友单位OA系统前不久完成升级大改造,后端用的MySQL存储数据,上线跑了个把月,抱怨电话开始接二连三打来,不是这里打不开,就是那里无响应,有人比喻升级后变成老爷车,越来越慢,问题迫在眉睫,必须马上想对策呀.由于部署采用了规范文档,上线前也做了各种测试,于是乎,在线排查,未果,翻出实施文档,逐条阅读,未果,于是想起曾经一个业务系统,也碰到类似情况,后来通过各种优化得以缓解,遂有下文,<MySQL优化核心理论与实践>.说明:本文理论部分来源叶老师的博文,实践部分来源工作积累和众多热爱M

Mysql分区技术 --创建分区表

分区的作用:数据库性能的提升和简化数据管理 在扫描操作中,mysql优化器只扫描保护数据的那个分区以减少扫描范围获得性能的提高.分区技术使得数据管理变得简单,删除某个分区不会对另外的分区造成影响,分区有系统直接管理不用手工干预. 查询当前的mysql数据库版本是否支持分区show variables like '%partition%'; 分区类型[RANGE 分区]:基于属于一个给定连续区间的列值,把多行分配给分区. [LIST 分区]:类似于按RANGE分区,区别在于LIST分区是基于列值匹

mysql 表分区技术

表分区,是指根据一定规则,将数据库中的一张表分解成多个更小的,容易管理的部分.从逻辑上看,只有一张表,但是底层却是由多个物理分区组成. 表分区有什么好处: a.分区表的数据可以分布在不同的物理设备上,从而高效地利用多个硬件设备. b.和单个磁盘或者文件系统相比,可以存储更多数据 c.优化查询.在where语句中包含分区条件时,可以只扫描一个或多个分区表来提高查询效率:涉及sum和count语句时,也可以在多个分区上并行处理,最后汇总结果.d.分区表更容易维护.例如:想批量删除大量数据可以清除整个

[转载] 单表60亿记录等大数据场景的MySQL优化和运维之道 | 高可用架构

原文: http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=209406532&idx=1&sn=2e9b0cc02bdd4a02f7fd81fb2a7d78e3&scene=1&key=0acd51d81cb052bce4ec2a825666e97fe7d6e1072fb7d813361771645e9403309eb1af025691162c663b60ea990c3781&ascene=0&

MySQL分区技术 (一)

4:MySQL 分区技术(是mysql 5.1以版本后开始用->是甲骨文mysql技术团队维护人员以插件形式插入到mysql里面的技术) 目前,针对海量数据的优化主要有2中方法: 1:大表拆成小表的方式(物理上) 一:垂直分表->一张垂直切成几张 二:水平分表(一般重点)->横切,意思就是一张表有100个数据横切10张表,一张表存10条(字段一致) 2:SQL语句的优化(可以通过增加索引等来调整,但是数据量大的增大会导致索引的维护代价增大) 水平分区技术将一个表拆成多个表,比较常用的方式

mysql分区技术

mysql分区技术在物理存储上使数据表进行分离,逻辑上还是一张表 mysql5.1以上版本有5种分区类型 RANGE 分区:基于属于一个给定连续区间的列值,把多行分配给分区. LIST 分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择. HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算.这个函数可以包含MySQL 中有效的.产生非负整数值的任何表达式. KEY 分区:类似于按HASH分区

今天开始学习Mysql优化技术

随着工作的深入,愈发觉得数据库优化方面知识方面的重要性,于是下载了韩顺平的Mysql优化技术的视频,这里全当课后笔记,里面可能会穿插一些自己的工作经验(感谢韩老师). Mysql优化不是一种动作,而是全套动作,包括 : 1.表的设计合理化 2.添加适当的索引 3.分表技术(水平分表,垂直分表) 4.读写分离技术 5.对常用的sql语句使用存储过程(免去了dbms对sql的编译过程,但是降低了可移植性) 6.修改mysql配置(my.ini),比如mysql最大并发量,缓存之类的配置 7.碎片整理

mysql的分区技术

一.概述 当 MySQL的总记录数超过了100万后,会出现性能的大幅度下降吗?答案是肯定的,但是,性能下降>的比率不一而同,要看系统的架构.应用程序.还有>包括索引.服务器硬件等多种因素而定.当有网友问我这个问题的时候,我最常见的回答>就是:分表,可以根据id区间或者时间先后顺序等多种规则来分表.分表很容易,然而由此所带来的应用程序甚至是架构方面的改动工作却不>容小觑,还包括将来的扩展性等. 在以前,一种解决方案就是使用 MERGE类型,这是一个非常方便的做饭.架构和程序基本上不用