MySQL多线程数据导入导出工具Mydumper

http://afei2.sinaapp.com/?p=456

今天在线上使用mysqldump将数据表从一个库导入到另外一个库，结果速度特别慢，印象中有个多线程的数据导入导出工具Mydumper，于是简单的调查和测试一下。
下午导数据的过程中，这个表是没有更新的，因此不需要确保多个数据之间的一致性，就简单的写个shell脚本启动多个mysqldumper来导数据，这样有几个问题：

需要处理表数据大小不均匀的问题，有的会很快结束，有的会比较慢。
如果需要保证多个导出之间的一致性时，则无法保证。

Mydumper是一个使用c语言编写的多线程导出导入工具，并且能够保证多个表之间的一致性。Mydumper已经好几篇blog在讨论：Mydumper性能测试，Mydumper使用和源码分析。通过stronghearted的测试，我们看到不是线程越多越好，6个线程的时候速度最快（这个肯定跟机器的配置等诸多因素有关，只能作为一个经验值而不是绝对值，机器好的时候，线程越多越好）。

一、原理

Mydumper如何保证数据的一致性？下面是官方给出的解答，摘抄如下，主要是使用flush tables with read
lock和start transaction with consistent snapshot，在flush tables with read
lock时开启所有的线程，并且通过show master status和show slave
status获得当前的position（便于使用Mydumper重建slave以及确保多个表之间的数据一致性）。

Global write lock is acquired (“FLUSH TABLES WITH READ LOCK”)
Various metadata is read (“SHOW SLAVE STATUS”,”SHOW MASTER STATUS”)
Other threads connect and establish snapshots (“START TRANSACTION
WITH CONSISTENT SNAPSHOT”)，On pre-4.1.8 it creates dummy InnoDB table,
and reads from it.
Once all worker threads announce the snapshot establishment, master executes “UNLOCK TABLES” and starts queueing jobs.

二、安装

下载源码，https://launchpad.net/mydumper
阅读README，根据不同的OS，安装不同的依赖
cmake .
make

三、使用

Mydumper不能读取/etc/my.cnf中配置文件，需要手工制定用户名、密码等等

mydumper -P 3306 -u admin -p ‘***‘ -h db23 -B meituan -T test1,test2,test3,test4,test5 -o ./
 
myloader -v 3 --threads=6 -P 3306 -u admin -p ‘***‘ -h 127.0.0.1 -S /opt/tmp/mysql3306.sock -B test  -d ./

四、测试

对mysqldump和Mydumper做了一个简单测试，测试结果如下（测试结果受环境影响，结果仅供参考）：

5张表，每张表600M。

导出：

远程进行，导出两遍，取最小值。

mysqldump 37s

Mydumper 21s

导入：

mysqldump 14m4s

mydumper 9m4s

五、结论

结论：Mydumper在导出导入过程因为可以多线程进行，因此速度上肯定是优于mysqldump，可以用来替换mysqldump；Mydumper不能读取/etc/my.cnf中的配置文件，这个挺麻烦的，必须进行指定。

MySQL多线程数据导入导出工具Mydumper

一、原理

二、安装

三、使用

五、结论

MySQL多线程数据导入导出工具Mydumper的相关文章

HData——ETL 数据导入/导出工具

Oracle exp/imp数据导入导出工具基本用法

Sharepoint列表数据导入导出工具(支持查阅项及用户类型)

PLSQL_数据泵Datapump导入导出数据IMPDP / EXPDP（概念）（Oracle数据导入导出工具）

mysql的数据导入导出

mysql会员数据导入导出

[转]Mysql导入导出工具Mysqldump和Source命令用法详解

如何利用sqoop将hive数据导入导出数据到mysql

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具