Mysql --学习:大量数据快速导入导出

声明:此文供学习使用,原文:https://blog.csdn.net/xiaobaismiley/article/details/41015783

【实验背景】

项目中需要对数据库中一张表进行重新设计,主要是之前未分区,考虑到数据量大了以后要设计成分区表,同时要对数据库中其他表做好备份恢复的工作。

【实验环境】

  Mysql版本:mysql-5.6.19

  操作系统:Ubuntu 12.04

  内存:32G

  CPU:24核  Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz

  数据:单表1.6亿条记录,大小为22GB,非分区表,表中包含一个索引,并且存在int型自增主键

【导出导出工作准备】

  (1)导出前关闭日志,避免数据备份过程中频繁记录日志

  (2)删除主键,关闭自动增长。在该表中主键其实作用不大,自动增长是需要的(mysql中自动增长的一列一定要为key,所以设置为主键),等待数据转移结束后重新设置回来

  (3)删除表中索引。在插入数据时索引的存在会很大程度上影响速度,所以先关闭,转移后重新建立

  (4)Mysql系统参数调优,如下:(具体含义后面给出)

innodb_data_file_path = ibdata1:1G:autoextend
innodb_file_per_table = 1
innodb_thread_concurrency = 20
innodb_flush_log_at_trx_commit = 1
innodb_log_file_size = 256M
innodb_log_files_in_group = 3
innodb_max_dirty_pages_pct = 50
innodb_lock_wait_timeout = 120
key_buffer_size=400M
innodb_buffer_pool_size=4G
innodb_additional_mem_pool_size=20M
innodb_log_buffer_size=20M
query_cache_size=40M
read_buffer_size=4M
read_rnd_buffer_size=8M
tmp_table_size=16M
max_allowed_packet = 32M

【操作方法及结果】

  (1)create table t2 as select * from t1

CREATE TABLE dn_location3
PARTITION BY RANGE (UNIX_TIMESTAMP(UPLOADTIME))
( PARTITION p141109 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-09 00:00:00‘)),
PARTITION p141110 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-10 00:00:00‘)),
PARTITION p141111 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-11 00:00:00‘)),
PARTITION p141112 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-12 00:00:00‘))
)
as select * from dn_location
where uploadtime > ‘2014-08-04‘;
create table t2 as select * from dn_location2;

  as创建出来的t2表(新表)缺少t1表(源表)的索引信息,只有表结构相同,没有索引。
此方法效率较高,在前面的实验环境下,42min内将一张表内4600W的数据转到一张新的表中,在create新表时我添加了分区的操作,因此新表成功创建为分区表,这样一步到位的既转移了数据又创建了分区表。此方法平均速度:6570W条/h ,至于该方法其他需要注意的地方,暂时没有去了解。

(2)使用MySQL的SELECT INTO OUTFILE 、Load data file

  LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中。当用户一前一后地使用SELECT ... INTO OUTFILE 和LOAD DATA INFILE 将数据从一个数据库写到一个文件中,然后再从文件中将它读入数据库中时,两个命令的字段和行处理选项必须匹配。否则,LOAD DATA INFILE 将不能正确地解释文件内容。

假设用户使用SELECT ... INTO OUTFILE 以逗号分隔字段的方式将数据写入到一个文件中:

SELECT * INTO OUTFILE ‘data.txt‘ FIELDS TERMINATED BY ‘,‘ FROM table2;

为了将由逗号分隔的文件读回时,正确的语句应该是:

LOAD DATA INFILE ‘data.txt‘ INTO TABLE table2 FIELDS TERMINATED BY ‘,‘;

如果用户试图用下面所示的语句读取文件,它将不会工作,因为命令LOAD DATA INFILE 以定位符区分字段值:

LOAD DATA INFILE ‘data.txt‘ INTO TABLE table2 FIELDS TERMINATED BY ‘\t‘;

下面是我用来导入导出的命令:

1 select * into outfile ‘ddd.txt‘ fields terminated by ‘,‘ from dn_location;
2 load data infile ‘ddd.txt‘ into table dn_location2 FIELDS TERMINATED BY ‘,‘;

  通过该方法导出的数据,是将各字段(只有数据,不导出表结构)数据存在一个文件中,中间以逗号分隔,因为文件中并不包含数据库名或者表名,因此需要在导入导出的时候些明确。该方法在18分钟内导出1.6亿条记录,46min内导入6472W条记录,平均速度:8442W条/h。mysql官方文档也说明了,该方法比一次性插入一条数据性能快20倍。

【额外测试1】在新的表结构中增加主键,并增加某一列自增,查看主键索引对插入效率的影响

  【结论】导出效率没有变化,导入效率35min中导入4600W条记录,平均速度:7886W/h,考虑到测试次数很少,不能直接下结论,但至少明确该操作不会有明显的效率下降。

【测试语句】

1 SELECT MOTOR_ID,LAT,LON,UPLOADTIME,RECEIVETIME,STATE_ID,SYS_STATE_ID,SPEED,DIR,A,GPRS,DISTANCE,WEEKDAY,GPSLOCATE INTO OUTFILE ‘import2.txt‘ FROM dn_location3;
2 LOAD DATA INFILE ‘import2.txt‘ INTO TABLE dn_location_withkey(MOTOR_ID,LAT,LON,UPLOADTIME,RECEIVETIME,STATE_ID,SYS_STATE_ID,SPEED,DIR,A,GPRS,DISTANCE,WEEKDAY,GPSLOCATE);

【额外测试2】在新建的表中对一个varchar类型字段增加索引,再往里导入数据,查看对插入效率的影响。

  【结论】导入4600W条记录耗时47min,效率确实有所降低,比仅有主键索引的测试多了12分钟,从这里看插入效率排序: 没有任何索引 > 主键索引  >  主键索引+其他索引。

【额外测试3】在新建表中不加索引导入数据,完全导入后再建索引,查看建立索引时间

  【结论】(1)表数据4600W,建立索引时间10min;表数据1.6亿条,建立索引时间41min,由此可见建立索引的时间与表的数据量有直接关系,其他影响因素比较少;(2)从此处看先插入数据再建索引与先建索引再批量插入数据时间上差距不大,前者稍快一些,开发中应根据实际情况选择。

(3)使用mysqldump ,source

mysqldump -u root -p -q -e -t webgps4 dn_location2 > dn_location2.sql
mysqldump -u root -p -q -e -t --single-transaction webgps4 dn_location2 > dn_location2.sql
source dn_location2.sql

  以上是导入导出数据的语句,该方法15分钟导出1.6亿条记录,导出的文件中平均7070条记录拼成一个insert语句,通过source进行批量插入,导入1.6亿条数据耗时将近5小时。平均速度:3200W条/h。后来尝试加上--single-transaction参数,结果影响不大。另外,若在导出时增加-w参数,表示对导出数据进行筛选,那么导入导出的速度基本不变,筛选出的数据量越大,时间越慢而已。对于其中的参数这里进行说明:
–quick,-q
  该选项在导出大表时很有用,它强制 mysqldump 从服务器查询取得记录直接输出而不是取得所有记录后将它们缓存到内存中。

--extended-insert, -e
  使用具有多个VALUES列的INSERT语法。这样使导出文件更小,并加速导入时的速度。默认为打开状态,使用--skip-extended-insert取消选项。

--single-transaction

  该选项在导出数据之前提交一个BEGIN SQL语句,BEGIN 不会阻塞任何应用程序且能保证导出时数据库的一致性状态。它只适用于多版本存储引擎,仅InnoDB。本选项和--lock-tables 选项是互斥的,因为LOCK TABLES 会使任何挂起的事务隐含提交。要想导出大表的话,应结合使用--quick 选项。在本例子中没有起到加快速度的作用
  mysqldump -uroot -p --host=localhost --all-databases --single-transaction

-t 仅导出表数据,不导出表结构

更多的mysqldump 参数说明请参考:http://blog.chinaunix.net/uid-26805356-id-4138986.html

更多的mysql 参数调优说明参考:http://blog.csdn.net/yang1982_0907/article/details/20123055

http://blog.csdn.net/nightelve/article/details/17393631

extended-insert对mysqldump及导入性能的影响  http://blog.csdn.net/hw_libo/article/details/39583247

参考资料:

http://www.tuicool.com/articles/6jEBJ3            mysql load data infile的使用 和 SELECT into outfile备份数据库数据

http://kevin850115.iteye.com/blog/578142       Load Data使用方法

http://www.jb51.net/article/47525.htm               mysql几种导入导出方法介绍

原文地址:https://www.cnblogs.com/wang-Java-begining/p/9955665.html

时间: 2024-08-29 13:11:22

Mysql --学习:大量数据快速导入导出的相关文章

尝试OUTFIle、INFILE快速导入导出数据

尝试OUTFIle.INFILE快速导入导出数据 应用场景: 前几天开发突然有这么一个需求,想导一份200多G的mysql数据出来到另一台机器上,而且时间有点赶,第一时间就想要使用Xtrabackup来全备与增备.但想到之前使用Xtrabackup来备份恢复的时候出现了各种坑,就问了下同事有什么好建议来快速导出导入数据,后来知道了可以使用select into outfile导出表数据,就冒着尝试一下的心里去弄了一下,得到的结果是惊人的,个人感觉速度要比Xtrabackup快很多. 使用sele

在linux环境上对oracle数据库的数据泵导入导出操作

需求:公司搭建的报表库环境数据来自于生产环境oracle数据,因此需要使用kettle将oracle数据每天定时导入到报表数据库中(本文不讨论如何用kettle导数据,不赘述),若要导数据我们需要一套完善的生产oracle数据库的表结构.同时环境搭建以及oracle数据库都在linux环境下部署,因此,需要在linux环境下使用数据泵技术将数据完成导入导出 以上为需求概述 具体实现(即:操作步骤): su - root --切换root用户(由于不知道oracle用户的密码使用root来登录or

oracle数据的导入导出(两种方法三种方式)

大概了解数据库中数据的导入导出.在oracle中,导入导出数据的方法有两种,一种是使用cmd命令行的形式导入导出数据,另一种是使用PL/SQL工具导入导出数据. 1,使用cmd命令行导入导出数据 1.1整库导出 整库导出:exp 管理员账号/密码 full=y;//参数full表示整库导出.导出后会在当前目录下生成一个EXPDAT.DMP的文件,此文件为备份文件.如果想导出数据到指定位置,并且取个名字,需要添加file参数.例如:exp system/123456 file= C:\person

Oracle 12c pdb的数据泵导入导出

12c推出了可插拔数据库,在一个容器cdb中以多租户的形式同时存在多个数据库pdb.在为pdb做数据泵导入导出时和传统的数据库有少许不同.           1,需要为pdb添加tansnames           2,导入导出时需要在userid参数内指定其tansnames的值,比如 userid=user/[email protected]   数据泵导入导出例子 1.查看当前的SID,查看pdb并切换到容器数据库,这里的pluggable数据库是pdborcl [[email pro

MATLAB中文件的读写和数据的导入导出

http://blog.163.com/tawney_daylily/blog/static/13614643620111117853933/ 在编写一个程序时,经常需要从外部读入数据,或者将程序运行的结果保存为文件.MATLAB使用多种格式打开和保存数据.本章将要介绍 MATLAB中文件的读写和数据的导入导出. 13.1 数据基本操作 本节介绍基本的数据操作,包括工作区的保存.导入和文件打开.13.1.1 文件的存储 MATLAB支持工作区的保存.用户可以将工作区或工作区中的变量以文件的形式保

Sql server与Excel的数据互通导入导出

现在,我先从Sql server数据表导出到Excel中,再从Excel数据表导出到Sql server中: 一.Sql server数据表导出到Excel中: 1.新建一个Excel,选择"数据"菜单: 2.依次选择   "导入外部数据"--"导入数据" 后: 3.双击"新的SQL Server 连接.odc": 4.点击"下一步": 5.点击"下一步": 6.点击"完成&q

HBase数据快速导入之ImportTsv&Bulkload

导入数据最快的方式,可以略过WAL直接生产底层HFile文件 (环境:centos6.5.Hadoop2.6.0.HBase0.98.9) 1.SHELL方式 1.1 ImportTsv直接导入 命令:bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv Usage: importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir> 测试: 1.1.1在HBase中创建好表 c

Oracle 数据泵导入导出总结

Oracle 数据泵(IMPDP/EXPDP)导入导出总结 Oracle数据泵导入导出是日常工作中常用的基本技术之一,它相对传统的逻辑导入导出要高效,这种特性更适合数据库对象数量巨大的情形,因为我日常运维的数据库对象少则几千,多则几万甚至几十万,所以传统exp/imp就会非常耗时,而数据泵方式就因此脱引而出,下面就详细总结一下数据泵的使用方法,希望能给初学者带来帮助. 一.新建逻辑目录 最好以system等管理员创建逻辑目录,Oracle不会自动创建实际的物理目录“D:\oracleData”(

使用phpExcel实现Excel数据的导入导出(完全步骤)

使用phpExcel实现Excel数据的导入导出(完全步骤) 很多文章都有提到关于使用phpExcel实现Excel数据的导入导出,大部分文章都差不多,或者就是转载的,都会出现一些问题,下面是本人研究phpExcel的使用例程总结出来的使用方法,接下来直接进入正题. 首先先说一下,本人的这段例程是使用在Thinkphp的开发框架上,要是使用在其他框架也是同样的方法,很多人可能不能正确的实现Excel的导入导出,问题基本上都是phpExcel的核心类引用路径出错,如果有问题大家务必要对路劲是否引用