数据迁移经验总结——亿级别多表异构的数据迁移工作

由于系统改版，最近三个月在做数据迁移工作，由于业务的特殊，基本将数据迁移所能踩的坑都踩了一遍，决定好好做个总结。

迁移类型——新老系统表结构变化较大的历史数据

一、核心问题

1.新老表结构变化极大。新表是以deliver为核心，另外还涉及仓储系统的一张表，订单系统的4张表，并按照新的逻辑映射关系进行迁移。

2.增量数据迁移。在全量数据迁移时必然会有新的数据，这些数据应该实时进行迁移

3.亿级别数据性能、效率的考虑。由于订单业务非常重要，数据迁移带来的qps对数据库的压力非常大，需要不断测试迭代找到一个适合的迁移效率和性能。

4.老数据格式问题。12、13年的数据由于历史悠久，会存在缺数据，数据不全的问题，这些问题都应该在程序中进行容错。

5.核对数据比较困难。由于新表涉及多个旧表且数据量庞大，数据核对比较困难，目前自己写脚本按周并根据一定的逻辑进行数据核对，同时辅以肉眼比对。

二、数据迁移流程

全量同步 java程序

增量同步 otter + 扩展的java程序

历史数据需同步到后端backend 和前端cobar库

1.历史数据按年份下载成多个文本（1个文本2g左右）

2.多线程读文本数据

3.处理类型主要有insert batch_insert update ，根据类型不同，线程调用不同逻辑方法处理数据并写入新表

三、展开讨论

将上面问题进行展开，并总结其中的技术问题

1.项目架构层次

该迁移项目采用java开发，仅仅作为迁移，定位轻量级，后端db采用jdbcTemplate , spring管理javabean 分为三层，一层manager主要对数据流根据类型分发给不同业务逻辑处理一层业务逻辑——处理映射关系一层dao。

2.db相关问题

后台db 是一主多从主用来接受写请求，从都是读请求。从库性能远远低于主库

2.1 调用接口取数据的问题

刚开始做时，由于想把项目做的很轻，获取老数据采用调接口的形式，调用order接口、wms接口获取就可以获取相应数据。但接口是很脆弱的，经统计http接口每秒只能抗500-1000左右的请求，大数据量下接口很快就成为瓶颈。我测试过一次，1亿数据需要2周时间才能导完，所以必须放弃调用接口，自己读db进行查询。

2.2 冷热库问题

历史数据大部分在冷库里，在db查询是需要先查热库再查冷库，并按照相应的逻辑进行查库。

2.3 batch批量插入主从延迟问题

一开始数据处理一条插入一条，这样1亿数据要产生1亿条insert语句。对于主库来说写入是没有影响的，但是从库有很大问题，其性能和主库相差深远，同时在同步binlog上会产生很大的延时，一亿insert意味着一亿次commited 一亿次提交 binlog同步时就会进行1亿次网络传输，从库也会执行1亿次insert。这时候延迟还会产生更大的问题，因为主库还有其他业务数据写入，从库没有实时同步，导致客服查不到订单。

后来改成多value的insert语句，每次处理一批数据，一个commit提交。这样即提高了insert插入性能，又解决了延迟问题。

jdbcTemplate改为updateBacth()方法，但发现sql语句还是一个数据一个insert，这是必须让jdbc如何支持batch insert， 需要在jdbc连接加上参数 jdbc:mysql://.....&rewriteBatchedStatements=true ;

2.4 sql的dead connection

多线程读数据时，发现有几个线程一直阻塞了，jstack后，发现Mysql报sokcetAvaiable，这个错误一般发生在连接前端cobar时。这是因为jdbc连接没有设置连接超时，要加上connectTime socketTIme，这个是自己应用连接数据库的网络超时时间，如果不设置就会一直等待下去。

设置参数：&failOverReadOnly=false&connectTimeout=60000&socketTimeout=60000 failOverReadOnly jdbc默认超时重试就变为只读了，必须加上failOverReadOnly参数

3. 程序级优化

3.1 全量数据的多线程解决方案

单进程迁移，1亿数据大概需要1周时间，时间和效率都太低了，所以思考改为多线程。其实改多线程很简单，历史数据是文本形式，只需要多线程去逐一读文本，并发处理就可以了，同时采用countdownlatch保证线程全部完成后在退出主程序。

3.2 增量数据的多线程解决方案

otter会顺序的消费binlog，消费过程是很快的，但如果采用单进程模式，瓶颈会卡在我的写入程序上，所以将程序该为多线程。otter每次读取2000个binlog记录，主进程一旦获得满2000个后，再启动多线程去并发处理这些记录。还需要注意问题，有可能同一时间段针对一条记录有多个改动，需要以最后一次改动为准，所以我将线程个数最为桶的个数，按照order_id和桶的余数放入到对应的桶里，同时通的value是一个map （order_id , row对象），这样可以保证每一批处理都是最新的记录。

3.3 otter的扩展

以后我会再写一篇博文分析otter，这里先简要介绍一下。otter是阿里的一个开源项目，主要解决异地机房实时数据备份的问题，它的原理就是通过把自己伪装成slave去读取master的binlog然后解析成eventData对象并写入新的表里。它默认情况下仅支持一对一的复制、表的字段映射逻辑非常简单的复制。但阿里的项目就是强大，它给用户提供了一个接口，继承之后就可以按照自己的逻辑去同步数据了。继承类是AbstractEventProcessor，这个类会接受到获取的eventData对象（就是binlog一条内容），这里面有你订阅的表的所有字段值，sql类型等。继承后，在该类的方法里引入自己的同步程序，这样otter订阅的数据就会进入自己的程序了。

4.数据补救策略

数据迁移后依然会存在一些问题：

1.增量过程中，由于网络等原因会造成binlog读取的卡顿，canal会进行重试，但是貌似该时间点上的数据依然会丢失

2.迁移过程中，有一些时间点的误差导致数据丢失或异常。

由于新旧表结果相差很大，数据量也太大了，不能简单用一条sql，这样会拖库。所以我写程序一周一周核对数据，主要核对新表有旧表没有的，这些需要删除;旧表有新表没有的，这些需要添加;新表旧表status不一致的这些需要根据旧表更新。

小结：

1.性能——在迁移前对mysql性能，数据量大小都没有一定的认识，采用接口获取数据后改用读库多线程，一前一后浪费了半个多月的时间，再做迁移一定要考虑好数据量，迁移时间，表结果，mysql性能。

2.代码编写——该程序耦合太严重，后期每增加一种操作类型，原代码上都要加很多判断，下次再写必须要面向接口编程，使用继承和工厂方法（参考秒杀项目）;jdbcTample很轻量级，单sql多了后，代码量还是会上来，下次提前做好评估，用mybatis;校验脚本和执行脚本过多，日志打印也过多，下次还是采用log4j可输出多文本，同时脚本书写上要更优雅和简洁。

3.核对数据——数据迁移是一件脏活累活，这次迁移有一大半时间在进行数据和对，不停写sql，不停看校验数据。以后再有类似的迁移必须要先规划好，怎样进行核对，例如选择几个关键字段做hash。

参考文献：

1.《关于数据迁移的方法、步骤和心得》http://m.blog.csdn.net/blog/baoqiangwang_11109/5492910

2. Jdbc驱动的rewriteBatchedStatements参数 http://www.cnblogs.com/chenjianjx/archive/2012/08/14/2637914.html

3. 深入理解JDBC的超时设置 http://www.importnew.com/2466.html

4. otter https://github.com/alibaba/otter

时间： 2024-12-31 21:16:54

数据迁移经验总结——亿级别多表异构的数据迁移工作

数据迁移经验总结——亿级别多表异构的数据迁移工作的相关文章

ASM时的OFM特性对影的建数据文件名的影响及为SYSTEM表空间的数据文件使用别名

数据迁移之sql server2005 中两表关联更新数据操作

DropDownList 绑定数据后插入一条不属于表中的数据

在线数据迁移经验：如何为正在飞行的飞机更换引擎

【DataMagic】如何在万亿级别规模的数据量上使用Spark

es 在数据量很大的情况下（数十亿级别）如何提高查询效率啊？

【oracle11g，14】表空间管理3：临时表空间，表空间的脱机和只读，数据文件迁移，更改表空间数据文件的大小，表空间数据文件的迁移，使用非标准块的表空间，bigfile 表空间

mysql5.7 InnoDB数据表空间文件平滑迁移

Elasticsearch+Mongo亿级别数据导入及查询实践