数据集成通过JDBC将数据导入MySQL的几种模式

摘要：目前MySQL JDBC提供了多种将数据写入MySQL的方式，本文将介绍数据集成（DataX、同步中心、原CDP）支持的几种模式： * insert into xxx values (..), (..), (..) * replace into xxx values (..), (..), (..) * insert into xxx values (..), (..),

目前MySQL JDBC提供了多种将数据写入MySQL的方式，本文将介绍数据集成（DataX、同步中心、原CDP）支持的几种模式：

insert into xxx values (..), (..), (..)
replace into xxx values (..), (..), (..)
insert into xxx values (..), (..), (..), … on duplicate key update …

1、功能区别

1.1 insert into 方式

常规的SQL插入，如果提交的MySQL Server端的数据违反了数据库约束（主键冲突、数据类型不匹配）会直接报错；
对应在数据集成中会报脏数据。常用于向一张空表里面插入数据；

1.2 replace into 方式

与insert into类似，区别：假如将要插入表新记录中主键（PRIMARYKEY或UNIQUE索引）与表中旧记录冲突，replace into自身具有处理冲突的能力：

1、当存在pk冲突的时候是先delete再insert
2、当存在uk冲突的时候是直接update

** 使用replace into 注意事项 **

1、能够使用replace，您必须同时拥有表的insert和delete权限；
2、冲突记录：新记录与旧记录的主键值不同，所以其他表中所有与本表老数据主键id建立的关联全部会被破坏；
3、冲突记录：所有列的值均取自在热replace语句中被指定的值。所有缺失的列被设置为各自的默认值，即如果您每次同步的不是表的所有列，会存在一些列在旧记录中有值，replace into后无值的情况；
4、replace语句会返回一个数，来指示受影响的行的数目。该数是被删除和被插入的行数的和。

1.3 insert into… on duplicate key update 方式

将要插入表新记录中主键（PRIMARYKEY或UNIQUE索引）与表中旧记录冲突（具有相同的值），则update旧记录。

3、Replace into 存在的坑

如果库存在主备，基于uk去做replace into时，会造成主备的auto_increment不一致（备库因auto_increment小于实际数据的最大值），在主备切换插入时造成replace into出错，失败一次后，会更新auto_increment为最大值+1；

3.1 实例

master：
use test;
CREATE TABLE `test` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `k` int(10) unsigned NOT NULL,
  `v` varchar(100) DEFAULT NULL,
  `extra` varchar(200) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `uk_k` (`k`)
) ENGINE=InnoDB ;

insert into test(k,v,extra) values(1,1,‘extra1‘),(2,2,‘extra2‘,3,3,‘extra3‘);

插入完成后，主库和备库数据和schema完全一致；执行replace into：

replace into test(k,v) values(1,‘1-1‘);

主备库数据一致，但是schema不一致。

主库表结构如下：
CREATE TABLE `test` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `k` int(10) unsigned NOT NULL,
  `v` varchar(100) DEFAULT NULL,
  `extra` varchar(200) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `uk_k` (`k`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=gbk;
备库：
CREATE TABLE `test` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `k` int(10) unsigned NOT NULL,
  `v` varchar(100) DEFAULT NULL,
  `extra` varchar(200) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `uk_k` (`k`)
) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=gbk；

原因分析：

binlog中记录的SQL:
### UPDATE test.test
### WHERE
###   @1=1
###   @2=1
###   @3=‘1‘
###   @4=‘extra1‘
### SET
###   @1=4
###   @2=1
###   @3=‘1-1‘
###   @4=NULL

如第一章节所述：
replace into 当存在uk冲突的时候是直接update，update操作不会涉及到auto_increment的修改。

基于此，一些replace操作会被建议使用insert into on duplicate key update。

2、数据集成最佳实践

目前数据集成对于上述三种模式均已经支持，对应DataX MySQLWriter插件配置项中writeMode字段；

{
  "job": {
    "setting": {
      "speed": {
        "channel": 1
      }
    },
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "column": [
              {
                "value": "DataX",
                "type": "string"
              }
            ],
            "sliceRecordCount": 1000
          }
        },
        "writer": {
          "name": "mysqlwriter",
          "parameter": {
            "writeMode": "insert/replace/update",
            "username": "root",
            "password": "root",
            "column": [
              "id",
              "name"
            ],
            "connection": [
              {
                "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/datax?useUnicode=true&characterEncoding=gbk",
                "table": [
                  "test"
                ]
              }
            ]
          }
        }
      }
    ]
  }
}

4.1 数据集成如何保证同步到MySQL作业的幂等性

简单解释幂等性：多次运行同一个同步作业得到的结果是一致的；

场景一：表中数据可以删除

在数据集成配置同步任务时，配置前置SQL（delete or truncate表的语句），同步任务在每次执行的时候，在真正同步执行前会执行前置SQL，去清空表，这样即可以实现多次运行同步任务的幂等性。

场景二：表中数据不能删除，常见回流线上业务MySQL库配置writeMode为 replace 或者 update，同步的时候即会采用replace into 或者 insert into… on duplicate key update 方式插入MySQL数据库。

参考：

https://askdba.alibaba-inc.com/libary/control/getArticle.do?articleId=12735
https://blog.xupeng.me/2013/10/11/mysql-replace-into-trap/

原文链接

时间： 2024-08-03 07:41:23

数据集成通过JDBC将数据导入MySQL的几种模式

1、功能区别

1.1 insert into 方式

1.2 replace into 方式

1.3 insert into… on duplicate key update 方式

3、Replace into 存在的坑

3.1 实例

2、数据集成最佳实践

4.1 数据集成如何保证同步到MySQL作业的幂等性

数据集成通过JDBC将数据导入MySQL的几种模式的相关文章

MySQL binlog三种模式

将Excel数据导入MySQL

实时数据集成

CDC+ETL实现数据集成方案

[svc]ftp协议数据连接的2种模式

用java将excel中数据导入mysql

解决Solr增量导入MySQL数据的问题

SQL Server 数据导入Mysql详细教程

【MySQL笔记】Excel数据导入Mysql数据库的实现方法——Navicat