pt-table-checksum是目前可以说是最好的查看主从一致性的工具
先来个使用例子,有助快速上手使用
在主库执行来创建执行用户: mysql>GRANT SELECT, PROCESS, SUPER, REPLICATION SLAVE,CREATE,DELETE,INSERT,UPDATE ON *.* TO ‘USER‘@‘MASTER_HOST‘ identified by ‘PASSWORD‘; 注:创建用户,这些权限都是必须的,否则后续执行时会报错,当然,如果不想授予这么多权限,那就去看看文档,把权限对应的活先自己干了或者直接在命令行指定,注意如果不想设create权限的话,需要看看下面的参数介绍:--replicate shell> ./pt-table-checksum --host=‘master_host‘ --user=‘user‘ --password=‘password‘ --port=‘port‘ --databases=zabbix --ignore-tables=ignore_table --recursion-method=processlist
注:(1)如果检查的表比较少的话可以将--ignore-tables替换为--tables,指定要检查的表 (2)recursion-method如果不设的话,会报错:Diffs cannot be detected because no slaves were found. 其参数有四:processlist/hosts/dsn=DSN/no,用来决定查找slave的方式是show full processlist还是show slave hosts还是命令行直接指定还是压根就不准备找从库,具体见下面参数介绍 (3)主从的端口必须一致,如果不一致的话,需要用DSN方法进行指定,否则会报找不到从库的错误,如果能连到从库但是没有指定端口,默认会寻找3306端口
!!!有一需要特别注意的地方是其要求被检查的主从必须是基于statement-based的复制模式,如果不是statement-based,那就添加参数--no-check-binlog-format来避开binlog格式检查,需 提前确认下!!!!另外,虽然该工具设置了很多检查来保证其使用安全性,但使用过程中毕竟还是会有锁并造成阻塞,所以最好不要在系统特别繁忙的时候使用!!!如果有不一致的情况,用pt-table-sync同步数据后想再重新检查一遍,最好truncate table checksums避免后面查看checksums表时被之前数据干扰;
一. 连接主从库的参数:
--host --socket --user --password --pid --port
二. 指定比较范围的参数
1. 指定库
--databases / --ignore-databases 要比较的库 / 比较过程中忽略这些库
--databases-regex / --ignore-databases-regex 同上,不过可以用正则匹配
2. 指定表
--tables / --ignore-tables 要比较的表 / 比较过程中忽略这些表
--tables-regex / --ignore-tables-regex 同上,不过可以用正则匹配
3. 指定列
--columns / --ignore-columns 要比较的列 / 比较过程中忽略这些列
4. 直接指定表范围
--where 直接指定表中要比较的范围
5. 根据引擎选表
--engines / --ignore-engines 比较指定的引擎表 / 比较过程中忽略含有这些引擎的表
三. 指定连接中断后行为的参数
--resume 如果主从一致性检查中途中断的话,可以用这个参数来使工具从上次中断时检查的最后一个表开始继续检查
--retries 如果在检查过程中有非致命性的中断的话,如被kill或者从库延迟等,指定该参数后,工具会自动尝试重连
四. 需重点关注的参数
1. --[no]check-binlog-format 上面说了,不再重复
2. --recursion-method
参数有四:processlist/hosts/dsn=DSN/no,默认是processlist,hosts,但最好还是指定一下,建议指定--recursion-method=processlist,no一般不使用
dsn=DSN方法使用时,需要先去库里创建一个表,比如在percona库中建一个dnsn表
建表语句是:
CREATE TABLE `dsns` (`id` int(11) NOT NULL AUTO_INCREMENT,`parent_id` int(11) DEFAULT NULL,`dsn` varchar(255) NOT NULL,PRIMARY KEY (`id`));
建好后插入主从复制信息数据,如:insert into table dsns(dsn) values(h=slave_host,u=repl_user,p=repl_password,P=port );
然后就可以使用DSN方法了:命令为:--recursion-method dsn=D=percona,t=dsns.
3. --replicate
用来指定存放计算结果的表名, 默认是percona.checksums,工具会默认自动创建库percona和表checksums并将checksum的检查结果输入到这个表中,如果自己用该参数去指定表的话,表结构必须是:
CREATE TABLE checksums ( db char(64) NOT NULL, tbl char(64) NOT NULL, chunk int NOT NULL, chunk_time float NULL, chunk_index varchar(200) NULL, lower_boundary text NULL, upper_boundary text NULL, this_crc char(40) NOT NULL, this_cnt int NOT NULL, master_crc char(40) NULL, master_cnt int NULL, ts timestamp NOT NULL, PRIMARY KEY (db, tbl, chunk), INDEX ts_db_tbl (ts, db, tbl) ) ENGINE=InnoDB;
需要注意的是存储引擎设置,如果检查的表是innodb表,就设置innodb引擎,如果检查的表和checksums表的引擎不一致,如分别是myisam和innodb,会引起复制错误:“different error on master and slave.”!!!
五. 其他部分参数详述:
1. --[no]check-replication-filters
默认在检查到在主从复制过程中有被用..ignore..过滤掉的表,检查会中断并退出,如果想避开这个检查可以设置--no-check-replication-filters
2. --chunk-index(type: string)
工具默认在分块时会选取最合适的索引来explain确定chunk的大小,但如果你希望用其他索引来执行,可以用该参数来指定,工具会以FORCE INDEX的形式把指定的索引加进去
3. --chunk-index-columns(type: int)
可以用来指定组合索引中使用前几个列来辅助分块
4. --chunk-size
直接确定chunk的大小,默认1000行数据,但不建议使用,建议使用--chunk-time代替
5. --chunk-time
默认是0.5秒,工具会根据当前系统运行繁忙程度计算出在该指定时间内可以处理的数据行数(即chunk),比较灵活
6. --[no]empty-replicate-table
默认yes,每次检查表之前都去把checksums表中已有的该表信息删掉,以利于后续重新插入新检查信息
7. --float-precision(type: int)
设置浮点数的四舍五入方式,以避免不同版本间或其他特定情况中,主从间因浮点数四舍五入的方式不同而导致查出不一致,If you specify a value of 2, for example, then the values 1.008 and 1.009 will be rounded to 1.01, and will checksum as equal
8. --function
计算checksum值时的函数,默认是CRC32,其他还有FNV1A_64, MURMUR_HASH, SHA1, MD5等
9. --max-lag
默认1S,主从最大延迟,超过这个延迟时间,就会停下来等待从库同步,确定方法是采用Seconds_Behind_Master的值
10. --progress
指定后可以按设定的参数将执行过程中的运行情况输出到STDERR,如主从延迟时从库的等待,等待时间等,指定时后跟两个参数值,默认是 "time,30",前一个参数有:percentage, time, or iterations;后一个指定百分比,具体时间或者间隔的数目
六. 运行原理
pt-table-checksum默认使用crc32算法来进行数据校验,该工具之所以需要把binlog设置为statement格式,是因为该工具能得出主从是否一致所依赖的就是语句模式基础上同样的SQL语句在主从库上各自的执行结果,主库进行检查后sql语句传给从库,从库执行一遍后,也得到自己的结果,最主要的语句就是:
SELECT COUNT(*) AS cnt, COALESCE(LOWER(CONV(BIT_XOR(CAST(CRC32(CONCAT_WS(‘#‘, 各种列名)) AS UNSIGNED)), 10, 16)), 0) AS crc FROM `database`.`table` FORCE INDEX(`PRIMARY`) WHERE ((`id` >= ‘1‘)) AND ((`id` <= ‘1000‘)) 注: where的条件会根据系统繁忙程度计算出要执行的范围
cnt是目前检查的块包括的行数,unsigned就是计算该块数据的校验值
如果主库和从库得出的这两个值都是一样的,那数据就是一致的,如果不一样,那就主从不一致,当然,字符集、浮点数之类的问题需要提前规避,以免错判
工具将主从各自得到的结果处理后放到checksums表中并呈现一些结果在屏幕输出中,work over