京东MySQL数据库主从切换自动化

1. 产生背景

随着京东业务的高速增长,数据的重要性对于京东来说重要程度不说自明,在信息时代,数据有着比人们更大的力量,数据库的价值可见一斑,数据库的存在为人们提供了更快的查询,那么为了更好地做到数据库的高可用,保证持续提供服务,简化DBA操作,节省数据库故障切换的时间,故开发此数据库主从切换自动化系统。

2. 实现原理

此系统基于MHA做数据库切换,结合京东数据库切换的特点,定制自己的切换系统。MHA(Master High Availability)目前在MySQL高可用方面是一个相对成熟的解决方案,它由日本DeNA公司Yoshinori Matsunobu开发,是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中,MHA能做到在0~30秒之内自动完成数据库的故障切换操作,并且在进行故障切换的过程中,MHA能在最大程度上保证数据的一致性,同时最大化挽回故障发生后的数据,结合zabbix监控报警,以达到真正意义上的高可用。三重检测,保证切换无误:zabbix检测,任务创建时检测,MHA检测。

3. 实现功能

此系统实现了死切(从库故障切换及回切,主库故障切换),活切(主库活切及主库回切),做到自动化、自助化、可视化切换。

4. 具体实现

4.1. 死切(故障切换)

当Zabbix自动监控系统检测到数据库故障时,会自动调故障切换程序,然后判断是主库故障,还是从库故障,分情况处理,所有的故障信息都可在DBS系统上查看

4.1.1 主库故障:

先在DBS系统上创建切换任务,另外DBA也可在故障切换页面批量添加故障主库IP,创建切换任务。然后相应DBA执行切换按钮,则会判断各种情况

4.1.1.1切换重要步骤及原则

l 探活,探活检测机制由select方式改为insert方式,这样可以包含实例夯住和硬盘只读的情况,如果没有存活的从库,则放弃本次操作并邮件和短信通知DBA手动处理。

l 选择新主库,先本地(先物理机后DOCKER,先连接数少,后QPS负载低),后异地(先物理机后DOCKER,先连接数少,后QPS负载低)原则选择目标实例

l 调MHA接口进行故障切换故障系统信息变更

a.MHA会优先使用上一步选出的从库做为新主库,否则会使用最新数据的从库提升为新主库,然后将所有其他的从库重新指向新主库。之后会调用域名切换接口,将原来故障主库下的域名,全部指向到新的主库IP上。如果MHA切换失败或MHA有告警信息,或者有域名未切换成功,都会使用邮件和短信通知DBA人工处理。

b.当MHA故障切换结束后,系统会将新主库的mysql.cnf配置文件中的read_only=1删除,并在新主库上执行reset salve all或stop slave指令。

c.调用zabbix主机改名接口,修改故障主库及新主库在zabbix监控系统中的名称。

d. 由于域名切换后非实时生效,存在时延,因此系统会对域名生效进行检查,如果2分钟内未生效,则会进行提示,需要DBA进行人工确认。

e. 最后,在资产库中更新集群信息,修改主从关系并进行数据库状态变更,更新故障信息表。同时,发送邮件和短信通知DBA故障切换完成。

f.活切可以支持多集群同时切换。

4.1.1.2 举例

例如有一主四从的集群,主库 10.66.66.66:3366故障,需要切换,如下:

1.Zabbix自动创建任务,然后DBA执行切换

2.选目标实例

假如例子中的4个从都是存活的,那么在此处会比较根据先本地,选出10.66.66.68:3366,10.66.66.69:3366,然后查连接数,都相同,则去查QPS,

然后比较QPS,选出QPS负载低的10.66.66.69:3366作为目标实例。

3.切换完成结果

4.切换的详细信息

4.1.2从库故障(系统自动完成):
4.1.2.1 切换原则

判断是否宕机实例没有域名,宕机实例设置为手动切换,宕机实例所在集群无其他正常运行实例,这些情况下会给相应的DBA发邮件及短信报警,需要DBA手动处理;

其他情况故障系统会自动处理,根据先本地(连接数少,QPS负载低),后异地(连接数少,QPS负载低)原则选择目标实例,进行域名切换,切换成功或失败都会发邮件及短信告知相应的DBA;

切换成功的从库,相应的DBA可以回切该实例。

4.1.2.2 举例

例如有一主四从的集群,从库 10.88.88.89:3366故障,需要切换,如下:

zabbix会自动创建任务,并根据先本地后异地,然后查连接数,QPS原则,确定目标实例为10.88.88.88:3366,然后自动切换,DBA会在切换任务列表查看切换结果,鼠标悬停执行状态会显示切换的具体信息

切换成功的任务会显示回切按钮,可以执行回切

DBA执行回切,系统会创建回切任务,并可以查看回切的具体信息

4.2活切(一般运维停机切换)
4.2.1 批量创建任务:

输入项目里的任一IP,就可以查出该项目下的所有可用集群,然后勾选想要切换的集群,提交批量创建任务。

创建任务时可选择目标实例是本地,还是异地。然后先对目标实例探活,再根据先物理机后DOCKER,先查连接数少,后查QPS负载低的原则推荐实例。如果有异常会提示。

另外可选择切换后新主库是否为read only

4.2.2任务切换

点击切换,会批量切换本次任务,并可以进入子任务查看具体切换的每个步骤,及MHA执行的每个步骤,切换完成,会等待2分钟去校验域名是否真实切换。

切换后会有前后架构的对比。

可以kill旧主库的所有应用链接。

4.2.3 举例

有个Mysql_test项目下有2个集群,如下

集群1

集群2

1. 批量创建任务

选择原则根据先本地后异地,先物理机后Docker,先连接数后QPS原则,

10.66.66.66:3366选择目标主库为:10.88.88.89:3366

10.66.55.55:3366选择目标主库为:10.88.99.91:3366

2. 批量执行切换

切换子任务详细信息,可查看到每个子任务的切换结果及执行步骤,前后架构

5. 总结

该系统不管是死切,还是活切,都已服务化,接口化,都只需最多2步(创建任务,执行切换)就可完成切换,也可以完全自动化切换(需要业务方同意,因为有些业务数据库故障后需要业务方确认切换),也可以把活切做成流程化交给业务方自助切换。目前该系统已经运行良好,极大的节省了DBA时间,更好地做到数据库的高可用,保证持续提供服务,简化DBA操作,节省数据库故障切换的时间,为京东的数据库保驾护航。

时间: 2024-08-24 10:55:32

京东MySQL数据库主从切换自动化的相关文章

京东DBA 王伟 | MySQL数据库主从切换自动化

http://mp.weixin.qq.com/s?__biz=MjM5ODI5Njc2MA==&mid=2655808515&idx=1&sn=069d05a3bad6f67f400475ca6ad714c2&chksm=bd7421d48a03a8c274570da116945bfd6a2eb90615d8b7fba9d78e57890604bd1c415591f81d&mpshare=1&scene=23&srcid=01101Pn9HfMWE

MySQL数据库主从切换脚本自动化

#!/usr/bin/env python # -*- coding: utf-8 -*- import MySQLdb import time import sys class m_s: def __init__(self,host,user,password,port): self.host=host self.user=user self.passowrd=password self.port=port def getConn(self,db="mysql"): try: con

mysql数据库主从同步

环境: Mater:   CentOS7.1  5.5.52-MariaDB  192.168.108.133 Slave:   CentOS7.1  5.5.52-MariaDB  192.168.108.140 1.导出主服务数据,将主备初始数据同步 master: //从master上导出需要同步的数据库信息 mysqldump -u*** -p*** --database test > test.sql //将master上的备份信息传输到slave上 scp /root/test.sq

linux下mysql数据库主从同步配置

说明: 操作系统:CentOS 5.x 64位 MySQL数据库版本:mysql-5.5.35 MySQL主服务器:192.168.21.128 MySQL从服务器:192.168.21.129 准备篇: 说明:在两台MySQL服务器192.168.21.128和192.168.21.129上分别进行如下操作 备注: 作为主从服务器的MySQL版本建议使用同一版本! 或者必须保证主服务器的MySQL版本要高于从服务器的MySQL版本! 一.配置好IP.DNS .网关,确保使用远程连接工具能够连接

Linux系统中MySQL数据库“主从”配置

MySQL数据库"主从"配置 一.配置概述: 在Linux操作系统中配置MySQL数据库的主从复制是很重要的,为什么这样说呢!是因为在你搭建一个服务器以后你配置了2台数据库,一主一从.2台数据库配置好以后,当其中一台数据库被攻击以后,你被攻击的这台数据库的数据会被自动的备份到另一台数据库中去.即使被攻击了数据也不会丢失.配置主从就是为了让web网站或其他的软件可以正常运转,确保数据的存在. 二.配置步骤: <配置具备的条件> 1.需要在虚拟机上安装好两台主机,同时安装好同一

mysql数据库主从同步配置教程--数据库同步

背景: 最近有一个mysql数据库同步的需求,我用了mysql主从同步的方法来实现.下面把步骤记录一下. 环境和拓扑 操作系统:Centos6.6 X64 mysql版本:5.1.73 Master: 10.6.1.210 Slave:  10.6.1.211 需求: 实现Master上test库同步到Slave上,但是禁止同步该库下的AA表 1.配置Master上的my.cnf #vim  /etc/my.cnf 添加内容到[mysqld]下,设定只同步test 数据库: [mysqld] l

mysql_multi方式配置Mysql数据库主从

如上面所说:http://www.cnblogs.com/super-d2/p/3851957.html 安装好mysql; 授予用于同步用的用户同步数据的权限 grant replication slave on *.* to 'slave3306'@'127.0.0.1' identified by '3306'; flush privileges; 此时查看主从状态,如下 show master status; 配置多数据库: 内容如下: [mysqld_multi] mysqld    

Mysql数据库主从不同步解决案例

问题说明:做了Mysql的主从,还没做主从分离,导致同事在mysql从服务器执行了写入操作,引起不同步(show slave status\G:Slave_SQL_Running: No) 解决方法: 1, Mysql > slave stop; Mysql > set global sql_slave_skip_counter =1 ; Mysql > slave start; Mysql > show slave status\G 因为插入的数据不止是1条,操作太慢且麻烦 2,

谈谈Mysql数据库主从同步延迟分析及解决方案

一.MySQL的数据库主从复制原理 MySQL主从复制实际上基于二进制日志,原理可以用一张图来表示: 分为四步走: 1. 主库对所有DDL和DML产生的日志写进binlog: 2. 主库生成一个 log dump 线程,用来给从库I/O线程读取binlog: 3. 从库的I/O Thread去请求主库的binlog,并将得到的binlog日志写到relay log文件中: 4. 从库的SQL Thread会读取relay log文件中的日志解析成具体操作,将主库的DDL和DML操作事件重放. 关