Mha-Atlas-MySQL高可用方案实践 / 憋错料

一，mysql-mha环境准备

1.1 实验环境：

1.2 软件包

1） mha管理节点安装包：

mha4mysql-manager-0.56-0.el6.noarch.rpm

mha4mysql-manager-0.56.tar.gz

2） mha node节点安装包：

mha4mysql-node-0.56-0.el6.noarch.rpm

mha4mysql-node-0.56.tar.gz

3） mysql中间件：

Atlas-2.2.1.el6.x86_64.rpm

4） mysql源码安装包

mysql-5.6.17-linux-glibc2.5-x86_64.tar

1.3 主机名映射

1.4 关闭selinux和iptables

二，简介

2.1 作者简介

姓名：松信嘉范
MySQL/Linux专家
2001年索尼公司入职
2001年开始使用oracle
2004年开始使用MySQL
2006年9月-2010年8月MySQL从事顾问
2010年-2012年DeNA
2012年至今Facebook

2.2 软件简介

1、MHA（Master High Availability）目前在MySQL高可用方面是一个相对成熟的解决方案，是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中，MHA能做到0~30秒之内自动完成数据库的故障切换操作，并且在进行故障切换过程中，MHA能最大程度上保证数据库的一致性，以达到真正意义上的高可用。

2、MHA由两部分组成：MHA Manager（管理节点）和MHA Node（数据节点）。MHA Manager可以独立部署在一台独立的机器上管理多个Master-Slave集群，也可以部署在一台Slave上。当Master出现故障时，它可以自动将最新数据的Slave提升为新的Master，然后将所有其他的Slave重新指向新的Master。整个故障转移过程对应程序是完全透明的。

2.3 工作流程

1、复制主库binlog日志出来
2、找出relaylog日志最全的从库
3、将最全的relaylog日志在所有从库中同步（第一次数据同步）
4、将之前最全的那个从库提升为主库
5、将复制出来的binlog日志放到新提升为主库的从库里面
6、其他所有从库重新指向新提升主库，继续主从复制

2.4 MHA架构图

2.5 MHA工具介绍

MHA软件由两部分组成，Manager工具包和Node工具包，具体的说明如下：

三，mysql环境准备

3.1 环境检查

3.2 安装mysql

3.2.1 安装包准备

链接：https://pan.baidu.com/s/1aSh6hKFDcA6VAsXicbTSSQ
提取码：2ynt

3.2.2 安装（3台都装）

yum -y install ncurses-devel
yum -y install libaio
tar xf mysql-5.6.17-linux-glibc2.5-x86_64.tar.gz -C /usr/local/
ln -s /usr/local/mysql-5.6.17-linux-glibc2.5-x86_64 /usr/local/mysql
useradd mysql -s /sbin/nologin -M
/usr/local/mysql/scripts/mysql_install_db --user=mysql --basedir=/usr/local/mysql --datadir=/usr/local/mysql/data/
/bin/cp /usr/local/mysql/support-files/my-default.cnf /etc/my.cnf
/bin/cp /usr/local/mysql/support-files/mysql.server /etc/init.d/mysqld
ln -s /usr/local/mysql/bin/* /usr/local/bin/

3.2.3 加入开机自启动并启动mysql (3台都加)

3.2.4 配置密码 (3台都配)

mysqladmin -uroot password ‘123123‘

四，配置基于GTID的主从复制

4.1 先决条件

主库和从库都要开启binlog
主库和从库server-id不同
要有主从复制用户

4.2 主库操作（MySQL-Master）

4.2.1 修改配置文件

[[email protected]-Master ~]# vim /etc/my.cnf
[[email protected]-Master ~]# cat /etc/my.cnf
[client]
socket = /usr/local/mysqld/data/mysql.sock
[mysqld]
lower_case_tabel_names = 1
default-storage-engine = InnoDB
port = 3306
datadir = /usr/local/mysql/data
character-set-server = utf8
socket = /usr/local/mysql/data/mysql.sock
log_bin = mysql-bin #开启binlog日志
server_id = 1 #设置server_id
innodb_buffer_pool_size = 200M
slave-parallel-workers = 8
thread_cache_size = 600
back_log = 600
slave_net_timeout = 60
max_binlog_size = 512M
key_buffer_size = 8M
query_cache_size = 64M
join_buffer_size = 2M
sort_buffer_size = 2M
query_cache_type = 1
thread_stack = 192K

4.2.2 登陆MySQL删除不必要的用户并创建主从复制用户

(1)删除不必要的用户

mysql>
mysql> select user,host from mysql.user;
+------+--------------+
| user | host |
+------+--------------+
| root | 127.0.0.1 |
| root | ::1 |
| | localhost |
| root | localhost |
| | mysql-master |
| root | mysql-master |
+------+--------------+
6 rows in set (0.10 sec)
mysql> drop user [email protected]‘127.0.0.1‘;
Query OK, 0 rows affected (0.00 sec)
mysql> drop user [email protected]‘::1‘;
Query OK, 0 rows affected (0.00 sec)
mysql> drop user ‘ ‘@‘localhost‘;
Query OK, 0 rows affected (0.00 sec)
mysql> drop user ‘ ‘@‘mysql-master‘;
Query OK, 0 rows affected (0.00 sec)
mysql> select user,host from mysql.user;
+------+--------------+
| user | host |
+------+--------------+
| root | localhost |
| root | mysql-master |
+------+--------------+
2 rows in set (0.00 sec)

(2)创建主从复制用户

4.3 从库操作(MySQL-SlaveA和MySQL-SlaveB)

4.3.1 修改配置文件

MySQL-SlaveA

MySQL-SlaveB

特别提示：在以往如果是基于binlog日志的主从复制，则必须要记住主库的master状态信息。

但是在MySQL5.6版本里多了一个Gtid的功能，可以自动记录主从复制位置点的信息，并在日志中输出出来。

4.4 开启GTID

编辑mysql配置文件（主库从库都需要修改）

三台机器都需要加上上图标注的三行代码

修改完配置文件以后重启动数据库

/etc/init.d/mysqld restart

再次查看GTID状态

再次提示：
主库从库都必须要开启GTID，否则在做主从复制的时候就会报错.

4.5 配置主从复制(MySQL-SlaveA,MySQL-SlaveB)

4.6 开启从库的主从复制功能（MySQL-SlaveA,MySQL-SlaveB）

mysql>start slave; 开启主从复制

两个从库MySQL-SlaveA和MySQL-SlaveB都执行以上步骤。

MySQL主从复制，启动slave时，出现下面报错：
mysql> start slave;
ERROR 1872 (HY000): Slave failed to initialize relay log info structure from the repository

解决办法：

4.7 什么是GTID

1、GTID（Global Transaction）全局事务标识符：是一个唯一的标识符，它创建并与源服务器（主）上提交的每个事务相关联。此标识符不仅对其发起的服务器是唯一的，而且在给定复制设置中的所有服务器上都是唯一的。所有交易和所有GTID之间都有1对1的映射。

2、GTID实际上是由UUID+TID组成的。其中UUID是一个MySQL实例的唯一标识。TID代表了该实例上已经提交的事务数量，并且随着事务提交单调递增。
下面是一个GTID的具体形式：

3E11FA47-71CA-11E1-9E33-C80AA9429562:23

4.8 GTID的新特性

（1）支持多线程复制：事实上是针对每个database开启相应的独立线程，即每个库有一个单独的（sql thread）

（2）支持启用GTID，在配置主从复制，传统的方式里，你需要找到binlog和POS点，然后change master to 指向。在mysql5.6里，无须再知道binlog和POS点，只需要知道master的IP/端口/账号密码即可，因为同步复制是自动的，MySQL通过内部机制GTID自动找点同步。

（3）基于Row复制只保存改变的列，大大节省磁盘空间，网络，内存等

（4）支持把Master和Slave的相关信息记录在Table中；原来是记录在文件里，现在则记录在表里，增强可用性

（5）支持延迟复制

4.9 开启方法

#mysql配置文件：
[mysqld]
gtid_mode=ON
enforce_gtid_consistency
#查看
show global variables like ‘%gtid%’；

4.10 从库设置（MySQL-SlaveA,MySQL-SlaveB）

编辑配置文件/etc/my.cnf

修改完毕后重启mysql服务：/etc/init.d/mysqld restart

五，部署MHA

5.1 环境准备（所有节点MySQL-Master,MySQL-SlaveA,MySQL-SlaveB）

mha4mysql-node-0.56-0.el6.noarch.rpm以下链接提取
链接：https://pan.baidu.com/s/1S9FDyBjxEBXBF00aAFK4pw
提取码：opja

光盘安装依赖包 yum -y install perl-DBD-MySQL
安装mha4mysql-node-0.56-0.el6.noarch.rpm
rpm -ivh mha4mysql-node-0.56-0.el6.noarch.rpm

5.2 部署管理节点（mha-manager）

5.2.1 在MySQL-SlaveB上部署管理节点

#使用阿里云源+epel源
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo
wget -O /etc/yum.repos.d/epel-6.repo http://mirrors.aliyun.com/repo/epel-6.repo
#安装manager依赖包（需要公网源）
yum -y install perl-Config-Tiny epel-release perl-Log-Dispatch perl-Parallel-ForkManager perl-Time-HiRes
#安装manager包
[[email protected]-SlaveB rpm]# rpm -ivh mha4mysql-manager-0.56-0.el6.noarch.rpm
Preparing... ########################################### [100%]
1:mha4mysql-manager ########################################### [100%]

5.2.2 编辑配置文件

#创建配置文件目录
mkdir -p /etc/mha
#创建日志目录
mkdir -p /var/log/mha/mha1
#创建配置文件（默认没有）
[[email protected]-SlaveB ~]# cd /etc/mha/
[[email protected]-SlaveB mha]# ls
[[email protected]-SlaveB mha]# vim /etc/mha/mha1.cnf
[[email protected]-SlaveB mha]# cat /etc/mha/mha1.cnf
[server default]
manager_log=/var/log/mha/mha1/manager #manager管理日志存放路径
manager_workdir=/var/log/mha/mha1 #manager管理日志的目录路径
master_binlog_dir=/usr/local/mysql/data #binlog日志的存放路径
user=mha #管理账户
password=123123 #管理账户密码
ping_interval=2 #存活检查的间隔时间
repl_user=rep #主从复制的授权账户
repl_password=123123 #主从复制的授权账户密码
ssh_user=root #用于ssh连接的账户
[server1]
hostname=192.168.200.159
port=3306
[server2]
#candidate_master=1 #此条暂时注释掉（后面解释）
#check_repl_delay=0 #此条暂时注释掉（后面解释）
hostname=192.168.200.161
port=3306
[server3]
hostname=192.168.200.160
port=3306
#**特别提示：**
#以上配置文件内容里每行的最后不要留有空格，因此，不能复制的呦

特别说明：
参数：candidate_master=1
解释：设置为候选master，如果设置该参数以后，发生主从切换以后会将此从库提升为主库，即使这个主库不是集群中事件最新的slave
参数：check_repl_delay=0
解释：默认情况下如果一个slave落后master 100M的relay logs 的话，MHA将不会选择该slave作为一个新的master，因为对于这个slave的恢复需要花费很长时间，通过设置check_repl_delay=0,MHA触发切换在选择一个新的master的时候将会忽略复制延时，这个参数对于设置了candidate_master=1的主机非常有用，因为这个候选主在切换的过程中一定是新的master

5.3 配置ssh信任（所有节点mysql-db01,mysql-db02,mysql-db03）

#创建密钥对
[[email protected]-SlaveB ~]# ssh-keygen -t dsa -P "" -f ~/.ssh/id_dsa >/dev/null 2>&1
#发送MySQL-SlaveB公钥，包括自己
[[email protected]-SlaveB ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.159
[[email protected]-SlaveB ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.161
[[email protected]-SlaveB ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.160
#发送MySQL-SlaveA公钥，包括自己
[[email protected]-SlaveA ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.159
[[email protected]-SlaveA ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.161
[[email protected]-SlaveA ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.160
#发送MySQL-Master公钥，包括自己
[[email protected]-Master ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.159
[[email protected]-Master ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.160
[[email protected]-Master ~]# ssh-copy-id -i /root/.ssh/id_dsa.pub [email protected].168.200.161

5.4 启动测试

5.4.1 ssh检查检测

[[email protected]-SlaveB ~]# masterha_check_ssh --conf=/etc/mha/mha1.cnf #ssh检查命令

5.4.2 主从复制检测

[[email protected] ~]# masterha_check_repl --conf=/etc/mha/mha1.cnf

（1）错误的主从复制检测

因此在MySQL-SlaveA和MySQL-SlaveB上添加主从复制的用户即可。
grant replication slave on . to [email protected]‘192.168.200.%‘ identified by ‘123123‘;

5.5 启动MHA

[[email protected]-slaveB ~]# nohup masterha_manager --conf=/etc/mha/mha1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/mha/mha1/manager.log 2>&1 &
[1] 3408
[[email protected]-slaveB ~]# ps -ef | grep perl | grep -v grep
root 3408 1272 1 03:03 pts/0 00:00:00 perl /usr/bin/masterha_manager --conf=/etc/mha/mha1.cnf --remove_dead_master_conf --ignore_last_failover

5.6 进行mha自动切换master的测试

初始状态：

（1）登陆mysql-db02(192.168.0.53)查看信息状态

（2）停掉mysql-db01(192.168.0.51)上的MySQL服务

[[email protected]-Master ~]# /etc/init.d/mysqld stop
Shutting down MySQL..... SUCCESS!

（3）查看slaveB上的MySQL从库同步状态

（4）查看mysql-db02上的MySQL，主库同步状态。

（5）查看mysql-db03上的mha进程状态

（6）查看mha配置文件信息

说明：
当作为主库的mysql-db01上的MySQL宕机以后，mha通过检测发现mysql-db01宕机，那么会将binlog日志最全的从库立刻提升为主库，而其他的从库会指向新的主库进行再次同步。

查询mha日志路径 /var/log/mha/mha1/manager

5.7 进行mha的故障还原测试

由于mysql-Master的MySQL服务宕机，因此mha将mysql-SlaveA提升为了主库。因此，我们需要将宕机的mysql-Master的MySQL服务启动，然后作为主库mysql-SlaveA的从库。