运行环境
服务器两台(后面的所有配置案例都是以10.96.0.64和10.96.0.66为例)
操作系统CentOS release 6.2
必须要有共同的局域网网段
两台服务器都要安装keepalived(双机热备)和eql服务
软件部署
keepalived 部分
keepalived是一个用于做双机热备(HA)的软件,常和haproxy联合起来做热备+负载均衡,达到高可用。
keepalived通过选举(看服务器设置的权重)挑选出一台热备服务器做MASTER机器,MASTER机器会被分配到一个指定的虚拟ip,外部程序可通过该ip访问这台服务器,如果这台服务器出现故障(断网,重启,或者本机器上的keepalived crash等),keepalived会从其他的备份机器上重选(还是看服务器设置的权重)一台机器做MASTER并分配同样的虚拟IP,充当前一台MASTER的角色。
服务器两台,两台机器要通局域网,虚拟IP会被设置在他们共有的局域网内
10.96.0.64 CentOS release 6.2
10.96.0.66 CentOS release 6.2
安装popt库
sudo yum install popt-devel.x86_64
下载软件包
wget http://www.keepalived.org/software/keepalived-1.2.2.tar.gz
解压安装
tar -zxvf keepalived-1.2.2.tar.gz cd keepalived-1.2.2 ./configure --prefix=/usr/local/keepalived make make install
下面这几步不是必须的,但是为了方便以后的操作建议做了
sudo cp /usr/local/keepalived/sbin/keepalived /usr/sbin/ sudo cp /usr/local/keepalived/etc/sysconfig/keepalived /etc/sysconfig/ sudo cp /usr/local/keepalived/etc/rc.d/init.d/keepalived /etc/init.d/
为keepalived创建配置文件存放路径
sudo mkdir -p /etc/keepalived/
打开配置文件
sudo emacs /etc/keepalived/keepalived.conf
下面是服务器上的配置文件,两台服务器的配置选项完全一样,但是配置的值按在本机的具体情况,配置项在下面会解释
global_defs { notification_email { [email protected] } notification_email_from [email protected] smtp_server 127.0.0.1 stmp_connect_timeout 30 router_id lnmp_node1 } vrrp_instance lnmp { state MASTER interface eth0 virtual_router_id 51 mcast_src_ip 10.96.0.64 priority 200 advert_int 1 track_interface { eth0 } authentication { auth_type PASS auth_pass 123456 } virtual_ipaddress { 10.96.0.103/16 dev eth0 scope global } }
- global_defs: 全局配置标识,表面下面的区域{}是全局配置
- notification_email: 里面填邮箱地址,如果keepalived在发生诸如切换操作时会的发邮件到配置上的邮箱,邮件地址可以多个,每行一个。
- notification_email_from:表示发送通知邮件时邮件源地址是谁
- smtp_server:表示发送email时使用的smtp服务器地址,可以填127.0.0.1
- smtp_connect_timeout:连接smtp超时时间
- vrrp_instance:各服务器上实例配置域,这里按本服务器的具体情况填值
- state:本实例启动状态,MASTER/SLAVE,不管填MASTER/SLAVE,最终还是要看本机器的权重。
- interface:实例绑定的网卡,因为在配置虚拟IP的时候必须是在已有的网卡上添加的,这里按本机情况而定
- virtual_router_id:这里设置VRID,如果两台机器是同一个备份组,设置一样
- priority:设置本节点的优先级,哪个服务器的优先级高的为master,不能超过255
- advert_int:组播信息发送间隔,同一个备份组两个机器设置必须一样,默认是1S
- authentication:验证域,同组的机器auth_type(验证类型)和auth_pass(验证密码)必须一样
- virtual_ipaddress:VIP,为master机器设置的虚拟地址,和实例绑定的网卡(interface)设置到一个网段
配置好了就可以直接启动了
sudo /etc/init.d/keepalived restart
启动好以后可以用 ip a 命令看虚拟IP的绑定情况,我的配置是192.168.1.135上的权重高,所以VIP绑定到135上面
(ape0!1120)~/eql_core(10.96.0.64)ip a 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 16436 qdisc noqueue state UNKNOWN link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 inet 127.0.0.1/8 scope host lo inet6 ::1/128 scope host valid_lft forever preferred_lft forever 2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000 link/ether 00:16:3e:7e:a9:d5 brd ff:ff:ff:ff:ff:ff inet 10.96.0.64/16 brd 10.96.255.255 scope global eth0 inet 10.96.0.103/16 scope global secondary eth0 inet6 fe80::216:3eff:fe7e:a9d5/64 scope link valid_lft forever preferred_lft forever (ape0!1121)~/eql_core(10.96.0.64)
这时候就可以用10.96.0.103这个IP访问10.96.0.64这台机器了
出现的问题记录:
1. 在配好主从备份之后,发现虚拟IP能ping通,但是访问虚拟IP对应机器上的服务(不是apache或者mysql之类的公用软件)却不成功,这是因为要访问的服务绑定了主机上的一个实体IP不是INADDR_ANY地址,所以连接不上。
2.记得设置防火墙和关闭selinux策略
关闭selinux
vi /etc/sysconfig/selinux 修改: SELINUX=disabled #setenforce 0
3.注意配置文件里的advert_int选项,这个是两台机器相互检测的时间间隔,如果想在一台机器宕机之后VIP能很快的跳转到另外一台机器,请把这个值设置小一点。
4.有时候可能会出现设置都正确,但是虚拟ip依旧访问不了的情况,这时候请让机房人员为这个ip设置路由。
===============================================================================
eql部分
eql的下载和安装请看eql和egg的安装文档,这里就不重复了,eql高可用部署方案必须下载目前的trunk版本。
在eql和egg安装成功后,请进入eql的根目录下的rep目录 里面有三个文件
eql_master.sh
eql_slave.sh
eqld_alive.sh
===================================================================
eql_master.sh用于启动master机器上的所有服务
下面例子和相关注释
有的选项值要根据实际情况来设置,请看各选项的解释
#!/bin/bash #启动master机器上的eqld和eqlRepd服务 if [ "$1" = "start" ] then # --socket=/tmp/eql.socket 是本地socket文件路径,这个可以不用做改动 # --binlogdir=/ape/eql/eqllog/ 是eql的log日志路径,这个可以不用做改动,但是路径必须存在 # --ip=0.0.0.0 服务是绑定机器所有的IP,这个也不用改动 # --port=30001 服务绑定的端口号,这个按照实际情况设置 nohup eqld --socket=/tmp/eql.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30001 & # --repnet 10.96.0.64:20000 eqlRepd服务绑定的ip和端口号,这个按照实际情况设置 # --binlog /ape/eql/eqllog/ 是eql的log日志路径,这个可以不用做改动,但是路径必须存在 # --members 10.96.0.66:20000 另外那台机器eqlRepd服务的ip和端口,也就是说如果本机是master这里填slave的,如果本机是slave这里填master的 # --eqldnet 10.96.0.64:30001 本机连接的eqld的ip和端口号 nohup eqlRepd --repnet 10.96.0.64:20000 --binlog /ape/eql/eqllog/ --members 10.96.0.66:20000 --eqldnet 10.96.0.64:30001 & #停止master机器上的eqld和eqlRepd服务 elif [ "$1" = "stop" ] then pkill eqld pkill eqlRepd #重启master机器上的eqld和eqlRepd服务 elif [ "$1" = "restart" ] then pkill eqld pkill eqlRepd nohup eqld --socket=/tmp/eql.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30001 & nohup eqlRepd --repnet 10.96.0.64:20000 --binlog /ape/eql/eqllog/ --members 10.96.0.66:20000 --eqldnet 10.96.0.64:30001 & fi
===================================================================
eql_slave.sh用于启动slave机器上的所有服务
slave机器上的eqld分为2个,一个是给外部访问的,这个的端口要和master上的eqld保持一样,并且仅可读不可修改和添加操作。另外一个是用来接受master传过来的同步日志操作,这个是可读可写模式。至于eqlRep和master介绍的一样
下面例子和相关注释
有的选项值要根据实际情况来设置,请看各选项的解释
#!/bin/bash if [ "$1" = "start" ] then # --readonly 启动只读模式 # --socket=/tmp/eql_r.socket 是本地socket文件路径,这个可以不用做改动 # --binlogdir=/ape/eql/eqllog/ 是eql的log日志路径,这个可以不用做改动,但是路径必须存在 # --ip=0.0.0.0 服务是绑定机器所有的IP,这个也不用改动 # --port=30002 服务绑定的端口号,这个按照实际情况设置 nohup eqld --readonly --socket=/tmp/eql_r.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30001 & # --socket=/tmp/eql.socket 是本地socket文件路径,这个可以不用做改动 # --binlogdir=/ape/eql/eqllog/ 是eql的log日志路径,这个可以不用做改动,但是路径必须存在 # --ip=0.0.0.0 服务是绑定机器所有的IP,这个也不用改动 # --port=30002 服务绑定的端口号,这个按照实际情况设置 nohup eqld --socket=/tmp/eql.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30002 & # --repnet 10.96.0.66:20000 eqlRepd服务绑定的ip和端口号,这个按照实际情况设置 # --binlog /ape/eql/eqllog/ 是eql的log日志路径,这个可以不用做改动,但是路径必须存在 # --members 10.96.0.64:20000 另外那台机器eqlRepd服务的ip和端口,也就是说如果本机是master这里填slave的,如果本机是slave这里填master的 # --eqldnet 10.96.0.66:30002 本机连接的eqld的ip和端口号,slave机器上填拥有可写可读权限的那个eqld nohup eqlRepd --repnet 10.96.0.66:20000 --binlog /ape/eql/eqllog/ --members 10.96.0.64:20000 --eqldnet 10.96.0.66:30002 & elif [ "$1" = "stop" ] then pkill eqld pkill eqlRepd elif [ "$1" = "restart" ] then pkill eqld pkill eqlRepd nohup eqld --readonly --socket=/tmp/eql.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30001 & nohup eqld --socket=/tmp/eql.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30002 & nohup eqlRepd --repnet 10.96.0.66:20000 --binlog /ape/eql/eqllog/ --members 10.96.0.64:20000 --eqldnet 10.96.0.66:30002 & fi
===================================================================
eqld_alive.sh用来监控服务器上的eqld是否存活,如果不存在了就关闭keepalived让虚拟IP切换
下面是例子内容
while true
do
process_cnt=`ps -ef|grep "eqld --socket=/tmp/eql.socket --binlogdir=/ape/eql/eqllog/ --ip=0.0.0.0 --port=30001"|wc -l`
if [ 2 != "$process_cnt" ];then
/etc/init.d/keepalived stop
fi
sleep 5
done
===================================================================
启动步骤
1.在两台机器上分别启动eqld_alive.sh脚本
2.在master机器上启动eql_master.sh脚本,在slave机器启动eql_master.sh脚本
3 分别启动两台机器的keepalived