各位,好
我们在常见的企业边缘的网络架构中经常会遇到高可用、堆叠、VRRP等双机部署情景,那我在前面介绍的一些案例当中,基本都是双机部署,高可用的企业组网形式,
所以,基础的配置也都在前面介绍了,但是却没有介绍高可用的状态下如何升级硬件的OS的情景,这里因为在上周完成了一次(山石网科-HA)无缝迁移,所以我们这里特意总结如下思路,
与各位分享,欢迎大家参阅指正。
操作步骤:(请现场同事同时记录所有操作细节和完成时间)
PS:为什么要做这一步,因为我们是一家专业的技术服务公司,所以我们队每一个步骤都需要记录,以供我们在后期复盘与思考。这样会有更多的总结出来。所以我们特意记录了每一个节点的时间。
1.将主备防火墙配置文件web导出,本地备份(共计两份)-可提前操作将主(备)设备抢占功能关闭、HA检测关闭,当前配置:主防火墙有抢占、主备均挂在了track
总耗时:1分51秒
2.本地web执行上传OS,主备同时进行,升级---【该步骤可提前给备防火墙实施】,并点击暂不重启按钮。
总耗时:3分45秒
3.console接入备机,将备机设备剥离安能网络环境,业务线、心跳线、内网线路全部拔掉,并将备机HA群集ID,no掉。使其不运行HA协议,单机跑
总耗时:1分钟内
4.本地console重启备机,使OS版本为前面上传的最新版本。
总耗时:4分钟
5.备机OS固件升级完成后,console:show version查看运行的版本,并使用show configuration比如当前配置文件。【notepad++或excel函数比较观察】
总耗时:2分钟
6.备机升级OS后配置文件确认无误后,并确认没有运行HA协议后进行流量切换的动作-预计可能会存在中断1分钟内
总耗时:1分钟
主业务丢包:小于4个(用户完全无感知)
7.在步骤6切换过程中,同时进行console接入主防火墙将主防火墙剥离安能网路环境,业务线、心跳线、内网线路全部拔掉。完成原备机流量的切换,所有线路(业务、心跳(down状态)、内网),使流量切换至备防火墙。
总耗时:1分钟
8.将备机的HA协议起来,即:目前正在跑流量的设备,切记这里不要挂HA的检测
总耗时:15秒
9.确认流量切换完成后,进行主防火墙重启,使OS为前面上传的最新版本。
总耗时:3分13秒
10.比对主防火墙配置文件,查看版本,notepad++、excel对比确认
总耗时:2分钟
11.将主防火墙和备防火墙的HA心跳线互联,确认HA状态协议是否正常:show ha group 0---成功时【此时协商日志翻动】,并确认无抢占
总耗时:18秒
12.console接入主防火墙,接入主防火墙业务、内网线路。确认HA状态,并观察业务网络是否受影响,详细观察并测试主备防火墙公网虚拟IP、管理IP(BGP、CTC),是否正常Ping通,若业务存在影响即刻“拔掉”主防火墙所有线路。
总耗时:1分钟
业务观察时间:2分钟
13.通知客户团队,协同确认所有监控是否已经正常恢复。
总耗时:1分钟
客户团队确认业务耗时:15分钟
14.console接入主防火墙,配置HA抢占功能。还原升级前主备角色。
语法:show ha group 0 先确认ha状态
Hillstone-A(config)# ha group 0
Hillstone-A(config-ha-group)# preempt
总耗时:35秒
15.模拟设备故障,测试高可用角色热切换。观察业务地址丢包情况并记录。
总耗时:15秒
丢包情况:丢包1个(接受范围内)
16*. 在维护窗口60分钟中,若在40分钟内依据升级流程未完成任务,执行回退工作。
综上,就是我在给山石网科双机升级时候的整体思路,并在真实环境中得到了充分的验证,确实准备充足后,实施的过程不会出现任何差错,别非常顺利的完成了升级。关键是客户完全没有任何感知,这个是此次案例中,我作为割接的“主刀”工程师的最自豪的地方。
所以这里,再次唠叨一句,大家不要太关注技术实现,适当的注意思路还有文档的撰写。
—————来自一家二级运营商的网工分享,勤奋、努力、专注,除了这些没别的秘诀!!