走近华佗,解析自动化故障处理系统背后的秘密

集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统。一方面完成飞天其他组件不擅长的OS和硬件的故障自动监测和处理,另一方面推动飞天去及时规避硬件和OS引起的故障,使得故障能够闭环运转,大幅度减少故障处理成本和造成的影响。飞天5K项目期间的规模效应凸显出自动化处理故障的必要性,大幅提升了飞天平台的稳定性,提高了运维人员的幸福感。华佗在飞天中的位置如图1所示。

由来

2011年底和2012年初,飞天系统的通信系统使用的是夸父,夸父通过Agent代理负责本机所有的网络通信,如果机器之间想要彼此通信,需要将彼此的IP加入到对方的配置文件中。由于集群变更频繁和Agent本身稳定性的原因,出了好几起和夸父配置及连通性相关的故障。夸父处于集群最底层,要保持集群的全连通,同时集群间也有通信的需求,也需要通过变更配置文件打通连通性。日常业务中,集群经常需要上线和下线机器,导致配置文件需要经常性的变更,偶尔A集群加了一批机器,B集群压根不知道,造成集群间通信时而通,时而不通,查找原因非常困难。同时由于各种原因,会造成夸父之间的连接经常性地处于半通不通状态。查找这样的连接几乎也需要两两测试连接,对于一个2000台的集群,则需要测试2000×2000次操作,工作量非常大。华佗吸收了大量开发和运维经验,用了随机抽样覆盖加自动处理的方式解决了夸父连通性监控和处理的问题。

2013年初,云梯2集群中的硬件3年保质期已过,但任务却越来越多,连续好几次的基线超时都与坏盘、慢盘相关。但对于坏盘和慢盘,大家一直都没有一个很好的办法和标准来界定――究竟坏到什么程度、慢到什么程度就会对应用产生影响。于是华佗就开始了解决坏盘和慢盘问题之旅。飞天5K项目期间,由于规模效应,盘、机器、网络的各种故障几乎成为了常态,各种异常都成为造成集群服务质量严重下降的根源。但在应用层来处理这种底层的异常显然是隔靴搔痒,又慢又费劲,例如:

  • 发现总有一些机器有各种异常,使之很慢,但又没有完全死透;
  • 集群间12根光纤有一根异常,造成部分通信异常,出现大量长尾的数据拷贝进程,拖慢总体进程;
  • 集群内的一台交换机时断时通,造成服务断断续续或者服务时间巨长;
  • 有一个Job的Worker进程内存总是超限造成被杀,影响其他进程。

定位和思考

在过去的3年里,尤其是做飞天5K项目的3个多月里,飞天单集群的规模增长了近一个量级,离线集群的数量也增长了10倍,而运维人员的规模却没有显著的增加。按照当时的增速,运维人员和机器的数量比例将达到10000 : 1。根据以往的运维经验,这个规模下,如果没有故障的自动化处理,运维人员几乎24小时都要处理故障,因为底层一个简单的故障放大到上层可能是几十倍到几百倍的复杂度。例如一个交换机的网络故障(半坏不坏),可能就会引起大批量的任务失败,但调查失败的根本原因可能要翻遍整个系统才知道是网络故障。更重要的是单集群的规模增大之后,人为处理故障过程中可能出错的概率更大,并且一旦出错,整个集群会无法服务,影响面将更大。

飞天平台各个组件设计之初已具备了非常好的容错功能,但一飞天平台各个组件设计之初已具备了非常好的容错功能,但一直没有和运维体系进行很好的对接,故障处理一直是运维人员通过各种零散的工具或人工在维护处理,成本越来越高。由于以上原因,华佗就承担了飞天平台自动化故障处理系统的任务,提升集群故障发现、处理的效率和准确性,解放运维人员,提高飞天稳定性和可靠性。

实现

如何能又快又好地发现和解决线上故障呢?我们进行了很长时间的思考,得到了图2中的架构图。

华佗一般通过华佗Master与外围系统打交道,既接受盘古、伏羲这样的飞天组件订阅硬件、OS相关对象的状态机以便采取对应动作规避故障,同时支持驱动磁盘、内存这类对象的维修管理。如图3所示,每个C代表一个Checker,W代表一个Worker。每个虚线框代表一个集群,每个集群会出一台机器组成一组Master,通常3~5个大集群共用一组Master。

华佗内部是典型的Master / Slave架构

  • Master:一般1个数据中心共享一组Master,Master采用Raft协议实现高可用,Master提供Agent所需的各种存储、协调、全局决策调度服务。例如,状态机服务、MaxCompute倒入服务、Quota服务和Checker分发。
  • Agent:调度本地Checker和Worker,同时提供本地Checker和Worker所需的服务――KV和Queue等。
  • Checker:按照Master配置要求,完成故障的发现和状态维护,同时产生Action Checker来完成故障处理。
  • Worker:处理Master发送的Task。
  • Client:Client以SDK的形式内嵌在飞天的各个组件中,可以订阅华佗各个对象的状态、Event等。

外围系统

  • MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统和故障的数据挖掘,用以提高故障检测准确率和预测故障的发生。阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps
  • 维修系统:运维团队和供应商对接的硬件维修平台,华佗通过维修系统以工单的形式来报修硬件。
  • Portal:华佗提供运维操作平台,用来监控和管理整个华佗。
  • ApsaraComponent:飞天基础服务模块,包含伏羲(飞天的调度系统)和盘古(飞天分布式文件系统),通过华佗SDK订阅华佗的状态机来实现与华佗的交互。

详细实现

描述故障

想要很好地处理故障,就需要清晰地描述故障。状态机是一种不错的选择,我们对于任何需要华佗处理的对象都建立状态机来管理其整个生命周期。常见的状态机包括但是不限于:磁盘、机器、网络、内存、CPU、Apsarad(飞天守护进程)、ChunkServer(飞天存储进程)。一个故障的定义很自然:对象状态或状态组合。例如,对于磁盘故障,当一块盘处于ERROR状态时,单纯就是磁盘故障;3块盘故障处于ERROR状态时,就是整个机器的故障。状态机是整个华佗的核心,所有的故障发现、处理、预测都是围绕状态机来完成的。

故障发现

Checker负责发现故障,发现故障后产生故障事件,Master处理Checker发现的事件,派发相应的动作给Worker,Worker负责执行具体Action(短期)或者Task(长期运行);同时如果满足条件,将进行状态迁移。每个对象的状态都有对应的Checker,Checker会一直负责检查处于本状态的条件,如果已不满足了,则直接将状态机变回次态。Checker是整个华佗的基础,所有故障的发现,触发源头都是Checker。Checker是系统里量最大的,也是Badcase积累的结果,如果要保持系统Checker快速的迭代更新,同时要防止Checker本身有Bug而造成滚雪球效应,该怎么办?先思考一下,后面会说到。

处理故障

当Checker进行状态变迁或处于某个状态时,会产生对应动作(Action),对应动作会进行某个操作,一直到失败或进入下个状态。有些状态的变迁在Master端可能会产生Task,Task需要一些机器整体统一做一个动作,例如,某个集群的Master Role迁移,或某个交换机下线。

版本控制:灰度发布,全量更新,版本校验

Checker定位于可能快速更新迭代的组件,以便运维或者开发能够快速地支持各种故障的处理,Checker本身可能是个Binary、脚本、Rule。为了保证线上Checker的质量,除了日常的Review和测试,线上的灰度发布和版本控制必不可少。华佗使用SVN进行Checker的版本管理,使用Master进行版本分发。华佗可以做到IP粒度版本控制和校验,基于此,华佗可以进行多版本同时灰度,同时验证发布,以增加Checker的迭代速度。

Quota管理和手工驾驶

在整个华佗运行过程中,可能会有我们预料不到的Bug产生,这些Bug可能会放大错误,产生滚雪球的效应。例如,可能磁盘的判断会在特定条件下出错,这样会让大批量的磁盘下线,造成集群剧烈抖动。也可能Kernel出现类似208天的问题(Linux Kernel著名的一个Bug:系统连续运行208.5天自行重启),引起机器大批量的宕机。基于以上考虑,结合华佗自我保护机制,华佗引入Quota管理和手工驾驶,即当故障率超过华佗预设阈值时,它将直接报警,不再采取任何措施,进入手工驾驶状态,同时日常的变更也可以进入手工驾驶的状态。

Portal

华佗的所有状态机、报警、事件和动作都可以通过Portal和API进行查询和订阅,方便其他系统接入。Portal也可以进行日常的华佗版本查看、变更和其他的操作。最常见的使用场景是当某个Job失败后可以通过Portal来查询Job所在的机器是否发生过故障

日常数据收集、故障深度挖掘和预测

除了日常的实时故障处理,华佗也收集OS和硬件的关键数据,如Dmesg、Smartctl、Top、Tcp、Ecc等。这些关键的数据进入到MaxCompute进行数据挖掘,来预测某个对象下一个状态(故障)的发生概率,同时也会根据挖掘的结果来调整Checker的规则和参数,以提高故障检测的准确率。

常见的场景

华佗目前已能够处理主流硬件和OS相关的故障,长尾Badcase处理逐渐增加中,可以适应快速迭代和开发节奏,同时帮助运维和开发共同沉淀线上集群的故障管理经验。

磁盘管理

图4中每个节点都是一个状态,每条线上标注了进入到下一个状态的条件。

A.磁盘打分

华佗会根据磁盘的硬件、软件相关的10多个检测项目,按照既定规则库对磁盘的100多个评分项进行一个综合评分,将磁盘进行分级:Good、Slow、Warning、Error和Fatal。磁盘的好坏和快慢受很多因素影响,加上应用对于磁盘的诉求也不一样,如Online关注延时,Offline更关注吞吐,还有更细分的指标关注寿命等,所以打分规则是动态调整的,各个应用可以指定各个指标的权重和计算规则。图5是我们对一年的某个生产数据进行分析后得出各个规则和指标对于最终结果的影响度。

图5中的横轴是各个Rule(指标),纵轴是影响度。前面几项都是根据后面的一些基础指标慢慢积累调节出来的,例如在Offline的集群上,我们发现Kernel某个线程D状态的次数决定了这块盘的快慢,如果长期处于D状态,则磁盘一定是出故障了。

B.磁盘的状态变迁

  • 在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。
  • 一旦磁盘进入ERROR状态,则表明此磁盘可能马上损坏,必须立即执行下线动作。此时盘古通过订阅华佗的磁盘状态机识别到后,会将磁盘设置成SHUTDOWN状态,即磁盘不可读写开始备份数据。
  • 待华佗通过盘古确认数据备份完毕(数据安全),将磁盘进入到REPAIR状态。在REPAIR状态时,华佗会通过运维的维修系统进行报修。
  • 供应商根据报修系统报修的状态,每周进行2~3次的磁盘更换服务。更换完毕后,华佗会自动检测到有新盘上线,继而进入到NEWBIE状态。进入NEWBIE状态的磁盘,华佗会进行自动分区、格式化、预挂载。
  • 预挂载完毕后,华佗就会进入TEST状态,进行基本的检查和小型Benchmark测试后决定继续维修还是上线。
  • 测试通过的盘,就会挂载到真实的挂载点上开始供盘古使用。同时磁盘进入到GOOD状态。

C.所有的磁盘数据都会通过Analyzer进入到MaxCompute进行挖掘和分析,分析完毕后会通过调整规则、指标、参数等提高磁盘检测的准确度,这是一个长期的过程。

机器管理

图6是机器状态转换图,机器管理和磁盘类似。

  • 当机器有各种原因(根分区只读、Load超高、内存坏)会进入的ERROR状态,伏羲会订阅华佗的状态,发现进入ERROR状态,会将在这台机器上的进程全部调度走。
  • 调度走以后,华佗机器的状态机会很快进入到FIX状态,进入到FIX状态后会根据进入原因采取对应的动作,尽量修复(Reboot、Restart相关进程、清理磁盘)。如果修复失败,机器的状态机将进入REPAIR状态。
  • 进入REPAIR状态后,盘古会通过订阅的状态机发现,自动将机器SHUTDOWN开始备份数据。备份完毕后,华佗会将其通过报修系统报修掉。厂商会根据情况进行每周2~3次的机器维修。
  • 维修完毕后,机器进入NEWBIE状态。进入NEWBIE状态的机器将会进行RECLONE相关环境准备等操作。
  • 完毕之后进入待上线状态TEST。华佗会进行基础的环境检查,检查完毕后通知Fuxi上线。

网络故障检测

网络的检测不像磁盘,单机就可以解决掉,并且现在都是双上联、Multipath的网络,就是你和A机器进行通信走的是一根线一条路,你和另外一个机器B进行通信走的是另外一根线一条路。而恰恰有问题的情况是:一根线或者其中一个交换机有问题,造成网络时好时坏、时快时慢,加上集群热点等情况,非常难于定位和排查。华佗采用简单投票的方式筛选出最有问题的机器,工作方式如下。

  • 每台机器会实时监测到它所通信机器的网络丢包、TCP重传、RTT、带宽等指标。
  • 应用本机规则决定是否投票给异常的机器,投票给其他机器的同时投票给自己。
  • 得票最多的top N机器就是有问题的机器。
  • 找出top N机器所有通信有问题的五元组(协议、源地址、源端口、目的地址、目的端口),根据五元组算出所有通信的路径。
  • 对于算出路径上的网络设备,查询其错误日志,看是否有相应的故障,有问题报警给网络。如果有问题,则将对应的机器转换至ERROR状态,进入坏机器的处理策略中。

心得

通过建立磁盘自动化的处理和磁盘故障的预测,可以大大提高集群磁盘的整体合格率,原因是新集群上线一段时间内,出厂不合格的磁盘,华佗通过集群预热期就下线掉了,再经过半年坏盘淘汰后进入稳定期,集群整体磁盘的可使用寿命大大提高。在我们的实践中,坏盘率可以做到非常接近磁盘的MTTF。

磁盘作为集群中数量最多、增长最快(6块→12块→18块→24块)、故障率最高、处理最复杂(涉及到数据安全)、最消耗人力的硬件,自动化的处理收益最高。磁盘作为集群中数量最多、增长最快(6块→12块→18块→24块)、故障率最高、处理最复杂(涉及到数据安全)、最消耗人力的硬件,自动化的处理收益最高。

机器各种故障区分度很低,对于Offline的业务,我们采用了最简单直接的处理方式,Replace、Restart、Reboot、Reimage和SHUTDOWN。使得每种故障能够有明确的行为,降低上层处理的复杂度。

网络是非常基础的服务,所有的服务都依赖网络,使得网络变得非常敏感和复杂。一个5K集群,其交换机数量100 + ,端口数量超过10K。一旦有问题,第一时间定位是最关键的,华佗的引入使得网络故障定位由原来的小时级别降低到分钟级别。

总结

由于故障的处理和平台及业务密切相关,所以这里只是介绍了华佗通用的一面,只是冰山一角。具体各种故障处理里隐藏着大量的细节,这些细节的处理都是平台拿一次次的故障堆出来的,这也是Google和Amazon等大型平台对于自动化平台讳莫如深的原因。

阅读原文直接点击

时间: 2024-12-19 13:44:29

走近华佗,解析自动化故障处理系统背后的秘密的相关文章

自动化监控系统(三) 搭建xadmin做网站后台

Django有个自带的admin后台,不过界面不怎么好看,这里我用xadmin 我的python版本是3.5,可以使用支持py3的xadmin:https://github.com/sshwsfc/xadmin xadmin部署步骤: 1.把xadmin整个目录拷贝到项目里面 2.需要安装的依赖包: django~=1.9.0django-crispy-forms~=1.6.0django-reversion~=2.0.0django-formtools==1.0future==0.15.2ht

基于cobbler实现自动化安装系统

基于cobbler实现自动化安装系统 环境介绍 centos6.8 为centos6.8提供两块网卡 (非必要) 一块为桥接,方便xshell连接和测试 一块为vmnet3:用来搭建dhcp,tftp,和为客户端提供cobbler服务 前提,(确保安装TFTP,dhcp,rsync) # yum install httpd cobbler cobbler-web pykickstart debmirror 1.启动对应的服务 # service httpd start # service cob

使用cobbler自动化部署系统

一.Cobbler简介 Red Hat 最新(Cobbler项目最初在2008年左右发布)发布了网络安装服务器套件 Cobbler(补鞋匠),它已将 Linux 网络安装的技术门槛,从大专以上文化水平,成功降低到初中以下,连补鞋匠都能学会.I am just joking! 二.Cobbler功能特性 使用 Cobbler,您无需进行人工干预即可安装机器.Cobbler 设置一个 PXE 引导环境(它还可使用 yaboot 支持 PowerPC),并控制与安装相关的所有方面,比如网络引导服务(D

初步使用pxe自动化安装系统

1.安装dhcp服务 #yum install dhcpd 修改配置文件 /etc/dhcp/dhcpd.conf # This is a very basic subnet declaration. subnet 172.16.249.0 netmask 255.255.255.0 {  range 172.16.249.111 172.16.249.115;  option routers 172.16.0.1;  next-server 172.16.249.161;  filename

PXE自动化安装系统

如何配置PXE: 一.dhcp安装 1.安装程序 2.修改配置脚本 配置dhcp服务 subnet ... netmask ... { ... next-server TFTP-SERVER-IP; filename "pxelinux.0"; } 提示脚本示例文档  cat /etc/dhcp/dhcpd.conf 二.tftp安装 1.程序安装 2.默认文件目录 3.基本演示操作 4.服务启动 三.提供PXE的工作环境 1.程序安装  yum install syslinux 2.

DHCP+TFTP+HTTP+kickstart实现PXE自动化部署系统Centos

前提:对DHCP,tftp-server,httpd有一定了结,本文将略过对服务的讲解和安装过程,主要讲通过这三个服务来实现PXE服务器的搭建过程. 准备工作: 安装软件包: 安装制作ks.cfg文件工具(图形界面下):yum-y system-config-kickstart 安装服务:yum -y installdchp tftp-server httpd 安装syslinux:yum -yinstall syslinux 或者使用下面的安装方法一次性全部安装: yum -y install

kickstart安装配置自动化安装系统

环境:VMware Workstation 10.0.1 build-1379776网络:桥接虚拟机A:kickstart+Dhcp+Nfs+Tftp(系统版本centos6.2)        ip  192.168.1.51 虚拟机B:客户机(需要自动化安装系统的机器)                  ip  192.168.1.52 以下操作均在A机上:挂载iso系统文件到光驱,记得在vm里光驱那里[已连接]打勾mount /dev/cdrom /mnt/关闭防火墙和selinuxser

利用DHCP,http,tftp,pxe实现纯自动化安装系统

一.实现原理所需要的服务简单介绍1.DHCP:动态主机配置协议,用于内部网络自动分配IP地址2.tfpt:简单的网络共享服务,类似于ftp3.pxe:支持远程主机通过网络从远端服务器下载映像,并由此支持通过网络启动操作系统4.http:超文本传输协议,通过网络共享文本(这里也可以使用ftp服务)实现过程1.客户端(没有装系统的计算机)通过在局域网内寻找DHCP服务器2.DHCP服务器回应,发送IP地址给该客户端并且告诉该客户端下一步寻找哪一个服务器,也就是TFTP3.客户端向TFTP要BootL

运维自动化之系统部署(一)

运维自动化发展历程及技术应用 安装程序 CentOS系统安装 系统启动流程: ??bootloader-->kernel(initramfs)-->rootfs-->/sbin/initanaconda: 系统安装程序 ?? gui:图形窗口 ?? tui: 基于图形库curses的文本窗口 安装程序启动过程 MBR:isolinux/boot.cat stage2: isolinux/isolinux.bin 配置文件:isolinux/isolinux.cfg ??每个对应的菜单选项