自动化运维其实也算是老生常谈,一谈谈了十几年,但却一直没有质的提升。数据中心的运维工作反而变得越来越繁重与复杂,当然这和这些年数据中心巨大的变化紧密相关,数据中心承载的各种应用越来越多,运维工作也变得异常复杂,简单的自动化运维已经不能彻底解决数据中心运维工作效率低下的问题。以前,数据中心运维人员就像流水线上的一名工人,不断重复地做着同样的工作,枯燥又容易出错,自动化运维就是要引入一些工具,通过这些工具来替代运维人员来工作,从而减少人力成本,同时提升数据中心的运维水平。
那么自动化运维,其实就是向数据中心引入一批工具,这批工具是“可编程”的,你只需要为这批工具写上几行“代码”,它便会帮你自动完成所有的工作,而这批工具就是实现自动化运维的手段。这些工具可以分为三大类:预备、配置管理和监控,从这三大方面代替人力工作。预备自动化工具常见的有Cobbler、Kickstart、OpenQRM、Spacewalk。在早期,Linux管理员整理出一个软件包列表,通过rpm进行批量软件安装。
后来,我们用Kickstart来执行无人值守的Linux安装。现在,Cobbler把这个功能提升到了一个新的高度:它实现了物理机与虚拟机的并行系统构建,并且可以进行DHCP和DNS的配置。OpenQRM是开源系统管理解决方案,用来管理企业数据中心业务,同时包括虚拟环境管理、数据中心自动化,是一个基于Web的开源云计算和数据中心管理平台。Spacewalk是一个Linux和Solaris的系统管理解决方案,它是Red Hat网络卫星项目衍生出来的上游社区项目。这些预备管理工具多是针对服务器的,对服务器进行自动化管理,如果不是自己亲身使用和体验,很难说这些工具软件孰好孰坏,每种工具都有其适合的应用场合,这些工具尤其在互联网企业的数据中心运维中使用极为广泛,这些工具需要操作者具有较高的计算机编程能力,对运维人员的要求较高。
? 配置管理工具用来设置参数或者开启一个新服务器上的服务。配置管理可以用于服务器自动构建。服务器自动构建工具可以加速部署速度,并可以在短时间内大规模部署服务器,同时也可以让构建过程更容易复制。在发生严重故障时,还可以重建架构。配置管理工具常见的有Chef、ControlTier、Func、Puppet。比如Chef是一款自动化服务器配置管理工具,可以对管理的对象实行自动化配置,Chef由三大组件组成:Chef Server、Chef Workstation和 Chef Node。Chef Server 是核心服务器,维护了一套配置脚本,与每个被管节点交互并给出配置指令,Chef Workstation提供了我们与 Chef Server交互的接口:我们在Workstation上创建定义Cookbook,并将 Cookbook上传到Chef Server上以保证被管机器能从Chef Server 上取得最新的配置指令。Chef Node是安装了chef-client并注册了的被管理节点,可以是物理机或者虚拟机或者其他对象。Chef Node每次运行chef-client时都会从Chef Server端取得最新的配置指令并按照指令配置自己。ControlTier是一个完全开放源码系统的自动化服务管理活动的多个服务器和多个应用层的工具,它可以对数据中心里的各种设备进行自动配置下发和管理。
这些大部分工具都是实时的,可以用来进行变动并执行某些任务。它们却缺乏关于当前系统状况的信息,于是监控工具就有了用武之地。对于传统的系统管理员而言,监控无非是在发生错误的时候通过一个页面或者一封邮件提醒他们。监控工具常见的有SugarNMS、Nagios、OpenNMS、Zabbix、Zenoss Core等等。智和网管平台SugarNMS是一款开源的网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等,当发现监控设备运行异常时,自动发出告警,还可以将告警消息发给运维人员,以便可以得到及时处理,避免异常对业务造成严重影响。SugarNMS是一个企业级基于Java的分布式网络和系统监控管理平台,兼容主流/国产系统及数据库,提供C/S和B/S两种客户端界面,能够显示你网络中各中终端和服务器的状态和配置,可以监控各个网络设备运行的状态,互通情况,一旦出现异常立即可以上报异常告警。
网络是数据中心里最封闭的一个系统,对网络进行管理的软件也无法完全做到完全开源,所以那些免费的、网络上的软件都不是很好用,不得不使用网络设备厂家提供的网络管理软件,才能达到很好的适配效果。但是网络中不可能全都是一个厂家的设备,因此为网络管理带来了更大的难度。针对这一情况,智和信通公司(http://www.zhtelecom.com)推出了智和网管平台SugarNMS,可以应用在管理网络设备、计算机、服务器、智能设备、物联网、工业设备等所有联网设备;适用于国防、电信、政府、金融、交通、能源、企业、工业、制造等多种领域。能够全面监控网络设备、主机/服务器、中间件应用、Web服务。Cisco、Juniper、Foundry、Avaya、3COM、Intel、Fore、Marconi、Motorola、华为、中兴、华三、联想、锐捷、港湾、迈普、烽火、天融信、深信服等厂家的设备都能都支持。
这些工具的出现,为数据中心运维提供了极大方便,是自动化运维的具体表现。数据中心要走自动化运维的路,就需要大批地使用这些工具,通过这些工具逐渐代替运维人员的工作。运维人员通过自动化运维,将规范、常规的操作固定化,减少重复的手工操作,避免误操作。通过模板化,根据模块信息智能化分析,实现快速发单,同时串并行控制,提升模块更新效率,这就是数据中心自动化运维的时代,只有坚持走自动化运维的路,数据中心的运维效能才会有质的提升,让我们沿着数据中心自动化运维的道路坚持走下去。