关于自动化运维的实践×××

谈起自动化运维,现在已经成为运维工作最热门的词语,关于运维自动化本人早在2012年就已经接触了BMC的ITSM系统,将ITIL运维管理体系和自动化运维工具的有效的结合大幅度的提高了运维工作效率。下图为HP提的统一运维自动化理念和运维手册,从目前企业基础架构层来看,运维人员无关乎关心的如下几个方面的自动化。

要了解运维自动化在企业当中应用场景和是否真正能够解决运维团队工作的问题。那我们则需要站到企业运维人员的角度去考虑问题。那么我首先要知道一个企业或者运维团队在规划运维的时候所需要考虑的问题及面临的挑战。

那么我们针对运维决策着的问题和目标逐个展开,因为产品的本质是为了解决用户问题,帮助用户完成自己内心预期的目标。

我们首先来看下传统运维和自动化运维的比较:

我们从运维发展的过程来看,首先是传统运维,主要靠手工操作。比如上线一台服务器,登陆服务器按照操作文档一步一步操作,更高级一点,把配置命令写到脚本里,运行一个或多个脚本完成配置。
有什么缺点呢?首先,人每天重复这样的工作,很累,又没有体现价值,交付效率低,疲劳时还容易出错,忘记某些配置。
使用脚本呢,容易相同功能重复开发,很多脚本不专门记录日志,查找历史操作比较困难。使用脚本进行运维操作,发生了故障,由于没有统一的运维操作日志,无法及时了解谁做了什么。

随着时间的发展,运维发展到更高级的 DevOps 时代,我们也正处于这个时代。这个时代有一个明显的特征,就是各种各样开源工具的使用,同时自己会开发很多工具。工具带来了效率的提升,大大加速了运维自动化的进程。

那么这就需要一个统一的自动化运维平台,在一个平台内将运维工作的自动化工作完成,我们降云产品所谓的自动化模块顶多是网络自动化的一个分支,随后还请看我分享的BBNA网络自动化的PPT详情。 降云只是完成了工单流程的自动化,还有策略下发的自动化,那么什么是运维环境的自动化,那么我们就开始详细说明,本章主要讲述网络自动化。
关于网络自动化主要围绕三个关键点:变更、配置、合规管理
关键挑战:

设备与配置无法可视化
大批量的变更耗时长
合规&修正复杂
网络及其复杂程度增长快,难以做到有效管理
网络自动化产品的目标:

设备、配置、变更实时可视化
策略执行、合规报表、漏洞警告
减少错误、宕机事件、审计失败
单一平台支持多设备厂商
提高生产力,降低风险与成本。

针对上述产品要求落实到自动化的功能对照如下:
配置管理
配置采集:自动采集设备的软硬件信息,比如型号、板卡、Flash、序列号、软件版本、路由表、ACL等
配置备份:定期或触发式备份设备的running和startup配置文件,并保存所有历史
配置比对:对任意的配置文件进行比对,并醒目地标注差异部分
配置检索:根据各种条件搜索当前或历史配置
配置检查
配置基线:定义受信任的配置作为配置基线,自动跟踪当前配置与基线之间的差异
日常检查:根据规则检查配置是否符合一定的要求或规范,并自动通知管理员;内置大量开箱即用的规则,用户也可以自定义规则
合规检查:内置PCI、ITIL等合规检查报表
运维面板:将所有检查出来的问题通过运维面板进行集中展现
配置变更
自动生成变更脚本:对于检查有问题的配置可自动生成变更脚本进行修复
批量并发执行作业:将以前手工执行的作业自动化,大批量并发在多台设备设备上执行
配置恢复或回滚:不需要重启设备实现对任意配置文件的恢复或回滚
ACL安全切换:自动生成ACL的切换步骤,确保安全无风险切换
配置模板:可定义多厂商的配置模板,可引用变量
软件管理
软件介质库:自动收集所有的设备软件,并集中保存和管理
软件版本检查:自动检查软件版本是否符合规范要求
软件升级:批量更新软件版本
安全管理
操作审计:自动记录用户的命令以及命令输出
分辖域管理:不同用户可以分配不同的设备管辖范围
分权管理:不同用户可以指定不同的权限
工作流审批:可以快速建立工作流,用户的操作必须经过审批才能执行
报表
配置差异报表
设备库存报表
变更统计报表
标准合规报表
合规趋势分析报表

该图为BMC的BBNA系统设计架构图,降云为内网安全策略管理平台,网络安全设备及网络设备的自动化运维,安全策略的变更只是其中的一个范畴,降云产品的目前来看在自动化运维提到的亮点就是,安全策略的自动化下发,并且能够自动寻路。但是从目前寻路的现状来看,寻路的稳定性强依赖于网络的健壮性(即三层路由信息,二层及透明部署则不见得准确性有所保障)。

结合以往工作经验有了以下想法:

在BMC的ITSM系统中,其实不管是哪家的统一自动化运维平台,都是依赖CMDB库,资产之间的CI关系完成变更的可视化,在大型企业的运维管理工作大多数依赖于资产管理,那么如果资产管理形成了CI之间的管理,例如核心交换机精确到板卡上的光模块的级联设备(需要人工干预),当我们发起变更请求时(安全策略开通)那么在变更视图下,就可以看到与该策略的干系的所有设备,可以根据源IP地址所在的地址和目的IP所在的地址确定数据流在CI视图下的路径。然后逐个匹配路径上的设备的安全策略,进行开通。并且记录变更状态。

个人总结:

目前各个公司运维团队都在开发适应自己现有场景的自动化工具,可以高效率的替代了许多重复性工作,例如策略开通,端口开放,虚拟机初始化配置等等。但是自动化高效运维一定是建立在标准化的基础之上,所以企业在信息化建设过程中,一定要做到统筹规划,业务方、运维方、用户方共同计划,提取共性部分方可在此基础上建立标准化,对于多种产品异构的环境,还需建立标准的适配库,提取多种设备特征方可为以后的自动化打下牢固基础。再建立自动化平台时,架构、使用语言、并发承载能力、多场景适应性都是考虑的范畴之内,所以高效的自动化运维平台,一定是持续优化持续改进的过程。

原文地址:http://blog.51cto.com/13769225/2120904

时间: 2024-10-11 11:10:43

关于自动化运维的实践×××的相关文章

自动化运维Ansible实践(一)

第 1 章 Ansible概述 1.1 IT自动化的好处1.1.1 团队影响? 节省时间,提高工作效率? 消除重复任务? 更少的错误风险? 改善协作和工作满意度1.1.2 企业影响? 克服复杂性? 更多创新资源? 加强问责制和合规性1.2 Ansible是什么Ansible是一种IT自动化工具.它可以配置系统,部署软件以及协调更高级的IT任务,例如持续部署,滚动更新.Ansible适用于管理企业IT基础设施,从具有少数主机的小规模到数千个实例的企业环境.Ansible也是一种简单的自动化语言,可

自动化运维Ansible实践(二)

上篇提到了ansible基本安装.配置及命令行使用,这篇分享下ansible的高级用法即playbook,在生产环境如果需要完成负责任务,如大批量服务安装配置等,可以采用playbook方式来完成,高效且易于维护. 第 1 章 Playbook基本使用 使用Playbook的好处特点? 易读的编排语言? 适合配置管理和应用部署? 非常适合部署复杂的工作先来认识一下Playbook自动部署Nginx main.yml hosts: webserversvars:hello: Ansible tas

MySQL数据库性能优化及自动化运维实践教程!DBA日常工作

MySQL数据库性能优化及自动化运维实践教程!本文作者将站在更加全面的角度分享他在这一年多 DBA 工作中的经验,希望可以给大家带来启发和帮助. DBA 的日常工作 我觉得 DBA 真的很忙,我们来看看 DBA 的具体工作:备份和恢复.监控状态.集群搭建与扩容.数据迁移和高可用. 上面这些是我们 DBA 的功能,了解这些功能以后要对体系结构有更加深入的了解,你不知道怎么处理这些故障和投诉的事情. 所以我们要去了解缓存/线程.SQL 优化.存储引擎.SQL 审计以及锁与实务:体系结构更深一点,就去

自动化运维之SaltStack实践视频教程

点我开始学习: http://edu.51cto.com/course/course_id-2354.html 1      培训目标 本课程的目标是让所有参加培训的学员都可以使用SaltStack进行服务器管理,熟练使用远程执行的功能批量操作服务器,使用配置管理进行自动化安装.部署和管理.同时可以根据企业的生产需求进行自定义的开发.最后带领学员完成生产项目-使用<SaltStack进行OpenStack自动化部署>. 2      预备知识 l  熟悉Linux基本命令及系统管理. l  熟

电子书 Python自动化运维:技术与最佳实践.pdf

本书在中国运维领域将有"划时代"的重要意义:一方面,这是国内一本从纵.深和实践角度探讨Python在运维领域应用的著作:一方面本书的作者是中国运维领域的"偶像级"人物,本书是他在天涯社区和腾讯近10年工作经验的结晶.因为作者实战经验丰富,所以能高屋建瓴.直指痛处,围绕Python自动化运维这个主题,不仅详细介绍了系统基础信息.服务监控.数据报表.系统安全等基础模块,而且深入讲解了自动化操作.系统管理.配置管理.集群管理及大数据应用等高级功能.重要的是,完整重现了4个

《Ansible自动化运维:技术与最佳实践》图书已上架,欢迎大家阅读

本书由资深运维程师联手打造,通过大量实例,详细讲解Ansible这个自动化运维工具的基础原理和使用技巧:从基础的架构解析.安装配置,到典型应用案例分析,作者分享了自己在工作中的实战经验,为各类运维操作.运维开发人员提供了翔实的指南.本书主要内容包括:Ansible架构及安装,Ansible 组件.组件扩展.API,playbook详解,最佳实践案例分析,用ansible-vault保护敏感数据,Ansible与云计算的结合,部署Zabbix组件.Haproxy + LAMP架构,以及Ansibl

游戏运维的最佳实践:搜狐畅游自动化运维之旅!

搜狐黎志刚见证了畅游游戏自动化运维平台的从无到有,通过在其中踩过的坑.解过的结,他向大家来阐述游戏运维的进阶之路.本文主要围绕畅游游戏管理体系与运维自动化的演变历程.运维自动化的实现及未来运维四方面展开. 畅游运维管理体系与运维自动化的演变历程 畅游运维管理体系演变历程 从 2008 年毕业以实习生的身份进入搜狐畅游,我同公司一起成长,经历了整个运维管理体系从小到大的过程. 整个运维管理体系是从最初石器时代(脚本化),之后的青铜时代(半自动化).蒸汽时代(DevOPS)一路演变过来,现在处于自动

新书《Linux集群和自动化运维》目录

推荐序一 在全球"互联网+"的大背景下,互联网创业企业的数量如雨后春笋般大量产生并得到了快速发展!对"互联网+"最有力的支撑就是Linux运维架构师.云计算和大数据工程师,以及自动化开发工程师等! 但是,随着计算机技术的发展,企业对Linux运维人员的能力要求越来越高,这就使得很多想入门运维的新手不知所措,望而却步,甚至努力了很久却仍然徘徊在运维岗位的边缘:而有些已经工作了的运维人员也往往是疲于奔命,没有时间和精力去学习企业所需的新知识和新技能,从而使得个人的职业发

自动化运维平台puppet的高级应用

一.模板的应用 到目前为止,资源申报.定义类.声明类等所有功能都只能一个manifest文件中实现,但这却非有效的基于puppet管理IT资源架构的方式.实践中,一般需要把manifest文件分解成易于理解的结构,例如将类文件.配置文件甚至包括后面讲提到的模板文件等分类存放,并且通过某种机制在必要时将他们整合起来.这种机制即成为"模板",它有助于结构化.层次化的方式使用puppet,而puppet则基于"模块自动装载器"完成模块装载 从另一个角度来说,模板实际上就是