老司机:如何让运维操作更轻松、高效

讲师介绍

庞辉富

广通软件技术总监

拥有10多年IT运维管理软件研发经验

致力于自动化运维解决方案的研究和推广

主导研发的产品广泛应用于海关、公安、能源等多个行业

技术发展给运维带来的挑战


当前的IT建设在这些新技术的演进下,我们看到的是呈现双态IT”特征。Gartner也提出双模IT理论,与现在谈的双态IT是异曲同工的,不再是一种单纯的形态,而是两种形态交集在一起。

一种是稳态也是我们经常说的核心业务,比如银行的核心业务、政府的核心业务等,业务系统一般以传统IOE或VCE架构设计,因为一旦出现故障对企业和社会导致非常大的损失,这些损失是很难承受得起的,所以其强调稳。

一种是敏态就是以“互联网+”或“+互联网”的概念把自己的渠道或服务开放出来,以便能更好的去创新和发展,敏态业务强调迭代和创新,可以允许适当的试错,但需要快速迭代。

这两种形态不是完全孤立的,而是随着企业自身和业界的发展互相进行转换,就算你不去变,在一定的情况下环境也会倒逼你做转变。所以我们的运维体系是需要能满足这两种形态的IT架构,既能够满足稳态的IT架构和管理方式,也能够适应互联网之下的新技术架构和敏捷管理模式,对运维提出不小的挑战。

那我们来总结一下前面说的新技术和业务形态给我们运维带来哪些挑战。

1)管理规模爆炸增长:物联网的设备规模我们先不说,因为其包括很多外场设备;有句话说未来每一个工业企业都是一个软件企业,意味着每个公司都需要依靠软件系统来支撑其业务,我们有一个客户,就一个信息中心部门,需要维护400多个业务系统,光服务器就有几千台,还不包括虚拟机,所以光靠人肉已经是伤不起了。

2)技术越来越复杂:随着云计算、互联网的发展,技术的沉淀越来越快,架构也变得越来越复杂,比如并行计算技术、分布式存储、大数据分析等等,以前我们一两台普通PC服务器能很好运行的系统,现在随着技术的复杂度增加,已经完全Out了,有个非官方的软件界摩尔定律说法,每18个月软件的运行速度就会慢1半(因为规模变大了,资源消耗更厉害)。也就是技术的复杂可能解决了业务的复杂度问题,但给运维带来的挑战却非常大。

3)随着云计算\容器化\分布式\集群化技术的发展,软件的变更发布会变得越来越频繁,比如亚马逊谈到,现在他们的系统都是微服务化,每天每个团队会发布上线30多次,所有团队1年有几千万次发布。虽然我们没有那么大的规模,但也说明现在已经不是半年或者1个月一个版本的时代了,现在至少要求每周\甚至每天都要有1个迭代发布。

4)现在生活节奏变快,现在我们每个人的耐心越来越有限,对服务中断的容忍度会越来越低。现在一个互联网服务如果中断超过半个小时,那是非常大的事件了,对于一些选择性多的服务来说,就是损失大量用户。

优云自动化解决方案


我们与CMDB结合要选一个自动化的平台。强调平台化,所有的能力转化为一个个原子操作,同时与其他运维系统有机集成。

1.它能与CMDB一起,打通整个运维的任督二脉

2.它可以不断丰富基础操作库

3.可以复用操作,通过可视化编排,实现个性化的运维场景

4.最终,它可以为不同的运维岗位,提供行业的最佳实践

相信每个运维工程师都会存有一些“私货”-运维脚本(无论是Python、Shell也或是批处理),在日常工作中便是靠这些脚本来实现运维的处理,比如软件安装、配置修改、清理磁盘空间、重启服务等等。这些脚本存在每个运维工程师的电脑里,没有经过有机的组织梳理,对环境的适应能力比较差,只能用于特定场景,无法很好的复用和共享。

为了让脚本最大限度发挥其生产力,我们需要一个库将团队内运维工程师的常用脚本统一管理起来,形成一个个运维的原力-能量水晶-我们可称其为“操作”,一个操作包括输入参数、处理脚本和输出参数。

将一个个操作集中管理起来,形成运维操作库,供编排使用。

操作只是实现某个运维目标的一个步骤,我们还需要一个通天云梯才能到达运维目标的终点。这个通天云梯便是编排编辑器,其通过可视化的方式,允许用户按运维场景将操作串接起来,通过操作的输入、输出让各操作共享数据,最终将一个个操作粘合成一架通往运维目标的云梯-编排。

为了让一个编排能适应更多环境,编排需要支持输入参数,将参数传递给操作,这样操作脚本便可根据参数兼容不同的环境。

编排编辑器可以长成这样:

总结一下,刚才我们重点介绍了在不同业务形态下的运维特征及技术发展给运维带来的挑战,优云的自动化解决方案如何让运维操作更轻松,高效,从三个层面展开说明。希望本文对大家在运维自动化操作上有所思考启发,后面有机会再跟大家继续分享其他相关运维实践。

本文内容整理来自【敏捷运维大讲堂】庞辉富老师的线上直播分享。

时间: 2024-08-13 05:25:19

老司机:如何让运维操作更轻松、高效的相关文章

运维堡垒机—如何解决企业运维操作审计问题?

运维审计作为运维堡垒机的功能之一,是保证企业数据安全不可或缺的重要运维工作内容,运维堡垒机是指在某一个特定的网络环境下,为了保障网络和数据不受来自内部合法用户的不合规操作带来系统损坏.数据泄露,从而实时收集和监控网络环境中每一个组成部分的系统状态.安全事件.网络活动,以达到集中报警,并记录.分析.处理的一种技术手段.那么运维堡垒机如何保障企业运维安全呢? 运维操作无法审计导致数据安全无法得到保障 每个系统独立运行.维护和管理,因此每个系统的审计也是相互独立的.所以需每个主机系统分别进行审计,当安

IT Operations(IT 运营),运维的更价值化认识

一直想努力向别人(甚至包括从事运维的人)解释清楚什么是运维,发现很难! 6月20号,在InfoQ高效运维群里面,对运维创业做了一次激烈的讨论,很自然地,过程中不可避免的谈到运维苦逼和运维无法产品化的问题,这是一些运维需要说服自己,证明自己价值的问题.对于本人来说,运维的价值不容置疑,只要我们运维人能自我认识突破,更体系化的站在业务角度看待运维价值问题,那我们就不是一个苦逼的成本部门.此时我自然的想到了[IT运营],它带来的视界会更加开阔,能够帮助更好的重新认识运维. 一.运维是什么 运维从IT软

【redis使用全解析】常见运维操作

作者:gnuhpc 出处:http://www.cnblogs.com/gnuhpc/ 1.1 启动 1.1.1 启动redis $ redis-server redis.conf 常见选项: ./redis-server (run the server with default conf) ./redis-server /etc/redis/6379.conf ./redis-server --port 7777 ./redis-server --port 7777 --slaveof 127

关于samba服务器基本运维操作的脚本

最近刚毕业上班,公司很在乎人才培养,最近培训我linux脚本与基本命定,而接触的linux服务器主要是samba,于是拿samba服务器小试牛刀咯!下面是我的脚本,如有更好的方法请多多指教. #/bin/bas #add sambausers user_add() { id smbmin &>/dev/null; while (($?==0)) do read -p "please input user name:"  user_name; id $user_name &

Linux bash运维操作日志审计(单服务器)

目前公司有几台机器比较重要,需要把所有用户的操作记录下来,于是就是参照资料来完成 1. vim /etc/profile.d/oplogrc.sh logdir=/opt/oplog userdir=$logdir/${LOGNAME} DT=`date +"%Y%m%d"` export HISTFILE="/$userdir/history.$DT" export HISTTIMEFORMAT="%F %T :" export HISTSIZ

GTONE服务器日常运维操作

1.启动流程 首先启动分析服务器 gtone-> ll 27828 -rw-r--r-- 1 gtone gtone 0 02-12 09:58 CE_CACHE -rw-r--r-- 1 gtone gtone 0 02-12 10:53 CE_CACHE1 -rw-r--r-- 1 gtone gtone 0 01-05 15:44 CE_LOCK -rw-r--r-- 1 gtone gtone 0 02-12 09:58 CE_TEMPDATA -rw-r--r-- 1 gtone gt

Linux 云服务器运维(操作及命令)

1. 什么是linux服务器load average? Load是用来度量服务器工作量的大小,即计算机cpu任务执行队列的长度,值越大,表明包括正在运行和待运行的进程数越多. 2. 如何查看linux服务器负载? 可以通过w,top,uptime,procinfo命令,也可以通过/proc/loadavg文件查看.procinfo工具安装请参考Linux环境下安装软件. 4. 如何查看服务器内存使用率? 可以通过free,top(执行后可通过shitf+m对内存排序),vmstat,procin

MySQL日常运维操作---持续更新

1.查看当前连接数: 这些参数都是什么意思呢? Threads_cached 25 ##mysql管理的线程池中还有多少可以被复用的资源 Threads_connected 9 ##打开的连接数 Threads_created 55158 ##表示创建过的线程数,如果发现Threads_created值过大的话,表明MySQL服务器一直在创建线程,这也是比较耗资源,可以适当增加配置文件中thread_cache_size值,查询服务器 Threads_running 1 ##激活的连接数,这个数

自动化运维工具--Ansible(安装部署、模块简介与操作)

一.Ansible概述 互联网的快速发展导致产品更新换代速度加快,按照传统维护操作使得工作效率低下,自动化运维以尽可能安全高效的完成工作为目的,实现代替传统工作方式. 自动化运维工具划分为两类: 一是需要使用代理工具的,也就是基于agent程序来实现管理功能,例如puppet.func.zabbix等 二是不需要代理配置工具的,可以直接基于SSH服务来完成管理功能,如ansible,fabric等. 自动化运维工具比较: 工具 开发语言 结构 配置文件格式 运行任务 Ansible Python