对运维工作的理解

(一)运维,从字面意思很容易理解,就是运营、维护。有很多朋友认为,在互联网公司中Linux系统运维的工作就是安装系统,部署服务处理紧急故障,为公司里的开发人员及其他部门提供支持服务。同时,还可能负责公司办公内部和IDC外网的网络业务稳定。
以上的工作的确是运维的一部分,但并不是全部,只是中小公司低级的运维劳动,在我看来,除了上面的角色外,运维人员还是管理、制度、规范、流程的制定、推行、监督角色。运维的核心是运维思想,而非运维技术本身,上百台以上的服务器的规模如果没有好的管理流程、规范、制度策略是无法协调工作的,上千台、上万台更时如此。
运维流程、运维规范、运维制度、自动化、智能化、批量部署、批量管理、网站架构优化、监控预警、流量及日志分析统计、权限、安全优化管理、账户统一认证等。这才是真正的运维人员需要做的。如何推进并完善上面的工作,提升工作效率,提升团队以一当十的战斗力才是最核心的内容。
运维的宗旨:7*24小时网络稳定、用户体验良好(包括内网的员工、外网的网站用户),所以我们做什么都不要离开运维的宗旨,否则你的工作可能就是徒劳的无用功。有经验的运维会先思考再动作,经验不足的运维只会做一步想一步,遇到问题再思考,这是完全不同的层次境界。所以别轻易说自己精通什么服务,会多少软件,那只是几块砖头、几袋水泥而已。盖好大楼,这些仅仅是基本的元素,运维同样如此。

(二)有人说运维的本质是“可视化”,这个观点是不客观的,在我看来,运维的本事是“可控”运维本身是一个复杂的体系,它除了技术之外,经验积累、视野、大局观、甚至是心胸都有可能决定成败。优秀的开发者比比皆是,但是优秀的运维少之又少。
第一点:稳定性“可控”。运维不是维护一两台机器,发布代码就好,而是要做成千上万,甚至几十万台的服务器和各种网络设备、存储设备等专有设备维护,这些服务器包含webserver、DB、cache、CDN、computing多种类型,如何让这些大量的服务器稳定的跑在生产环境中,不因为硬件损坏、发布变更、系统升级而引发的业务系统故障。没有东西是不会坏的,没有系统是没有bug的。硬件要坏,系统升级,发布变更,这些都没有关系,但是最重要的,一旦发生这些之后,运维人员知道,这些业务影响多大,需要多少时间和工作量恢复。
第二点:性能“可控”。对于系统DBA来说,最痛苦的地方不在于“慢”,而在于时快时慢,这样对于DBA在维护是无异于自杀,很多云计算厂商做设计的时候,往往也会忽略这一点,其实性能的问题,比最高性能,来的更重要的多!非常漂亮的数字不能解决问题,但是出现一次性能不足,可能就引发故障。
第三点:安全“可控”。有没有绝对的安全呢?理论上没有,所以运维的同学,总要花很多精力在系统安全上,比如控制哪些用户可以登录系统环境?哪些用户是可以进行变更?哪些用户甚至可以拿到最高权限?测试和开发隔离,公司内外隔离,都是因此而生。只要能够控制权限的面积,范围,就能知道风险,这便是所谓的安全“可控”。重要如上所示,但是正如一开头所说,运维的内容相当繁杂,交付“可控”,变更内容“可控”,效率“可控”都是可以值得深究的东西,因此,无论是“可视化”、“大数据”、“运维自动化”等等,都是在为“运维可控”服务的。数据可视化,带来的是规模可控;运维自动化,带来的是效率可控风险可控,如是而已。每一个点的提升,都是运维的提升,希望所有从事运维的同学,都能感受到,做什么可以让“可控力”提升,不要再半夜的时候处理故障,不要和女朋友看电影的时候回公司处理故障,也许我们再次遇到这些问题的时候,可以拿起一杯茶,做一个优雅的运维。

原文地址:https://blog.51cto.com/13613726/2459900

时间: 2024-11-02 01:22:56

对运维工作的理解的相关文章

Linux运维工作经验小叙

个人认为一个运维人员最应该的一天工作时间安排: 40%,处理紧急重要的事情:60%,开展重要不紧急的工作.紧急重要很容易理解,其实就是救活类工作.重要不紧急的工作,才是最能体现运维价值的工作. 监控系统,这是一个大话题.除了被动地监控各类服务的正常工作与否,还有主动开发协助系统分析的系统,并对整个系统的未来有规划性的开发工具型系统.提高自己和团队内所有人的工作效率的一些工具,尤其是可以快速解决那些中断的工具. 学习,这个是最重要的.运维涉及到的知识面非常广,不断学习才能顺利快速解决工作中出现的种

浅谈SDN架构下的运维工作

导读 目前国内的网络运维还处于初级阶段,工作人员每天就像救火一样,天天疲于奔命.运维人员只能埋头查找系统运行的日志,耗时耗力,老眼昏花不说,有时候忙了半天还一无所获,作为运维工程师的你,有木有遇到过类似苦逼的经历? 目前国内的网络运维还处于初级阶段,工作人员每天就像救火一样,天天疲于奔命."什么破网络怎么又断了","我去,服务器宕机啊","这个网速慢的跟乌龟爬的一样",这些埋怨声每天都在运维人员耳边回荡.运维人员只能埋头查找系统运行的日志,耗时耗

云环境下运维工作面对的诸多新挑战

随着公有云(尤其是公有云IaaS)的普及,整个云上运维和传统IDC中的运维还是呈现出比较明显的不同点,我们可以从下面几个角度来理解这种不同点. 1.应用运维成为云上用户的运维重心. 一般来说,很多企业的运维部门主要工作包括基础运维(针对企业IT基础设施的运维).应用运维(针对企业具体业务的运维),较大的运维部门可能还有单独的运维开发,负责为公司运维部门开发运维工具和平台.当用户决定上云(尤其是IaaS公有云),就表示用户已经把基础运维以及相关的工具平台开发工作交付给云供应商,而把应用运维作为整个

五年屌丝运维工作shell精华

屌丝运维常用shell列出你最常用的10条shellhistory | awk '{a[$2]++}END{for(i in a){print a[i] " " i}}' | sort -rn | headhistory | awk '{a[$4]++}END{for(i in a){print a[$i] " " i}}' | sort -rn | head grep -v "#" .bash_history |awk '{++a[$1]}EN

日常运维工作中如何确保你的linux操作系统安全

在现在这个世道中,Linux操作系统的安全是十分重要的.但是,你得知道怎么干.一个简单反恶意程序软件是远远不够的,你需要采取其它措施来协同工作.下面是日常运维工作中常用的几种Linux安全的策略方法. 1. 使用SELinux SELinux是用来对Linux进行安全加固的,有了它,用户和管理员们就可以对访问控制进行更多控制.SELinux为访问控制添加了更细的颗粒度控制.与仅可以指定谁可以读.写或执行一个文件的权限不同的是,SELinux可以让你指定谁可以删除链接.只能追加.移动一个文件之类的

运维工作解释

2017/3/9 PC小记:<运维之下>的文档作者对运维工作的解释清晰明了,有利于工作的划分和职业的规划,因而值得整理后分享. https://github.com/opera443399/ops/tree/master/doc/ARCHITECTURE/ops [Q]:如何开展运维工程师的工作? A:推荐<运维之下> ---------------- [运维工作解释] ---------------- 第一章:互联网运维工作 http://mp.weixin.qq.com/s?_

运维工作中的bootstraping之PXE自动安装操作系统

运维工作纵向来看主要分为三个方向: 1.BootStraping:主要做的是操作系统的安装与配置,包括Bare Metal(pxe,cobbler)和Virtual Machine(image files). 2.Configuration:主要使用运维工具如puppet(rubby研发).saltstack(python研发).ansible.chef.cfengine等自动化运维工具做应用程序做批量部署与配置. 3.Command and Conrol:主要使用自动化运维工具发送命令或指令实

[转]运维工作解释

运维工作解释 2017/3/9 PC小记:<运维之下>的文档作者对运维工作的解释清晰明了,有利于工作的划分和职业的规划,因而值得整理后分享. https://github.com/opera443399/ops/tree/master/doc/ARCHITECTURE/ops [Q]:如何开展运维工程师的工作? A:推荐<运维之下> ---------------- [运维工作解释] ---------------- 第一章:互联网运维工作 http://mp.weixin.qq.

关于Linux主流框架运维工作剖析

LINUX是开源的,这也是最主要的原因,想学Windows,Unix对不起,没有源代码.也正是因为这样,LINUX才能够像雪球一样越滚越大,发展到现在这种规模.今天将为大家带来关于Linux主流框架运维工作剖析,大家一定要认真阅读哦~ 随着IT运维的不断发展,尤其的Linux的飞速发展,越来越多的企业开始使用Linux操作系统平台,例如CentOS.RedHat.Ubuntu.Fedora等等,成千上亿个网站涌现在当今互联网,互联网已经成为必不可少的工具,那今天我们跟大家一起来分享讨论目前用的最