运维感悟

运维职责:

服务:7*24小时不中断

数据:数据不丢失

学习态度:

暂无

文档的规范要求(适用大部分):

问题现象

解决问题的思路

待优化的点

具体实现步骤

运维感悟:

所有的变更操作都要进行任务记录授权,不操作口头形式的操作要求。

拒绝任何单点主机、业务应用和数据库,拒绝无法使用idrac登录的物理主机。

salt批量操作的命令需要进行授权管理,需要审核,登记,批复。

注意:不要使用yum的删除功能删除软件,会删除相关依赖,导致意外问题

时间: 2024-10-05 19:48:43

运维感悟的相关文章

GOPS 2018全球运维大会上海站 参会感悟梳理

今天遇到很多优秀的讲师.业界的大伽,很开心 现在把get到的信息梳理一下:(1)想解决性能问题,一定要在缓存上下功能:[nginx上有好多文章可以做,真是博大精深呢<深入理解Nginx:模块开发与架构解析>--陶辉](2)空间组度的缓存:把这个数据相关的都读到缓存中(这会增加复杂度,只有特殊场景才会这样做,譬如腾讯的社交应用)(3)容器化.云化是以后的方向(4)发版本的权限下放给开发,但要有一些规则,譬如灰度跑了一台并且错了,就不能发.发布频率不能过高(5)Zipkin只是数据抽取,SkyWa

奔跑中的2015——运维在路上

沿用博文中的开头,2015已过一半,忙忙碌碌中,我们奔波在技术的探索路上,同样在为生活而拼命的在路上跑着.   对于技术的感悟:我认为技术的实质,是分享. 相信大家都有过这样的经历,工作中遇到解决不了的问题,需要找相关资料来处理.作为混迹团队的老鸟,会告诉你用谷歌,而不是去百度.因为即使是去看半懂不懂的英文资料,也要比百度解决的更快.当然,有人会对我这个观点表示怀疑,认为很多问题都是依靠百度解决的.不可否认,我也会经常百度,查查解决方案.但涉及到新的技术,百度中能查到的中文资料就会少之又少.在这

【51CTO学院三周年】-感谢恩师马哥让我成为Linux运维工程师

[51CTO学院三周年]学习.提升.感恩 --感谢51cto学院和恩师马哥让我成为Linux运维工程师   今天是学院三周年学院给了我很大帮助今天我也来写一下我的真实感悟心得.我是12年在网上无意搜索发现有个很好的IT互动网站叫51cto,当时记得还有个叫CSDN,但是对比了下感受还是51cto的氛围和功能更ok点,慢慢也喜欢上这个风格了.没事儿就看看新闻看看博文.收获也挺大的. 在学院成立,我就开始看一些视频课程学习,看过韩老师的windows.一次偶然机会看到马哥讲linux的课程,马哥讲的

《系统运维全面解析》新华网副总裁作序,360、触控等多位总监经理推荐

<系 统 运 维 全 面 解 析>前言 执笔: 韩晓光 (QQ群:117174700) 本书初衷 有朋友问我系统运维是做什么的,是不是类似网管天天修电脑?对此问题,我一言难尽,其实运维工作涉及的东西很多.此时我便有一种冲动,去写一本关于系统运维的书,介绍一些事实真相. 翻 读<史记>让人感到历史的厚重,人类的历史就是不断认识自己,认识社会,认识这个世界的过程,人类在自导自演中创造了社会文明.但是,试想山间花果的荣 枯,若你看不见闻不到,则对你来说它们似乎不存在.当然,也正是历史学家

从软件部署看运维的四种境界

首先,博文的名字很难取啊,叫什么都感觉不太对,这里就暂定这样吧.不可否认这里有点哗众取宠的动机,不谈境界总感觉格局不够大哈. 中国哲学家冯友兰先生说过,人生有四种境界:自然境界.功利境界.道德境界.天地境界.经过长期的部署安装软件服务,感觉最近手熟多了,通过实践可以得出一些方法,方法总结起来 就可以组成一套方法论了,但作为国人,还是用格局,境界之类的词更有亲切感. 不多说废话了,下面上干货.(我所理解的干货,也可能不是,牛人请忽略) 下面通过具体的安装redis这个小软件来说明问题,我分别附上四

读SRE Google运维解密有感(一)

前言 这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考 SRE 有关SRE我就不多介绍了,中文名字叫站点可靠性工程师,它的由来是google想通过软件工程师来解决复杂运维问题. 它里面有很多有意思的点,比如: 运维工作只能占比工作时间50% 另外50%要开发工具解决问题 SRE和开发工程师会轮岗 这些相关概念网上很多都介绍了,我就不赘述了,我说下一些我感兴趣的点 谷歌神话 谷歌一直在技术

Linux运维工程师的一天是如何度过的

下面先简单介绍一下个人这几年从事运维工作以来得出的感悟与体会 1.操作系统状况检查与告警登录系统或者通过监控报警平台查看系统运转的负载 磁盘空间状态,内存使用状态,有无报错日记, 查看报警记录等. 2.操作系统故障处理   根据检查与监控的情况,对发现的系统故障进行处理,对己知故障进行预防方案部署,在日常运维中,还会有许多其他部分提出的问题返遗,比如客户经验会反应某某地区用户访问网站速度慢 像这种情况要结合南北线路,以及用户的网络环境等综合因素进行处理. 3.服务器性能分析和优化 通过监控平台

读SRE Google运维解密有感(三)

前言 这是读"SRE Google运维解密"有感第三篇,之前的文章可访问www.addops.cn来查看.我们今天来聊聊"on call"也就是运维值班制度, 本人到目前为止也还在参与一线运维的值班,对运维值班体系也有一些感悟和心得,再参考SRE的"on call"中的方法来说说这个让运维同学"又爱又恨"的值班. 值班 因为运维人员的工作性质,要时刻保障线上服务的稳定可用,遇到事故问题要第一时间处理,所以很多运维团队的工作必须

我是运维,我想和大家谈谈心!

运维: 如果真心要定义运维是做什么的,恐怕说了一大堆比较官方的话给不懂的人讲也是白搭.那么我就按照我自己的定义谈谈运维吧. 1.表面就是网站正常运行.(不懂的人可能会说,好好的,怎么会停...) 2.软硬整合,低成本.高并发.高可用.可扩展.提供优质服务(不懂的人会奥...) 3.安全(不懂的人可能会说,怎么就不安全了,顿时无语.) 4.网络(在不懂的人眼里运维什么都要会,修电脑,水晶头,网等貌似和网络相关都要懂) 5.开发(多多少少都要懂开发,这是开发眼里的运维) 常听到的话: 1.帮我看看电