做不背锅的运维

系统除了故障,第一个挨板子的就是运维人员。不管任何原因,先找运维,给他一口好锅。运维好苦啊!稳定运行时,似乎是多余的存在;又问题时,要替人背锅。与其被动,不如主动一点,不做背锅侠!

怎么做呢?先看几个例子,亲身经历。

砸锅例一

一支付系统,前端负载均衡,中间tomcat应用,后端memcached加oracle 11G rac两节点集群。遇上好的时机,公司的业务增长很快,但人手有限,跟不上业务的发展,只好尽可能的先上线,发现问题再修正。

某天,在西四环帮人排查宾馆wifi故障,楼里手机信号极差。还没查出什么原因,技术就打电话来质问:“你配的oracle最大连接数,真有3000个么?怎么到300就卡死了?”。赶紧跑到室外,坐在地上用手机打开wifi热点,用笔记本连数据库,load确实很高。还没查出什么原因,那边老板也来电话催促,说业务无法交易。我想,反正无法交易,不如把tomcat停一下,看数据库负载是不是会降下来。在征得同意以后,关掉killall -9 java 关闭tomcat,片刻orace负载下降明显;再启动时,负载狂飙,最高可到600多。

对oracle的一些配置进行了检查,性能未能得到任何改善。于是跟开发人员进行沟通,问他们近期是否做了项目更新?答复是肯定的,但无法确定是哪里的问题引起性能上的问题。我建议在应用服务器上安装某性能监控探针,获得许可,很快就部署完毕。等待10来分钟,数据就出来了。

说明:本图不是事发时截取的,仅仅是为了方便读者了解。
一帮人紧急召集到一块,从性能探针的管理页面找出最耗资源的sql语句进行代码还原(程序员来查这个代码是什么功能)。一番动作之后,告知是后台管理操作--运营人员及代理商查询当日交易数据,由于产品设计上的缺陷,只要数十人同时进行此项操作,数据库就会直接挂起。

这个后台设计上的缺陷主要有一下几点:

  1. 管理后台登陆时,会查询所有代理商的数据,代理商会查询下级代理商的数据。而不管是哪一级的登陆,都会顺带查询其下最终用户的数据。如此叠加,产生巨大的数据查询量。
  2. 数据的统计,不是字段值做数学运算,而是以 select count() 的方式进行。这比单独做一个表,把字段值做数学运算要耗资源。
  3. 不管有无需要,都抓取最终用户的交易详情。总用户数有300多万,运营人员一打开统计,就会去查询这些记录;代理商也是这样,只不过记录数会少一些,但多人操作,就会重复查询,给数据库造成巨大的压力。

负责技术的老总坦承,其实大部分管理,最关心的是总额,很少去挨个查看详情。如果需要查看,再按一定条件去执行这个操作。

弄清了问题,程序员马上去落实,更新代码以后,问题得以彻底的解决。

砸锅例二

夏初的时候,上线了一个区块链媒体项目。预估到流量会比较可观,不仅采购的云主机配置高,而且还是多台,并且购买了负载均衡服务。

可万万没想到,项目一上线,还没做任何宣传,集群中所有服务器的负载都飚得老高,load接近1000,还好没死机,还能远程ssh登陆。

原文地址:http://blog.51cto.com/sery/2162642

时间: 2024-07-28 22:56:33

做不背锅的运维的相关文章

22天.怎样做个合格的网络运维工程师

怎样做一名合格的公司网络运维工程师1.企业网常用的网络技术2.企业网中常见的数通设备3.关注市场占有率高的厂商的数通设备4.交换机常用技术5.路由交换常用架构6.通过各主流厂商模拟器模拟实际操作7.参考各厂商官网方案不断复盘,举一反三8.常见防火墙设备的选型调试9.网络安全.行为管理技术.堡垒机等安全必备技术根据市场需求不断更新网络技术知识 原文地址:https://blog.51cto.com/13744509/2364166

腾讯最赚钱的部门是怎么做运维的?

本文来源:腾讯最赚钱的部门是怎么做运维的? http://card.weibo.com/article/h5/s#cid=1001603864876505250090 腾讯互动娱乐事业群的主营业务是游戏,所有腾讯游戏都是由这个事业群做的,估计很多人都玩过,像<英雄联盟>.<全民突击>等.我所在的部门叫运营部,负责所有腾讯游戏的技术运营工作. 简单解释一下,什么叫技术运营工作,这里包括了几个部分:运维,营销开发,数据分析和数据挖掘,用户运营(所谓用户运营,不是传统的客户服务,是一些高

7.学完linux系统运维到底可以做什么?

linux运维到底可以做什么?(略有改动原文.排版) 运维,很容易从字面理解为运营.维护. 很多朋友认为,在互联网公司中linux系统运维的工作就是安装系统,部署服务.处理紧急故障,为公司里的开发人员及其它部门提供支持服务.同时,还可能负责公司办公内部和IDC外网的网络业务稳定. 没错,上面的工作的确是运维的一部分工作,但并不是全部,或者说是中小公司低级的运维劳动. 在老男孩看来,除了上面的角色外,运维人员还是管理.制度.规范.流程的制定和推行.监督角色. 运维的核心是运维思想,非运维技术本身(

背锅侠的逆袭之路

最近,跟一个同行朋友小张聊天,他非常苦恼,因为工作不如意,他入职这个企业已经3年了,做的是网络工程师,薪资不高,公司事情还一大堆,还经常被迫背锅,眼看一把年纪了,发现不能再这样下去了,想转行做运维. 经过与他的深聊,发现很多朋友都有类似问题.对于这些问题,我也有多年的学习经历和经验,既然要说,那就好好给大家分享下吧,也算总结下自己多年运维行业Linux运维的心理路程. 怎么快速入门Linux? 还是先来说说自己吧! 记得最早接触Linux是在2000年,那个时候,我还在上大学,一个同学从荷兰归来

背锅侠逆袭之路

小张,3年网工一枚,常常抱怨:薪资不高,琐事一堆,常常背锅. 眼看一把年纪了,发现不能再这样下去了,向我讨教一条逆袭之路! 既然要说,那就和大家一起分享下吧,顺便总结下十几年的Linux运维经验. 聊聊:自己吧! 最早接触Linux是在2000年,那时,我还在上大学.一个从荷兰归来的同学,带回一个Linux的拷贝版,版本还是个人版Redhat6.2. 为安装这个系统,我们挑灯夜战,不亦乐乎.那时Linux的学习资料还很少,能够学习的书籍也不多,网上Linux技术社区更不多,便凭着Redhat6.

运维是什么!

运维,很容易从字面理解为运营.维护. 大部分朋友认为,在互联网公司中linux系统运维的工作就是安装系统,部署服务 处理紧急故障,为公司开发人员及其它部门提供支持.同时负责内外网的网络稳定. ------------------------------ 没错,上面的工作的确是运维的一部分工作,但并不是全部,或者说是中小公司低级的运维劳动. 除了上面的角色外,运维人员还是管理.制度.规范.流程的制定和推行.监督角色. 运维的核心是运维思想,非运维技术本身(如部署服务等,这是部分朋友的误区). 上百

掌握Linux系统后3个月内找到一份9K运维工作

毕业后做了3年机房运维,每天看看路由器,交换机,服务器状态,检查检查AP是否在线,服务器的硬件资源是否吃紧,并没有什么真正的技术,偶然的机会我接触到了Linux,了解到Linux操作系统是当前大多数服务器的操作系统,而且是开源的可以自由的下载学习,最重要的是它是云计算,虚拟化的基础,学会以后可以往许多方向发展,比如系统工程师,虚拟化工程师,云计算工程师等:于是就开始了我学习linux的学习之路,近些日子换了个linux运维的工作,每个月9千是之前的两倍了,对我来说比较满意.找工作的时候走了很多弯

老男孩32期脱产运维班决心书 月薪:8K+

决心书 我叫张晓伟,来自河北省张家口市,高中学历,现在是成考的大专学历,上学时候不好好上,天天玩儿,上网,打游戏,高中还没毕业就来到北京学摄影,当助理,一月800的工资,半年以后,自己出去找了一份感觉还不错的 摄影工作,做了几个月后,老板不发工资,带着钱跑了,来年到北京感觉摄影和我不投缘,又改行做IT,(桌面运维)干了2年左右, 开始还挺上心,后来也是心不在焉的.没有方向.自己对社会一无所知,不知道什么是想要的和不想要的.这一次,我要好好奋斗, 好好学习,选择高薪的,毕业以后找一份月薪:8K+

DBA避坑宝典:Oracle运维中的那些事儿

对于Oracle运维中的那些事儿,我的最终目的:不是比谁更惨,而是能够从中吸取经验和教训. 从我的理解来看,我会从下面的几个方面来进行说明DBA运维中的一些事儿. 每个部分都是非常关键的,缺一不可,而且每一部分都有很多的东西可以细化,我会逐一展开来说. (一)环境篇 首先来说说环境篇. DBA的角色及分工 对于DBA的分工,以前的公司对于DBA角色划分粒度还是很细的. 大体是按照核心和客户化定制层来划分的,核心层主要负责产品化,客户化层面主要负责定制.属于不同的产品线但又彼此紧密关联. Phys