对线上系统维护工作的总结与思考

  背景描述:目前在一家网站公司工作,2015年初研发中心部门改革,小组重组,被分配到了网站平台的维护组。下面内容是对近期维护工作的一个总结:

  个人感受:以前也在老东家的团队也做线上系统的维护和新产品的研发,由于大家的认真负责,Leader的管理也很到位,线上的系统很少有bug反馈,不管是UI上迭代,还是系统逻辑的升级都很顺畅。
  目前负责的平台运行了3年多,可能由于当时逻辑设计问题,也可能是执行问题,发现近期反馈的问题多是逻辑问题,在此对这些问题的原因不做探讨和深究,只是想讲讲面对线上问题的维护工作如何做,以及如何优化:
  1, 对问题反馈流程的完善:面对客服、销售、营销中心不同部门的反馈,一定要建立反馈流程,不然5个人的支撑小组工作会很繁忙,并且接口人只有一个人。

  没有流程就没有规范,也就没有后期调整的数据来源。
  对流程的建立,起初可能会让以前没有走流程的人心理上有点不舒服,但长期看对工作效率是有帮助的;

  2,对线上问题的优化级的判断规则与逻辑:
  每个部门反馈来的问题,都说时间很急,想立马解决,可是小组的资源有限,不能让问题牵着鼻子走,要对bug的严重性、解决方案做预估,做工期整理;

由于小组职责的定位不清晰,导致现在对很多问题反馈都做处理,本来应该客服去解决的问题,小组成员在解决。

  3,对线上系统维护工作和新产品研发任务的时间平衡:
  众所周知,大家都喜欢做新产品,不喜欢维护旧有的系统,原因不言而喻,呵呵。
  可是,线上系统的bug不修复,就是对用户的不负责。1个月4周的时间,至多2周的时间、资源、精力解决线上bug,保证至少有2周的时间来对新产品的研发。

~~~~~~~~~~~ 华丽的分割线 ~~~~~~~~~~~~~~~~~~

  今天刚好看了一本书:《网站可用性测试及优化指南》,虽然是讲可用性测试的内容,但是读了2章发现对于线上系统的bug修复工作也有指导意义,下面摘录了几条观点:
  1,对问题做优先级判断,优先解决最糟糕的问题;
  方法:开小组会议,在问题清单中找出最严重的10个问题,然后提出解决方案并执行;
  2,越少越好:修复问题时,投入越少越好;在快速修复和完美修复之间做取舍,目前针对我们小组的情况,我选择快速修复。
  方法:1,微调,而不是重新设计;2,做减法;

写这篇帖子,用了30分钟,以后争取多写些帖子,针对技术、工作、生活,记录自己的成长!

时间: 2024-11-08 04:24:48

对线上系统维护工作的总结与思考的相关文章

(转)HBase工程师线上工作经验总结----HBase常见问题及分析

阅读本文可以带着下面问题:1.HBase遇到问题,可以从几方面解决问题?2.HBase个别请求为什么很慢?你认为是什么原因?3.客户端读写请求为什么大量出错?该从哪方面来分析?4.大量服务端exception,一般原因是什么?5.系统越来越慢的原因是什么?6.Hbase数据写进去,为什么会没有了,可能的原因是什么?7. regionserver发生abort,遇到最多是什么情况?8.从哪些方面可以判断HBase集群是否健康?9.为了加强HBase的安全性,你会采取哪些措施?在Tcon分布式系统测

HBase工程师线上工作经验总结----HBase常见问题及分析

阅读本文可以带着下面问题:1.HBase遇到问题,可以从几方面解决问题?2.HBase个别请求为什么很慢?你认为是什么原因?3.客户端读写请求为什么大量出错?该从哪方面来分析?4.大量服务端exception,一般原因是什么?5.系统越来越慢的原因是什么?6.Hbase数据写进去,为什么会没有了,可能的原因是什么?7. regionserver发生abort,遇到最多是什么情况?8.从哪些方面可以判断HBase集群是否健康?9.为了加强HBase的安全性,你会采取哪些措施? 在Tcon分布式系统

关于线上故障的思考

周末早上,一个哥们突然@我,问是否有线上故障处理和定级的规范或者模板,虽然手头有既有文档,但内容显的太具象了,跟我们的业务有很强的关联性,并不是那么好直接复制到他的团队中.因此,个人对过去的线上故障处理进行了回顾和思考,并进行了简要的归纳,望帮助到需要的同学.文本将按事中处理.事后总结和事前预防的顺序进行介绍,不足之处望大家不吝赐教. 换个角度来说,其实故障处理的过程,和小朋友发高烧的处理过程类似.首先mama会带孩子上医院,如果温度高医生会要求打退烧针,类似发布回滚,之后再通常吃对症的药物慢慢

为什么我执行了发布操作,但是线上的资源并没有更新?

随着整个互联网时代的发展,前后端职能的分离,在过去的一段时间里,前后端各自仅只关注自己最擅长的领域.但是,随着"大前端"时代的到来,前端们又一次开始需要关注后端,或者前后端链接的问题了. 本文起源于笔者的一次线上发布经历,事情的前因后果大概就如何题目所提到的,但是诡异的还不仅如此,当笔者执行了release操作之后,如果用之前访问的链接(如http://www.examplae.com)去访问执行了发布的web应用的话,会发现资源并没有更新,但是如果给这个链接加上一个参数(如http:

线上性能问题初步排查方法

文章出处http://ifeve.com/find-bug-online/ 有时候有很多问题只有在线上或者预发环境才能发现,而线上又不能Debug,所以线上问题定位就只能看日志,系统状态和Dump线程,本文只是简单的介绍一些常用的工具,帮助定位线上问题. 问题定位 1: 首先使用TOP命令查看每个进程的情况,显示如下: top - 22:27:25 up 463 days, 12:46, 1 user, load average: 11.80, 12.19, 11.79 Tasks: 113 t

线上使用zabbix报警脚本(含图片)

分享一个线上使用的自定义zabbix报警脚本,脚本思路大致如下: 1.使用爬虫获取报警图片(前提是要获得报警的item) 2.将图片与邮件内容整合 3.发送邮件 4.日志记录 脚本内容如下: #!/usr/bin/python #coding:utf-8 import sys,time,re,os,glob import smtplib from email.mime.text import MIMEText from email.mime.image import MIMEImage from

记Booking.com iOS开发岗位线上笔试

今晚参加了Booking的iOS职位线上笔试,结束后方能简单归纳一下. 关于测试内容: Booking采用了HackerRank作为测试平台,测试总时长为75分钟,总计4道题. 测试之前我很紧张,因为根据之前参加微软的Online Test经验来看,应该会有一些复杂的算法题.但是事实上Booking测试的题目,前三题均没有涉及高深的算法,都是一些基础的Objective-C和iOS开发的知识,这反而带了更大的困惑,想的太多反而浪费了大量时间. 测试邀请邮件 最后的结果是完成了3/4,因为时间没了

IT线下教育培训之殇,IT线上教育培训曙光

年关已近,大事减小,终于有空腾出精力学一些新的技能了,目前一直选择在线的几家It教育网站学习.在学习之余,也无慨叹如今的It教学通过网络已经飞入了寻常百姓家.我们学习技能的成本变得很低,学习It技能定位更准确了.于是联想到了关于自己的It学习技能之路. 在我大学即将毕业那年,本指望着大学学习的知识可以找到一份工作,但是确事与愿违.因为求职的四处碰壁,又看到周遭的同学有些参加了一些培训班,出来后找的工作还算说的过去.我也毫不犹豫的选择了一家北京的IT培训机构学习Net技术.在那个高强度的4个月培训

简单实用可线上应用的线程池组件

0 前言 线程池的组件网上很多,之前我自己也尝试写个一个demo,但这些组件一般都比较简单,没有完整的实现后台线程池组件应用的功能.因此,这里我们实现一个可以用在线上环境的线程池组件,该线程池组件具备线程池应用的特性,如下所示: 1. 伸缩性:即线程池中线程的个数应该是动态变化的.繁忙的时候可以申请更多的线程:空闲的时候则注销一部分线程. 2. 线程状态:线程池中对线程的管理引入睡眠.唤醒机制.当线程没有任务在运行时,使线程处于睡眠状态. 3. 线程管理:对线程池中线程的申请和注销,不是通过创建