2010年12月底项目实施过程中, NGCC系统发生了一次重大的故障,当时的处理过程和上月底支付宝故障的处理过程有点相似,在这里来说说吧。故障的原因是一台数据库主机的交换分区耗完了(是P595主机的配32个CPU 96G内存),但是主机并没有宕掉,导致服务不能自动切换到另一台主机上,当时的影响是广东移动半个省的10086电话受到影响,而时间大概11点多,已经进入了业务的高峰期。这是个非常严重的故障立刻上报省公司。分析故障最后给出的解决方案是关掉监听,让应用自动切换另一台主机。把方案上报后,等待省公司领导批准。但事情并没有想象的那么简单。为什么呢?就是因为有一套应急系统在那放着。最后省公司的领导让切到应急系统上,先让主流程开始服务,其它的问题后续再解决。
好吧,领导让用应急那就用应急吧,结果应急系统上面还是旧系统的流程文件,马上从新系统上拷贝一份完整的流程文件替换到应急上面,修改配置,启动相关服务,大概20分钟左右完成,至此10086电话可以打通了,当然只能提供主要的流程服务。时间已经过了1个多小时了,主流程可以使用了,下面马上解决主机交换的问题,修改交换分区重启主机,几十分钟又过去了,主机终于搞好了,数据库能正常使用了,再次上报省公司领导是否马上切换回来,因为应急系统无法提供完整的服务,等待.................,终于领导下令了切换回来,切换很快完成,故障解决了,但是时间已经过去了两个多小时。
支付宝的故障是怎么处理的,我不清楚,但估计不是那么简单的进行二选一(即让高层领导在启用应急和重启服务之间做出选择),少不了要层层汇报,同时还要给领导讲出充分的理由,为什么要这么做,利弊是什么。然后领导们再进行决策,估计是集体的决策。领导也要考虑责任问题的,集体的责任总比个人的责任强吧!所以事情没有我们看的那么简单的,绝对也不会简单的。 我们可以把问题看简单,但领导不能把问题看简单,这恐怕就是为什么我们当不了领导的原因吧!
2011年离开通信行业进入互联网行业,也做过一些项目,如某公司的CRM系统,某电商公司的分布式服务平台项目(系统架构:LVS + 集群应用服务器 + 11G RAC,前端使用DNS加速,后端使用memcache缓存),对这些项目的感受是,无论从规模上、技术上、项目管理水平、项目参与人员的素质等方面,与广东移动的项目都有很大差距。别的不说,没钱没权,什么也干不了,干了也干不好,我曾经遇到个只有几十万的小项目,拖拖拉拉一年多,最后项目不了了之,买方拿到的东西不是他所想要的,卖方说那点钱只能做出这个啊!最后买卖双方都是一无所得。看着都累,更别说做了。经常有人问,项目成功靠什么,什么时间、成本、质量、范围,狗屁!我看靠的就是权和钱,没钱没权拿什么做项目、拿什么笼络人心、拿什么吃吃喝喝、拿什么进行黑幕交易,在这个非常现实的社会里,必须先解决这些非常现实的问题,然后才能开始做项目,当然了时间、成本、质量、范围、沟通也是很重要的。
以上就是本人那些年做过的项目,就先唠叨到这吧!