学习灾难

昀哥(老兵笔记) 20200202

有人问为什么不能吸取2003年SARS的教训?为什么不带护目镜?为什么不知道粪便里有活性病毒?十七年前不就都知道了吗?

1

并不是每个行业每个实体都能吸取同行的经验教训,虽然平时我们也都在学习借鉴别人的成功与错误。

最近的一个例子是,京东2020年1月8日的无门槛优惠券事件,与2019年1月20日拼多多无门槛优惠券事故如出一辙。

前者把京东自营小家电品类上到了200元无门槛券的适用区域里,时间长达五十分钟。后者是把一个已过期的运营活动误操作,导致凌晨重新上线,羊毛党徒们彻夜狂欢。

很遗憾,这样的悲剧每年可能都会来一次。

2

我曾写道:

整整齐齐摆放的行李箱,提醒我们仍然是善于遗忘的愚蠢的人类。

——郑昀,那些年我们一起犯过的错

航空业与医疗业对错误的态度是迥然不同的。航空业更愿意正视错误,飞行员们总体上说对自身的失误都抱着公开和坦诚的态度,部分原因是错误会导致他们自己死亡。这个行业里有强势并独立的组织专门负责对空难进行调查。失败不会被当成控诉某一位飞行员的理由,而会被视为能让所有飞行员、航空公司和管理者们学习进步的一次宝贵机会。

而医疗界相对来说,死的更多是患者,还有论文的KPI压力,所以行业偏保守。但SARS和本次肺炎事件都威胁到了一线医护人员的生命安全,所以可能对行业协会有一定促进作用。

3

丰田生产体系和管理方法中有一条是人员自主化

人员自主化是人员与机械设备的有机配合行为。生产线上产生质量、数量、品种上的问题机械设备自动停机,并有指示显示,而任何人发现故障问题都有权立即停止生产线,主动排除故障,解决问题。同时将质量管理溶入生产过程,变为每一个员工的自主行为,将一切工作变为有效劳动。

它强调一种由下而上的管理,各项作业流程的规定、实施和监督都是由现场作业人员通过相互讨论、学习而形成的,而不是领导给你拍了个工作规范。这某种程度上与航空航天是相通的,如果对待错误的态度是开诚布公的,那么整个系统就能从中学习,能取得进步。

4

经常看我的文章的人都知道,在日常工作中,对于事故处理,我们一向遵从航天二十字诀:定位准确、机理清楚、可以复现、措施有效、举一反三

我们坚持每错必查、错了又错就整改、每错必写,用身体力行告诉每一个新员工直面错误、公开技术细节、分享给所有人,长此以往,每一次事故都会变为我们的财富,成为了团队的传承和家底。

RCA报告的标准格式为:

背景知识(Optional)问题现象影响范围问题原因问题分析过程(Optional)解决办法后续处理措施:如线上脏数据如何修复,如对用户造成的影响如何弥补等(Optional)经验教训RCA类型:如代码问题、实施问题、配置问题、设计问题、测试问题

但即使是有了RCA制度和案例库,我们日常工作仍然会挂一漏万,毕竟人不是机器。那怎麽办呢?

5

这么办:

第一,在专业领域里,千万不能让外行领导内行!

我发现好多做管理的都不知道这一条,总觉得我做管理的能管天下万事万物。扯淡!

第二,投入人力物力在增长体系内功、有助传承的长期项目上,工具化,通用化,标准化,自动化,数据化。医疗和IT以及其他各行各业多看看《清单革命》和《黑匣子思维》这两本书。

在面对安全、审计、质量控制等要求时,更愿意选择用“机器(注:这是一个泛指)”解决,而不是增加流程,增加中间节点。

酷壳陈皓说过,技术债是不能欠的,要残酷无情地还债。很多事情,一开始不会有,那么就永远不会有。一旦一个事情烂了,后面只能跟着一起烂,烂得越多,就越没有人敢去还债。

所以凡是被不断重复的过程,一定要将其工具化,绑定到自动化流程之中,减少基层员工不必要的心智负担。

第三,定期做灾难演练。

近年来工业界有一种混沌工程(Chaos Engineering)理念,这是在分布式系统上进行实验的学科,目的是建立对系统抵御生产环境中失控条件的能力以及信心,最早由Netflix及相关团队提出。它的核心思想是,减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。阿里巴巴对应的开源混沌工程工具名叫 ChaosBlade,就是专门做故障注入的。

比如阿里巴巴经常搞的断网断电演练和生产突袭。

你不能指望平常没做过异地多活切机房,灾难来临的时候所有人能步调一致、有条不紊地切换流量和机房。

-EOF-

原文地址:https://www.cnblogs.com/zhengyun_ustc/p/12286049.html

时间: 2024-11-05 01:01:58

学习灾难的相关文章

python学习第二天

python学习的第二天就是个灾难啊,这天被打击了,自己写的作业被否认了,不说了,写博客还是个好习惯的,要坚持下去,就不知道能坚持到什么时候.呵呵!!! 这天教的知识和第一天的知识相差不大,区别在于比第一天讲的更细了(我们是两个老师教的,风格是不一样的),这次也写那些比较细的知识点. python的简介 (1)你的程序一定要有个主文件. (2)对于python,一切事物都是对象,对象基于类创建.#似懂非懂,不过有那么点似懂. 知识点 #__divmod__ 会把两个数字相除的商和余数以元组的方式

重磅︱文本挖掘深度学习之word2vec的R语言实现

笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力 了". 基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义:但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序. 如果想要了解word2vec的实现原理,应该读一读官网后面的三篇参考文献.显然,最主要的应该是这篇: Distributed

Dlib+OpenCV深度学习人脸识别

目录(?)[+] DlibOpenCV深度学习人脸识别 前言 人脸数据库导入 人脸检测 人脸识别 异常处理 Dlib+OpenCV深度学习人脸识别 前言 人脸识别在LWF(Labeled Faces in the Wild)数据集上人脸识别率现在已经99.7%以上,这个识别率确实非常高了,但是真实的环境中的准确率有多少呢?我没有这方面的数据,但是可以确信的是真实环境中的识别率并没有那么乐观.现在虽然有一些商业应用如员工人脸识别管理系统.海关身份验证系统.甚至是银行人脸识别功能,但是我们可以仔细想

机器学习--如何将NLP应用到深度学习(3)

数据收集以后,我们下面接着要干的事情是如何将文本转换为神经网络能够识别的东西. 词向量 作为自然语言,只有被数学化才能够被计算机认识和计算.数学化的方法有很多,最简单的方法是为每个词分配一个编号,这种方法已经有多种应用,但是依然存在一个缺点:不能表示词与词的关系. 词向量是这样的一种向量[2.1, -3.31, 83.37, 93.0, -18.2, --],每一个词对应一个向量,词义相近的词,他们的词向量距离也会越近(欧氏距离.夹角余弦) 词向量有一个优点,就是维度一般较低,一般是50维或10

关于机器学习和深度学习的资料

声明:转来的,原文出处:http://blog.csdn.net/achaoluo007/article/details/43564321 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. &

Linux运维学习历程-第十六天-磁盘管理(三)逻辑卷快照

概述:逻辑卷管理(LVM)提供了为任何逻辑卷作一个快照的功能,目的是在一致的状态下来得到一个文件系统的备份.因为在备份过程中,应用程序可能访问一个分区的文件或者数据库.一些文件可能在一个状态被备份,而后面的文件可能在一个更新后被备份,导致备份的不完整 .传统的解决方法是以只读的方式挂载一个分区,对数据库应用表级锁或者关闭数据库的引擎等;所有的措施反而影响可用性(但是与没有备份相比不会丢失更多的数据).使用LVM的快照功能可以在没有损失可用性的情况下完成一致的备份. 请注意这个信息只对已经使用LV

Android自复制传播APP原理学习(翻译)

 Android自复制传播APP原理学习(翻译) 1 背景介绍 论文链接:http://arxiv.org/abs/1511.00444 项目地址:https://github.com/Tribler/self-compile-Android 吃完晚饭偶然看到这篇论文,当时就被吸引了,马上翻译总结了一下.如有错误欢迎斧正. 该论文的研究出发点比较高大上这里我们就不多说了,简而言之就是想通过移动设备来实现一个自组网,在发生灾难的时候,手机之间能够自动传输关键数据,减少损失.整个目标通过设计一个能够

流形学习笔记

维数约简 特征选择,依据某一标准选择性质最突出的特征 特征抽取,经已有特征的某种变换获取约简特征 增加特征数: 可以增加信息量,进而提高准确度 增加训练分类器的难度,进而带来维数灾难. 解决办法: 选取尽可能多的.可能有用的特征,然后根据需要进行特征约简. 主成分分析(PCA) 目的: 寻找能够表示采样数据的最好投影子空间. 求解: 对样本的散布矩阵(scatter matrix)进行特征值分解,所求之空间为过样本均值,(何为过样本均值?) 以最大特征值所对应的特征向量为方向的之空间. 特点:

学习笔记之--高效程序员的45个习惯

有本关于敏捷开发方面的书非常不错<高效程序员的45个习惯-敏捷开发修炼之道>,Venkat Subramaniam和Andy Hunt著,该书简短.易读.精炼.深入,深刻且实用.对于想要采用敏捷方法的人很有价值.此书通过常理和经验,阐述了为什么应该在项目中实用敏捷方法.更难得的是,这些行之有效的实战经验,竟然从一本书中得到了.如果能拿这些习惯在项目中一以贯之,肯定会受益匪浅.下本罗列该书这45个习惯,一并列出其中的Key Point. -----------------------------