【华为云技术分享】根因分析

1.  什么是根因分析

在工作中我们经常会遇到根因分析的提法,有时也称作根原因分析或简称RCA(Root Cause Analysis),那什么是根因分析呢?目前还没有一个公认的定义,一般都是从操作层面来解释怎么进行根因分析的,缺少方法论框架性说明。有些书籍将发现问题和寻找解决方案也纳入根因分析的范围,使什么是根因分析变得更模糊。本文通过梳理相关知识,完善概念和模型,希望能在思维方法层面提供一个理解根因分析的新视角。

做为思维方法论,会涉及大量抽象概念和逻辑方法,本文把容易混淆的概念重新定义,而对比较清晰的,可以在网上查询到的概念和方法为了行文简洁就不一一列出了。

根因分析的定义:指在现代管理、科学研究等领域中,带有主观目的性,为彻底解决问题或解释问题而使用的系统的逻辑思维方法以及一套相应的工具。根因分析包括两个步骤,首先通过溯因推理找到造成问题的各种原因,之后再根据原因之间关系,按照需要确定根本原因。

根因分析的主观目的性是指根因不是一个客观的事物,而是根据人的需要来确定的,同一个事情,根据需要完全可以确定不同的根因。例如,一次车祸的根因既可以是人为操作错误,也可以是车辆质量,这取决于分析的角度。

根因分析的系统性是指根因分析有明确的思维步骤和工具,并且要求结果可信。我们在日常生活中遇到问题有时也会刨根问底,但主要是基于经验的,没有严格步骤的,得出结论可能是不可靠的。

根因分析是一种逻辑思维方法,可以做为知识解释和传播,但更重要的,逻辑思维方法也是一种技能,需要长期训练才能得心应手的使用,这点是很多人忽略的。

根因分析做为现代管理手段,已有很多成型工具,主要有两类,一类是思维激发型工具,例如头脑风暴,一类是展示型工具,帮助梳理思路,例如因果图。这些工具使用效果的好坏和文化习惯有很大关系,要根据情况灵活使用。对激发型工具最核心的要点是通过观点碰撞激发灵感,对展示型工具最核心的要点是要符合麦肯锡的MECE原则,即列举要素时做到“互相独立,完全穷尽”,抓到这些要点后就可以根据情况创造性地使用工具了。比约恩·安德森的《根原因分析:简化的工具和技术》是目前比较受欢迎的关于RCA的书,已经出了第二版,虽然内容还有很多可以商榷的地方,比如根因分析的范围是什么。故障树的名称也有歧义,应该是故障原因树,错误的名字会误导分析。但书中的一些工具方法还是很有参考价值,例如创新型工具TRIZ。

根因分析做为系统的思维方法和工具,虽然在现代管理、科学研究中应用较多,但日常生活等领域也一样可以使用。

逻辑思维涉及的一些概念目前定义也比较模糊或深奥难懂,为了帮助理解根因分析,本文也重新进行定义如下:

因果关系,事物间具有先后顺序的确定性联系称作因果关系。前者为“因”后者为“果”。

概率关系,事物间具有先后顺序的具有统计特征的随机性联系称作概率关系。抛硬币的动作和结果就是概率关系。

现象,事物表现出来的,可以观察到或体验到的情况称作现象。

解释,没有经过验证的原因,一般和结果、现象等词一起使用。比如感冒是身体不舒服的原因之一,如果某一天真的身体不舒服了,感冒可以做为一种解释,经医院确诊后成为病因。

问题-原因,特指当因果关系中结果是负面的,不好的情况。这对名词在根因分析中经常一起使用。

2.  问题溯因阶段

问题溯因指通过对事物现象系统的观察和控制,经过逻辑分析和必要的验证,从而找出原因的过程。找到原因有三类方法:

1、穆勒五法,是英国哲学家穆勒1843年根据当时的科学实践经验总结的,包含求同法、求异法,共变法,剩余法,求同求异法等五种归纳推理方法。主要是通过观察不同条件下现象的差异来确定原因,详见百度百科:穆勒五法。这里以非典肺炎流行病源调查的例子给大家一个根因分析的感性认识,在非典流行病病源调查中,发现最初得非典的病人都和果子狸有关,那么按照求同法推断,果子狸就是非典病源,不过又花了几年时间,科学家发现蝙蝠的SARS病毒DNA与人传播的有高度相似性,蝙蝠应该经过果子狸把SARS病毒传播给人类造成非典肺炎,蝙蝠可能才是真正病源。这个案例揭示了求同法这类归纳推理结论的局限性,所以确定复杂现象的原因要审慎地验证。

穆勒五法主要应用在可以对条件和现象进行比较分析的场合,当只有最后结果而没有各种现象可以对比时,可以用下面假说的方法确定原因。

2、假说,根据已有知识通过类推或者没有类似知识而通过顿悟等方式合理猜测原因或规律的思维方法,这些结果可以通过验证手段检验真假。1910年,德国气象学家魏格纳偶然发现大西洋两岸的轮廓极为相似。此后经研究、推断,1915年发表《海陆的起源》,提出了大陆漂移学说。假说的提出有时是顿悟的结果,这种方法强依赖于个人。

归纳法的结果天然存在以偏概全的可能性,黑天鹅效应就是最经典的示例。另外有些原因与问题是概率关系,例如器件故障的原因完全可能是量子效应引起的随机故障,所以上述两种方法发现的原因都需要验证,验证方法有三种:

1.原因可以解释全部已知事实,并且可以预见未知事实。前面说的大陆漂移理论有一点无法解释,大陆漂移的动力在哪?从这个不能解释的疑点出发,1968年法国地质学家勒皮雄又提出板块构造学说,提供了动力的新解释,进一步发展了假说。

2.发现更深层次的原理,例如在确定非典病源的过程中,科学家通过DNA测序发现蝙蝠和人类的SARS病毒有高度相似性,从而确认病源。

3.通过数理统计验证,一般用卡方检验。主要用于科学研究这类可以产生大量条件-结果数据的场景。

3、规则逆推,在软件应用这类可控系统中,一般会预置一些原因定位手段,应用这些手段也可以确定原因,这是一种比较特殊的情况,属于通过规则溯因。

上述这些查找原因的方法可以统称溯因推理。不过要注意的是溯因推理有时也指1900年代由哲学家皮尔士引入的逻辑方法。因为逻辑学从各个分支逐渐发展,所以问题溯因并没有一个统一的定义,这里只取前者的一般意义,以便沟通。

利用上面的方法分析一个重大问题时,往往会得到一个复杂的原因树,下面通过例子感受一下。

某化工公司发生了一次小型爆炸事故,现场人员重伤,设备损坏,生产停产,附近的居民人心惶惶。

首先,我们要确定探讨的是哪一个结果,工厂减产,社会影响,人员受伤都是这次爆炸的结果,这里我们主要关心人身受伤。之后我们要对现场情况进行观察,了解爆炸的强度,现场的布局,人身的防护情况,受伤的部位。我们会对类似的场景进行比较分析,这期间会采用各种专业方法,如与先进的生产流程比较,查看别人是怎么控制这种安全事故的。经过这些步骤,完成了下面的原因分析树。

这个原因树有几个特点:

1.  原因是多层的、链状的,原因与现象是相对而言的,一个原因对上层是原因而对下层而言却是现象。如采购质量差是装备质量差的原因,却是管理失控的现象。

2.  原因可以有很多分支,如爆炸直接原因就有三类,装备质量差,操作不当,生产工艺差。

3.  原因是有颗粒度的,比如爆炸这个动作还可以再细分为点火、化学反应等几个阶段。颗粒度的大小取决于实际需要。

4.  主要原因,次要原因要根据实际情况确定。

3.   确定根因阶段

找到了原因树,那怎么确定根因呢?在哲学的定义中,根因是指多种原因中深层次,起决定性作用的原因。不幸的是定义中“深层次”,“决定性作用”的含义是模糊的,很难实际操作。最简单的说,根因就是原因的原因,按照这个定义,其实除了直接原因外,所有的原因都是根因,只是根有深浅而已。不过管理实践中的根因分析是希望找到彻底的解决方案,获取最大的改进效益,有很强的目的性,所以可以把在业务管理范围内,能够实施相应改进方案的最深层原因指定为根因。例如上面的爆炸的例子,采购部可以指定采购质量差做为根因,从而改良管理活动获得举一反三的效益。如果把装备质量差做根因,也可以改进,但不是最大的改进效益,而确定上级管理失控做为根因会造成自己无法形成改进方案。

对科学研究的根因分析而言,目的是获得最佳解释,根因分析越深入越好,只会受限于技术能力。

根因分析的注意事项

观察者的知识、技能,背景不同,对同一现象观察的主观认知也会不同

现象是由人观察得出的,这就不可避免地造成因对事物的敏感性不同,同一事情会有不同观察结论。对观察者而言,在思考时往往会忽略某些常见或不言而喻的现象,这有助于简化思考的复杂度,但有时这些现象中却隐含着造成问题的关键原因。杰克韦尔奇的自传中有个例子,在他检查工厂时,发现地上有一滩水,对工厂管理者而言,这滩水可能已经习以为常了,对他们而言是正常现象。而韦尔奇从不同层面思考从而发现了工厂管理上的漏洞。所以管理者不能只在屋子里听报告,报告受报告人的影响,即使看起来再全面也难以反映事物的全部。

原因的探索象一个侦探故事,既要脉络清晰,也要细心,不放过蛛丝马迹。借用罗胖的话:“不抽象,就不能深入思考,不还原,就不知道本来面目”,原因分析既是技术,也是艺术,要不断平衡抽象和细节考察的关系。

观察者的关注点不同,对同一现象得出的根因也会不同

在实际工作中,我们最常遇到的是几种原因共同作用,才能产生某种结果的情况,这些原因都有可能分析出自身的根本原因,至于选取哪一个领域进行分析,取决于分析人员所关心的领域。

例如,因为产品故障引起的大范围电信网络中断事故,网络设计人员从网络设计方面去探求网络可靠性的问题,研发人员会关心到底是什么原因造成产品故障,而产品维护人员会从维护管理角度探讨为什么预防性维护措施没有发挥作用。

原因所处层级越深,解决难度越大,需要的时间越长,最后的效益越大

原因是多层级的,原因所处层级越深,解决的难度越大,所花费时间越长,最后效益就越大。根因分析层级要适可而止,根因一般分析到分析者可控的程度即可。但可有意识进行更深入的根因分析,这样有利于对事物的理解。例如下面这个上世纪80年代电视机质量不良的例子,当我们理解这个技术问题背后有管理,社会等深层原因时,对事物就有了新认知。

问题现象
电视质量不良
技术原因
可能原因是:器件质量不过关,工艺不过关,质量检测不严格。
管理原因
出现器件质量不过关的原因:缺乏采购管理流程,或是流程有缺陷,或是降低成本而忽视了质量。
社会原因
在80年代中国社会环境整体缺乏管理人才和实施环境。
地理历史原因
历史上四面隔离的地理环境造成了中国独特社会环境,闭关锁国,不能引入先进思想。

HDC.Cloud 华为开发者大会2020 即将于2020年2月11日-12日在深圳举办,是一线开发者学习实践鲲鹏通用计算、昇腾AI计算、数据库、区块链、云原生、5G等ICT开放能力的最佳舞台。

欢迎报名参会https://www.huaweicloud.com/HDC.Cloud.html?utm_source=&utm_medium=&utm_campaign=&utm_content=techcommunity

原文地址:https://www.cnblogs.com/huaweicloud/p/12229640.html

时间: 2024-07-31 01:08:35

【华为云技术分享】根因分析的相关文章

【华为云技术分享】如何设计高质量软件-领域驱动设计DDD(Domain-Driven Design)学习心得

DDD做为软件设计方法于2004年提出,一直不温不火,最近几年突然火起来了,为啥呢?正所谓机会给有准备的人,因为微服务的流行,大家都跃跃欲试把传统单体软件转成微服务架构,但理论很丰满,现实很骨感,光是分解微服务就让人找不到北,而DDD是歪打正着也好,富有远见也好,正好适合微服务转型设计,不火都难. 最近学习了领域驱动设计(Domain-Driven Design),感觉受益匪浅,那到底啥是DDD呢?这里分享一下学习心得.网上有很多详细的资料,感兴趣可以看看这个https://www.infoq.

【华为云技术分享】漫谈LIteOS-物联网操作系统介绍

[摘要] 本文主要对于目前物联网操作系统的定义以及主要特点进行了分析,最后介绍了几个常见的物联网操作系统. 1简介 提到操作系统,可能首先想到的就是苹果操作系统,windows,Linux,Unix,Android,IOS等,显然目前比较为人熟知的操作系统基本都是一些手机或者电脑端的操作系统.而随着互联网技术的不断发展,硬件的体积越来越小,物联网技术也迎来了爆棚式的发展.物理网不同于 互联网的不同在于后者更关注的是人与人的互联,而前者是更加强调人与物,物与物的连接,从而实现万物互联(IOT).显

华为云实战开发】5.如何快速创建免费Git代码仓库【华为云技术分享】

1 文章目的 本文主要帮助已经掌握或者想要掌握Git的开发者,如何更好的应用Git,以及更好的将Git与DevCloud结合应用. 2 概述 2.1 版本控制系统介绍 从狭义上来说,版本控制系统是软件项目开发过程中管理代码所有修订版本的软件,能够存储.追踪文件的修改历史,记录多个版本的开发和维护,事实上我们可以将任何对项目有帮助的文档交付版本控制系统进行管理.版本控制系统(Version Control Systems)主要分为两类,集中式和分布式. 2.1.1 集中式版本控制系统 集中式版本控

王晶:华为云OCR文字识别服务技术实践、底层框架及应用场景 | AI ProCon 2019【华为云技术分享】

演讲嘉宾 | 王晶(华为云人工智能高级算法工程师王晶) 出品 | AI科技大本营(ID:rgznai100) 近期,由 CSDN 主办的 2019 中国AI 开发者大会(AI ProCon 2019)在北京举办.在计算机视觉技术专题,华为云OCR人工智能高级算法工程师王晶分享了“文字识别服务的技术实践.底层框架及应用场景”的主题演讲. 演讲的第一部分,他分享了文字检测和识别的基础知识以及难点和最新进展.第二部分是华为云文字识别服务关键能力.关键技术,以及落地过程中遇到的“坑”,这对其他人工智能产

【我的物联网成长记3】如何开发物联网应用?【华为云技术分享】

[摘要] 物联网应用是设备管理.故障监测.数据分析的重要工具.本文介绍如何基于物联网平台开发应用,包括API.SDK和图形化开发三种方式. -------------------整体方案------------------- 物联网应用是企业和开发者进行设备管理.告警&故障监测.业务监控.数据分析的重要工具.物联网平台屏蔽了设备接入的复杂性和协议的差异性,解耦应用与设备,为上层应用提供统一格式的数据,简化终端厂商开发的同时,也让应用提供商聚焦于自身的业务开发.基于华为物联网平台的应用开发方案如下

揭秘丨7分钟看懂华为云鲲鹏Redis背后的自研技术【华为云技术分享】

2019年5月,华为云发布全球首个基于自研ARM架构的分布式缓存鲲鹏Redis,搭载华为LibOS+华为编译器+安全容器引擎三项黑科技,在保证Redis强劲高性能外,还降低客户30%的使用成本,真正实现了好用不贵的普惠型分布式缓存Redis产品. 本文从技术视角解读华为云鲲鹏Redis是如何通过数据中心基础设施.芯片.硬件.软件等全栈创新优化,达成以上效果. 一.为什么ARM架构适合Redis? 众所周知,Redis是一款风靡全球的高性能.高灵活性.数据结构类型丰富的key-value内存数据库

【华为云技术分享】技术探秘:华为云瑶光何以定方向

作为北斗第七星,瑶光自古就可用来判断四季更迭.引向定时.而作为全新发布的智能云操作系统,瑶光智慧云脑又是如何做到统领云上各类资源.实现租户需求与资源供应之间最佳匹配的呢?在华为云瑶光实验室.华为云算法创新实验室里,我们找到了答案. #初识资源调度# 云OS:我太“南”了 依托虚拟化技术,我们得以将数据中心海量的计算.存储资源以云服务的形式对外提供.而随着数据中心规模扩展.边缘计算带来的算力延伸,承担着高效.精准资源调度的云操作系统面临着三大挑战: 第一个挑战是云计算的资源消耗/售卖模式带来的.云

华为云流媒体性能测试解决方案 轻松应对流量危机【华为云技术分享】

背景 随着带宽提速和互联网发展,内容丰富.形式多样的视频正成为碎片化时代娱乐消费的新宠,短视频.视频直播.在线钢琴陪练.合唱直播一系列新玩法层出不穷,涉及电竞.社交.电商.教育等各个行业.网络视频快速发展对系统性能带来了巨大的考验. 流媒体业务场景 下面是用户与流媒体服务器的简化交互关系,主要分为推流和拉流2大类. 推流就是从外界采集数据后利用流媒体协议将文件推流至流媒体服务器端,拉流就是将文件从流媒体服务器拉取至本地播放的过程,流媒体的文件主要是由音频和视频2个部分组成,youtube.土豆.

【华为云技术分享】MongoDB经典故障系列一:数据库频繁启动失败怎么办?

MongoDB频繁启动失败怎么办?别慌,华为云数据库给您提供一个小妙招:一看报错日志探究竟,二查目录文件揪根因,三要认真仔细不犯小错,让您轻松搞定启动难题. 此外,华为云数据库特别推出了免费专区活动,MySQL与DDS免费试用2个月,更多活动详情请前往华为云官网——最新活动——新手福利——疫情专区——云数据库. 原文地址:https://www.cnblogs.com/huaweicloud/p/12384889.html