MTBF

MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate)。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁盘阵列产品一般MTBF不能低于50000小时。

中文名

平均故障间隔时间

外文名

Mean Time Between Failure

简    称

MTBF

作    用

衡量产品可靠性的指标

单    位

小时

反    映

产品的时间质量

目录


1计算方法


2故障时间


3由来


4寿命


5电脑的关系

? 可靠性
? 散热效果
? 影响

6计算


7分析目的

1计算方法

失效时间是指上一次设备恢复正常状态(图中的up time)起,到设备此次失效那一刻(图中的down time)之间间隔的时间。

MTBF值是产品设计时要考虑的重要参数,可靠度工程师或设计师经常使用各种不同的方法与标准来估计产品的MTBF值。相关标准包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。不过这些方法估计到的值和实际的平均故障间隔仍有相当的差距。计算平均故障间隔的目的是为了找出设计中的薄弱环节。

MTBF的数学式表达

另外,在工程学上,常用希腊字母θ来表示MTBF,既有:

在概率论中,可用?(t)形式的概率密度方程表示MTBF,既有:

此处?指的是直到下次失效经过时长的概率密度方程——满足标准概率密度方程——

2故障时间

随着服务器的广泛应用,对服务器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬盘,一年之内出了2次故障,则每个硬盘的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。即:

MTBF=1/λ

笔者看到一款可用于服务器的WD Caviar RE2 7200 RPM 硬盘,MTBF 高达 120万小时,保修 5年。120万小时约为137年,并不是说该种硬盘每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬盘的平均年故障率约为0.7%,一年内,平均1000只硬盘有7只会出故障。

下图所示为著名的浴盆曲线,左边斜线部分为早期故障率,其故障率一般较高且随着时间推移很快下降。曲线中部为使用寿命期,其故障率一般很低且基本固定。最右部为耗损期,失效率急速升高。电子产品制造商一般通过测试、老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。

3由来

右图为浴盆曲线[1],那么浴盆曲线与产品寿命有什么关系呢?

电子产品的寿命一般都符合浴盆曲线,可分为三个阶段:

  1. 早夭期:由于设计,原材料,生产等可能出现的原因而导致一个较高失效率的阶段,也称失效率递减阶段,可通过环境应力筛选加以剔除,保证产品的可靠性。
  2. 稳定器:这一阶段产品失效率近似一个常数,只有随机失效产生,MTBF即要得到这一阶段的寿命。
  3. 耗损期:硬件故障期,产品这时已达到设计寿命,进入报废阶段。

浴盆曲线

4寿命

元器件瞬时失效浴盆曲线图

明白了MTBF和“浴盆”曲线的基本概念,我们对评估产品的使用寿命有了一定的掌握。在合适工作条件下器件使用寿命期内的故障率很低。广大电子爱好者都知道电子元器件的寿命,与工作温度是有密切关系的。以电脑主板上常用的也常出故障的电解电容器为例,其寿命会受到温度的影响。因此,应尽可能使电容器在较低的温度之下工作,如果电容器的实际工作温度超过了其规格范围,不仅其寿命会缩短,而且电容器会受到严重的损毁(例如电解液泄漏)。因此,在分析电脑主板上电容器的工作温度时,不仅要考虑机箱内整体环境温度及电容器自身的发热,还要考虑机箱内其他发热元件的热辐射(特别是CPU、稳压器、电源供应器等)。

根据测试,通常2.0G的CPU消耗功率达56.7W,生成温度达70℃;而当频率提高至3.0G时, CPU温度往往超过90℃。在这样的高温烘烤下,主板上的电容器寿命会发生什么变化?

为简化起见,不考虑纹波、频率、ESR等因素,电容器的估计寿命可用下述公式表示:

其中,L0表示最高工作温度下的寿命,Tmax表示最高工作温度,Ta表示实际环境温度。由此可见,如果环境温度每升高10℃,电容器寿命将下降一倍!

由上图右面的曲线可明显看出,随着电容器工作环境温度的上升,其有效寿命急剧缩短。其中有效寿命(Useful life)是指该种电容器达到给定故障率的时间。

5电脑的关系

可靠性

电源供应器对电脑来说,重要性不言而喻。影响电源供应器寿命的因素很多,如负载大小、振动和周边的环境温度等。其中,环境温度很重要,所以选择合适的风扇,排放出由电源供应器内部的热量非常关键。电源供应器的MTBF,在很大程度上是由其内部的电解电容器MTBF值所决定的。因随着温度的上升,电容器的寿命急剧缩短,所以电源供应器的工作温度如能得到降低,其寿命就会更长一些。

当评价电源供应器所标称寿命时,电源供应器是否运行在额定的满负载状况是另一重要考虑因素。如果电源供应器装有合适的散热器而散热风扇风量足够大,在低于满负载的情况下连续工作,电源供应器就能有更长的寿命。一般电脑电源供应器寿命按照3-5年计算元件的可能失效周期,MTBF在80,000-100,000小时之间。

不同的电源供应器厂家,其产品设计、用料也往往差别很大,工作寿命自然不同。

除电源供应器外,硬碟的温度也不可小视。硬碟动不动就7200rpm-15000rpm,想想看硬碟内的马达每天转24小时,平均工作温度在四、五十度的高热是免不了。笔者曾测量过一台散热不够好的伺服器硬碟,温度超过40℃。对硬碟来说,如果机壳内部的温度降低了,这将意味着减少主轴马达液态轴承的轴承润滑剂以及磁碟润滑剂的蒸发,这将大大降低其损坏的机率。据Seagate公司公开的某型号硬碟数据,在34℃时的MTBF为150,000小时,但在25℃时,会达到230,000小时。

散热效果

为降低硬碟温度,可增加散热风扇。市面上是有卖硬碟专用的散热模组,有的则是一颗风扇再加上一块硬碟大小的铝制散热片,其实没有必要这么复杂。

如采用小型风鼓(BLOWER),风量增加,散热效果更好。但是,增加风扇或风鼓一定要考虑振动的问题。要知道风扇较高的转速才能达到一定的风量,但如采用较劣质的风扇,转速虽高,但寿命短且振动厉害,对硬碟寿命会带来不利影响,安装硬碟时加吸震软垫、机箱机壳底部的吸震片都有一定效用。

优质的电源供应器当然要搭配高品质的风扇,如HG2-6400P选用的是NMB钢珠轴承风扇,比传统油封轴承风扇寿命高出2倍。这款电源供应器还加入了风扇转速控制线路,可以根据电源内部的温度调节风扇转速,在延长使用寿命的同时,也更好的控制了风扇噪音和震动。

影响

如何保养和维护好伺服器,最大限度的延长其使用寿命,是大家都非常关心的话题。灰尘对伺服器构成的威胁不容忽视。按笔者的电子产品维修经验,在灰尘比较大的环境中工作,由于PCB吸附灰尘,而灰尘的沉积会影响电子元器件的热量散发,这将导致元件温度上升,进而出现热稳定性下降甚至产生漏电,严重时导致烧毁。另外,灰尘也会吸收水分,腐蚀电子线路,造成一些莫名其妙的短路问题。所以灰尘体积虽小,但对伺服器的危害不可低估。

尽管伺服器机房有相对较好的环境,但灰尘仍会不断累积。所以,有必要定期进行清理,可使用上图美国生产CRC牌防尘喷剂、也可用有防静电(ESD)功能的小毛刷小心进行清扫,或使用吹风球清洁灰尘,减少出故障的机率。在清理机箱内部的灰尘时,切记断开电源,小心操作,特别是面板进风口和电源(排风口)的附近,以及板卡的插接部位灰尘最多。清理电源里的灰尘最好将电源供应器拆下,用防尘喷剂、吹气球仔细清扫干净后再装回。

6计算

设有一个可修复的产品在使用过程中,共计发生过N0次故障,每次故障后经过修复又和新的一样继续投入使用,其工作时间分别为:T0,T1。那么产品的平均故障间隔时间,也就是平均寿命为Q为:(T0+T1)/N0。

通常,我们在产品的手册或包装上能够看到这个MTBF值,如8000小时,2万小时,那么,MTBF的数值是怎样算出来的呢,假设一台电脑的MTBF 为3万小时,是不是把这台电脑连续运行3万小时检测出来的呢?答案是否定的,如果是那样的话,我们有那么多产品要用几十年都检测不完的。其实,关于 MTBF值的计算方法,目前最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217是由美国国防部可靠性分析中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z299B是我国军用标准;而Bellcore是由AT&TBell实验室提出并成为商用电子产品MTBF值计算的行业标准。

MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和海洋平台上,其可靠性值肯定是不同的;又如一个额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松的得出MTBF值。

7分析目的

1)针对高频率故障零件的重点对策及零件寿命延长的技术改造依据。

2)进行零件寿命周期的推算及最佳维修计划编制。

3)有关点检对象、项目的选择与点检基准的设定、改善。

4)用于指导内外部维修工作分配。根据公司内设备修复能力的评价,以设备类型、作业种类的不同来决定内部分别承担工作的维修质量与设备效率方面的风险,作为维修外包的重要参考。

5)设定备品备件基准。机械、电气零件的各储备项目及基本库存数量,应根据MTBF的记录分析来判断,使其库存水平达到最经济的状况。

6)作为选择维修技术方法改善重点的参考依据。为了提高设备开动率,必须缩短与设备停机相关的长时间维修作业及工程调整、切换的时间。因此,有必要对维护作业方法进行检验,而其检验的项目、优先顺序的选择等基本情况,均需要依据MTBF的分析记录表。

7)用于设备对象设定预估运行时间标准,及其维护作业的选定与维护时间标准的研究。维修计划预估时间标准的设定及维护作业的选定,必须考虑设备维护重复周期或标准时间值与实际维护时间的差异及相应维护作业特性等因素,因此,MTBF分析表是非常必要的。

8)图样整理及重新选定重点设备或零件时的参考。MTBF的分析记录表所记录的设备零件改造项目或摩擦劣化等信息,以及设备图样修改或前期制作等情况,通过能经常作分析检验及重要性排序管理,可以使工程图样管理变得更容易。

9)运行操作标准的设定、修订及决定设备维护业务的责任分派。

10)提供设备的可靠性、可维修性设计的技术资料。维护技术最重要的是以MTBF分析表为基础,收集有关设备的可靠性、可维修性设计的技术信息,以便提供给设计部门在设计设备时参考。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-08 15:39:20

MTBF的相关文章

硬盘可以支持140万小时(也就是159年)的MTBF(硬盘只是一次性的投入)

1.硬盘的的确确是一个一次性投入: 最普通的家用硬盘寿命都可以到达平均5年以上:企业级的硬盘的寿命更是长的离谱,如这个西数为数据中心提供的硬盘: WD Re:页面上说明该种硬盘可以支持140万小时(也就是159年)的MTBF. 所谓MTBF是一个数据指标,指代的是理论上每单位一种产品平均每两次故障之间的间隔时间:通常情况不会有人真的去使用那么长时间,所以这个数据一般是用来计算每年的产品故障率的.159年的MTBF也就等同于1/159=0.6%的年故障率,也就是说10年内可能有6%的产品出故障,2

MTBF测试中长按等操作的实际坐标不对

[DESCRIPTION] MTBF测试时,可能会发现长按等操作的实际坐标和预期坐标不符合(比如在dialer中 ,脚本里面预期长按删除键去清除所有号码,可是执行时发现并未点击到删除键上 ,而是点击到了别处),可以通过修改config文件的参数去解决,目前此问题只在 6572平台发生. [SOLUTION] 1.打开bin下的CCCommon.dll.config文件: 2.搜索“IsCoordinateRotate”,将后面的值改成相反值即可,比如下图原先是 false,那由“false”改为

提交MTBF eservice以及log注意事项

[DESCRIPTION] 提交MTBFeservice需要注意的描述,log事项 [SOLUTION] 提交MTBF eservice时,请注意 1.描述清楚问题现象 2. 描述清楚问题发生的时间点 3.描述清楚问题发生时在run的case 提交log时请注意 1.MTBF的log通常会很大,若log太大,只需附上issue发生时间点附近(大概前后半小 时)的有效MTKlog(应包含APlog)即可,若有异常发生,只需附上对应时间点的 mtklog_XXXXX_exception.zip 即可

ROM和RAM的故事

在公众号里看到一篇很好的文章讲解rom和ram,之前也是一直不能理解两者的区别,今天就转载记下来吧.也方便大家学习. 因为我刚开始学习的时候总喜欢刨根问底,一个问题要是不搞清楚,后面学习都会很吃力的.所以学习时,遇到不会的东西,赶紧上网查查,网上什么都有.哈哈. 用我的理解就是一句话,ROM掉电时数据不会丢失,RAM掉电时数据就跑没没了. ROM和RAM指的都是半导体存储器,ROM是Read Only Memory的缩写,RAM是Random Access Memory的缩写.ROM在系统停止供

何为硬件设计?

硬件设计就是根据产品经理的需求PRS(ProductRequirementSpecification),在COGS(CostofGoodsSale)的要求下,利用目前业界成熟的芯片方案或者技术,在规定时间内完成符合: PRS功能(Function): 性能(Performance): 电源设计(PowerSupply): 功耗(PowerConsumption): 散热(Thermal/Cooling): 噪音(Noise): 信号完整性(SignalIntegrity): 电磁辐射(EMC/E

keepalive简单入门

解决了任务分发问题,那么我们可以考虑下一个问题了,机器故障怎么办.首先考虑realsserver故障,我们怎么实时发现rs(realserver)的状态,当检测rs到故障后调度器怎么修改调度规则.然后是考虑dr(director)故障,这就是大问题了一旦故障整个后端服务就全部不可用了,这里我称这种节点为单点.原本的设计由于故障导致漏洞百出,有人就引入了一个软件keepalived,帮助lvs解决了单点问题,同时还提供了后端rs故障发现和处理机制. # 目录 高可用 keepalived 双主模型

RAID 的常用模式 及mdadm 命令的应用

一,RAID:独立磁盘冗余阵列(RAID,redundant array of independent disks)是把相同的数据存储在多个硬盘的不同的地方(因此,冗余地)的方法.通过把数据放在多个硬盘上,输入输出操作能以平衡的方式交叠,改良性能.因为多个硬盘增加了平均故障间隔时间(MTBF),储存冗余数据也增加了容错.整个 RAID 由于选择的等级(level 仅用于标识磁盘的组合方式的不同) 不同,而使得整合后的磁盘具有不同的功能, 基本常见的 level 有这几种 "RAID0(条带),

关于为什么RAID5往往掉一个盘后第二个盘也立刻挂掉的原因分析

很多人遇到过服务器RAID5挂掉,往往掉一个盘后,第二个盘也立刻挂掉. 大家都知道RAID5 一次允许一个盘缺失, RAID 5也是以数据的校验位来保证数据的安全,但它不是以单独硬盘来存放数据的校验位,而是将数据段的校验位交互存放于各个硬盘上.这样,任何一个硬盘损坏,都可以根据其它硬盘上的校验位来重建损坏的数据.硬盘的利用率为n-1. 如果挂掉两个盘,数据就玩完了.理论上两个硬盘同时失效的概率是很低的,但为什么会这样呢? 从数学角度说,每个磁盘的平均无故障时间 (MTBF) 大约为 50 万至

磁盘管理—进步之路

引导目录: *磁盘分区 *分区工具 *磁盘格式化 *文件系统类型 *磁盘修复 *磁盘修复工具 *分区的挂载 *挂载实例 *RAID *主要对RAID0.1.5进行介绍 *LVM(逻辑卷) *逻辑卷的创建 *快照 通过近乎两周的磁盘管理学习,从对磁盘懵懂的认识,到对磁盘真正的了解,可谓收获颇深,快来看看小编学习的心路历程吧. 一.磁盘分区 磁盘的分区有两种类型: *DOS分区方式 *GPT分区方式 在平常的windows系统之中,我们很熟悉C盘.D盘等各个字母开头的盘区,但是我们可能没有在意过,其