概率统计21——指数分布和无记忆性

  指数分布(Exponential distribution)是一种连续型概率分布,可以用来表示独立随机事件发生的时间间隔的概率,比如婴儿出生的时间间隔、旅客进入机场的时间间隔、打进客服中心电话的时间间隔、系统出现bug的时间间隔等等。

指数分布的由来

  指数分布与泊松分布存在着联系,它实际上可以由泊松分布推导而来。

  

  泊松分布(概率统计15)中已经介绍过泊松分布,除了作为二项分布的近似外,当独立事件发生的频率固定时,泊松分布还可以刻画算单位时间内事件发生次数的概率分布。

  假设某个公司有一个带伤上线的系统,每周平均的故障次数是2次,在下周不发生故障概率是多少?

  每周平均的故障次数是2次,我们可以把“一周”看作单位时间,程序的故障率是λ=2,单位时间内发生故障的次数X符合泊松分布X~Po(λ)。在下周不发生故障的概率相当于发生了0个故障的概率:

  现在要求计算两周之内不发生故障的概率。我们用随机变量T>2表示在2个单位时间内系统未发生故障的事件。在已知下周不发生故障的概率的情况下,P(T>2)计算起来很容易:

  我们换一种思路。之前是把“一周”看作单位时间,单位时间内事件发生的频率是λ=2。现在是变成了双倍的单位时间,故障发生的频率自然就变成2λ=4,这样一来,两周之内不发生故障的概率是:

  结果和①相等。

  时间是连续的,如果计算T=1.5周内不发生故障的概率,①就显得无能为力了。但是②却没有任何问题,只要把单位时间内事件的频率λ随着时间T进行放缩就可以了:

  将问题推广到任意时间间隔:

  反过来,故障在时间 t 之内发生的概率就是1-P(T>t):

  现在把T换成X:

  这里的F(x;λ)就是指数分布的分布函数,λ表示平均每单位时间内事件发生的次数,随机变量X表示时间间隔。

  F(x;λ)对应的密度函数是:

  随机变量X符合参数为λ>0的指数分布,记作X~E(λ)。

  有些资料的写法是:

  仅仅是用θ代替了1/λ。

无记忆性

  指数分布的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。如果一个随机变量呈指数分布X~E(λ),当s, t ≥0时:

  先来看看这个等式为什么成立。

  因此二者相等。

  

  在前面的推导中可以看到:

  累积概率对应面积,这个结论告诉我们,在指数分布下,P{X>s+t}和P{X>s}对应的面积的比值等于P{X>t}对应的面积和总体面积的比值:

理解无记忆性

  我们已经知道指数分布可以用来表示独立随机事件发生的时间间隔的概率分布,在精密元件的可靠性研究中,指数分布通常用于描述对元件发生缺陷数测量结果。但是无记忆性又指出,元件在经过s时间的工作之后,它的寿命分布与原来还未工作时的寿命分布相同。这就好比有一个已经用了10年的灯泡和一个刚买的灯泡,现在我告诉你它俩在未来一年里报废的概率相同,你信吗?

  一个著名的问题是“赌徒心理”。假设在赌桌上只能押大或小,某个赌徒已经连续押了10次小,但都输了,于是赌徒认为,下次再出现小的可能性非常低,于是他想把兜里的钱全部押大,试图翻本。

  不妨帮助赌徒分析一下翻本的概率。

  假设这是一个公平的赌场,大和小的概率都是0.5,用随机变量X表示第一次出现“大”时所参与的赌局数,X符合几何分布:

  其中p表示出现“大”的概率,q表示出现“小”的概率。直到第11次才出现“大”的概率是0.511,这是个非常小的数值,可见这个赌徒确实运气不佳。

  接着分析,用X>10表示连续10次以上没出现“大”的事件,以此为前提,下一次(第11次)出现大的概率是:

  在连续押小输掉10次的条件下,下一次出现“大”,和第1次就出现“大”的概率相同。对于赌徒来说,每一局都是全新的,下一次赢钱的概率和之前的输赢没有任何关系,这就是所谓的无记忆性。

  指数分布与几何分布类似,只不过把离散随型机变量变成了连续型。

  

  实际上生活中有很多无记忆性的例子,比如车牌摇号。对于参与摇号的人来说,在每一次摇号中摇中的概率都是相等的。有人说不对啊,明明告诉我摇中的概率是1%,100次里面怎么还不能中一回吗?所谓的1%摇中率,是在大数定律下才起作用,而现实生活中我们面对的往往是“小数”。可以用程序模拟一下:

1 import numpy as np
2
3 np.random.seed(41)
4 for i in range(1, 11, 1):
5     m = 100 * i # 试验次数
6     nums = np.random.randint(1, 101, 200) # 从1~100中随机选择m个数字
7     p_50_size = nums[nums == 50].size # m个数字中出现50的次数
8     print(‘一共参与摇号{}次,摇中{}次,概率{}‘.format(m, p_50_size, p_50_size/m))

  结果显示:

  一共参与100次摇号,摇中0次,概率0.0

  一共参与200次摇号,摇中0次,概率0.0

  一共参与300次摇号,摇中3次,概率0.01

  一共参与400次摇号,摇中3次,概率0.0075

  一共参与500次摇号,摇中2次,概率0.004

  一共参与600次摇号,摇中3次,概率0.005

  一共参与700次摇号,摇中4次,概率0.005714285714285714

  一共参与800次摇号,摇中3次,概率0.00375

  一共参与900次摇号,摇中3次,概率0.0033333333333333335

  一共参与1000次摇号,摇中5次,概率0.005

  每月摇号一次,一个人穷尽一生也满足不了“大数”,摇号还真是件没谱的事。

  因为无记忆性的关系,有人戏称服从指数分布的随机变量就像传说中金鱼只有7秒钟记忆一样,是“永远年轻的”。也正是这一点限制了指数分布的应用,因为指数分布忽略了损耗。但是,指数分布仍然可以近似地作为高可靠性的复杂部件、机器或系统的失效分布模型,特别是在部件或机器的整机试验中得到广泛的应用。

  至于灯泡的寿命是否符合指数分布,其实我也不知道。也许现在制作工艺提升了,灯泡已经是具有高可靠性的产品,灯泡明天是否还能正常工作,完全取决于是否遭到了外力的破坏,日常损耗所起到的作用可以忽略不计,这种情况下,灯泡的使用寿命才有可能符合指数分布。

关于保修期的问题

  冰箱平均10年出现一次大的故障,求:

  (1)冰箱使用15年后还没有出现大故障的比例。

  (2)如果厂家想提供大故障免费维修的质保,试确定保修1~5年内,需要维修的冰箱的占比。

  冰箱平均10年出现大的故障,可见故障率不高,可以认为故障次数服从泊松分布,单位时间是1年,λ=0.1。

  (1)根据指数分布:

  冰箱使用15年后还没有出现大故障的比例约等于22.3%。

  (2)

1 from scipy import stats
2
3 lam = 0.1
4 for i in range(1, 6):
5     print(stats.expon.cdf(i, scale=1/lam))

  上表告诉了我们冰箱的保修期一般都是2年以内的原因,厂家为了把上门修理的次数控制在20%以内,一般选择保修2年。

期望和方差

  对于X~E(λ)的指数分布来说,它的期望是1/λ,方差是1/λ2

  先来看期望:

  根据分部积分:

  再来看方差:

  继续利用分部积分:

  将u=λx代入④:

  

  将在E[X]中求得的③代入⑤中:

  最终:



  出处:微信公众号 "我是8位的"

  本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途!

  扫描二维码关注作者公众号“我是8位的”

原文地址:https://www.cnblogs.com/bigmonkey/p/12374393.html

时间: 2024-10-13 09:15:50

概率统计21——指数分布和无记忆性的相关文章

《概率统计》状态转移:初识马尔科夫链

回顾两类重要的随机过程 在上一篇随机过程的概述中,我们提到过两类非常非常典型且重要的随机过程,一类是:伯努利过程和泊松过程,这一类随机过程是无记忆性的,也就是说未来的状态不依赖于过去的状态--新的"成功"或"到达"不依赖于该过程过去的历史情况. 而另一类则正好相反,未来的情况会依赖于过去的情况,并且能够在某种程度上通过过去发生的情况去预测未来,例如这一篇我们的核心内容--马尔科夫过程,它在许许多多的领域都有深入和广泛的应用. 离散时间的马尔科夫链 马尔科夫链三要素

基于记忆性的中值滤波O(r)与O(1)复杂度的算法实现

本文参考博客:https://www.cnblogs.com/Imageshop/archive/2013/04/26/3045672.html 原生的中值滤波是基于排序算法的,这样的算法复杂度基本在O(r2)左右,当滤波半径较大时,排序算法就显得很慢.对此有多种改进算法,这里介绍经典 的Huang算法与O(1)算法,两者都是基于记忆性的算法,只是后者记性更强. 排序算法明显的一个不足之处就是无记忆性.当核向右移动一列后,只是核的最左和最右列数据发生了变化,中间不变的数据应当被存储起来,而排序算

基于R的概率统计——几种常见的概率分布

常用分布类型 应用 特征 表示 0-1/两点/伯努利分布 只进行一次试验,抛硬币,判断(yes or no) 两个结果 其中k=0,1 二项/n重伯努利分布 抛100次硬币记录出现正面的次数 跃阶式概率直方图   超几何分布 不放回抽样试验 不放回   几何分布 考四六级 一次成功   泊松分布 公交车站点排队乘客数 均匀变化   多项式分布 抛一个形状不规则的骰子 多种结果   连续型分布       均匀分布 生成随机数,从任意分布抽抽样 等可能   指数分布 产品寿命 无记忆   正态/高

http协议的无状态性及基于memcached-session-manager构建tomcat cluster会话服务器

一.http协议的无状态性 1.HTTP协议一共有五大特点 1)支持客户/服务器模式 2)简单快速 当客户端向服务器端发送请求时,只是简单的填写请求路径和请求方法即可,然后就可以通过浏览器或其他方式将该请求发送就行了.比较常用的请求方法有三种,分别是:GET.HEAD.POST.不同的请求方法使得客户端和服务器端联系的方式各不相同.因为HTTP协议比较简单,所以HTTP服务器的程序规模相对比较小,从而使得通信的速度非常快. 3)灵活 Http协议允许客户端和服务器端传输任意类型任意格式的数据对象

应用概率统计模板

apsart.cls 1 % !Mode:: "TeX:UTF-8" 2 %% 3 %% This is file `APSart.cls', 4 %% 5 %% Copyright 2006-2012 6 %% 7 %% ---------------------------------------------------------------------- 8 %% 9 %% It may be distributed and/or modified under the 10 %

概率统计 - 08 随机变量及其概率分布

概率统计 - 08 随机变量及其概率分布 一.离散型随机变量及其分布律1.随机变量2.离散型随机变量3.两点分布4.二项分布5.泊松分布 二.连续型随机变量及其概率密度1.连续型随机变量2.均匀分布3.指数分布 三.分布函数与函数的分布1.分布函数2.函数的分布 四.正态分布1.正态分布的定义与性质2.正态分布的概率计算 概率统计 - 08 随机变量及其概率分布,码迷,mamicode.com 概率统计 - 08 随机变量及其概率分布,码迷,mamicode.com

《统计思维程序员数学之概率统计第2版》中英文PDF+数据代码+《面向数据科学家的实用统计学》中英文PDF+源代码+学习总结

作为一个程序员,我认为,不需要把数学全部学完,要选择合适自己的资料. <统计思维:程序员数学之概率统计(第2版)>以程序模拟的方式而不是数学教材上毫无来由的定理解释了大多数统计上的基本概念.<统计思维:程序员数学之概率统计(第2版)>,中文PDF,带书签目录,204页,文字可以复制.<统计思维:程序员数学之概率统计(第2版)>,英文PDF,带书签目录,225页,文字可以复制. 配套python源代码+数据. 下载:https://pan.baidu.com/s/1Jju

如何禁止文本框的记忆性输入

HTML中禁止自动完成和禁用输入法收藏 IE提供了一个自动完成功能可以记忆我们的输入内容(如登录帐号等),方便下一次快速地录入类似资料.这确实是一个非常友好的功能, 在操作时只需用鼠标双击文本框或输入前几个字符, 系统会自动列出以前的录入历史供你选择, 大大提高录入速度及准确性. 相信大多数IE的用户都启用了这项功能.      然而做为网站开发者来说, 并不希望什么资料都记忆在用户的电脑上(如银行帐号和其它重要的帐号及密码), 但是我们又不能要求用户禁用自动完成的功能. 幸好IE5.0后为 I

概率统计 - 07 随机事件及其概率

概率统计 - 07 随机事件及其概率 一.随机事件 1.随机试验与样本空间 2.随机事件与集合 3.事件的关系与运算 二.事件的概率 1.古典概率 2.概率的性质 3.古典概率的计算 4.概率的统计定义 三.事件的独立性 1.条件概率 2.乘法公式 3.事件的独立性 4.全概率公式 概率统计 - 07 随机事件及其概率,码迷,mamicode.com