Q:
----------------
------------------------
泊松分布最常见的一个应用就是,它作为了排队论的一个输入。
比如在一段时间t(比如 1 个小时)内来到食堂就餐的学生数量肯定不会是一个常数(比如一直是 200 人),而应该符合某种随机规律:
假如在 1 个小时内来 200 个学生的概率是 10%,来 180 个学生的概率是 20%……一般认为,这种随机规律服从的就是泊松分布。
这个
分布是S.-D.泊松研究二项分布的渐近公式时提出来的。泊松分布P (λ)中只有一个参数λ ,它既是泊松分布的均值,也是泊松分布的方差。生活中,当一个随机事件,例如来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。
其实泊松分布在日常中还是很好辨别的,因为他有一个累计的过程。曾看到一篇用泊松分布来分析美国治安的例子,引来给大家看看: 美国枪击案假定它们满足"泊松分布"的三个条件:
(1)枪击案是小概率事件。
(2)枪击案是独立的,不会互相影响。
(3)枪击案的发生概率是稳定的。
显然,第三个条件是关键。如果成立,就说明美国的治安没有恶化;如果不成立,就说明枪击案的发生概率不稳定,正在提高,美国治安恶化。根据资料,1982--2012年枪击案的分布情况如下:
计算得到,平均每年发生2起枪击案,所以 λ = 2 。
上图中,
蓝色的条形柱是实际的观察值,
红色的虚线是理论的预期值。
可以看到,
观察值与期望值还是相当接近的。
我们用"卡方检验",检验观察值与期望值之间是否存在显著差异。卡方统计量 = Σ[(观察值-期望值)^2/期望值]
计算得到,卡方统计量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布临界值为12.017。因此,卡方统计量小于临界值,这表明枪击案的观察值与期望值之间没有显著差异。所以,可以接受"发生枪击案的概率是稳定的"假设,也就是说,从统计学上无法得到美国治安正在恶化的结论。
但是,也必须看到,卡方统计量9.82离临界值很接近,p-value只有0.18。也就是说,对于"美国治安没有恶化"的结论,我们只有82%的把握,还有18%的可能是我们错了,美国治安实际上正在恶化。因此,这就需要看今后两年中,是否还有大量枪击案发生。如果确实发生了,泊松分布就不成立了。
泊松分布实例:
例子1: 时间段
1). 背景: 我们想要测量 某餐厅 drive-through 周末早上, 15 分钟间隔内 顾客的人数.
假设顾客在不同的15分钟间隔内到达餐厅的概率是相同的,并且相互不影响, 这样我们就可以使用Poisson Distribution, 根据历史数据 周末早上15 分钟间隔内到达餐厅的人数平均值是 10, 在这种情况下我们能构建PMF
P( X ) = (10^x * e^-10) / x! 其中lambda是固定已知的,此处为10.
P( 5 ) = (10 ^ 5 * e ^-10)/5! = 0.0378
2). 根据1) 我们可以知道 以 15分钟为间隔的来5个顾客的概率是 0.0378, 但是如果我们想要知道 以 3 分钟Wie间隔的来5个顾客的概率呢?
解: 我们可以根据历史数据 计算每分钟来的人数 10 / 15 = 2/3; 然后 2/3 * 3 计算出 历史数据 3mins间隔下的顾客人数为2. 使用 P( 5 )计算出相对应的概率.
例子2: 长度/距离
背景: 我们想要知道新建的高速公路上每隔3英里, 产生的会有多少个坑, ( 前提条件不赘述), 根据历史数据, 每英里会有2 个坑, 则平均为 6. 构建PMF (x) = (6^x * e^-6) / x!
PMF( 概率质量函数 ): 是对 离散随机变量 的定义. 是 离散随机变量 在各个特定取值的概率. 该函数通俗来说,就是 对于一个离散型概率事件来说, 使用这个函数来求它的各个成功事件结果的概率.
PDF ( 概率密度函数 ): 是对 连续性随机变量 的定义. 与PMF不同的是 PDF 在特定点上的值并不是该点的概率, 连续随机概率事件只能求一段区域内发生事件的概率, 通过对这段区间进行积分来求. 通俗来说, 使用这个概率密度函数 将 想要求概率的区间的临界点( 最大值和最小值)带入求积分. 就是该区间的概率.
各种分布及应用场合(建模对象)
http://www.360doc.com/content/14/0110/18/15459877_344179498.shtml