【数据分析】统计学之几何分布、二项分布及泊松分布

统计学之几何分布、二项分布及泊松分布

作者 白宁超
2015年8月4日13:08:28

摘要:本文针对统计学学习之离散章节，本科针对离散数学以及概率论学习期间，总是一味觉得软件开发与数学有何联系，根本学其无用。然而走进数据分析，大数据处理才发现其重要性。如何计算和利用概率分布，采用概率树不免增加了计算的复杂度，有没有更好的计算方法？本篇我们介绍一些特殊的概率分布，这些概率分布具有固定的形式，我们懂得这些模式善加利用能快速求解概率、期望、方差等问题。本篇文章思路采用单独剖析，整合梳理，公式实现、外加扩展的方式。首先由于实际问题对概念、公式、意义等基本问题进行梳理。然后针对其优缺点和适用环境，循环渐进的分析各种分布的情况。最后对三者分布区别联系进行总结，结果实际案例和当前应用予以结尾。本文原创，转载标明出处。

一、回顾题引

问题?

小明滑雪: 每次（独立事件）试滑成功的概率0.2，不成功的概率0.8.则

成功	失败
0.2	0.8

1、试滑两次成功的概率？
2、试滑一次或两次猜中的概率？
3、试滑10000次，首次成功的概率？
4、试滑第10000次以上成功的概率？

概率树：

解答：

1、概率树求概率

设X最终试滑成功次数，则：
P(X=1)=P(第1次试滑成功)=0.2 【注：试滑一次成功的概率】
P(X=2)=P(第1次试滑失败AND第2试滑成功)=0.2 * 0.8=0.16 【注：试滑两次成功的概率】
P(X<=2)=P(X=1)+P(X=2)=0.36 【注：试滑一次或两次猜中的概率】

2、试滑10000次，首次成功的概率？

$$
P(x=10000)=q^{10000-1}p=0.8^{9999}*0.2
$$

3、试滑第10000次以上成功的概率？

$$
P(x>10000)=q^{10000}p=0.8^{10000}
$$

几何分布

1、概念

什么是几何分布？

【百度百科】几何分布是离散型概率分布。在n次伯努利试验中，试验k次才得到第一次成功的机率。详细的说，是：前k-1次皆失败，第k次成功的概率。
【课本】如果p代表成功概率，则1-p即q代表失败概率使用以下：

公式叫做概率的几何分布。

2、条件、众数、公式、方差、期望

几何分布条件：
1、进行一系列相互独立的实验。
2、每一次实验既有成功，又有失败的可能，且单次实验成功概率相等。
3、为了取得第一次成功需要进行多少次实验。
众数：
任何几何分布的众数都是1，因为r=1时，P(X=1)最大
表达式（X符合几何分布，其中成功概率p）：
X ~ G (p) 或者 X ~ Geo (p)
计算公式：(成功概率为p，失败概率为q，试验次数为r)
1、第r次试验第一次成功： P(X=r)=pq^{r-1}
2、需要试验r次以上才第一次成功： P(X>r)=q^r
3、试验r次或者不到r次才第一次成功：P(X<=r)=1-q^r
计算方差和期望：
期望：E(X)=1/p
期望特点：随着x变大，累计总数和越来越接近一个特定值。
方差：Var(X)=q/p^2
方差特点：随着x变大，方差越来越接近特定值

3、优缺点

优点：
简化概率、数学期望、方差的计算

缺点：
试验次数一定，求成功次数。或者成功与失败事件非独立。

4、实例

应用科学：数学以及相关领域
适用领域范围：自然数学，应用数学，高等数学，概率论
射击比赛等

5、核心代码

    /**
 * 在n次伯努利试验中，试验r次才得到第一次成功的机率 P(X=r)=pq^{r-1}
 * @param p double型保留一位小数，表示成功的概率
 * @param q double型保留一位小数，表示失败的概率即1-p
 * @param r 整型，实验次数
 * @return PX double型保留两位小数，第一次成功的机率
 */
public static double FirstSuccess(double p,double q,int r)
{
    double PX=0;
    double k=(double)(r-1);
    PX= p*(Math.pow(q, k));
    return PX;
}

/**
 * 在n次伯努利试验中，需要试验r次以上才第一次成功： P(X>r)=q^r
 * @param q double型保留一位小数，表示失败的概率即1-p
 * @param r 整型，实验次数
 * @return PX double型保留两位小数，需要试验r次以上才第一次成功
 */
public static double MoreSuccess(double q,int r)
{
    double PX=0;
    PX= Math.pow(q, r);
    return PX;
}

/**
 * 在n次伯努利试验中，试验r次或者不到r次才第一次成功：P(X<=r)=1-q^r
 * @param q double型保留一位小数，表示失败的概率即1-p
 * @param r 整型，实验次数
 * @return MorePX double型保留两位小数，需要试验r次以上才第一次成功
 */
public static double LessSuccess(double q,int r)
{
    double MorePX=0;
    MorePX= Math.pow(q, r);
    double PX=Double.valueOf(1.0-MorePX);
    return PX;
}

    /**
 * 在n次伯努利试验中，几何分布的期望E(X)=1/p
 * @param p double型保留一位小数，表示成功的概率
 * @return EX double型保留两位小数，几何分布的期望
 */
public static double Expectation(double p)
{
    double EX=0;
    EX= 1.0/p;
    return EX;
}

/**
 * 在n次伯努利试验中，几何分布的方差Var(X)=q/p^2
 * @param p double型保留一位小数，表示成功的概率
 * @param q double型保留一位小数，表示失败的概率即1-p
 * @return VX double型保留两位小数，几何分布的方差
 */
public static double Variance(double p,double q)
{
    double VX=0;
    VX= q/Math.pow(p, 2);
    return VX;
}

二项分布

1、概念

什么是二项分布？
【百度百科】二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变。

【课本】在相互独立事件中，每道题答对概率为p，答错概率为q。在n个问题中答对r个问题的概率为：
这类问题称之为二项分布。
【统计学定义二项分布】
在概率论和统计学中，二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上，当n = 1时，二项分布就是伯努利分布，二项分布是显著性差异的二项试验的基础。

2、条件、表达式、两点分布、公式、方差、期望

条件：
1．正在进行一系列独立试验；
2．每次试验都存在失败和成功的可能，每一次试验的成功概率相同;
3．试验次数有限。
表达式（试验次数n，成功概率p）：
ξ~B(n,p)
两点分布：
当n=1时，记住 X ~ B (1，p) 即两点分布。
二项分布形状特点：
P<0.5时图形向右偏移；当p>0.5时，图形向左偏移。
计算概率公式：
其中
期望：E(X)=np
方差: Var(X)=npq（其中q=1-p）

3、优缺点

优点：在试验次数一定，求成功次数时，几何分布显示不适合的情况下，给予这类问题二项分布能更好的解决。
缺点：但是面对试验次数不固定，发生事件概率的情况下，显然几何分布与二项分布都不能解决，这里也体现出泊松分布的优势

4、实例

某地某一时期内出生35名婴儿，其中女性19名（定Sex=0），男性16名（定Sex=1）。问这个地方出生婴儿的性别比例与通常的男女性比例（总体概率约为0.5）是否不同？数据如表10-2所示。35名婴儿的性别的二项式检验?（参见SPSS演示）
n次试验在相同条件下进行，各个观察单位的结果独立，且只能具有相互对立的一种结果，二项分布常用于医学领域。

5、核心代码实现

    /**
 * 在n次伯努利试验中，在n次独立的伯努利试验发生r次的概率为
 * P(X=r)=n-C_r*p^{r}*q^{n-r}且n-C_r=n!/r!*(n-r)!
 * @param n int，表示总的独立事件
 * @param r int，表示发生r次
 * @param p double型保留一位小数，表示成功的概率
 * @param q double型保留一位小数，表示失败的概率即1-p
 * @return PX double型保留两位小数，第一次成功的机率
 */
public static double RSucess(int n,int r,double p,double q)
{
    double PX=0;
    double k=(double)(n-r);
    int kk=n-r;
    //ncr即n-C_r=n!/r!*(n-r)!
    double ncr=NumFormat.factorial(n)/(NumFormat.factorial(r)*NumFormat.factorial(kk));
    PX=ncr*(Math.pow(p, r))*(Math.pow(q, k));
    return PX;
}

/**
 * 在n次伯努利试验中，二项分布的期望E(X)=np
 * @param n int型，表示试验的次数
 * @param p double型保留一位小数，表示成功的概率
 * @return EX double型保留两位小数，几何分布的期望
 */
public static double Expectation(int n,double p)
{
    double EX=0;
    EX= Double.valueOf(n)*p;
    return EX;
}

/**
 * 在n次伯努利试验中，二项分布的方差Var(X)=npq
 * @param n int型，表示试验的次数
 * @param p double型保留一位小数，表示成功的概率
 * @param q double型保留一位小数，表示失败的概率即1-p
 * @return VX double型保留两位小数，二项分布的方差
 */
public static double Variance(int n,double p,double q)
{
    double VX=0;
    VX= Double.valueOf(n)*p*q;
    return VX;
}

泊松分布

1、概念

【课本】单独事件在给定区间随机独立发生，已知事件平均发生数且有限次数，通过以下计算： $$ P(X=r) = {e^{-λ}λ^r\over r!} $$这样的一类事件叫做泊松分布。
特点
1、不需要一系列试验，描述事件特定区间发生次数。
2、两个独立的泊松分布相加也符合泊松分布。（即n>50且p<0.1时或np近似等于npq时）
3、特定条件下可以用来近似代替二项分布。

2、条件、表达式、特点、公式、众数、方差、期望

条件：
1、单独事件在给定区间内随机独立的发生，给定区别可以是时间或者空间。（一周、一英里）
2、已知该区间内的事件平均发生次数（发生率），且为有限数值。该事件平均发生次数用λ表示。
表达式（区间内平均发生次数为λ）：
泊松分布形状特点：λ小时，分布向右偏斜；当λ大时，分布逐渐对称。
计算概率（e常数2.718，平均发生次数为λ，区间内r次事件）：
$$ P(X=r) = {e^{-λ}λ^r\over r!} $$
众数：
λ是一个整数，则有两个众数λ和λ-1，如不是整数，众数λ。
期望： E(X)=λ
方差： Var(X)=λ
独立随机变量进行组合：
泊松分布与二项分布有何关系？
当二项分布X~B(n,p)的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧10,p≦0.1，np<=5时，就可以用泊松公式近似得计算，X可以近似表示X~Po（np）。

问题：为什么n要足够大，p要足够小？

因为在分时间窗口的时候有个假设：每个时间窗口最多只有一个乘客到达。(时间区间乘客问题)

3、优缺点

不需要一系列试验，描述事件特定区间发生次数，特别适用。另外一定条件下替换二项分布带来简便的运算。

4、实例

应用学科：概率论
某一服务设施在一定时间内到达人数，电话交换机接到呼叫的次数，汽车站台的侯客人数，机器出现的故障次数，自然灾害发生次数，一块产品的缺陷，显微镜下单位分区内的细菌分布数等。
在交通工程的应用、非典流行与传播服从泊松分布
自然现象普遍存在泊松分布现象，主要指大量重复实验中稀有事件发生的次数。

5、核心代码实现

    /**
 * 泊松分布的概率P(X=r) = {e^{-λ}λ^r\over r!（e常数2.718，平均发生次数为λ，区间内r次事件）
 * @param e常数2.718
 * @param λ 整型，平均发生次数
 * @param r 整型，区间内r次事件
 * @return PX double型保留两位小数，泊松分布的概率
 */
public static double BosongSuccess(int λ,int r)
{
    double PX=0;
    double e=2.718;
    PX= Math.pow(e, -Double.valueOf(λ))*Math.pow(λ, r)/NumFormat.factorial(r);
    return PX;
}

/**
 * 泊松分布的期望E(X)=λ
 * @param λ double型保留两位小数，表示平均发生次数为λ
 * @return VX double型保留两位小数，泊松分布的期望
 */
public static double Expectation(double λ)
{
    double EX=0;
    EX= λ;
    return EX;
}

/**
 * 泊松分布的方差Var(X)=λ
 * @param λ double型保留两位小数，表示平均发生次数为λ
 * @return VX double型保留两位小数，泊松分布的方差
 */
public static double Variance(double λ)
{
    double VX=0;
    VX= λ;
    return VX;
}

二、本章小结

几何分布

应用条件：
进行一系列独立试验，每次试验成功或失败且每次成功概率相同。目的：取第一次成功需要进行多少次试验。
表达式（X符合几何分布，其中成功概率p）：
X ~ Geo (p)
几何分布概率算式成立：
1、第r次试验第一次成功： P(X=r)=pq^{r-1}
2、需要试验r次以上才第一次成功： P(X>r)=q^r
3、试验r次或者不到r次才第一次成功：P(X<=r)=1-q^r
期望方差：
E(X)=1/p 和 Var(X)=q/p^2

二项分布

应用条件：
进行一系列次数有限的独立试验，每次试验成功或失败且每次成功概率相同。目的：第N次试验中成功多少次。
表达式（X符合二项分布，n是试验次数，其中成功概率p）：
X ~ B (n，p)
两点分布：
当n=1时，记住 X ~ B (1，p) 即两点分布。
二项分布概率算式成立：
其中
期望方差：
E(X)=np 和 Var(X)=npq

泊松分布

应用条件：
单事件在给定区间内随机、独立的发生，已知给定区间事件平均发生次数且有限。目的：给定区间内事件发生次数。
表达式（X符合泊松分布，其中成功概率p）：
X ~ Po(λ)
泊松分布概率算式成立：

$$ P(X=r) = {e^{-λ}λ^r\over r!} $$
期望方差：E(X)=λ 和 Var(X)=λ
如果X~Po(λx),Y~Po(λy)且X和Y是独立的，则X+Y~Po（λ_x+λ_y）
如果X~B(n，p)的n很大而p很小时，X可以近似表示X~Po（np）。

泊松分布与二项分布、正态分布的关系

泊松分布代替二项分布
当n很大且p很小时，可以用X~Po(np)近似代替X~B(n,p).(n>50且p<0.1)或者(q近似1且n很大，np近似等于npq)
正态分布代替泊松分布
如果X~Po(λ)且λ>15,则可用X~N(λλ)进行近似
正态分布代替二项分布
二项分布X~B(n,p)，当np>5且nq>5时,正态分布代替二项分布.(必须进行连续性修订)
修订
小于等于:P(X<=a)连续标度a+0.5即P(X<a+0.5)
大于等于:P(X>=b)连续标度a-0.5即P(X>b-0.5)
介于:P(a<=X<=b)连续标度即P(a-0.5<=X<=b+0.5)

总结:小加大减

三、内容扩展

伯努利试验：进行一系列的重复独立试验，每个试验的结果只有二个，一个结果出现的概率总是p，另一个结果总是q,称为贝努利试验。
n重伯努利试验：伯努利试验在相同条件下独立重复进行n次。
两点分布：随机变量X只可能是0或1，其中0<p<1，则称X服从参数为p的两点分布记住X~B(1,p)。
分布分类
连续型随机分布：正态分布、均匀分布、指数分布、对数正态分布、柯西分布、Gamma分布、瑞利分布、韦伯分布
离散型随机分布:二项分布、几何分布、超几何分布、泊松分布
三大抽样分布：卡方分布、F分布、t分布

四、参考文献

1、几何分布随机函数
2、matlab生成随机数函数
3、概率论05 离散分布
4、SPSS中八类常用非参数检验之二：二项分布（Binomial）检验
5、指数分布与泊松分布的随机值的产生程序原理解析
6、几种常见的分布
7、深入浅出统计学

时间： 2024-10-13 19:09:30

【数据分析】统计学之几何分布、二项分布及泊松分布

统计学之几何分布、二项分布及泊松分布

目录：

一、回顾题引

问题?

概率树：

解答：

1、概率树求概率

2、试滑10000次，首次成功的概率？

3、试滑第10000次以上成功的概率？

几何分布

1、概念

2、条件、众数、公式、方差、期望

3、优缺点

4、实例

5、核心代码

二项分布

1、概念

2、条件、表达式、两点分布、公式、方差、期望

3、优缺点

4、实例

5、核心代码实现

泊松分布

1、概念

2、条件、表达式、特点、公式、众数、方差、期望

问题：为什么n要足够大，p要足够小？

3、优缺点

4、实例

5、核心代码实现

二、本章小结

几何分布

二项分布

泊松分布

泊松分布与二项分布、正态分布的关系

三、内容扩展

四、参考文献

【数据分析】统计学之几何分布、二项分布及泊松分布的相关文章