【数据分析】统计学之几何分布、二项分布及泊松分布

统计学之几何分布、二项分布及泊松分布

作者 白宁超
2015年8月4日13:08:28


摘要:本文针对统计学学习之离散章节,本科针对离散数学以及概率论学习期间,总是一味觉得软件开发与数学有何联系,根本学其无用。然而走进数据分析,大数据处理才发现其重要性。如何计算和利用概率分布,采用概率树不免增加了计算的复杂度,有没有更好的计算方法?本篇我们介绍一些特殊的概率分布,这些概率分布具有固定的形式,我们懂得这些模式善加利用能快速求解概率、期望、方差等问题。本篇文章思路采用单独剖析,整合梳理,公式实现、外加扩展的方式。首先由于实际问题对概念、公式、意义等基本问题进行梳理。然后针对其优缺点和适用环境,循环渐进的分析各种分布的情况。最后对三者分布区别联系进行总结,结果实际案例和当前应用予以结尾。本文原创,转载标明出处。

目录:

  • 回顾题引
  • 几何分布
  • 二项分布
  • 泊松分布
  • 本章小结
  • 内容扩展
  • 参考文献

一、回顾题引

问题?

小明滑雪: 每次(独立事件)试滑成功的概率0.2,不成功的概率0.8.则

成功 失败
0.2 0.8

1、试滑两次成功的概率?
2、试滑一次或两次猜中的概率?
3、试滑10000次,首次成功的概率?
4、试滑第10000次以上成功的概率?

概率树:

解答:

1、概率树求概率

设X最终试滑成功次数,则:
P(X=1)=P(第1次试滑成功)=0.2 【:试滑一次成功的概率】
P(X=2)=P(第1次试滑失败AND第2试滑成功)=0.2 * 0.8=0.16 【:试滑两次成功的概率】
P(X<=2)=P(X=1)+P(X=2)=0.36 【
:试滑一次或两次猜中的概率】

2、试滑10000次,首次成功的概率?

$$
P(x=10000)=q^{10000-1}p=0.8^{9999}*0.2
$$

3、试滑第10000次以上成功的概率?

$$
P(x>10000)=q^{10000}p=0.8^{10000}
$$

几何分布

1、概念

什么是几何分布?

【百度百科】几何分布是离散型概率分布。在n次伯努利试验中,试验k次才得到第一次成功的机率。详细的说,是:前k-1次皆失败,第k次成功的概率。
【课本】如果p代表成功概率,则1-p即q代表失败概率使用以下:

公式叫做概率的几何分布。

2、条件、众数、公式、方差、期望

  • 几何分布条件
    1、进行一系列相互独立的实验。
    2、每一次实验既有成功,又有失败的可能,且单次实验成功概率相等。
    3、为了取得第一次成功需要进行多少次实验。
  • 众数:
    任何几何分布的众数都是1,因为r=1时,P(X=1)最大
  • 表达式(X符合几何分布,其中成功概率p):
    X ~ G (p) 或者 X ~ Geo (p)
  • 计算公式:(成功概率为p,失败概率为q,试验次数为r)
    1、第r次试验第一次成功: P(X=r)=pq^{r-1}
    2、需要试验r次以上才第一次成功: P(X>r)=q^r
    3、试验r次或者不到r次才第一次成功:P(X<=r)=1-q^r
  • 计算方差和期望:
    期望:E(X)=1/p
    期望特点:随着x变大,累计总数和越来越接近一个特定值。
    方差:Var(X)=q/p^2
    方差特点:随着x变大,方差越来越接近特定值

3、优缺点

  • 优点:
    简化概率、数学期望、方差的计算
  • 缺点:
    试验次数一定,求成功次数。或者成功与失败事件非独立。

4、实例

  • 应用科学:数学以及相关领域
  • 适用领域范围:自然数学,应用数学,高等数学,概率论
  • 射击比赛等

5、核心代码

    /**
 * 在n次伯努利试验中,试验r次才得到第一次成功的机率 P(X=r)=pq^{r-1}
 * @param p double型保留一位小数,表示成功的概率
 * @param q double型保留一位小数,表示失败的概率即1-p
 * @param r 整型,实验次数
 * @return PX double型保留两位小数,第一次成功的机率
 */
public static double FirstSuccess(double p,double q,int r)
{
    double PX=0;
    double k=(double)(r-1);
    PX= p*(Math.pow(q, k));
    return PX;
}

/**
 * 在n次伯努利试验中,需要试验r次以上才第一次成功: P(X>r)=q^r
 * @param q double型保留一位小数,表示失败的概率即1-p
 * @param r 整型,实验次数
 * @return PX double型保留两位小数,需要试验r次以上才第一次成功
 */
public static double MoreSuccess(double q,int r)
{
    double PX=0;
    PX= Math.pow(q, r);
    return PX;
}

/**
 * 在n次伯努利试验中,试验r次或者不到r次才第一次成功:P(X<=r)=1-q^r
 * @param q double型保留一位小数,表示失败的概率即1-p
 * @param r 整型,实验次数
 * @return MorePX double型保留两位小数,需要试验r次以上才第一次成功
 */
public static double LessSuccess(double q,int r)
{
    double MorePX=0;
    MorePX= Math.pow(q, r);
    double PX=Double.valueOf(1.0-MorePX);
    return PX;
}

    /**
 * 在n次伯努利试验中,几何分布的期望E(X)=1/p
 * @param p double型保留一位小数,表示成功的概率
 * @return EX double型保留两位小数,几何分布的期望
 */
public static double Expectation(double p)
{
    double EX=0;
    EX= 1.0/p;
    return EX;
}

/**
 * 在n次伯努利试验中,几何分布的方差Var(X)=q/p^2
 * @param p double型保留一位小数,表示成功的概率
 * @param q double型保留一位小数,表示失败的概率即1-p
 * @return VX double型保留两位小数,几何分布的方差
 */
public static double Variance(double p,double q)
{
    double VX=0;
    VX= q/Math.pow(p, 2);
    return VX;
}

二项分布

1、概念

什么是二项分布?
【百度百科】二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。

【课本】在相互独立事件中,每道题答对概率为p,答错概率为q。在n个问题中答对r个问题的概率为:
这类问题称之为二项分布。
【统计学定义二项分布】
在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布,二项分布是显著性差异的二项试验的基础。

2、条件、表达式、两点分布、公式、方差、期望

  • 条件
    1.正在进行一系列独立试验;
    2.每次试验都存在失败和成功的可能,每一次试验的成功概率相同;
    3.试验次数有限。
  • 表达式(试验次数n,成功概率p):
    ξ~B(n,p)
  • 两点分布:
    当n=1时,记住 X ~ B (1,p) 即两点分布。
  • 二项分布形状特点:
    P<0.5时图形向右偏移;当p>0.5时,图形向左偏移。
  • 计算概率公式:
    其中
  • 期望:E(X)=np
  • 方差: Var(X)=npq(其中q=1-p)

3、优缺点

优点:在试验次数一定,求成功次数时,几何分布显示不适合的情况下,给予这类问题二项分布能更好的解决。
缺点:但是面对试验次数不固定,发生事件概率的情况下,显然几何分布与二项分布都不能解决,这里也体现出泊松分布的优势

4、实例

  • 某地某一时期内出生35名婴儿,其中女性19名(定Sex=0),男性16名(定Sex=1)。问这个地方出生婴儿的性别比例与通常的 男女性比例(总体概率约为0.5)是否不同?数据如表10-2所示。35名婴儿的性别的二项式检验?(参见SPSS演示)
  • n次试验在相同条件下进行,各个观察单位的结果独立,且只能具有相互对立的一种结果,二项分布常用于医学领域。

5、核心代码实现

    /**
 * 在n次伯努利试验中,在n次独立的伯努利试验发生r次的概率为
 * P(X=r)=n-C_r*p^{r}*q^{n-r}且n-C_r=n!/r!*(n-r)!
 * @param n int,表示总的独立事件
 * @param r int,表示发生r次
 * @param p double型保留一位小数,表示成功的概率
 * @param q double型保留一位小数,表示失败的概率即1-p
 * @return PX double型保留两位小数,第一次成功的机率
 */
public static double RSucess(int n,int r,double p,double q)
{
    double PX=0;
    double k=(double)(n-r);
    int kk=n-r;
    //ncr即n-C_r=n!/r!*(n-r)!
    double ncr=NumFormat.factorial(n)/(NumFormat.factorial(r)*NumFormat.factorial(kk));
    PX=ncr*(Math.pow(p, r))*(Math.pow(q, k));
    return PX;
}

/**
 * 在n次伯努利试验中,二项分布的期望E(X)=np
 * @param n int型,表示试验的次数
 * @param p double型保留一位小数,表示成功的概率
 * @return EX double型保留两位小数,几何分布的期望
 */
public static double Expectation(int n,double p)
{
    double EX=0;
    EX= Double.valueOf(n)*p;
    return EX;
}

/**
 * 在n次伯努利试验中,二项分布的方差Var(X)=npq
 * @param n int型,表示试验的次数
 * @param p double型保留一位小数,表示成功的概率
 * @param q double型保留一位小数,表示失败的概率即1-p
 * @return VX double型保留两位小数,二项分布的方差
 */
public static double Variance(int n,double p,double q)
{
    double VX=0;
    VX= Double.valueOf(n)*p*q;
    return VX;
}

泊松分布

1、概念

【课本】单独事件在给定区间随机独立发生,已知事件平均发生数且有限次数,通过以下计算: $$ P(X=r) = {e^{-λ}λ^r\over r!} $$这样的一类事件叫做泊松分布。
特点
1、不需要一系列试验,描述事件特定区间发生次数。
2、两个独立的泊松分布相加也符合泊松分布。(即n>50且p<0.1时或np近似等于npq时)
3、特定条件下可以用来近似代替二项分布。

2、条件、表达式、特点、公式、众数、方差、期望

  • 条件
    1、单独事件在给定区间内随机独立的发生,给定区别可以是时间或者空间。(一周、一英里)
    2、已知该区间内的事件平均发生次数(发生率),且为有限数值。该事件平均发生次数用λ表示。
  • 表达式(区间内平均发生次数为λ):
  • 泊松分布形状特点:λ小时,分布向右偏斜;当λ大时,分布逐渐对称。
  • 计算概率(e常数2.718,平均发生次数为λ,区间内r次事件):
    $$ P(X=r) = {e^{-λ}λ^r\over r!} $$
  • 众数:
    λ是一个整数,则有两个众数λ和λ-1,如不是整数,众数λ。
  • 期望: E(X)=λ
  • 方差: Var(X)=λ
  • 独立随机变量进行组合:
  • 泊松分布与二项分布有何关系?
    当二项分布X~B(n,p)的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1,np<=5时,就可以用泊松公式近似得计算,X可以近似表示X~Po(np)。

问题:为什么n要足够大,p要足够小?

因为在分时间窗口的时候有个假设:每个时间窗口最多只有一个乘客到达。(时间区间乘客问题)

3、优缺点

不需要一系列试验,描述事件特定区间发生次数,特别适用。另外一定条件下替换二项分布带来简便的运算。

4、实例

  • 应用学科:概率论
  • 某一服务设施在一定时间内到达人数,电话交换机接到呼叫的次数,汽车站台的侯客人数,机器出现的故障次数,自然灾害发生次数,一块产品的缺陷,显微镜下单位分区内的细菌分布数等。
  • 在交通工程的应用、非典流行与传播服从泊松分布
  • 自然现象普遍存在泊松分布现象,主要指大量重复实验中稀有事件发生的次数。

5、核心代码实现

    /**
 * 泊松分布的概率P(X=r) = {e^{-λ}λ^r\over r!(e常数2.718,平均发生次数为λ,区间内r次事件)
 * @param e常数2.718
 * @param λ 整型,平均发生次数
 * @param r 整型,区间内r次事件
 * @return PX double型保留两位小数,泊松分布的概率
 */
public static double BosongSuccess(int λ,int r)
{
    double PX=0;
    double e=2.718;
    PX= Math.pow(e, -Double.valueOf(λ))*Math.pow(λ, r)/NumFormat.factorial(r);
    return PX;
}

/**
 * 泊松分布的期望E(X)=λ
 * @param λ double型保留两位小数,表示平均发生次数为λ
 * @return VX double型保留两位小数,泊松分布的期望
 */
public static double Expectation(double λ)
{
    double EX=0;
    EX= λ;
    return EX;
}

/**
 * 泊松分布的方差Var(X)=λ
 * @param λ double型保留两位小数,表示平均发生次数为λ
 * @return VX double型保留两位小数,泊松分布的方差
 */
public static double Variance(double λ)
{
    double VX=0;
    VX= λ;
    return VX;
}

二、本章小结

几何分布

应用条件:
进行一系列独立试验,每次试验成功或失败且每次成功概率相同。目的:取第一次成功需要进行多少次试验。
表达式(X符合几何分布,其中成功概率p):
X ~ Geo (p)
几何分布概率算式成立:
1、第r次试验第一次成功: P(X=r)=pq^{r-1}
2、需要试验r次以上才第一次成功: P(X>r)=q^r
3、试验r次或者不到r次才第一次成功:P(X<=r)=1-q^r
期望方差:
E(X)=1/p 和 Var(X)=q/p^2

二项分布

应用条件:
进行一系列次数有限的独立试验,每次试验成功或失败且每次成功概率相同。目的:第N次试验中成功多少次。
表达式(X符合二项分布,n是试验次数,其中成功概率p):
X ~ B (n,p)
两点分布:
当n=1时,记住 X ~ B (1,p) 即两点分布。
二项分布概率算式成立:
其中
期望方差:
E(X)=np 和 Var(X)=npq

泊松分布

应用条件:
单事件在给定区间内随机、独立的发生,已知给定区间事件平均发生次数且有限。目的:给定区间内事件发生次数。
表达式(X符合泊松分布,其中成功概率p):
X ~ Po(λ)
泊松分布概率算式成立:

$$ P(X=r) = {e^{-λ}λ^r\over r!} $$
期望方差:E(X)=λ 和 Var(X)=λ
如果X~Po(λx),Y~Po(λy)且X和Y是独立的,则X+Y~Po(λ_x+λ_y)
如果X~B(n,p)的n很大而p很小时,X可以近似表示X~Po(np)。

泊松分布与二项分布、正态分布的关系

  • 泊松分布代替二项分布
    当n很大且p很小时,可以用X~Po(np)近似代替X~B(n,p).(n>50且p<0.1)或者(q近似1且n很大,np近似等于npq)
  • 正态分布代替泊松分布
    如果X~Po(λ)且λ>15,则可用X~N(λλ)进行近似
  • 正态分布代替二项分布
    二项分布X~B(n,p),当np>5且nq>5时,正态分布代替二项分布.(必须进行连续性修订)
    修订
    小于等于:P(X<=a)连续标度a+0.5即P(X<a+0.5)
    大于等于:P(X>=b)连续标度a-0.5即P(X>b-0.5)
    介于:P(a<=X<=b)连续标度即P(a-0.5<=X<=b+0.5)

总结:小加大减

三、内容扩展

  • 伯努利试验:进行一系列的重复独立试验,每个试验的结果只有二个,一个结果出现的概率总是p,另一个结果总是q,称为贝努利试验。
  • n重伯努利试验:伯努利试验在相同条件下独立重复进行n次。
  • 两点分布:随机变量X只可能是0或1,其中0<p<1,则称X服从参数为p的两点分布记住X~B(1,p)。
  • 分布分类
    连续型随机分布:正态分布、均匀分布、指数分布、对数正态分布、柯西分布、Gamma分布、瑞利分布、韦伯分布
    离散型随机分布:二项分布、几何分布、超几何分布、泊松分布
    三大抽样分布:卡方分布、F分布、t分布

四、参考文献

1、几何分布随机函数
2、matlab生成随机数函数
3、概率论05 离散分布
4、SPSS中八类常用非参数检验之二:二项分布(Binomial)检验
5、指数分布与泊松分布的随机值的产生程序原理解析
6、几种常见的分布
7、深入浅出统计学

时间: 2024-10-13 19:09:30

【数据分析】统计学之几何分布、二项分布及泊松分布的相关文章

二项分布与泊松分布

最近学习了基因组组装的课程,其中在使用kmer估算基因组大小时,讲到了二项分布和泊松分布,课程把它们的由来和关系讲得十分透彻,同时与具体实例相结合,本文再对它做一个总结. 通过这个例子也会真实的感受到数学的神奇,数学公式的变换,奇妙的证明,最神奇的是它的应用,让我想起了一本很有名但我一直都没有去看的书--<数学之美> 正文:二项分布和泊松分布的关系 定义 二项分布:P(X=k)=Cnkpk(1-p)(n-k) 抛硬币,假设硬币不平整,抛出正面的概率为p,那么在n次抛硬币的实验中,出现k次正面的

二项分布和泊松分布的关系

定义 二项分布:P(X=k)=Cnkpk(1-p)(n-k) 抛硬币,假设硬币不平整,抛出正面的概率为p,那么在n次抛硬币的实验中,出现k次正面的概率 泊松分布: p(X=k)=λke-λ/k! 公共汽车站在单位时间内,来乘车的乘客数为k 的概率.假定平均到站乘客数为λ  二项分布和泊松分布的关系 n很大,p很小时泊松分布可以用来近似二项分布,此时 λ=np 二者关系的直观解释: 从泊松分布说起.把单位时间分成n等分,称为n个时间窗口.那么在某个时间窗口来一个客人的概率为λ/n.(稍后解释,其实

【数据分析/挖掘必备知识】统计学之卡方分布

统计学之卡方分布 作者 白宁超 2015年8月9日22:33:00 摘要:本文针对统计学之卡方分布的学习总结.本文首先介绍什么是卡方分布,以及卡方分布到底有何用处.然后根据其主要作用和特点进行剖析.采用题引方式进入卡方介绍,为了对概念深刻理解,则采用问题解决方式,遇到问题,首先介绍其概念以及实际使用的场景.主线采用卡方的两个主要用途检验拟合优度与检验两个变量的独立性,如果第一次听到此概念,也不用担心随后展开介绍.最后根据概念适应作以总结.再次基础上对核心内容进行扩展并对必要部分进行代码实现或者实

【数据分析/挖掘底层算法】原创实现二项分布算法以及应用

7.2 二项分布算法 作者 白宁超 2015年8月15日22:51:38 摘要:本文继统计学几何分布.二项分布.泊松分布研究的深入,基于各种分布基础概念和核心知识介绍之后.就各种分布的实现和真实环境下应用方是目的.在进行一系列相互独立实验,每次既有成功,又有失败的可能,且单次实验成功概率相等.在一系列试验中求成功的次数.这种情况下适用于本算法.本算法中在n次伯努利试验中:试验n次得到r次成功的概率.二项分布的期望.二项分布方差的具体实现. 目录 统计学之离散概率分布的运用 统计学之几何分布.二项

【数据分析/挖掘必备知识】统计学之离散概率分布的运用

统计学之离散概率分布的运用 作者 白宁超 2015年8月12日16:37:02 摘要:本文针对统计学之离散概率分布的运用的学习总结.知道如何通过概率得知发生某事件的可能性的大小.可惜概率不是万能的,他无法指出所发生的这些事情的影响,也无法指出这种整体影响对具体的影响.这里我们利用概率分布预期长期结果,以及如何度量这些预期结果的确定性.仍然采用核心定义和案例分析,结合具体代码实现的方式进行剖析本文原创,转载标明出处. 文章导航: 统计学之几何分布.二项分布及泊松分布 1 离散概率分布 1.1   

数据分析经典图书推荐

一.基础知识:我们都该学点统计学? 统计学是一门以概率论为基础的方法论学科,主要通过收集数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.它在几乎所有学科领域里面都具有重要的应用,从物理.社会科学到人文科学,甚至被用来工商业及政府的情报决策之上. 往近了说,想要成为一名数据分析师或已是数据分析师需要提高的,必须掌握最基本的统计基础知识.统计思想:下面给推荐的,是目前市面上有关统计学原理写的相当不错的一些图书,供大家学习参考!! 1.<深入浅出统计学> 购买地址:京东 

【程序员眼中的统计学(7)】正态分布的运用:正态之美

正态分布的运用:正态之美 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于统

【程序员眼中的统计学(9)】总体和样本的估计:进行预测

总体和样本的估计:进行预测 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习基于<深入浅出统计学>一书(偏向代码实现,需要读者有一定基础,可以参见后面PPT学习).正如(吴军)先生在<数学之美>一书中阐述的,基于

【程序员眼中的统计学(12)】相关与回归:我的线条如何? (转)

阅读目录 目录 1 算法的基本描述 2 算法的应用场景. 3算法的优点和缺点 4 算法的输入数据.中间结果以及输出结果 5 算法的代码参考 6 共享 相关与回归:我的线条如何? 作者 白宁超 2015年10月25日22:16:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习