泊松分布和指数分布

泊松分布和指数分布:10分钟教程

作者: 阮一峰

日期: 2015年6月10日

大学时,我一直觉得统计学很难,还差点挂科。

工作以后才发现,难的不是统计学,而是我们的教材写得不好。比起高等数学,统计概念其实容易理解多了。

我举一个例子,什么是泊松分布指数分布?恐怕大多数人都说不清楚。

我可以在10分钟内,让你毫不费力地理解这两个概念。

一、泊松分布

日常生活中,大量事件是有固定频率的。

  • 某医院平均每小时出生3个婴儿
  • 某公司平均每10分钟接到1个电话
  • 某超市平均每天销售4包xx牌奶粉
  • 某网站平均每分钟有2次访问

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。

泊松分布就是描述某段时间内,事件具体的发生概率。

上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。

接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。

接下来一个小时,至少出生两个婴儿的概率是80%。

泊松分布的图形大概是下面的样子。

可以看到,在频率附近,事件的发生概率最高,然后向两边对称下降,即变得越大和越小都不太可能。每小时出生3个婴儿,这是最可能的结果,出生得越多或越少,就越不可能。

二、指数分布

指数分布是事件的时间间隔的概率。下面这些都属于指数分布。

  • 婴儿出生的时间间隔
  • 来电的时间间隔
  • 奶粉销售的时间间隔
  • 网站访问的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间 t ,就等同于 t 之内没有任何婴儿出生。

反过来,事件在时间 t 之内发生的概率,就是1减去上面的值。

接下来15分钟,会有婴儿出生的概率是52.76%。

接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%。

指数分布的图形大概是下面的样子。

可以看到,随着间隔时间变长,事件的发生概率急剧下降,呈指数式衰减。想一想,如果每小时平均出生3个婴儿,上面已经算过了,下一个婴儿间隔2小时才出生的概率是0.25%,那么间隔3小时、间隔4小时的概率,是不是更接近于0?

三、总结

一句话总结:泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。

请注意是"独立事件",泊松分布和指数分布的前提是,事件之间不能有关联,否则就不能运用上面的公式。

[说明] 本文受到 nbviewer 文档的启发。

(正文完)

时间: 2024-10-14 23:51:16

泊松分布和指数分布的相关文章

泊松分布和指数分布:10分钟教程

大学时,我一直觉得统计学很难,还差点挂科. 工作以后才发现,难的不是统计学,而是我们的教材写得不好.比起高等数学,统计概念其实容易理解多了. 我举一个例子,什么是泊松分布和指数分布?恐怕大多数人都说不清楚. 我可以在10分钟内,让你毫不费力地理解这两个概念.一.泊松分布 日常生活中,大量事件是有固定频率的. 某医院平均每小时出生3个婴儿        某公司平均每10分钟接到1个电话        某超市平均每天销售4包xx牌奶粉        某网站平均每分钟有2次访问 它们的特点就是,我们可

(转)泊松分布和指数分布:10分钟教程

大学时,我一直觉得统计学很难,还差点挂科. 工作以后才发现,难的不是统计学,而是我们的教材写得不好.比起高等数学,统计概念其实容易理解多了. 我举一个例子,什么是泊松分布和指数分布?恐怕大多数人都说不清楚. 我可以在10分钟内,让你毫不费力地理解这两个概念. 一.泊松分布 日常生活中,大量事件是有固定频率的. 某医院平均每小时出生3个婴儿 某公司平均每10分钟接到1个电话 某超市平均每天销售4包xx牌奶粉 某网站平均每分钟有2次访问 它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的

C语言下泊松分布以及指数分布随机数生成器实现

最近实验室的项目需要实现模拟文件访问序列,要求单位时间内的数据请求次数符合泊松分布,而两次请求见的时间间隔符合指数分布.没办法只好重新捡起已经丢掉多时的概率知识.于是也就有了这篇关于在C语言下符合泊松分布和指数分布的随机数生成器的实现. 泊松分布 在实际的事例中,当某一事件,比如进站乘客数量,电话交换机接收到的通话请求以固定的瞬时速率λ独立且随机地出现时,就可以认为该事件在单位时间内发生的次数符合泊松分布. 首先必须由二项分布引出: 如果做一件事情成功的概率是 p 的话,那么独立尝试做这件事情

阮一峰的网络日志 算法

http://www.ruanyifeng.com/blog/algorithm/ 2015年 理解矩阵乘法([email protected]) 蒙特卡罗方法入门([email protected]) 泊松分布和指数分布:10分钟教程([email protected]) 2013年 朴素贝叶斯分类器的应用([email protected]) 相似图片搜索的原理(二)([email protected]) TF-IDF与余弦相似性的应用(三):自动摘要([email protected])

根据排队论阐述路由器和高速公路的拥堵以及拥堵缓解问题

关于本文 相信很多人都在节假日的高速公路上遇到过大拥堵,但是最终拥堵会解除.也有人在质疑路由器队列的长度,以为最终路由器会拒绝服务.我曾经在10年前天真地以为高速公路的设计者和路由器交换机的设计者工作是多么的轻松.然而现在,当我知道更多后,发现事实并不如此.需要更多的权衡和博弈,不仅仅是技术方面的,还涉及到了心理学,社会学,经济学.       因此本文旨在用最简单的描述分析一下排队理论对高速公路以及分组交换网络的指导.文中没有复杂的数学推导,这种推导请自行完成,或者请背诵大学概率论教科书的相关

机器学习的数学基础

一.概述 我们知道,机器学习的特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心:是概率论.线性代数.数值计算.信息论.最优化理论和计算机科学等多个领域的交叉学科.所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识. 二.线性代数 2-1.标量 一个标量就是一个单独的数,一般用小写的的变量名称表示. 2-2.向量 一个向量就是一列数,这些数是有序排列的.用过次序中的索引,我们可以确定每个单独的数.通常会赋予向量粗体的小写名称.当我们需要明确表示向量中的元素时,我们会将元素

分布式存储系统可靠性如何估算?

本文由  网易云发布. 常规情况下,我们一般使用多副本技术来提高存储系统的可靠性,无论是结构化数据库存储 (如典型的 mysql).文档型 Nosql 数据库存储 (mongodb ) 或者是常规的 blob 存储系统 (GFS.Hadoop) 等,无不如此. 因为数据几乎可以称得上是企业生命力的核心,保障数据存储系统的可靠性对于任何企业来说都不是一件小事. 数据丢失与 copyset(复制组) "在由 999 块磁盘组成的 3 副本存储系统中,同时坏三块盘的情况下数据丢失的概率是多大? &qu

判断数据是否服从某一分布(二)——简单易用fitdistrplus包

一.对数据的分布进行初步判断     1.1 原理 对于不同的分布,有特定的偏度(skewness)和峰度(kurtosis),正态分布.均匀分布.逻辑斯谛分布.指数分布的偏度和峰度都是特定的值,在偏度-峰度图中是特定的点,而伽马分布和对数正态分布在偏度-峰度图中是一条直线,贝塔分布在偏度-峰度图中是一片区域.因此可以通过未知分布的偏度峰度值(在图中是一个观察点),与各种分布的偏度峰度点(线.区域)进行对比,判断未知分布数据大致可能的一个或几个分布.     1.2 R代码         li

指数分布族与广义线性模型

整理一下之前所学过的关于回归问题的思路: 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格: 学习过程:构建模型h(θ): 线性回归:最小二乘法.梯度下降法.线性模型的概率解释: 局部加权回归:带权重的线性回归.权值的钟形函数: 逻辑回归:分类方法.梯度上升法.牛顿法.引出感知机学习算法: 广义线性模型:指数分布族.给定概率分布推导出线性模型. 这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知: 在线性回归模型的概率解释中假设: 在逻辑回归模型的推导中假