概率笔记5——概率分布

  分布函数(英文Cumulative Distribution Function, 简称CDF),是概率统计中重要的函数,正是通过它,可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。

从事件到函数

  我们已经很清楚函数的概念,g = g(x)是一个典型的函数,输入数据经过g(x)的处理后得到了一个新的输出g。在概率当中,也存在类似的定义。

  例如一个样本空间有一系列随机事件Ω = {ω1, ω1, ω1 …ωn},那么将存在一个函数,这个函数把事件映射为一个实数:

  这样做是为了用数学去表达事件——函数最终将转换为数,有了数,我们就能利用很多已知的工具去处理概率问题。如果Ω表示球队的比赛事件,那么Ω = {胜,负,平},一个典型的X转换就是:胜→1,负→-1,平→0。二进制的0和1也能表达很多诸如开/关、升/降等事件。

分布函数

  有了函数X,就可以进而将事件的概率转换为普通的函数,于是有了分布函数的定义:

  F(x)就是分布函数,它表示X ≤ x的概率。举例来说,如果一个人的身高是1.75m,这个人的身高在全国的分布就是所有小于等于1.75m的人在全国的比例。看起来英文Cumulative Distribution Function更容易理解,F(x)就是概率的积累。

  需要注意的是,此处的大X和小x都是一个具体的实数,小x的取值范围是 -∞ ≤ x ≤ +∞,这是一个什么梗?

  这要从坐标系说起了。

  上图中的曲线是f(x),-∞ < x < +∞,对于任意的x,都有一个y能够对应。同样,对于概率分布函数F(x)来说,我们也希望对任意的x都能找到对应的y,也就是P(X≤x)。别忘了,我们的目的是将事件转换为数,从而将概率转换为函数。从概率的角度来讲,-∞ < x < +∞表示了概率的全部事件。

离散型分布

离散事件

  离散型事件指事件可能的取值是有限个或可列无穷个。

  有限个好理解,比如骰子的结果。可列无穷个有意思了,它指值能够例举出来,但是永远无法全部列举,自然数和整数就是这样的例子。

  这里有个好玩的事,整数是无穷的,自然数也是无穷的,那么整数和自然数的数量哪个更多呢?

  第一感觉是整数更多,多了一倍。但真相是,二者的数量一样多。这就要了解数学中是怎样定义“一样多”的。在数学中,如果两个集合能够产生一一对应的关系,我们就可以说这两个集合的数据一样多。这个对应关系可以用一个函数表示,比如整数和自然数的对应可以是这样:

  无论哪一个整数,都能在自然数中找到唯一的对应。

  整数和实数呢?实数的个数要远远大于整数,它们无法产生一一对应,因为每两个实数间都有无穷多个数。这就又引出一个问题,实数的个数与[-1, 1]区间内的实数个数哪个多呢?第一感觉又是实数多,但实际上二者的个数相等。这个匪夷所思的问题可以用下图表示,说明二者一一对应:

  上图是一个数轴,数轴上的每一个点都代表一个实数;现在把-1到1之间的线段的向上弯折,得到一个与0点相切,弧长是2的红色圆弧。现在,把数轴上的任意点与弧连线,都可以在弧上找到唯一点:

  由此可见,二者的数量相等,准确的说是“势”相等。

分布函数

  离散事件的每个取值都对应一个概率,它的分布率大概长成这个样子:

  它的分布函数:

  在所有的分布函数中,x的取值范围都是关键,它强调了“事件”到“函数”的转换。

  在射击比赛中,有大、中、小三类目标供选择,各类目标的得分和命中率如下:

  其中score对应了x的取值,rate对应分布值F(x),F(x)的分布曲线如下:

  这里又一次强调了分布函数F(x)中x的取值是从-∞到+∞。当x<1时,表示没有任何目标可供射击,命中率是0; x ≤ 2时,命中中型和中型以下目标的概率是F(2) = P(middle) + P(small) = 1/3 + 1/2 = 5/6;x ≥ 5时,变成了必然事件,F(x) = 1。

  我们看到F(x)的取值是[0, 1],这也是概率的取值范围;这种阶梯式的函数就是离散型随机事件的分布函数。

连续型分布

连续事件

  相对于离散事件,连续事件就是随机事件是连续型的事件。这是通俗解释,看起来没错,但并不精确。

  在精确定义之前先来看一个好玩的例子:一个人会在9:00~10:00到达某地,他恰巧在9:30抵达的概率是多少?

  似乎很简单,但实际上不是那么回事,问题出在时间的度量上。前面说过,0~1之间的实数有无穷多个,同样,由于我们并没有指定时间的最小刻度,所以9:00~10:00之间的也有无穷多个,这相当于样本空间的事件有无穷个。如果用几何概型思考——将概率转换为长度的比例——我们会发现,9:30是时间轴上的一点,点的长度是0,所以P{9:30抵达} = 0。过去一直认为0概率是不肯能发生的事件,而现在看来并不是,因为确实存在9:30抵达的可能,这有点像极限问题了,极限是0,说明无限接近0,但始终不是0。

  似乎出现悖论了,无数个点加在一起变成了线,点的概率又是0,那么连续事件的分布岂不是无数个0相加最终还是0?

  解释前先写出连续事件的精确定义:对于某一X,如果存在非负可积函数f(x),使得

  则称X是连续型随机事件。

  答案就是使用积分。使用f(t)dt就可以计算微小的面积:

  关于微分和积分的相关知识可参考:《单变量微积分》中的相关章节。

  现在概率终于和积分联系在一起了,前方的视野也更加广阔起来。

分布函数

  以正态分布为例:

  f(t)被称为概率密度,或概率密度函数;F(x)表示f(t)与x轴围成的面积:

  由此可以看出,连续型随机事件的分布函数也一定是连续的。



作者:我是8位的

出处:http://www.cnblogs.com/bigmonkey

本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途!

扫描二维码关注公众号“我是8位的”

原文地址:https://www.cnblogs.com/bigmonkey/p/9063214.html

时间: 2024-10-08 23:56:51

概率笔记5——概率分布的相关文章

【2018.3.3】数论——概率笔记

概率 A1,A2,A3,A4,A5,A6.代表掷出1,2,3,4,5,6点. Ai称为“基本事件” Ω={ A1,A2,A3,A4,A5,A6 } 称为“基本事件空间”. ∵P(A1)=P(A2)=P(A3)=P(A4)=P(A5)=P(A6): P(A1)+P(A2)+P(A3)+P(A4)+P(A5)+P(A6) = 1 ∴P(A6)=1/6 事件A 含nA个基本事件. P(A) = nA / n n为Ω中基本事件个数. 期望≍平均数(也可以加权) 例:抛5枚相同的硬币,其中正面朝上的硬币为

概率笔记2——古典概型

上一章中通过几个示例对概率进行了初步介绍,从本章开始,将系统地介绍概率的相关知识. 基本概念 概率研究的是随机现象背后的客观规律--我们对随机没有兴趣,感兴趣的是通过大量随机试验总结出的数学模型. 随机试验 顾名思义,这个概念正如其名字一样.假设n个试验E= {E1,E2,--En} 是随机试验,那么对于每个实验: 同条件下可重复: 结果可知但并不唯一: 实验前不知道那个结果会发生. 以掷骰子为例,每个骰子有6个面,共投掷了n次(n个试验),可以反复投掷,并不会只投掷一次骰子就坏掉(同条件下可重

统计学习笔记之决策树(二)

1.CART分类树的特征选择 分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果,集合D根据特征A是否取某一可能值a被分割成和,在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算法 输入:训练数据集D,停止计算条件; 输出:CART决策树. 根据训练数据集,从根结点开始,递归的对每个结点进行以下操作,构建二叉树: (1)计算现有特征对该数据集的基尼指数; (2)在所有可能的特

读书笔记 -- 算法导论 (序言+第一部分)

什么是基础呢? 就是要把我们大学所学的离散数学,算法与数据结构,操作系统,计算机体系结构,编译原理等课程学好.对计算机的体系,CPU本身,操作系统内核,系统平台,面向对象编程,程序的性能等要有深层次的掌握.要编写出优秀的代码同样要扎实的基础,如果数据结构和算法学的不好,怎么对程序的性能进行优化,怎样从类库中选择合适的数据结构.如果不了解操作系统,怎样能了解这些开发工具的原理,它们都是基于操作系统的.不了解汇编,编译原理,怎么知道程序运行时要多长时间要多少内存,就不能编出高效的代码.把面向对象,软

【复习】高斯消元解图上期望概率

复习了一下高斯消元解图上期望概率,笔记的话,就直接去看SengXian的blog吧.BZOJ 1444 - [Jsoi2009]有趣的游戏见https://blog.sengxian.com/solutions/bzoj-1444 #include <cstdio> #include <cstring> #include <algorithm> const int N=11; char s[N*2]; int n,m,l,cnt,trans[N*N][N],id[N*N

异常检测(2)——基于概率统计的异常检测(1)

某个工厂生产了一批手机屏幕,为了评判手机屏幕的质量是否达到标准,质检员需要收集每个样本的若干项指标,比如大小.质量.光泽度等,根据这些指标进行打分,最后判断是否合格.现在为了提高效率,工厂决定使用智能检测进行第一步筛选,质检员只需要重点检测被系统判定为“不合格”的样本. 智能检测程序需要根据大量样本训练一个函数模型,也许我们的第一个想法是像监督学习那样,为样本打上“正常”和“异常”的标签,然后通过分类算法训练模型.假设xtest是数据样本,predict(xtest)来判断xtest是否是合格样

微积分和概率论

微积分和概率论 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第一次课在线笔记.本次课以机器学习的观点来看待曾经学过的数学问题,为未来的做机器学习的公式推导做理论基础.主要内容包括高等数学和概率论部分内容.课程通过简单的数学知识串讲,唤起封存已久的记忆. 引言: 由于项目需求时间紧迫和仗着自己经历了各种考试和刚刚手热的数学知识,原本准备放弃掉前面几次有关于数学的课程,虽说直接上机器学习时对于基础知识这一块压力不算太大,但有些地方模糊不清,心底发虚,总想回来看看.在最

机器学习中概率论知识复习

机器学习先验知识概率论部分,发现看Machine Learning(-Andrew Ng)课程的时候中间有推导过程不是很明白,遂针对性复习. 知识内容组织结构,参考:<Probability Theory Review for Machine Learning>(Machine Learning-Andrew Ng,课程讲义复习笔记2) 内容补充,参考维基百科. 公式编辑参考:http://meta.math.stackexchange.com/questions/5020/mathjax-b

[python] 使用Jieba工具中文分词及文本聚类概念

声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台.        前面讲述了很多关于Python爬取本体Ontology.消息盒InfoBox.虎扑图片等例子,同时讲述了VSM向量空间模型的应用.但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识.        相关文章:        [Python爬虫]