数学基础之概率

本文主要介绍概率与数理统计中的一些常见的基本概念。

样本空间

对于随机试验,尽管在每次试验之前不能预知试验的结果,但是试验的所有可能结果集合是已知的,我们将随机试验E的所有可能的结果组成的集合称为E的样本空间,记为S。样本空间的的元素,即E的每个可能结果,称为样本点。比如事件E:抛一枚硬币,观察正面H,反面T出现的情况,S={H,T}。

频率(Frequency) 概率(Probability)

频率描述了事件发生的频繁程度,一般采用多次试验的结果得到。

概率描述的是一次试验中,事件发生的可能性大小。

如果试验的次数足够多,频率将在一定意义下接近于概率。

条件概率(Conditional Probability)

设A,B是两个事件,且P(A)>0,称:

$\large P(B|A) = \frac {P(AB)}{P(A)}$

为事件A发生的条件下事件B发生的概率。

乘法定理(Product rule)

设P(A)>0,则:

$\large P(AB)=P(B|A)P(A)$

$\large P(ABC)=P(C|AB)P(B|A)P(A)$

这个定理也很容易推广到多个事件的情况

加法定理(Sum rule)

设试验E的样本空间为S,A为E的事件,$B_1$,$B_2$,$\ldots$,$B_n$为S的一个划分,且 $P(B_i)>0$,则:

$\large P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) $

贝叶斯公式(Bayes‘ theorem)

$\large P(B_i|A) = \frac {P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_i)P(B_i)}$

先验概率(Prior probability) 后验概率(Posterior probability)

例子:某种设备,调整良好时,产品合格率为90%,发生故障时,合格率为30%,每天早上开工时,设备调整良好的概率为75%,已知早上第一件产品是合格品,问设备调整良好的概率是多少?如果定义事件A为产品合格,事件B为设备调整良好,显然有P(A|B)=0.9,P(A|B‘)=0.3,P(B)=0.75,P(B‘)=0.25,要求的是P(B|A)。P(B)称为先验概率,是根据以往的经验数据得到的,P(B|A)是得到了第一件产品为合格品之后对P(B)做的修正,称为后验概率,后验概率让我们对设备的情况有了更进一步的了解。

独立事件

如果A,B两个事件满足

$\large P(AB)=P(A)P(B)$

称A,B为互相独立的事件。这个式子也很容易推广到多个事件的情况。

随机变量

如果将随机试验的结果数量化,比如抛硬币,用 1 代表正面,用 0 代表反面。如果将这个数量化的结果用一个变量X表示,X就是随机变量,根据实验结果的不同而不同。正规的定义是:设E是随机试验,样本空间是S={e},如果对于每一个e属于S,都有一个实数X(e)与之对应,这样就得到一个定义在S上的单值函数X=X(e),称为随机变量。如果X能取到的值是有限个或者可列无限个,则X称为离散性随机变量。

概率分布

如果离散性随机变量X的所有取值为 $x_k(k=1,2,...)$,X取各个值得概率为:

$\large P\{ X=x_k \}=p_k$

称为离散性随机变量X的概率分布或者分布律。

分布函数(Cumulative distribution fucntion)

对于非离散性随机变量X,其可能的取值不能一一列举出来,所以不能用像离散性随机变量那样用分布律来吗描述,为此引入随机变量分布函数的概率。

设X是一随机变量,x是任意实数,函数:

$\large F(x) = P \{ X \leq x \}$

称为X的分布函数。虽然对离散性随机变量,可以完全用分布律来描述,但为了数学上的统一,定义了对离散性随机变量和非离散性随机变量都适用的分布函数。

连续性随机变量 概率密度(Probability density function)

如果随机变量X的分布函数是F(x),存在非负函数f(x),使得对于任意实数x有:

$\large F(x) = \int_{-\infty}^{x}f(t)dt $

则称X为连续性随机变量,f(x)称为X的概率密度函数,简称概率密度。

概率密度具有以下性质:

(1)$\large f(x) \geq 0 $

(2)$\large \int_{-\infty}^{\infty}f(x)dx = 1$

(3)$\large P \{ x_1 < X \leq x_2 \} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x)dx $

期望(Expectation)

设离散性随机变量X的分布律为:

$\large P\{ X=x_k \}=p_k$

如果级数

$\large \sum_{k=1}^{\infty}x_k p_k $

绝对收敛,则称为随机变量X的期望。记作E(X)。

对于连续性随机变量X的概率密度为f(x), 期望为:

$\large \int_{-\infty}^{\infty}xf(x)dx$

如果有函数Y=g(x),则Y的期望为:

$\large \int_{-\infty}^{\infty}g(x)f(x)dx$

期望又称均值。

方差(Variance)

设X是一个随机变量,如果$E\{[X-E(X)]^2\}$存在,则称为X的方差,记为D(X)或者Var(X)。

方差可以按照公式 $D(X) = E(X^2) - [E(X)]^2 $计算。

方差开方$\sqrt {D(x)}$记为 $\sigma(X)$,称为标准差或者均方差。

设X是随机变量

X的k阶原点矩:$E(X^k)$

X的k阶中心矩:$E\{ [X-E(X)]^k\}$

显然X的期望是X的一阶原点矩,方差是X的二阶中心矩

常见概率分布

0-1分布 伯努利分布(Bernoulli distribution)

离散性随机变量的概率分布,随机变量X只能取0和1两个值,它的分布律是

$\large P\{ X=k \} = p^k(1-p)^{1-k}, k=0,1$

$E(X) = p$, $D(X) = p(1-p)$

二项分布(Binomial distribution)

随机变量X表示n重伯努利试验中事件A发生的次数,例如重复抛n次硬币,出现正面的次数。X的分布律是:

$\large P\{ X=k \} = {n \choose k}p^k(1-p)^{n-k}, k=0,1,2,...,n$

$E(X) = np$, $D(X) = np(1-p)$

泊松分布(Poisson distribution)

设随机变量X所有的可能取值为0,1,2,...,而取各个值得概率为

$\large P\{ X=k \} = \frac {\lambda^k e^{-\lambda}}{k!}, k=0,1,2,...$

则称X服从参数为 $\lambda$的泊松分布。

$E(X) = \lambda$, $D(X) = \lambda$

在实际事例中,当一个随机事件,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。例如:

(1)某一服务设施在一定时间内到达的人数

(2)电话交换机接到呼叫的次数

(3)汽车站台的候客人数

(4)机器出现的故障数

(5)自然灾害发生的次数

(6)一本书一页中的印刷错误

(7)显微镜下单位分区内的细菌分布数

(8)某放射性物质单位时间发射出的粒子数

(9)某地区一天内丢失的邮件数

(10)某医院一天内的急诊人数

均匀分布(Uniform distribution)

设连续性随机变量X具有概率密度

$\large f(x) = \left \{  {\frac {1} {b-a}, \qquad a<x<b, \atop 0, \qquad  \text{其他}} \right.$

则称X在区间[a,b]上服从均匀分布

$E(X)=\frac {a+b}{2}$, $D(X)=\frac {(b-a)^2}{12}$

正态分布(Normal distribution, Gaussian distribution)

设连续性随机变量X的概率密度为:

$\large f(x) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty $

则称X服从参数为 $\mu$, $\sigma$的正态分布,正态分布又叫高斯分布。

$E(X)=\mu$, $D(X)=\sigma^2$

大数定理

随机试验中,随着试验次数的增加,人们发现事件发生的频率逐渐稳定于某个常数(想想抛硬币的例子),在实践中,人们还认识到大量测量值的算数平均值也具有稳定性,这种稳定性就是大数定理的客观背景。这里我们介绍其中的一个大数定理:

辛钦定理

设随机变量$X_1,X_2,\ldots,X_n$相互独立,服从同一分布(independent and identically distributed, i.i.d.),且具有相同的数学期望,$E(X_k)=\mu$,则:

$\large \lim_{n \to \infty} P \{ |\frac {1} {n} \sum_{k=1}^{n} X_k - \mu |<\varepsilon \} = 1$

中心极限定理

在客观实际中有许多随机变量,他们是由大量相互独立的随机因素的综合影响形成的,而其中每一个个别因素在总的影响中所起的作用都是微小的,这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理的客观背景。这里只介绍独立同分布的中心极限定理。

独立同分布的中心极限定理

设随机变量$X_1,X_2,\ldots,X_n$相互独立,服从同一分布,且具有相同的数学期望,$E(X_k)=\mu$ 和相同的方差 $D(X_k)=\sigma^2 \neq 0$,则随机变量:

$\large Y_n = \frac {\sum_{k=1}^{n} X_k - E(\sum_{k=1}^{n} X_k)}{\sqrt {D(\sum_{k=1}^{n} X_k)}} = \frac {\sum_{k=1}^{n} X_k - n\mu}{\sqrt{n}\sigma}$

在n很大时趋近于标准正态分布。

当这些随机变量不是服从同一分布的时候,他们的和在n很大时仍然服从正态分布,这就是正态分布为什么概率中特别重要的原因。在很多问题中,所考虑的随机变量可以表示成很多独立的随机变量之和,例如,在任一指定时刻,一个城市的耗电量是大量用户的耗电量的总和,一个物理实验的测量误差是许多观察不到的,可加的微小误差所合成的,他们往往近似的服从正态分布。

参数估计

点估计

设总体X的分布函数形式已知,但有一个或者多个未知参数,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。常用的点估计方法有矩估计法和最大似然估计法。

例子:设总体 X 的均值 $\mu$ 和方差 $\sigma^2$均未知,已知$X_1,X_2,\ldots,X_n$ 是一个样本,估计均值 $\mu$ 和方差 $\sigma^2$

矩估计

分别计算样本矩和总体矩的前k阶矩,利用样本矩依概率收敛于总体矩的性质,构造相应的方程组,用方程组的解作为参数的估计量,这时候的估计量称为矩估计量。

用矩估计法解上面的例子:

易知总体矩:

$\large \mu_1 = E(X) = \mu $

$\large \mu_2 = E(X^2) = D(X) + [E(X)]^2 = \mu + \sigma^2 $

计算样本矩:

$A_1 = \frac {1}{n} \sum_{i=1}^n X_i = \overline {X} $

$A_2 = \frac {1}{n} \sum_{i=1}^n X_i^2 $

联立方程组

$A_1 = \mu_1 $

$A_2 = \mu_2 $

解得:

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

最大似然估计(Maximum likelihood)

设总体X属于离散性,其分布律为 $P(X=x)=p(x;\theta)$,形式已知,但参数$\theta$未知。已知$X_1,X_2,\ldots,X_n$ 是一个样本,则$X_1,X_2,\ldots,X_n$的联合分布律为:

$ \large \Pi_{i=1}^{n}p(x_i;\theta)$

设$x_1,x_2,\ldots,x_n$是相应于样本$X_1,X_2,\ldots,X_n$的一个样本值,已知样本取到$x_1,x_2,\ldots,x_n$的概率为,也即事件 $\{ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n\}$ 发生的概率为:

$\large L(\theta) = L(x_1,x_2,\ldots,x_n;\theta) = \Pi_{i=1}^{n}p(x_i;\theta) $

这一概率随 $\theta$的变化而变化,是$\theta$的函数,称为样本的似然函数。

用使似然函数取得最大值的$\theta$作为原分布律未知参数的估计值,称为极大似然估计值。

当总体X属于连续型时,考虑的是样本$X_1,X_2,\ldots,X_n$ 落到$x_1,x_2,\ldots,x_n$ 的领域内的概率,和离散性的表达形式一样。

用最大似然估计解上面的例子

X的概率密度为:

$\large f(x; \mu,\sigma^2) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

似然函数为:

$\large L(\mu, \sigma^2)=\Pi_{i=1}^{n} \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

取对数,然后分别对 $\mu$, $\sigma^2$求偏导数,并令偏导数为0,解得:

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i - \overline {X})^2$

和用矩估计法求得的估计值完全相同。

估计量的评选标准

评价一个估计量的好坏,有很多常用的标准,这里只介绍最常用的两个标准,无偏性和有效性。

无偏性

如果估计量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在,而且有:

$\large E(\hat{\theta}) = \theta $

则称$\hat {\theta}$为$\theta$的无偏估计量。

检验上面例子中的估计值:

$\large E(\hat {\sigma^2}) = \frac {n-1}{n} \sigma^2 \neq \sigma^2 $

所以估计量$\hat {\theta}$是有偏的。

有效性

设估计量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估计量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的无偏估计量,如果:

$\large D(\hat {\theta_1}) < D(\hat {\theta_2})$

则称 $\hat {\theta_1} $比$\hat {\theta_2} $有效。

练习题

最后附上CMU的一套简单测试题,可以用来你是否具备学习机器学习入门的数学基础。

参考资料

[1]: 概率论与数理统计 高等教育出版社

[2]: Pattern Recognition and Machine Learning Chapter1, Chapter2, Appendix B

转载 http://www.cnblogs.com/dudi00/p/4063470.html

时间: 2024-10-08 11:36:52

数学基础之概率的相关文章

转载--柯尔莫哥洛夫

柯尔莫哥洛夫 柯尔莫哥洛夫,A.H.(Андрей Николаевич Колмогоров)1903年4月25日生于俄国坦波夫(Тамбов):1987年10月20日卒于苏联莫斯科.数学.大气力学. 柯尔莫哥洛夫的父亲卡塔也夫(Николай Матвеевич Катаев)是农艺师兼作家,母亲柯尔莫哥洛娃(Мария Яковлевна Колмогорова)出身贵族.他们并没有办结婚手续,所以柯尔莫哥洛夫从母姓.十月革命后,卡塔也夫主持农业人民委员部教育部门,在1919年A.И.邓尼

交易中的数理,你关心的都在这里!

原文链接 「交易是一门艺术,事关对经济的分析.政策的判断.人性的理解:又是一门严谨的科学,事关随机微积分.概率统计.优化理论.本文从量化金融的起源开始,还原整个体系的建立.发展与完善的历史过程,带你走进算法金融的世界......」 算法本身千差万别,难以一概而论.常见的有以均价为基准的 VWAP:通过固定时间间隔执行的 TWAP: 趋势跟随的 momentum trader 等等.如果你自己编一个根据 MACD,RSI 什么的产生指标的东西,也可以勉强称为 algorithm . VWAP 算法

深度学习数学基础介绍(二)概率与数理统计

第1章 随机事件与概率§1.1 随机事件§1.2 随机事件的概率§1.3 古典概型与几何概型§1.4 条件概率§1.5 事件的独立性 第2章 随机变量的分布与数字特征§2.1 随机变量及其分布§2.2 随机变量的数字特征§2.3 常用的离散型分布§2.4 常用的连续型分布§2.5 随机变量函数的分布 第3章 随机向量§3.1 随机向量的分布§3.2 条件分布与随机变量的独立性§3.3 随机向量的函数的分布与数学期望§3.4 随机向量的数字特征§3.5 大数定律与中心极限定理 第4章 数理统计的基

《Deep Learning》(3)-概率和信息论

1 为什么需要概率 2随机变量 3 概率分布 31 离散变量和概率质量函数 32 连续变量和概率密度函数 4边际概率 5 条件概率 6 条件概率的链式法则 7独立和条件独立 8 期望方差和协方差 9常用概率分布 伯努利分布 多项分布 高斯分布 指数和拉普拉斯分布 狄拉克分布和经验分布 混合分布 10常用函数的有用特性 11贝叶斯准则 12连续变量的一些技术细节 13信息论 14构造概率模型 概率论是表示不确定的数学基础.它提供了表示表示不确定的方法和求解不确定表达式的公理.在人工智能领域,概率论

机器学习的数学基础(1)--Dirichlet分布

机器学习的数学基础(1)--Dirichlet分布 这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结. 基础知识:conjugate priors共轭先验 共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式.它极大地简化了贝叶斯分析. 如何解释这句话.由于 P(u|D) = p(D|u)p(u)/p(D)   (1.0式) 其中D是给定的一个样本集合,因此对其来说p(D)是一个确定的值,可以理解为一个常数.P(u|D)是

(转)机器学习的数学基础(1)--Dirichlet分布

转http://blog.csdn.net/jwh_bupt/article/details/8841644 这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结. 基础知识:conjugate priors共轭先验 共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式.它极大地简化了贝叶斯分析. 如何解释这句话.由于 P(u|D) = p(D|u)p(u)/p(D)   (1.0式) 其中D是给定的一个样本集合,因此对其来说

自然语言理解——数学基础

一.信息论基础: 熵: 联合熵:实际上就是描述一对随机变量平均所需要的信息量. 条件熵:给定随机变量 X 的情况下,随机变量 Y 的条件熵定义为: 熵率: 相对熵(KL距离):两个概率分布 p(x) 和 q(x) 的相对熵定义为: 交叉熵:如果一个随机变量 X ~ p(x),q(x)为用于近似 p(x)的概率分布,那么,随机变量 X 和模型 q 之间的交叉熵定义为: 由此,我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵.在设计模型 q 时,我们的目的是使交叉熵最小,从而使模型

MLAPP——机器学习的概率知识总结

<机器学习>课程使用的是Kevin P. Murphy所著的<Machine Learning A Probabilistic Perspective>这本英文原版教材,这本书从概率论这个数学角度独特阐述了机器学习的所有问题,需要较强的数学基础.因为是英文教材,特开一个专题在此记录自己的学习过程和各种问题,以供备忘和举一反三之用. 在讲解了机器学习的概述之后,第二章紧接着就开始讲述概率论的知识,通过后续的学习会发现,这些概率论知识有部分在本科的概率论课程中学习过,但是有很多其他部分

应用密码学之从零开始③-密码学的数学基础其一

本文作者:i春秋签约作家--黑照 前文笔者介绍了应用密码学下传统密码.现代密码对称和非对称算法的作用和简介.传统密码原理简单,笔者几乎没有计算,在现代密码学里面的非对称加密没有进行哪怕一位的加密计算过程因为不管是加.乘.异或还是位置变化都难度不大,从本文开始笔者将要介绍部分密码学中的数学原理.数据结构与算法原理. 1)基础运算 加.减.乘.异或和模运算 这个部分除了异或运算以外基本上小学生都知道,其中模运算就是小学学的取余数,因为之前介绍过密码学只进行自然数计算,不涉及小数,所以在模运算中加法.