概率论04 随机变量-离散-连续

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

我们了解了“样本空间”,“事件”,“概率”。样本空间中包含了一次实验所有可能的结果,事件是样本空间的一个子集,每个事件可以有一个发生的概率。概率是集合的一个“测度”。

这一讲,我们将讨论随机变量。随机变量(random variable)的本质是一个函数,是从样本空间的子集到实数的映射,将事件转换成一个数值。根据样本空间中的元素不同(即不同的实验结果),随机变量的值也将随机产生。可以说,随机变量是“数值化”的实验结果。在现实生活中,实验结果可以是很“叙述性”,比如“男孩”,“女孩”。在数学家眼里,这些文字化的叙述太过繁琐,我们为什么不能拿数字来代表它们呢?

(数学家恐怕是很难成为文学家吧?)

离散随机变量

在连续掷两次硬币的例子中,样本空间为:

Ω={HH,HT,TH,TT}Ω={HH,HT,TH,TT}

这样的实验结果可以有很多数值化的方法,比如定义HH为400, HT为30, TH为0.2,TT为1。要注意的是,这里是用某个数字来代表样本空间的某个元素,这个数字并不是概率值。

如何对样本空间的元素数值化是根据现实需求的。比如说,根据出现正面的次数,我们将赢取不同的奖励。那么在分析时,可以取“结果中正面的次数”为随机变量。这样一个随机变量将有2, 1, 0三种可能的取值。该随机变量只能取离散的几个孤立值,这样一种随机变量称为离散随机变量。

映射关系如下:

实验结果 随机变量
HH 2
HT 1
TH 1
TT 0

我们通常用一个大写字母来表示一个随机变量,比如X。

如果样本空间中的每个结果等概率,那么随机变量取值可能性为:

P(X=2)=0.25P(X=2)=0.25

P(X=1)=0.5P(X=1)=0.5

P(X=0)=0.25P(X=0)=0.25

当X取0,1,2之外的值时,概率为0。注意到,X=1这个事件,实际上包含了两个元素,HT, TH。因此,X=1出现的概率较高。所有可能取值的概率和为1。

P(X=x)P(X=x)表示了随机变量在不同取值下的概率,称为概率质量函数(PMF, probability mass function)。我们将看到其他的表示概率分布的方式。

累积分布函数

上面的函数列出了每个取值的对应概率。等价的,我们可以用累积分布函数(CDF, cumulative distribution function)来表示随机变量的概率分布状况。在累积分布函数,我们列出的,总是随机变量X,在小于x的这个区间的概率和。当x增大时,X < x包含的结果增加,概率和也相应增加。当x为正无穷时,实际上是所有情况的概率和,那么累积分布函数为1。

严格的定义为:

F(x)=P(X≤x),?∞<x<∞F(x)=P(X≤x),?∞<x<∞

我们可以绘制上面例子的CDF。

这样的累积分布函数似乎并不比概率质量函数来得方便。但在后面,我们会很快看到它的优势。即它可以同时用于离散随机变量和连续随机变量。

上面的图片可以用如下代码生成:

# By Vamei
# Plot the CDF of total number of heads in two flips

import matplotlib.pyplot as plt
x = [-1, 0, 0, 1, 1, 2, 2, 3]
y = [0, 0, 0.25, 0.25, 0.75, 0.75, 1.0, 1.0]

fig = plt.figure()
ax  = plt.subplot(111)

ax.plot(x, y)
ax.set_ylim([-0.1, 1.1])
ax.set_title("CDF, total number of heads")
plt.show()

连续随机变量

随机变量还可以是连续取值,这样的随机变量称为连续随机变量(continuous random variable)。比如,一个随机变量,可以随机的取0到1的任意数值。

当这样取值时,任意区间能实际上都有无穷多个结果。比如,我们测量温度,可以有1度和2度,但两者之间,还可以有1.1度,1.003度,1.658度等等无穷种结果。这样的话,每个结果的可能性都是无穷小。我们讨论的是某个区间内的概率,即P(a<X<b)P(a<X<b),而不是具体某一数值的概率。在这样的情况下,分到各个结果的概率都无限趋近于0。显然,我们无法用概率质量函数来描述连续随机变量的分布。

我们这里遇到的困境是现代数学的一个相当的困扰。考虑一个线段,它是点的集合,并且有“长度”这样的测度。然而,线段上有无穷个多个点。讨论“每个点的长度”是完全没有意义的。将线段换成区间,将点换成取值,将长度换成概率,我们发现这两个问题异常相似。另一方面,我们知道,可以从线段上截取某一小段,而这一小段是可以有“长度”的。连续随机变量的概率定义,正依赖于此:对于连续随机变量,我们只讨论某个区间,比如从1.2到1.4这一区间的概率,而不讨论具体某个点,比如1.3的概率。

观察一个很简单的连续随机分布。假设我们有一个随机数生成器,产生一个从0到1的实数,每个实数出现的概率相等。这样的一个分布被称为均匀分布(uniform distribution)。直觉告诉我们,相同长度的每一段区间,对应的概率都相同。由此,[0, 0.5]是整个区间的一半,概率为1/2。对于均匀分布来说,概率正好和区间长度这一测度等同。

我们尝试用更正式的方式来描述分布。累积分布函数本身就表示随机变量在一个区间概率,所以可以直接用于连续随机变量。即

F(x)=P(X≤x),?∞<x<∞F(x)=P(X≤x),?∞<x<∞

对于均匀分布来说,它的累积分布函数是:

F(x)=0,x<0F(x)=0,x<0

F(x)=x,0≤x≤1F(x)=x,0≤x≤1

F(x)=1,x>1F(x)=1,x>1

它类似从线段的一头到某一点的“长度”。这样,我们就知道了从起点到每一点的长度。如果我们想知道某个特定区间[a, b]的概率,它就是F(b) - F(a)。

借用“无穷小”的概念,我们可以构建概率密度函数(PDF,probability density function)。粗糙的讲,我们在某个点附近取一个“无穷小”段,该小段的区间长度为dx,而这个“无穷小”段对应的概率为dF,那么该点的概率密度为dF/dx。这实际上是微积分的领域。

概率密度函数可以代替累积分布函数,来表示一个连续随机变量的概率分布:

f(x)=dF(x)dxf(x)=dF(x)dx

即密度函数是累积分布函数的微分,或者说,

F(x)=∫x?∞f(u)duF(x)=∫?∞xf(u)du

即累积分布函数是密度函数从负无穷到x的积分。

密度函数满足:

∫+∞?∞f(u)du=1∫?∞+∞f(u)du=1

均匀分布的密度函数可以写成:

f(x)={1,0≤x≤10,x<0orx>1f(x)={1,0≤x≤10,x<0orx>1

可以画出该密度函数

对一个函数的积分,获得的是该函数曲线下的面积。因此,密度曲线下某个区间的面积,就是密度概率函数的积分,代表了随机变量在该区间的概率。概率密度函数就可以非常直观的通过“面积”,来表示概率的大小。

从负无穷到正无穷积分,就代表了所有可能结果的概率和,即为1。

上面的图片可以利用下面代码生成:

# By Vamei
# Density function for uniform distribution

import matplotlib.pyplot as plt
x = [-1, 0, 0, 1, 1, 2]
y = [0, 0, 1, 1, 0, 0]

fig = plt.figure()
ax = plt.subplot(111)

ax.plot(x, y)
ax.set_xlim([-1, 2])
ax.set_ylim([-0.1, 1.1])
ax.set_title("density function for uniform distribution")
plt.show()

总结

随机变量,随机变量的概率分布

累积分布函数

密度函数

欢迎继续阅读“数据科学”系列文章

时间: 2024-10-13 14:13:03

概率论04 随机变量-离散-连续的相关文章

(二)概率论之随机变量

1. 什么是随机变量? 在(一)中已经介绍 样本空间$\Omega$和基本事件$\omega$,若对任意$\omega$有唯一$X(\omega) \in R$,我们则称$X$为随机变量(取值函数).注意$\{\omega|X(\omega)=x\}\subset \Omega $,一般简写 \[P(\{\omega|X(\omega)=x\})=P(X=x)\] 有时我们不仅要知道$P(X=x)$的值,也需要知道$P(a\leq X \leq b)$和$P(X\leq x)$,$P(X \ge

CS281: Advanced Machine Learning 第二节 probability theory 概率论

概率论基本概念 离散变量 概率论中的两个基本法则:加法法则和乘法法则,加法法则定义了随机变量X与条件变量Y之间的直接联系.乘法法则定义了概率学中最重要的条件概率,同时也可以叫做联合概率,因为它描述了事件X和Y同时发生的概率. 通过上面公式可以推到出条件概率公式: 进而可以得到著名的贝叶斯公式,贝叶斯公式广泛的应用于科学界,这也被称为后验概率,因为它在咱们知道了p(Y=y)这个先验概率之后才能计算出来. 如果两个随机变量x,y满足以下公式,那么说明他们是互相独立的: 如果三个随机变量x,y,z满足

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

推荐系统中所需的概率论与数理统计知识

前言 一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友只看不发的围脖评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣.想想,甚合我意.自此,便从rickjin写的"正态分布的前世今生"开始研习数学. 如之前微博上所说,"今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从'正态分布的前后今生'中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,

《A First Course in Probability》-chaper4-连续型随机变量-基本概念

在利用基本的概率论模型解决实际问题的时候,我们很容易发现一些随机变量的连续分布的,例如火车进站的时间.台灯的寿命等一些和时间相关的随机变量,此时我们发现我们难以求出某个点的概率了,因为随机变量是连续的,基本事件空间是一个无穷的空间,而与无限.连续这些字眼相关,很自然的想到,这里我们要借助积分的工具. 现在我们面临的问题是,如何用上积分这个工具呢?我们假想一条曲线f(x)和连续随机变量的取值区间[a,b]围成了一个面积为1的曲边梯形,(之所以控制面积为1,是为了满足分布列的基本性质),那么对于P(

机器学习预备知识之概率论(下)

期望值和方差 随机变量的期望值E(X),也称为平均数或者均值,使用下面的公式计算,这两个公式分别用于计算离散随机变量和连续随机变量的期望值: 使用上面的公式计算指示器变量(取值要么为1要么为0的随机变量)可得: 下面是与期望有关的两个重要定理,第一个是期望的线性性质: 无论随机变量是否相互独立,期望的线性性质都成立.而第二个定义只有在随机变量相互独立时才成立: 期望其它重要的性质还有:如果C是常数则E(C)=C,E(CX)=CE(X). 方差用于衡量一个分布的离散程度,使用下面的公式计算方差:

第三部分 概率_2 一维随机变量的分布

2. 一维随机变量的分布 (1)随机变量 类型-----根据取值情况的不同可以将随机变量分为离散随机变量和连续随机变量 概率分布-----随机变量一切可能值或范围的概率的规律 (2)常见离散分布 1)两点分布 随机变量X值可能取0和1两个值,则分布为 X 0 1 Pk 1-P P 则称X服从(0--1)分布或者两点分布 2)二项分布 在一次试验E中只考虑两个互逆的结果A或者,这样的试验称为伯努利试验. n重伯努利试验:将伯努利试验E独立(表示每次试验的结果都互不影响)的重复(表示在这n次试验中P

马尔可夫链

原文:http://blog.sina.com.cn/s/blog_5398194701011yv6.html 马尔柯夫预测法 马尔柯夫预测法:马尔柯夫预测以俄国数学家A.A.Markov名字命名,是利用状态之间转移概率矩阵预测事件发生的状态及其发展变化趋势,也是一种随时间序列分析法.它基于马尔柯夫链,根据事件的目前状况预测其将来各个时刻(或时期)的变动状况.  1. 马尔柯夫链.状态是指某一事件在某个时刻(或时期)出现的某种结果.事件的发展,从一种状态转变为另一种状态,称为状态转移.在事件的发

《Deep Learning》(3)-概率和信息论

1 为什么需要概率 2随机变量 3 概率分布 31 离散变量和概率质量函数 32 连续变量和概率密度函数 4边际概率 5 条件概率 6 条件概率的链式法则 7独立和条件独立 8 期望方差和协方差 9常用概率分布 伯努利分布 多项分布 高斯分布 指数和拉普拉斯分布 狄拉克分布和经验分布 混合分布 10常用函数的有用特性 11贝叶斯准则 12连续变量的一些技术细节 13信息论 14构造概率模型 概率论是表示不确定的数学基础.它提供了表示表示不确定的方法和求解不确定表达式的公理.在人工智能领域,概率论