PRML 02 Introduction:贝叶斯概率

  • 引言
  • 概率密度
  • 期望和协方差 Expectations and covariances
    • 1加权平均值
    • 2 多变量权重
    • 3 条件期望
    • 4 函数方差
    • 5 协方差
  • Bayesian Probability
  • 5高斯分布
  • 重回多项式拟合
    • 1理解误差函数
    • 2 理解规则化
  • 贝叶斯曲线拟合

主要讲解了贝叶斯概率与统计派概率的不同。概率论,决策论,信息论(probability theory, decision theory, and information theory)是以后用到的三个重要工具,本节主要介绍概率论,这里的介绍还是结合前面的多项式拟合的例子讲解。

1 引言

模式识别中一个重要的概念就是不确定性,而概率论可以很好的解释不确定性,在结合后面讲学到的决策论时,会利用概率论的方法,充分利用现有的信息得到一个最优解。

这部分需要提前了解以下三个概念和三个理论:

下面开始进入例子:

有两个盒子(box记为B),红色记为r蓝色记为b,也就是B(r),B(b)

里面有苹果与橘子,黄色代表橘子o,绿色代表苹果a。

假设:

(也可认为有红盒子4个,蓝盒子6个)

那么我们可以知道一下四个条件概率:

问题1:抓到红色苹果的概率是多少?

想必这问题还是挺简单的

问题2:如果抓到的是橘子,那么是从红色箱子拿出来的概率是多少?

这里要用到贝叶斯概率了

这里p(B)是先验概率,p(B|F)是后验概率

另外还需要知道的一个概念就是独立变量,如果两个变量独立,那么P(x,y)=p(x)p(y).或者p(x|y)=p(x),这个例子中如果两个盒子的橘子和苹果的比例相同,那么选取盒子和选取水果这个两个变量就是相互独立的。

明白上面的知识,就可以继续向下看了。

2 概率密度

对于连续变量,如果x在(x,x+δ)中的概率为p(x)δx那么这里的p(x)就是概率密度,这里定义累积分布函数

可以看到概率密度是累积分布函数的微分

这里还需要知道自变量函数的概率密度的,假设x=g(y),因为,我们需要求y的概率密度,则:

当x为多个变量时,此时的密度函数为联合概率密度。

引言中提到的三个理论同样适用于概率密度函数,其sum rule 和product rule 如下:

3 期望和协方差 Expectations and covariances

3.1加权平均值

在离散变量中的加权平均值计算公式如下:

相应的连续变量的为:

其中f(x)为权重函数。

如果已知N个点的值,我们可以按照下式估计其加权平均值,如果N趋于无穷,那么他的值应该与上面的式子结果相同。

3.2 多变量权重

另外,还有一种可能是,我们的权重函数是多变量的,这时候我们可以通过添加下标来表明是求那个变量的加权平均值,下式是求x的加权平均值:

值得注意的是其结果不是一个常数,而是一个关于y的函数。

3.3 条件期望

还有一种条件期望,下式为离散变量的形式

3.4 函数方差

变量函数的方差为:

3.5 协方差

变量的协方差为:

协方差矩阵为:

4 Bayesian Probability

目前为止我们都是以随机可重复事件的频率出发,来看待概率的,这样的视角叫作经典概率或者频率派概率。现在我们将用贝叶斯的视角重新审视人生,这种Bayesian 概率,它的不同在于引入了不确定的因素。

我们用概率来表达不确定性,在上节多项式拟合中,使用频率派的观点已经很合理的解决了这个问题,但是我们还可以通过贝叶斯的观点来定性和定量的分析各个参数的不确定性。

之前我们在研究拿水果的问题时,我们通过贝叶斯公式用先验概率求得了后验概率,在后面我们也会用类似的方法来求多项式拟合中参数的不确定性,其公式如下:

(从这里开始就不太好理解了,建议结合原书和后面给的链接多读几遍)

p(w|D)的意思就是在现有观察的数据D的前提下w的不确定性。

p(D|w)是在w的条件下出现D的可能性,也叫作似然函数。

在频率派中p(D|w)是将w看做确定数值,误差是由D的分布决定的;而贝叶斯派则是将w看作是不确定的,误差是由w的分布决定的。

http://www.aiweibang.com/yuedu/52652665.html有个好点的解释

里面也解释了有兴趣的可以看看。文中指出如果参数比较多,这里的p(D)就是多重积分了,所以在马尔科夫链等方法出来之前贝叶斯的运用较少。

5高斯分布

高斯分布也叫正态分布,其一元表达式如下:

一阶矩:

二阶矩:

方差:

多元表达式:

μ是n维均值,Σ是协方差矩阵,|Σ|是它的行列式。

设x独立同分布,其似然函数为:

这里文中之处,在求p(x|参数)的最大似然估计和p(参数|x)是有联系的。

现在利用上式求最大似然估计的μ、σ2的值。对其求对数,然后加负号,求极小值得到以下结果:

高斯分布中μ、σ2相互独立,可以计算出μ的值之后代入sigma的计算公式中。

对其计算结果求均值得到:

可以看出方差并不是无偏估计,下图是只有两个点的时候的计算的方差和均值:

绿色是真实情况,蓝色是样本点。可以看出样本数量较少的情况得到的结果不太好,但是如果样本数量很大,其偏差就可以忽略不计了。但是参数越多的时候其偏差就会越明显。

6 重回多项式拟合

这次从概率的角度重新审视误差函数和规则化的含义,另外感受下beyas方案。

之前我们想要通过现有的x和t,来预测新的x对应的t,之前并没有给出预测的不确定程度,现在通过beyas方法来计算。

假设我们的预测函数是以y为均值的高斯分布函数,如下图所示:

其中的β=1/σ2.也就是新的预测值的概率密度为:

这样就表征出了预测值的不确定性。

其似然函数为:

利用最大似然函数就可以求出w和β注意这里依然由于他们二者不会由于比赛改变自己的极值所以可以分别求出。

6.1理解误差函数

在求的过程中可以发现,最小二乘法就是其求解的一种特殊情况。

在如果求出两者,那么我们就有一个预测模型了,这样代入即可求出预测值的分布(之前的拟合只能到处一个数值)。

6.2 理解规则化

我们进一步利用beyas概论,还记得下面的图片么?

这里可以写成下式:

如果我们考虑w的先验分布,那么其后验分布应该满足上式,这时候的w应该使后验概率最大化,This technique is called maximum posterior, or simply MAP.其求解结果是:

总是那么神奇,可以看出这样的形式类似于有惩罚项的最小二乘法的代价函数。

其中w的先验概率的条件变量α/β可以看成惩罚因子。

从这里可以看出概率派和频率派只是一个问题的不同解决方式,并没有绝对的谁对谁错。

7 贝叶斯曲线拟合

上面虽然得到了预测值的不确定性,但是并不是完整的贝叶斯的方法,因为我们的参数的不确定性还没有给出。

拟合问题中我们是要求在知道已知向量x,t及新的向量数值x时预测一个新的t,他可以用下式表示:

其中左边是我们刚才说想要求的,右边整体是用了sum rule 在连续变量中就是求边缘密度,中间里面的乘法用的是product rule。

其中的p(t|x,w)为在参数为W的条件下,对应x的预测值为t的概率,也就是前面的方程:为了简便起见,没有标记alpha和beta。

p(w|x,t)为在输入为x,t条件下参数为w的概率。他们的乘积就是参数为w输入为x,t时的概率。

要注意,这里我们并不是把参数设为固定值,因此如果想得到最终的p(t|x,x,t)必须要利用sum rule 将其求积分,求解方法暂时没有详细列出,结果如下:

其中

注意这里的s2包含两项,第一项是前面已经用似然函数得到的由于目标函数的噪声产生的β?1,而第二项是由w的不确定产生的。

其拟合结果如下:

这里只是讲解了beyas方法求解拟合问题的一般过程,其具体求解步骤还没有详细叙述,后面应该会有讲解。

时间: 2024-10-11 10:49:20

PRML 02 Introduction:贝叶斯概率的相关文章

概率--学习朴素贝叶斯分布

概率是一种基于事件发生可能性来描述未来趋势的数学工具.其本质就是通过过去已经发生的事情来推断未来事件,并且将这种推断放在一系列的公理化的数学空间当中进行考虑.例如,抛一枚均质硬币,正面向上的可能性多大?概率值是一个0-1之间的数字,用来衡量一个事件发生可能性的大小.概率值越接近于1,事件发生的可能性越大,概率值越接近于0,事件越不可能发生.天气预报员通常会使用像"明天80%的可能性会下雨"这样的术语来对降雨进行预测,这里70%或者0.7就是下雨的概率.在现实生活中,要么下雨,要么不下雨

贝叶斯推断 && 概率编程初探

1. 写在之前的话 0x1:贝叶斯推断的思想 我们从一个例子开始我们本文的讨论.小明是一个编程老手,但是依然坚信bug仍有可能在代码中存在.于是,在实现了一段特别难的算法之后,他开始决定先来一个简单的测试用例,这个用例通过了.接着,他用了一个稍微复杂的测试用例,再次通过了.接下来更难的测试用例也通过了,这时,小明开始觉得这段代码出现bug的可能性大大大大降低了.... 上面这段白话文中,已经包含了最质朴的贝叶斯思想了!简单来说,贝叶斯推断是通过新得到的证据不断地更新我们的信念. 贝叶斯推断很少会

统计学习方法:朴素贝叶斯

作者:桂. 时间:2017-04-20  18:31:37 链接:http://www.cnblogs.com/xingshansi/p/6740308.html 前言 本文为<统计学习方法>第四章:朴素贝叶斯(naive bayes),主要是借助先验知识+统计估计,本文主要论述其分类的思路.全文包括: 1)模型描述 2)算法求解 3)理论应用 内容为自己的学习记录,其中参考他人的地方,最后一并给出链接. 一.模型描述 A-理论框架 日常生活中,总会这么表达:“我觉得吧....”,“以我的经验

第四章:基于概率论的分类方法: 朴素贝叶斯

本章内容□使用概率分布进行分类□学习朴素贝叶斯分类器□解析RSS源数据口使用朴素贝叶斯来分析不同地区的态度 前两章我们要求分类器做出艰难决策,给出“该数据实例属于哪一类”这类问题的明确答案.不过,分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值.       概率论是许多机器学习算法的基础,所以深刻理解这一主题就显得十分重要.第3章在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先统计特征在数据集中取某个特定值的次数,然后除以数据集的

贝叶斯来理解高斯混合模型GMM

最近学习基础算法<统计学习方法>,看到利用EM算法估计高斯混合模型(GMM)的时候,发现利用贝叶斯的来理解高斯混合模型的应用其实非常合适. 首先,假设我们对于贝叶斯比较熟悉,对高斯分布也熟悉.本文将GMM用于聚类来举例. 除了简单的高斯分布,理论上通过组合多个不同的高斯分布可以构成任意复杂的分布函数.如下图所示: 在最大似然,贝叶斯方法与朴素贝叶斯分类中,2.1中提到高斯概率密度用来计算连续变量情况下的朴素贝叶斯概率.该情况下的高斯分布是训练已知,然后对于输入变量求取其概率密度,结合类别的先验

机器学习 Python实现 贝叶斯算法

[['my','dog','has','flea','problems','help','please'],    0 ['maybe','not','take','him','to','dog','park','stupid'],  1 ['my','dalmation','is','so','cute','I','love','him'],          0 ['stop','posting','stupid','worthless','garbage'],          1 ['m

朴素贝叶斯python小样本实例

朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据朴素贝叶斯决策理论的核心思想:选择具有最高概率的决策朴素贝叶斯的一般过程(1)收集数据:可以使用任何方法.(2)准备数据:需要数值型或者布尔型数据.(3)分析数据:有大量特征时,回值特征作用不大,此时使用直方图效果更好(4)训练算法:计算不同的独立也正的条件概率(5)测试算法:计算错误率(6)使用算法:一个常见的朴素贝叶斯应用是文档分类.可以在任意的分类场景中使用朴素贝叶斯分

我眼中的朴素贝叶斯

既然要用到贝叶斯公式,首先给出贝叶斯公式 P(A|B)=P(B|A)P(A)/P(B) 数学含义: P(A)是先验概率,可以通过计算获得 P(B|A)是条件概率,意识是在A发生的条件下B发生的概率 P(B)是用于归一化的"证据"因子,对于给定的样本B,P(B)与类标记无关 P(A|B)就是后验概率,也是需要我们根据P(B|A),P(A)求的 这个准则有什么用呢?接下来给一个例子 使用朴素贝叶斯进行文档分类 目标是实现自动检测输入的文档是侮辱性词还是非侮辱性词 首先用图来描绘整个过程,和

算法——贝叶斯

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B):即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率.由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A):即,已知P(A|B),P(A)和P(B)可以计算出P(B|A). 假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}.则P(A)可以用全概率公式展开:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)