【PRML读书笔记-Chapter1-Introduction】1.2 Probability Theory

一个例子:

两个盒子:

一个红色:2个苹果,6个橘子;

一个蓝色:3个苹果,1个橘子;

如下图:

现在假设随机选取1个盒子,从中.取一个水果,观察它是属于哪一种水果之后,我们把它从原来的盒子中替换掉.重复多次.

假设我们40%的概率选到红盒子,60%的概率选到蓝盒子.并且当我们把取出的水果拿掉时,选择盒子中任何一个水果还是等可能的.

问题:

1.整个过程中,取得苹果的概率有多大?

2.假设已经去的了一个橘子的情况下,这个橘子来自蓝盒子的可能性有多大?

(这里,推荐一篇好文:数学之美番外篇：平凡而又神奇的贝叶斯方法)

下面,设定一些变量:

:表示选盒子这一事件,它有两种可能:代表选到了红盒子;代表选到了蓝盒子;

表示选水果这一时间,它也有两种可能,代表选到了苹果;代表选到了橘子.

考虑更一般的情况(抛开前面的问题),两个随机变量:

表示盒子,表示水果.表示抽到的盒子是哪个;表示抽到的水果是哪个;

表示出现的次数;

表示出现的次数;

表示出现的次数;

概率之和为1.

因此,可以知道

------联合概率(joint probability)

---------条件概率

bayes公式:

或

温习一下边缘分布和条件分布:

边缘分布:若干个变量的概率加和所表现出的分布:P(i)=sum(P(i,j),for each j in n)

条件分布就是:

回到刚才的例子:

:这个表示,当抽到红盒子的前提下,抽到苹果和抽到橘子的概率之和.(盒子中只有苹果和橘子,肯定是不是抽到苹果就是抽到橘子,所以,概率之和为1)

同样的道理.

抽到苹果的概率

贝叶斯公式可以说是尽可能基于我们当前的认知去对未来的事件做出最理想的猜测,而这种猜测并不一定是对的.其中,

是先验概率,因为我们在抽取水果之前,就已经知道了他的值是多少.

(from wiki:

在贝叶斯统计中，某一不确定量p的先验概率分布是在考虑"观测数据"前，能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度，而不是这个不确定量的随机性。这个不确定量可以是一个参数，或者是一个隐含变量（英语：latent variable）。

在使用贝叶斯定理时，我们通过将先验概率与似然函数相乘，随后标准化，来得到后验概率分布，也就是给出某数据，该不确定量的条件分布。

先验概率通常是主观的猜测，为了使计算后验概率方便，有时候会选择共轭先验。如果后验概率和先验概率是同一族的，则认为它们是共轭分布，这个先验概率就是对应于似然函数的共轭先验。)

是后验概率,因为这个概率是我们在抽取水果之后,才能够计算得到的.

(from wiki:

在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。)

在这个例子中,因为选择红盒子的概率为4/10,蓝盒子的概率为6/10,所以我们觉得选择蓝盒子的概率更大.但是,如果现在只告诉我们抽到的水果是橘子(已知相关数据的前提下),那么,我们会认为是红盒子抽到的橘子会大一些,因为=2/3.

1.2.1 概率密度

简单回归一下概率密度函数:

1.2.2 期望和方差

一元函数的期望

多元函数的期望

多元函数的条件期望

方差(variance):方差是各个数据分别与其平均数之差的平方的和的平均数，用字母D表示。在概率论和数理统计中，方差（Variance）用来度量随机变量和其数学期望（即均值）之间的偏离程度。

协方差(covariance):在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

如果x和y是向量的话,协方差为

1.2.3 贝叶斯概型

之前举了从盒子中抽水果的例子来讲诉贝叶斯公式.再举一个多项式曲线拟合的例子:

D为数据集,w为所求的参数向量.那么:分母为常量

要求就要先求,它的含义就是当参数为w时,数据集为D的概率有多大,这个其实就是似然函数.似然函数并不等于w的概率分布.

虽然说在贝叶斯和频率学说中,似然函数都起到一个关键的作用,但是,两种学说使用的方式确实完全不同:

1. 频率学说:w被认为是一个固定的值,它的值取决于一些估计的形式,通过考虑数据集D的分布来决定估计的误差.\

2. 贝叶斯:从贝叶斯的观点来看,给定一个单一的数据集D,通过w的概率分布来表达参数中的不确定性.

其中,最常见的极大似然估计.是使得最大化.在机器学习的文献中,使得似然函数最大化等价于使误差函数最小化.其中一种测误差的方法就是boostrap.假设给定N个点我们可以随机绘制一个新的点集作为X的代替.因此,X中的一些点可以被中的点所替代(还有一部分无法替代).这种过程重复L次,可以生成一个大小为N的数据集L.每一次都从原始数据X中采样获得.参数估计的精确度可以通过不同的bootstrap数据集的预测得到.(说明:每次数据集的迭代是有方向性的,即不断接近目标数据集.)

贝叶斯观点有个优点在于它的先验概率来源于常识.比如抛硬币,如果抛了3次全是正面朝上,那么一个经典的极大似然给出的结果会是抛一枚硬币正面朝上的概率为1(显然,这是不合理的),但是贝叶斯方法基于之前的一些常识会尽可能地减弱这种极端的情况.

对于频率学派和贝叶斯学派的争议不断.对于贝叶斯方法的一个批判就是对于先验概率经常是基于数学计算的方便性,甚至由于对先验的依赖性导致最终结果的主观性.为了减弱这种主观性,可以通过一种叫做非告知的先验方法.但是当需要比较模型的时候,这也会带来困难.贝叶斯方法在基于较差的先验的前提下,对于得到的较差的数据也会有很高的置信度.而频率学派对于这种问题提供了一些保障,例如交叉验证.

此外,随着抽样方法的发展,推动了贝叶斯技术的应用.

1.2.4 高斯分布(正态分布)

首先插播一段高斯朴素贝叶斯from wiki:

如果要处理的是连续数据一种通常的假设是这些连续数值为高斯分布。例如，假设训练集中有一个连续属性，。我们首先对数据根据类别分类，然后计算每个类别中的均值和方差。令表示为在c类上的均值，令为在c类上的方差。在给定类中某个值的概率，，可以通过将表示为均值为方差为正态分布计算出来。如下，处理连续数值问题的另一种常用的技术是通过离散化连续数值的方法。通常，当训练样本数量较少或者是精确的分布已知时，通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现更优，因为大量的样本可以学习到数据的分布。由于朴素贝叶斯是一种典型的用到大量样本的方法（越大计算量的模型可以产生越高的分类精确度），所以朴素贝叶斯方法都用到离散化方法，而不是概率分布估计的方法。

对于连续型变量,最重要的概率分布之一-------高斯分布(标准分布).

单变量高斯分布:

主要的参数:

μ-----均值 μ^2-------方差(开根号就是标准差σ)

方差的倒数被称作精确度

期望:

方差:

如果x是一个D维的向量的话,那么:

其中,是D维的向量,叫均值;是D*D的矩阵,叫协方差.代表的行列式.

在多变量的情况下,如果多个变量相互独立且符合相同的分布,那么我们把它记为i.i.d(independent and identically distributed,).即独立同分布.两个独立的变量的联合概率计算公式:

其中,X表示一个包含多个变量的向量,而且这些变量都是独立同分布的.

方式一:基于给定的数据,求参数的概率

方式二:基于给定的参数,求数据的概率.

求得高斯分布中的均值和方差,我们就要做极大似然估计.通过取对数求最大与不取对数求最大化在结果上是一致而且取对数能简化计算,而且由于大量的小概率事件(他们的概率很小时计算机会出现下溢)使得计算机在计算时精度丢失,取对数的话可以避免这种情况的发生.

如下:

为了最大化上面的式子,我们可以先求出样本均值和方差:

当然,这种方法也是有局限的,在于高斯分布中,对方差的期望是等于:,可以发现,均值是无偏估计量,方差是有偏估计量.因此,我们用上面的式子得到的方差往往会比

上图表示三次抽样估计，绿色曲线表示真实高斯分布，红色曲线表示利用最大似然估计求出的三次抽样的分布，平均三次抽样的期望，即为整体的期望，而图中很明显可以看出三次抽样的方差是设计成一样的，也就说明其平均值是永远不会等于真实方差的（即红色曲线的方差均值不等于绿色曲线的方差），这是因为公式（1.56）可以说明的，那就是似然估计的方差依赖似然估计的期望，而不是依赖真正的期望所造成的。(引自:http://eletva.com/tower/?p=433)

这幅图再添加一些理解:from zhihu

在均值已知的情况下，方差的最大似然估计（即样本方差）的表达式是这样的：

你一定计算过，它是无偏的。
在均值未知的情况下，方差的最大似然估计（即样本方差）的表达式是这样的：

注意括号里的减数变成了样本均值。样本均值是随着样本而变的，样本整体偏向哪一边，样本均值也会偏向哪一边。事实上，如果把看成变量，则恰在等于样本均值时取最小值。这就是为什么会偏小。

不过随着N的增长,数据点增多,偏差会变小.因为均值越来越接近.

这种依赖极大似然估计的偏差是过拟合问题的根源.

1.2.5 曲线拟合回顾

给定n个点及其相应的目标值,假设t的值服从高斯分布,即.其中β代表精度.

对w和β进行估计

我们通过给定的训练数据通过极大似然估计来确定w和β的值.假设iid的情况下,式子如下:

,我们通过最大化左边的式子,

代入

可以得到:

缩放不改变最大最小的求值,把β/2替换成1/2.求最大化的log函数等价于最小化误差函数:

此外,根据高斯条件分布,我们还可以利用极大似然估计去得到精确度β的值.

求得w和β之后,对x的值进行预测

现在已经拥有了概率预测模型,将其代入可以得到:

.

进一步讨论贝叶斯方法,介绍一种基于多项式参数w的先验分布.为了简化问题,先考虑一下高斯分布形式:

其中,α 是这个分布的精确度.M+1表示向量w(M阶多项式)中的参数个数.

这里提出一个超参数(hyperparameters)的概念:即参数的参数.参数是随机变量时，该参数分布中的参数就是超参数.

这里w的后验分布正比于先验分布和似然函数的乘积,即

对于给定的数据,我们可以通过最大化后验分布来求得w.这种方法就叫做"maximum posterior"或"simply MAP".通过取副对数,我们发现最大化后验等价于最小化平方和误差函数:

1.2.6 贝叶斯曲线拟合

给定训练数据x和t,对于一个新的点x,预测出相应t的值.即

我们把预测分布写成这种形式:

其中,来自.忽略α和β来简化计算.

可以通过来求得.

同样地,也可以通过给定的预测模型求得:

其中,均值和方差为:

其中,矩阵S:I是单位矩阵.

我们可以发现,方差,均值是独立于x的.其中

表示目标变量中存在噪声,而且这些噪声已经通过影响,进而影响到了极大似然估计预测分布.

这个图是利用多项式回归正弦曲线:

时间： 2024-10-13 01:06:08

【PRML读书笔记-Chapter1-Introduction】1.2 Probability Theory的相关文章

【PRML读书笔记-Chapter1-Introduction】1.6 Information Theory

熵给定一个离散变量,我们观察它的每一个取值所包含的信息量的大小,因此,我们用来表示信息量的大小,概率分布为.当p(x)=1时,说明这个事件一定会发生,因此,它带给我的信息为0.(因为一定会发生,毫无悬念) 如果x和y独立无关,那么: 他们之间的关系为: (p(x)=1时,h(x)=0,负号为了确保h(x)为正,这里取2为底是随机的,可以取其他的正数(除了1)) 因此,对于所有x的取值,它的熵有: 注:,当遇到时, 这里插一段信息熵的解释: ———————————————————————————

【PRML读书笔记-Chapter1-Introduction】1.5 Decision Theory

初体验: 概率论为我们提供了一个衡量和控制不确定性的统一的框架,也就是说计算出了一大堆的概率.那么,如何根据这些计算出的概率得到较好的结果,就是决策论要做的事情. 一个例子: 文中举了一个例子: 给定一个X射线图x,目标是如何判断这个病人是否得癌症(C1或C2).我们把它看作是一个二分类问题,根据bayes的概率理论模型,我们可以得到: 因此,就是的先验概率:(假设Ck表示患病,那么就表示普通人患病的概率) 则作为是后验概率. 假设,我们的目标是:在给定一个x的情况下,我们希望最小化误分类的概率

读书笔记 chapter1

-- chapter1. //7.-- Le`s Make a Gmae Using Molehill* Vector3D: containing an x, y, and z component* Normal: a Vector3D that has a length of one* Matrix: a 4x4 group of vectors with position, rotation, and scale* Vertex: a point in space that is the c

Spoken Language Processing读书笔记之Introduction

为了舒适地学习,我把背景颜色调成了浅绿色(色调:85,饱和度:123,亮度:205).好了,现在进入正题——令人兴奋的自然语言处理之旅. 首先,非常感谢那些在Spoken Language Processing(以下简称为SLP)领域做出伟大贡献的科学家们,本书的前言部分提到了众多在该领域杰出的人物,他们为此付出了很多心血. 本书涉及到的知识点: 现在大部分电脑都是利用图形用户界面(GUI)实现人机交互,这些电脑缺乏人类基本的能力,如说话.倾听.理解与学习.语音将成为人机交互的其中一个主要方式,

《深入PHP与jQuery开发》读书笔记——Chapter1

由于去实习过后,发现真正的后台也要懂前端啊,感觉javascript不懂,但是之前用过jQuery感觉不错,很方便,省去了一些内部函数的实现. 看了这一本<深入PHP与jQuery开发>,感觉深入浅出,值得推荐. Chapter1.jQuery简介 1.jQuery工作方式本质先创建一个jQuery对象实例,然后对传递给该实例的参数表达式求值,最后根据这个值作出相应的响应或者修改自身. 2.利用CSS语法选择dom元素(基本选择器) 我们知道,jQuery说白了就是对网页上的内容进行选择器的

【PRML读书笔记-Chapter1-Introduction】引言

模式识别领域主要关注的就是如何通过算法让计算机自动去发现数据中的规则,并利用这些规则来做一些有意义的事情,比如说,分类. 以数字识别为例,我们可以根据笔画规则启发式教学去解决,但这样效果并不理想. 我们一般的做法是: 1,统一尺寸; 2,简化色彩; 3,计算灰度平均值; 4,计算哈希值(生成指纹); 当有新的测试图片时,只需利用"汉明距离"来判断两张图片之间不同的数据位数量就可以了.这是最简单快速的方法.缺陷是如果图片上加几个字,就认不出来了.因此,它的最佳用途就是用来通过缩略图找原图

【PRML读书笔记-Chapter1-Introduction】1.4 The Curse of Dimensionality

维数灾难给定如下分类问题: 其中x6和x7表示横轴和竖轴(即两个measurements),怎么分? 方法一(simple): 把整个图分成:16个格,当给定一个新的点的时候,就数他所在的格子中,哪种颜色的点最多,最多的点就是最有可能的. 如图: 显然,这种方法是有缺陷的: 例子给出的是2维的,那么3维的话,就是一个立体的空间,如下图所示: 因为我们生活在3维的世界里,所以我们很容易接受3维.比如,我们考虑一个在D维环境下,半径为1和半径为1-的球体的容积之差: 他们的差即为: volume

【PRML读书笔记-Chapter1-Introduction】1.1 Example:Polynomial Curve Fitting

书中给出了一个典型的曲线拟合的例子,给定一定量的x以及对应的t值,要你判断新的x对应的t值多少. 任务就是要我们去发现潜在的曲线方程:sin(2πx) 这时就需要概率论的帮忙,对于这种不确定给t赋何值的情况,它可以通过一种精确和量化的方式来提供一种框架, 而对于决策理论,为了根据适当的度量方式来获取最优的预测,它允许我们挖掘一种概率模型. 下面对于上面的例子展开讨论: 假设曲线的多项式方程为: 系数怎么求? 通过把多项式去拟合训练数据,我们需要设定一个error function,通过最小化这个

PRML读书笔记——Mathematical notation

x, a vector, and all vectors are assumed to be column vectors. M, denote matrices. xT, a row vcetor, T means transpose of a vector or matrix. (w1 , . . . , wm ), a row vector with m elements, and the corresponding column vector is written as w = (w1