贝叶斯学习

在进行参数估计的时候, 常用到最大似然估计,其形式很简单,对于含有N个样本的训练数据集DN,假设样本独立同分布,分布参数为,则似然概率定义如下:

????

简单说就是参数为时训练集出现的概率,然后我们根据不同的分布形式求导,得到参数的最有值使得似然概率最大。

贝叶斯学习过程不同之处在于,一开始并不试图去求解一个最优的参数值,而是假设参数本身符合某个分布,即先验概率p()(例如高斯分布,只要知道均值和方差就能确定下来),利用训练数据集所得到的信息就可以得到参数的条件概率分布p()(条件概率的用途后面揭晓)。

????由贝叶斯公式,我们可以得到:

????再根据前面的独立性假设:

将公式(2)带入公式(1)中,得到:

????

再次使用贝叶斯公式,我们发现:

????

所以:

????

这里有必要指出的是与参数是独立的,可以这样理解,对于一个已知的分布形式,我们假设了的分布类型:,积分过程中去掉了参数,所以它本身是与独立的,则公式(4)可以简化成:

????????

整个推导过程并没有涉及到参数的具体分布形式,可见公式(5)对于各种分布函数是普遍适用的,该公式体现的是参数的条件概率密度的迭代更新过程,显然,更新的起始点:,没有任何数据的时候,我们所有的就是先验概率。

最后提一下为什么要求解参数的条件概率密度,在分类问题中,给定属于某一类的训练数据集,对于某一个输入模式,我们要确定类条件概率密度,也就是p(x|DN)

由贝叶斯公式

????

前面提过,相互独立,则,所以

????

时间: 2024-10-12 15:47:28

贝叶斯学习的相关文章

机器学习笔记 贝叶斯学习(上)

机器学习笔记(一) 今天正式开始机器学习的学习了,为了激励自己学习,也为了分享心得,决定把自己的学习的经验发到网上来让大家一起分享. 贝叶斯学习 先说一个在著名的MLPP上看到的例子,来自于Josh Tenenbaum 的博士论文,名字叫做数字游戏. 用我自己的话叙述就是:为了决定谁洗碗,小明和老婆决定玩一个游戏.小明老婆首先确定一种数的性质C,比如说质数或者尾数为3:然后给出一系列此类数在1至100中的实例D= {x1,...,xN} :最后给出任意一个数x请小明来预测x是否在D中.如果小明猜

贝叶斯学习--极大后验概率假设和极大似然假设

在机器学习中,通常我们感兴趣的是在给定训练数据 D 时,确定假设空间 H 中的最佳假设. 所谓最佳假设,一种办法是把它定义为在给定数据 D 以及 H 中不同假设的先验概率的有关知识条件下的最可能(most probable)假设. 贝叶斯理论提供了计算这种可能性的一种直接的方法.更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率.给定假设下观察到不同数据的概率.以及观察的数据本身. 要精确地定义贝叶斯理论,先引入一些记号. 1.P ( h )来代表还没有训练数据前,假设 h

朴素贝叶斯学习

朴素贝叶斯,为什么叫"朴素",就在于是假定所有的特征之间是"独立同分布"的.这样的假设肯定不是百分百合理的,在现实中,特征与特征之间肯定还是存在千丝万缕的联系的,但是假设特征之间是"独立同分布",还是有合理性在里面,而且针对某些特定的任务,用朴素贝叶斯得到的效果还不错,根据"实践是检验真理的唯一标准",这个模型就具备意义了.这其实和那个"马尔科夫"假设有类似的地方. 朴素贝叶斯的一个思想是,根据现有的一些材

机器学习笔记——贝叶斯学习

概率 理解概率最简单的方式就是把它们想像成韦恩图中的元素.首先你有一个包括所有可能输出(例如一个实验的)的全集,现在你对其中的一些子集感兴趣,即一些事件.假设我们在研究癌症,所以我们观察人们看他们是否患有癌症.在研究中,假设我们把所有参与者当成我们的全集,然后对任何一个个体来说都有两种可能的结论,患有或没有癌症.我们可以把我们的全集分成两个事件:事件"患有癌症的人"(表示为A),和"不患有癌症的人"(表示为-A).我们可以构建一张如下的图: 那么一个随机选择的人患有

分层贝叶斯学习

频率推理(Frequentist inference is a type of statistical inference that draws conclusions from sample data by emphasizing the frequency or proportion of the data. An alternative name is frequentist statistics) This is the inference framework in which the

朴素贝叶斯学习笔记

naivebayes   朴素贝叶斯分类器原理 公式分解: 1.p(word|categroy)=p(分类category的文档中出现word的文档总数)/分类category总文档数 p(word|categroy)意思为在category分类中word出现的概率 2.p(doc|categroy)=p(word1|categroy)*p(word2|categroy)*...*p(wordn|categroy) p(doc|categroy)文档属于某个分类的概率 3.p(categroy|

PGM学习之五 贝叶斯网络

本文的主题是"贝叶斯网络"(Bayesian Network) 贝叶斯网络是一个典型的图模型,它对感兴趣变量(variables of interest)及变量之间的关系(relationships)进行建模.当将贝叶斯模型与统计技术一起使用时,这种图模型分析数据具有如下几个优势: (1)    贝叶斯学习能够方便的处理不完全数据.例如考虑具有相关关系的多个输入变量的分类或回归问题,对标准的监督学习算法而言,变量间的相关性并不是它们处理的关键因素,当这些变量中有某个缺值时,它们的预测结

算法——贝叶斯

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B):即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率.由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A):即,已知P(A|B),P(A)和P(B)可以计算出P(B|A). 假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}.则P(A)可以用全概率公式展开:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)

概率图模型学习笔记(二)贝叶斯网络-语义学与因子分解

概率分布(Distributions) 如图1所示,这是最简单的联合分布案例,姑且称之为学生模型. 图1 其中包含3个变量,分别是:I(学生智力,有0和1两个状态).D(试卷难度,有0和1两个状态).G(成绩等级,有1.2.3三个状态). 表中就是概率的联合分布了,表中随便去掉所有包含某个值的行,就能对分布表进行缩减. 例如可以去掉所有G不为1的行,这样就只剩下了1.4.7.10行,这样他们的概率之和就不为1了,所以可以重新标准化(Renormalization).如图2所示. 图2 反之也可以