贝叶斯————极大似然估计

贝叶斯决策

贝叶斯公式(后验概率):

  • p(w):每种类别分布的概率——先验概率;
  • p(x|w):某类别下x事件发生的概率——条件概率;
  • p(w|x):x事件已经发生,属于某类的概率——后验概率;
    • 后验概率越大,说明x事件属于这个类的概率越大,就越有理由把事件x归到这个类下

实际问题中,我们只知道优先数目的样本数据,先验概率和条件概率不知道,求不出后验概率。这个时候需要对先验概率和条件概率进行估计,然后再使用贝叶斯分类器。

先验概率的估计方法:

  1. 每个样本的属于哪个类是已知的(有监督学习);
  2. 依靠经验;
  3. 用训练样本中各类出现的频率估计;

后验概率的估计(很难):

概率密度函数包含的信息很多,样本数据不多,特征向量维度很大,所以估计这个概率密度函数很难。

因此将概率密度函数的估计转化为估计参数,就是极大似然估计。

当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。

前提

使用极大似然估计的前提:

训练样本的分布能代表样本的真实分布;每个样本集中的样本都是独立同分布的随机变量;有充分的训练样本

极大似然估计

模型已定,参数未知:利用已知的样本结果,反推最有可能(最大概率)导致这种结果的参数值。

通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:

似然函数(linkehood function):

联合概率密度函数称为相对于样本集的θ的似然函数。

如果存在一个参数值θ使得整个似然函数得到最大值,那么这个θ就是极大似然估计量,他是样本集的函数:

求解极大似然函数

实际中为了便于分析,定义了对数似然函数:

1. 未知参数只有一个(θ为标量):

在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:

2.未知参数有多个(θ为向量)

则θ可表示为具有S个分量的未知向量:

记梯度算子:

若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解:

方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。

特点:

简单,收敛性好,样本数目越多收敛性能越好;依赖模型,如果模型就是错的,那么估计出的参数肯定也是错的,最后的结果会很差。

原文地址:https://www.cnblogs.com/pacino12134/p/11114314.html

时间: 2024-10-13 08:11:36

贝叶斯————极大似然估计的相关文章

如何通俗的理解极大似然估计

我昨天晚上买了一罐八宝粥 在里面找了半天桂圆 一般一罐八宝粥是有一颗桂圆的 我们现在可以通过数这一罐八宝粥中的各种原料的颗数 来推测 厂家在生产的时候的 原料的配比 这里的理论依据是就是极大似然估计 似然 是 像这个样子的意思 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果(我手中的八宝粥)出现的模型参数值(厂家原料配比)! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:"模型已定,参数未知". 原文地址:ht

B-概率论-极大似然估计

目录 极大似然估计 一.最大似然原理 二.极大似然估计 三.似然函数 四.极大似然函数估计值 五.求解极大似然函数 5.1 未知参数只有一个 5.2 位置参数有多个 5.3 总结 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ 极大似然估计 一.最大似然原理 二.极大似然估计 极大似然估计是建立在最大似然原理的基础上的一个统计方法.极大似然估计提供了一种给定观察数据来

极大似然估计

极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况? 举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估计的方法就可以用这些样本数据就可估计出正态分布中参数.概括起来说,就是用样本来估计总体情况,(调查问卷.人口普查等等其实就暗含这个原理). 假设总体X的分布为f(x:θ1,...θn),其中θ是未知

机器学习:极大似然估计

极大似然估计(Maximum Likelihood Estimate,MLE) ?? 由于样本数据,是实实在在发生的数据,有理由相信该样本出现的概率本来就比较大,极大似然估计假设该样本出现的概率是最大的,然后通过该样本寻找一组参数,该参数使得该样本出现的概率最大 ?? 比如:班里有 50 个男生,50 个女生,我们拥有所有男生的身高数据,也拥有所有女生的身高数据,假定男生的身高服从正态分布,女生的身高服从另一个正态分布,这时可以用极大似然法,通过 50 个男生和 50 个女生的样本来估计这两个正

极大似然的估计的理解

什么是极大似然估计? 参数估计就是通过若干次试验,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值.说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,我们通过最大概率反过来求其的参数值. 极大似然估计的原理? 一个随机试验如有若干个可能的结果A,B,C,-.若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大.一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,t

从贝叶斯方法谈到贝叶斯网络

0 引言 事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料). 11月9日上午,机器学习班第9次课,邹博讲贝叶斯网络,其帮助大家提炼了贝叶斯网络的几个关

Stanford大学机器学习公开课(五):生成学习算法、高斯判别、朴素贝叶斯

(一)生成学习算法 在线性回归和Logistic回归这种类型的学习算法中我们探讨的模型都是p(y|x;θ),即给定x的情况探讨y的条件概率分布.如二分类问题,不管是感知器算法还是逻辑回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例,只要判断在直线的哪一侧即可:这种直接对问题求解的方法可以称为判别学习方法. 而生成学习算法则是对两个类别分别进行建模,用新的样例去匹配两个模板,匹配度较高的作为新样例的类别,比如分辨大象(y=1)和狗(y=0),首先,观察大象,然后建立一个大

[机器学习&amp;数据挖掘]朴素贝叶斯数学原理

1.准备: (1)先验概率:根据以往经验和分析得到的概率,也就是通常的概率,在全概率公式中表现是“由因求果”的果 (2)后验概率:指在得到“结果”的信息后重新修正的概率,通常为条件概率(但条件概率不全是后验概率),在贝叶斯公式中表现为“执果求因”的因 例如:加工一批零件,甲加工60%,乙加工40%,甲有0.1的概率加工出次品,乙有0.15的概率加工出次品,求一个零件是不是次品的概率即为先验概率,已经得知一个零件是次品,求此零件是甲或乙加工的概率是后验概率 (3)全概率公式:设E为随机试验,B1,

朴素贝叶斯算法资料整理和PHP 实现版本

朴素贝叶斯算法简洁 http://blog.csdn.net/xlinsist/article/details/51236454 引言 先前曾经看了一篇文章,一个老外程序员写了一些很牛的Shell脚本,包括晚下班自动给老婆发短信啊,自动冲Coffee啊,自动扫描一个DBA发来的邮件啊, 等等.于是我也想用自己所学来做一点有趣的事情.我的想法如下: 首先我写个scrapy脚本来抓取某个网站上的笑话 之后写个Shell脚本每天早上6点自动抓取最新的笑话 然后用朴素贝叶斯模型来判断当前的笑话是否属于成