参数估计法——最大似然估计和贝叶斯参数估计

  • 为什么要用参数估计?

    • 在贝叶斯方法中,要事先估计先验概率和条件密度函数,然后再设计分类器。但是多数情况下训练样本数总是太少,而且当用于表示特征维数较高时,对条件密度函数的估计就会计算复杂度较高。
    • 因此,如果我们已经事先知道参数的个数,并且先验知识允许我们能够把条件概率密度参数化,就可以使问题难度显著降低。
    • 例如,如果我们可以假设条件概率密度p(x|wi)是一个多元正态分布,其均值为ui,协方差矩阵为Σi (参数的具体值是未知的)。这样就把问题从估计完全未知的概率密度p(x|wi)转化为估计参数ui和Σi  。
  • 两种比较有效地参数估计方法:

    • 最大似然估计:把待估计的参数看作是确定的量,只是其取值未知。最佳估计就是使得产生训练样本的概率最大的那个值。
    • 贝叶斯参数估计:把待测的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。一个典型的效果就是,每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰。(贝叶斯学习过程)
  • 非参数估计法(Nonparametric procedure)

    • 首先对特征空间进行变换,然后在变换空间中再采用参数化的方法,用以达到简化问题的目的。
时间: 2024-08-15 23:27:45

参数估计法——最大似然估计和贝叶斯参数估计的相关文章

模式识别:最大似然估计与贝叶斯估计方法

之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具--参数估计. 参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程.18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道.20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展.参数估计有多种方法,有最小二乘法.极大似然法.极大验后法.最小风险法和极小

贝叶斯线性回归(Bayesian Linear Regression)

贝叶斯线性回归(Bayesian Linear Regression) 标签(空格分隔): 监督学习 @ author : [email protected] @ time : 2015-06-19 原文地址 贝叶斯线性回归Bayesian Linear Regression 原文地址 关于参数估计 极大似然估计 渐进无偏 渐进一致 最大后验估计 贝叶斯估计 贝叶斯估计核心问题 贝叶斯估计第一个重要元素 贝叶斯估计第二个重要元素 贝叶斯估计的增量学习 贝叶斯线性回归 贝叶斯线性回归的学习过程 贝

最大似然估计和最大后验概率MAP

最大似然估计是一种奇妙的东西,我觉得发明这种估计的人特别才华.如果是我,觉得很难凭空想到这样做. 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点.频率派认为,参数是客观存在的,只是未知而矣.因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示: 相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一

PRML 02 Introduction:贝叶斯概率

引言 概率密度 期望和协方差 Expectations and covariances 1加权平均值 2 多变量权重 3 条件期望 4 函数方差 5 协方差 Bayesian Probability 5高斯分布 重回多项式拟合 1理解误差函数 2 理解规则化 贝叶斯曲线拟合 主要讲解了贝叶斯概率与统计派概率的不同.概率论,决策论,信息论(probability theory, decision theory, and information theory)是以后用到的三个重要工具,本节主要介绍概

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等). 统计研究的问题则相

基于朴素贝叶斯的内容推荐算法

论文出处: http://www.cs.utexas.edu/~ml/papers/libra-sigir-wkshp-99.pdf 引言 这篇文章里面将会详细介绍基于多项式贝叶斯的内容推荐算法的符号以及术语,公式推导以及核心思想,学习如何从文本分类的角度来实现物品推荐.详细了解算法过程后,你应该可以利用里面的公式来计算出某个用户对于单词级别的喜好强度列表(profile),根据这个强度大小来对其他物品(需先用该强度来对该物品做加权算出该物品的喜好强度)做一个推荐的排序,从而得到用户可能最喜欢的

最大似然估计为什么要相乘和最小二乘法

回答1: 最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大.因为你手头上的样本已经实现了,其发生概率最大才符合逻辑.这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总.此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值.最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小.本来用两者差的绝对值汇总并使之最小是最理

NLP系列(4)_朴素贝叶斯实战与进阶(转)

http://blog.csdn.net/han_xiaoyang/article/details/50629608 作者: 寒小阳 && 龙心尘 时间:2016年2月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50629608 http://blog.csdn.net/longxinchen_ml/article/details/50629613 声明:版权所有,转载请联系作者并注明出处 1.引言 前两篇博文介绍了朴素贝叶

朴素贝叶斯

一.随机变量 可以取不同的值,不同的值有不同的概率. 看到随机变量取任何值,都要想到背后有个概率,如果是连续变量,在每一点的概率是0,连续型随机变量通常只考虑概率密度. 机器学习就是通过一堆随机变量预测另一个随机变量,先假设随机变量之间的概率分布,然后从数据中估计分布的参数. 任何概率模型的假设都是简化,不能完全刻画数据,并且每个模型都有其适用范围,比如朴素贝叶斯对于文本分类效果好. 二.贝叶斯定理 贝叶斯定理给出了从一种条件概率P(B|A)怎么推到另一种条件概率P(A|B): 这个东西有什么用