最大似然估计-高斯分布

前言:介绍了最简单的最大似然估计,距离实现「朴素贝叶斯」还有一些距离。在这篇文章,我想分享一下,我所理解的「最大似然估计 - 高斯分布」。

问题

(这里都是玩具数据,为了方便理解才列出)

0 1 2 3 4 5 6 7 8 9 10 11 12
X 1 2 3 4 4.2 4.4 4.6 4.8 5 6 7 8
y 0 0 0 0 1 1 1 1 0 0 0 0

假设 x = 4.9 用科学的办法估计 y 的分类。

预备知识

高斯分布的概率密度函数

高斯分布的概率密度函数

理解

通常用「概率密度函数」代替概率,仅仅去比较大小。还有其他的分布,我也没有去深挖 :)。而不是直接求出概率。这非常重要!!!

求解问题

  • 写出这个数据集的似然函数

还记得之前我们说过的「似然函数」吗?现在写出这个数据的「似然函数」

P(y=0 | x) = P(y=0 | x=1)P(y=0 | x=2)P(y=0 | x=3)P(y=0 | x=4)P(y=0 | x=5)P(y=0 | x=6)P(y=0 | x=7)P(y=0 | x=8)

P(y=1 | x) = P(y=1 | x=4.2)P(y=0 | x=4.4)P(y=0 | x=4.6)P(y=0 | x=4.8)

似然函数的本质描述出现这个情形的概率,最大化它即是是这个情形出现的概率最大。现在遇到了一个问题,我们无法写出等式左边的每一项。就更别谈最大化似然函数了。

常用的方法用概率密度函数替代概率。

比如:把 x = 1 带入概率密度函数代替 P(y=0 | x=1)。

所以最大化多个概率相乘变为了,最大化多个概率密度函数的相乘

  • 最大化多个概率密度函数的相乘

取对数求导,并让导数为 0 。最后能得到一个非常舒适的结论。

最大化似然函数

  • 解决问题

现在求得两组 (mu, sigma), (mu, sigma) 用来分别表示。

y = 1 时,最符合数据的概率密度函数 1
y = 0 时,最符合数据的概率密度函数 2

将 x = 4.9 分别带入函数 1、函数 2 中比较大小,最后确定 y 的类别。

最后总结

  • 似然函数用来描述:已知情况的概率随参数变化的图像
  • 最大化似然函数能得到,使这个情况出现概率最大的参数。
  • 但是有时候,不能写出概率。常用概率密度函数代替概率。这非常重要。
  • 如果假设高斯分布,那么通过「最大似然估计」会得到一个非常舒适的结果。见上述图片
  • 最后结果的导出,使用概率密度函数来代替概率求解。

链接:https://www.jianshu.com/p/0c918fdea051
来源:简书

原文地址:https://www.cnblogs.com/Ph-one/p/12655403.html

时间: 2024-10-21 04:52:57

最大似然估计-高斯分布的相关文章

参数估计:最大似然估计、贝叶斯估计与最大后验估计

简介: 在概率统计中有两种主要的方法:参数统计和非参数统计(或者说参数估计和非参数估计). 其中,参数估计是概率统计的一种方法.主要在样本知道情况下,一般知道或假设样本服从某种概率分布,但不知到具体参数(或者知道具体模型,但不知道模型的参数). 参数估计就是通过多次试验,观察其结果,利用结果推出参数的大概值. (当你推出参数的极大可能值时,就相当于知道了分布及其参数情况,就可以利用它来推测其他样例出现的概率了. 这属于应用了) 参数估计的方法有多种,这里我们分析三种基于概率的方法,分别是最大似然

最小二乘与最大似然估计之间的关系

          1.结论               测量误差(测量)服从高斯分布的情况下, 最小二乘法等价于极大似然估计.           2.最大似然估计                                                  最大似然估计就是通过求解最大的(1)式得到参数,其中 L 函数称为参数的似然函数,是一个概率分布函数.               似然估计的思想是:测量值 X 是服从概率分布的,求概率模型中的参数,使得在假设的分布下获得该组测量出现

模式识别:最大似然估计与贝叶斯估计方法

之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具--参数估计. 参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程.18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道.20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展.参数估计有多种方法,有最小二乘法.极大似然法.极大验后法.最小风险法和极小

logistic回归和用最大似然估计选取CostFunction

逻辑回归的想法是用回归的方法来解决分类问题,然而直接用线性回归达不到我们想要的效果如下图(原因不再赘述),所以我们选取了sigmoid函数来进行拟合,原因以后阐述. 所以我们选择了如下的函数来拟合: 然而,应该怎样定义它的CostFunction呢?同样,线性回归为何选用最小二乘法的CostFunction? 先给出不准确的定义:这个Cost函数就只有一个极值点,且为极小值(如何判断?导数为0点只有一个,且当x大于极值点时,导数恒大于0,所有的能用梯度下降来拟合的函数必须满足这一关系) 其实,C

最大似然估计为什么要相乘和最小二乘法

回答1: 最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大.因为你手头上的样本已经实现了,其发生概率最大才符合逻辑.这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总.此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值.最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小.本来用两者差的绝对值汇总并使之最小是最理

【机器学习基本理论】详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

https://mp.csdn.net/postedit/81664644 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们. 下文将详细说明MLE和MAP的思路与区别.先讲解MLE的相应知识. 但别急,我们先从概率和统计的区别讲起. 1概率和统计是一个东西吗?   概率(probabilt

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等). 统计研究的问题则相

最大似然估计和最大后验概率MAP

最大似然估计是一种奇妙的东西,我觉得发明这种估计的人特别才华.如果是我,觉得很难凭空想到这样做. 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点.频率派认为,参数是客观存在的,只是未知而矣.因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示: 相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一

最大似然估计总结

from http://blog.csdn.net/yanqingan/article/details/6125812 最大似然估计学习总结------MadTurtle   1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计. 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率:当已知的时候,它又变成的函数,可以把它记为,称此函数为似然