机器学习:极大似然估计

极大似然估计(Maximum Likelihood Estimate,MLE)
??
由于样本数据,是实实在在发生的数据,有理由相信该样本出现的概率本来就比较大,极大似然估计假设该样本出现的概率是最大的,然后通过该样本寻找一组参数,该参数使得该样本出现的概率最大
??
比如:班里有 50 个男生,50 个女生,我们拥有所有男生的身高数据,也拥有所有女生的身高数据,假定男生的身高服从正态分布,女生的身高服从另一个正态分布,这时可以用极大似然法,通过 50 个男生和 50 个女生的样本来估计这两个正态分布的参数,该参数使得样本数据出现的概率最大
??
设有样本 \(\large X = (x_{1}, x_{2}, ..., x_{n})\)
预测算法的参数为 \(\small \theta\),不同参数下 X 出现的概率不同,表示为
??
??\(\large P(X|\theta) = P(x_{1}, x_{2}, ..., x_{n}|\theta) = \prod_{i=1}^{n}P(x_{i}|\theta)\)
??
极大似然估计就是求解使得 \(\small P(X|\theta)\) 为最大值的 \(\small \theta\)
??
实际中为了方便计算,经常改成对数形式
??
??\(\large ln(\prod_{i=1}^{n}P(x_{i}|\theta)) = \sum_{i=1}^{n}(ln(P(x_{i}|\theta)))\)
??
以上面例子中的正态分布为例,一维正态分布函数为
??
??\(\large f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^{2}}{2 \sigma^{2}})\)
??
则有
??
??\(\large P(X|\theta) = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_{i}-\mu)^{2}}{2 \sigma^{2}})\)
??
????? ? \(\large = (2\pi\sigma^{2})^{-\frac{n}{2}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2})\)
??
取对数
??
??\(\large H(\mu,\sigma^{2}) = ln(P(X|\theta))\)
??
?????? ??\(\large = ln((2\pi\sigma^{2})^{-\frac{n}{2}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}))\)
??
?????? ??\(\large = -\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^{2}) - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\)
??
求导得到
??
??\(\large \frac{\partial H(\mu,\sigma^{2})}{\partial \mu} =\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)\)
??
??\(\large \frac{\partial H(\mu,\sigma^{2})}{\partial \sigma^{2}}=-\frac{n}{2\sigma^{2}}+ \frac{1}{2\sigma^{4}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\)
??
另导数为 0 求解得到
??
??\(\large \mu = \frac{1}{n}\sum_{i=1}^{n}x_{i}\)
??
??\(\large \sigma^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}\)
??
这两个参数使得样本出现的概率最大
于是就用这两个参数代入正态分布函数,用以预测新的数据

原文地址:https://www.cnblogs.com/moonlight-lin/p/12495615.html

时间: 2024-10-11 05:39:03

机器学习:极大似然估计的相关文章

B-概率论-极大似然估计

目录 极大似然估计 一.最大似然原理 二.极大似然估计 三.似然函数 四.极大似然函数估计值 五.求解极大似然函数 5.1 未知参数只有一个 5.2 位置参数有多个 5.3 总结 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ 极大似然估计 一.最大似然原理 二.极大似然估计 极大似然估计是建立在最大似然原理的基础上的一个统计方法.极大似然估计提供了一种给定观察数据来

如何通俗的理解极大似然估计

我昨天晚上买了一罐八宝粥 在里面找了半天桂圆 一般一罐八宝粥是有一颗桂圆的 我们现在可以通过数这一罐八宝粥中的各种原料的颗数 来推测 厂家在生产的时候的 原料的配比 这里的理论依据是就是极大似然估计 似然 是 像这个样子的意思 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果(我手中的八宝粥)出现的模型参数值(厂家原料配比)! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:"模型已定,参数未知". 原文地址:ht

贝叶斯————极大似然估计

贝叶斯决策 贝叶斯公式(后验概率): p(w):每种类别分布的概率——先验概率: p(x|w):某类别下x事件发生的概率——条件概率: p(w|x):x事件已经发生,属于某类的概率——后验概率: 后验概率越大,说明x事件属于这个类的概率越大,就越有理由把事件x归到这个类下 实际问题中,我们只知道优先数目的样本数据,先验概率和条件概率不知道,求不出后验概率.这个时候需要对先验概率和条件概率进行估计,然后再使用贝叶斯分类器. 先验概率的估计方法: 每个样本的属于哪个类是已知的(有监督学习): 依靠经

极大似然估计

极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况? 举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估计的方法就可以用这些样本数据就可估计出正态分布中参数.概括起来说,就是用样本来估计总体情况,(调查问卷.人口普查等等其实就暗含这个原理). 假设总体X的分布为f(x:θ1,...θn),其中θ是未知

极大似然的估计的理解

什么是极大似然估计? 参数估计就是通过若干次试验,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值.说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,我们通过最大概率反过来求其的参数值. 极大似然估计的原理? 一个随机试验如有若干个可能的结果A,B,C,-.若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大.一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,t

[白话解析] 深入浅出 极大似然估计 &amp; 极大后验概率估计

[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找了几个实例给大家看看这两种估计如何应用 & 其非常有趣的特点. 0x01 背景知识 1. 概率 vs 统计 概率(probability)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 1.1 概率 概率研究的是,已经知道了模型和参数后,给出一个事件发生的概率. 概率是一种

贝叶斯决策 最大似然估计

贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率::类条件概率,表示在某种类别前提下,某事发生的概率:而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类.后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下. 我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随

【机器学习】(3)拟合度与最大似然估计

在大致了解了机器学习的算法分类(监督式.非监督式以及增强学习)和梯度算法后,今天我们来了解下拟合度和最大似然估计的相关问题. 一.最小二乘法的拟合度 监督式学习中一类典型的应用就是回归问题,基本的就是线性回归,即用一条直线去逼近训练集合.最小二乘法就是根据已有的训练集样本来确定拟合度最好的函数 曲线.但是由于选择一个什么样的曲线是人工决定的,而不同的曲线又具有不同的性质,从而导致不同函数模型使用最小二乘法的拟合度是不同的.以一个m个样本 的房屋价格和大小数据M为例,我们可以选择线性回归(用一条直

机器学习 LR中的参数迭代公式推导——极大似然和梯度下降

机器学习 LR中的参数迭代公式推导--极大似然和梯度下降 Logistic本质上是一个基于条件概率的判别模型(DiscriminativeModel). 函数图像为: 通过sigma函数计算出最终结果,以0.5为分界线,最终结果大于0.5则属于正类(类别值为1),反之属于负类(类别值为0). 如果将上面的函数扩展到多维空间,并且加上参数,则函数变成: 接下来问题来了,如何得到合适的参数向量θ呢? 由于sigma函数的特性,我们可作出如下的假设: 上式即为在已知样本X和参数θ的情况下,样本X属性正