B-概率论-极大似然估计

目录

  • 极大似然估计
  • 一、最大似然原理
  • 二、极大似然估计
  • 三、似然函数
  • 四、极大似然函数估计值
  • 五、求解极大似然函数
    • 5.1 未知参数只有一个
    • 5.2 位置参数有多个
    • 5.3 总结

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

极大似然估计

一、最大似然原理

二、极大似然估计

极大似然估计是建立在最大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。通过观察若干次实验的结果,利用实验结果得到某个参数值能够使样本出现的概率最大,则称为极大似然估计。

简而言之,极大似然估计的目的是利用已知的样本结果,反推最有可能导致这样结果的参数值。

三、似然函数

假设一个样本集\(D\)的\(n\)个样本都是独立同分布的,并且该样本集为
\[
D={x_1,x_2,\ldots,x_n}
\]
似然函数(likelihood function):联合概率密度函数\(p(D|\theta)\)称为相对于\({x_1,x_2,\ldots,x_n}\)的\(\theta\)的似然函数。
\[
l(\theta) = p(D|\theta) = p(x_1,x_2,\ldots,x_n|\theta) = \prod_{i=1}^n p(x_i|\theta)
\]

四、极大似然函数估计值

如果\(\hat{\theta}\)是\(\theta\)参数空间中能使似然函数\(l(\theta)\)最大的\(\theta\)值,则\(\hat{\theta}\)是最可能的参数值,那么\(\hat{\theta}\)是\(\theta\)的最大似然估计量,记作
\[
\hat{\theta} = d(x_1,x_2,\ldots,x_n) = d(D)
\]
并且\(\hat{\theta}(x_1,x_2,\ldots,x_n)\)称作极大似然函数估计值。

五、求解极大似然函数

给出求解最大\(\theta\)值的公式
\[
\hat{\theta} = arg \underbrace{max}_\theta l(\theta) = arg \underbrace{max}_\theta \prod_{i=1}^n p(x_i|\theta)
\]
为了方便计算,定义对数似然函数\(H(\theta)\),即对似然函数求对数
\[
H(\theta) = \ln{l(\theta)}
\]
因此求最大\(\theta\)值的公式变成了
\[
\hat{\theta} = arg \underbrace{max}_\theta H(\theta) = arg \underbrace{max}_\theta \ln{l(\theta)} = arg \underbrace{max}_\theta \prod_{i=1}^n \ln{p(x_i|\theta)}
\]
并且可以发现公式中只有一个变量\(\theta\)

5.1 未知参数只有一个

如果\(\theta\)为标量,在似然函数满足连续、可微的情况下,则极大似然估计量是下面微分方程的解
\[
{\frac{dH(\theta)}{d\theta}} = {\frac{d\ln{l(\theta)}}{d\theta}} = 0
\]

5.2 位置参数有多个

如果\(\theta\)为\(k\)维向量,可以把\(\theta\)记作\(\theta = [\theta_1,\theta_2,\ldots,\theta_k]^T\),对\(\theta_1,\theta_2,\ldots,\theta_k\)求梯度,可得
\[
\Delta_\theta=[{\frac{\partial}{\partial_{\theta_1}}},{\frac{\partial}{\partial_{\theta_2}}},\cdots,{\frac{\partial}{\partial_{\theta_s}}}]^T
\]
如果似然函数满足连续、可导的情况下,则最大似然估计量就是如下方程的解:
\[
\Delta_\theta{H(\theta)} = \Delta_\theta\ln{l(\theta)} = \sum_{i=1}^n \Delta_\theta \ln(p(x_i|\theta)) = 0
\]

5.3 总结

方程的解只是一个估计值,只有在样本趋于无限多的时候,才会逐渐接近真实值。

原文地址:https://www.cnblogs.com/nickchen121/p/11686777.html

时间: 2024-11-05 14:46:53

B-概率论-极大似然估计的相关文章

如何通俗的理解极大似然估计

我昨天晚上买了一罐八宝粥 在里面找了半天桂圆 一般一罐八宝粥是有一颗桂圆的 我们现在可以通过数这一罐八宝粥中的各种原料的颗数 来推测 厂家在生产的时候的 原料的配比 这里的理论依据是就是极大似然估计 似然 是 像这个样子的意思 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果(我手中的八宝粥)出现的模型参数值(厂家原料配比)! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:"模型已定,参数未知". 原文地址:ht

贝叶斯————极大似然估计

贝叶斯决策 贝叶斯公式(后验概率): p(w):每种类别分布的概率——先验概率: p(x|w):某类别下x事件发生的概率——条件概率: p(w|x):x事件已经发生,属于某类的概率——后验概率: 后验概率越大,说明x事件属于这个类的概率越大,就越有理由把事件x归到这个类下 实际问题中,我们只知道优先数目的样本数据,先验概率和条件概率不知道,求不出后验概率.这个时候需要对先验概率和条件概率进行估计,然后再使用贝叶斯分类器. 先验概率的估计方法: 每个样本的属于哪个类是已知的(有监督学习): 依靠经

极大似然估计

极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况? 举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估计的方法就可以用这些样本数据就可估计出正态分布中参数.概括起来说,就是用样本来估计总体情况,(调查问卷.人口普查等等其实就暗含这个原理). 假设总体X的分布为f(x:θ1,...θn),其中θ是未知

机器学习:极大似然估计

极大似然估计(Maximum Likelihood Estimate,MLE) ?? 由于样本数据,是实实在在发生的数据,有理由相信该样本出现的概率本来就比较大,极大似然估计假设该样本出现的概率是最大的,然后通过该样本寻找一组参数,该参数使得该样本出现的概率最大 ?? 比如:班里有 50 个男生,50 个女生,我们拥有所有男生的身高数据,也拥有所有女生的身高数据,假定男生的身高服从正态分布,女生的身高服从另一个正态分布,这时可以用极大似然法,通过 50 个男生和 50 个女生的样本来估计这两个正

极大似然的估计的理解

什么是极大似然估计? 参数估计就是通过若干次试验,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值.说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,我们通过最大概率反过来求其的参数值. 极大似然估计的原理? 一个随机试验如有若干个可能的结果A,B,C,-.若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大.一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,t

贝叶斯决策 最大似然估计

贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率::类条件概率,表示在某种类别前提下,某事发生的概率:而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类.后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下. 我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随

[白话解析] 深入浅出 极大似然估计 & 极大后验概率估计

[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找了几个实例给大家看看这两种估计如何应用 & 其非常有趣的特点. 0x01 背景知识 1. 概率 vs 统计 概率(probability)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 1.1 概率 概率研究的是,已经知道了模型和参数后,给出一个事件发生的概率. 概率是一种

最小二乘法和最大似然估计

一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}.而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>.一般用于线性回归中获得参数进行拟合.而梯度下降方法主要用于逻辑回归分类问题中寻找最佳参数. 二:最小二乘法: 基本思想: 简单地说,最小二乘的思想就是要使得观测点和估计点的距离

极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归

最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的像各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离.所以loss function可以说是一种更一般化的说法. 最大似然估计是从概率角度来想这个问题,直观理解,似然函数在给定参数的条件下就是观测到一组数据realizat