概率密度函数估计笔记

概率密度函数估计是贝叶斯决策的基础,有两大类方法:参数法和非参数法。所谓的参数法是指已知参数形式,但不知道参数,我们要对参数进行估计的过程。这里主要介绍点估计的两种方法:一种是最大似然估计,一种是贝叶斯估计。

最大似然估计

假设:

  1. 我们要估计的参数 是确定但未知的;
  2. 样本之间是独立同分布的(或者是条件独立,即在某一个固定的条件下样本是独立的);
  3. 类条件概率密度的分布形式已知;
  4. 不同类别之间的参数是独立的。

主要步骤:

  1. 求似然函数:
  2. 最大化似然函数 :

注:,成立的原因是假设条件2,即样本之间独立同分布。

在具体的求解过程中通常转换为对数似然:,然后求

转换为对数似然有两点好处:

  1. 由乘法运算转换为加法运算;
  2. 对数似然能对的有效域进行拓宽见下图。

举例 :高斯分布参数的似然估计

这里讨论方差已知,估计均值的情况

对数似然函数 ,其中

上式对 求导得,其中用到公式

求和得 ,解得

?

参数估计第二种,贝叶斯估计

将参数看成一个服从某种分布的随机变量,通过对其后验的求取来估计样本变量的概率密度

公式如下: ,其中 ,即 的后验=似然*先验/归一化因子 。

注:这里估计得到的是一个分布的密度函数,并不是一个数,这是和似然估计的表观区别。

举例:高斯分布的贝叶斯估计

同样讨论方差已知,估计均值

先验分布:采用高斯分布

似然:

后验:

将高斯分布的函数代入得到

的期望

其中,即为似然估计中的估计值。

?

注:对以上两种方法估计的结果进行比较得,当贝叶斯估计的样本个数n趋于无穷时,贝叶斯估计得到的分布的期望值会接近于最大似然估计得到的估计结果;当贝叶斯估计中的n接近于零的时候,其估计得到的分布与先验分布接近。

时间: 2024-12-29 07:21:34

概率密度函数估计笔记的相关文章

模式识别(Pattern Recognition)学习笔记(六)——概率密度函数的非参估计

上篇学习了PDF的参数估计方法,主要有最大似然估计和贝叶斯估计,他们主要对有确定形式的PDF进行参数估计,而在实际情况下,并不能知道PDF的确切形式,只能通过利用所有样本对整个PDF进行估计,而且这种估计只能是利用数值方法求解.通俗的说,如果参数估计是从指定的某一类函数中选择一个作为目标估计,那么非参数估计就是从所有可能的函数中找到一个合适的选择. 非参数估计主要有三种方法:直方图法.kn近邻法.核函数法,其中核函数法又叫Parzen窗法或核密度法. 1.直方图法 这是一种最简单也最直观的一种非

哈尔滨工业大学计算机学院-模式识别-课程总结(二)-概率密度函数的参数估计

1. 概率密度函数的参数估计 前文讲到了利用贝叶斯决策理论构建贝叶斯分类器,初学者难免会有疑问,既然已经可以通过构建贝叶斯分类器的方法处理分类问题,那为什么还要学习本章节内容? 事实上,贝叶斯分类器的缺可以通过计算先验概率与类条件概率来设计最优分类器.但是对于大多数实际问题,我们往往无法知道这两个概率的具体信息,其中先验概率往往比较容易计算,类条件概率很难获取.如何计算类条件概率,便是本章要进行讲述的内容, 这里举一个例子,解释为什么先验概率比较容易获取.如果100万个人中有60万男40万女,可

概率论中两个易混淆概念(概率分布函数 VS. 概率密度函数)

随机变量的分布函数: 1. 定义 设X是一个随机变量,x是任意实数,函数F(x)=P{X<=x}称为X的分布函数. 2.1 性质 对于任意x1,x2,P{X<=x2}-P{X<=x1}=F(x2)-F(x1),因此分布函数描述了随机变量的统计规律性. 2.2 性质 对于连续型随机变量P{X=a}=0,在这里事件{X=a}并非是不可能事件,但有P{X=a}=0. 随机变量的密度函数: 1. 定义 如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数有 ,则称X为连续

概率密度函数f(x)某一点的值的含义

今天看了一下朴素贝叶斯算法.在看到如果样本的某个特征是连续属性的情况下,需要计算出在所有类别下该特征(该特征在不同类别下的)高斯分布,说白了就是求出来在某一类别下该特征的均值和标准差.那么,给某一个特征的值,在带入该特征在各类的概率密度函数(PDF),就可以得到书中所说的"后验概率". 那么问题来了,对于离散属性的特征,这样是没有问题的.但是PDF某一点的值,大学学的知识说是没有意义的.求出一个f(x)值后,用的话肯定是和一定的区域相关的!只求一个f(x)是取法解释的.其实,对于书里的

概率分布函数, 概率密度函数与概率质量函数

概率分布函数. Accumulative Distribution Function. ADF P(x)=Prob(X<x)P(x)=Prob(X<x) XX可以是连续的, 也可以是离散的随机变量. 概率密度函数. Probability Density Function. PDF. 为连续随机变量定义的: p(x)=P′(x)p(x)=P′(x) 它本身不是一个概率值, 可以大于1. 在xx上积分后才是概率值. 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个

概率密度函数

1. 定义 如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数有 则称X为连续型随机变量,其中F(x)称为X的概率密度函数,简称概率密度.(f(x)>=0,若f(x)在点x处连续则F(x)求导可得)f(x)并没有很特殊的意义,但是通过其值得相对大小得知,若f(x)越大,对于同样长度的区间,X落在这个区间的概率越大. 2.意义及通俗解释 A.形象解释: 这么说吧,一个物体,问你它在某一个点处的质量是多少 ? 因为一个点是无限小的,所以点的质量一定为0.然而这个物体是由无数

Kattis - heapsoffun Heaps of Fun (概率密度函数+dp)

题意:有一棵含有n个结点(n<=300)的根树,树上每个结点上的权值是从[0,ai](ai<=1e9)区间内随机的一个实数,问这棵树能形成一个最小堆的概率. 由于结点取值范围是1e9而且是实数,所以枚举权值dp自然是行不通的了,但可以从函数的角度上考虑. 首先需要了解两个概念: CDF:分布函数,记为F(x),表示函数F的取值小于等于x的概率. PDF:概率密度函数,记为f(x),是F(x)的导数,反之,F(x)是f(x)在区间(-∞,x]上的积分.由于本题所有的取值都是从0开始的,因此也可以

加州大学伯克利分校Stat2.2x Probability 概率初步学习笔记: Midterm

Stat2.2x Probability(概率)课程由加州大学伯克利分校(University of California, Berkeley)于2014年在edX平台讲授. PDF笔记下载(Academia.edu) PRACTICE PROBLEMS FOR THE MIDTERM PROBLEM 1 In a group of 5 high school students, 2 are in 9th grade, 2 are in 10th grade, and 1 is in 12th

加州大学伯克利分校Stat2.2x Probability 概率初步学习笔记: Section 1 The Two Fundamental Rules (1.5-1.6)

Stat2.2x Probability(概率)课程由加州大学伯克利分校(University of California, Berkeley)于2014年在edX平台讲授. PDF笔记下载(Academia.edu) Summary Bayes Theorem $$P(A_i|B)=\frac{P(B|A_i)\cdot P(A_i)}{\sum_{j}P(B|A_j)\cdot P(A_j)}$$ where $$P(B)=\sum_{j}P(B|A_j)\cdot P(A_j)$$ GRA