七月算法-12月机器学习在线班--第十六次课笔记—采样和变分

七月算法-12月机器学习--第十六次课笔记—采样和变分

七月算法（julyedu.com）12月机器学习在线班学习笔记http://www.julyedu.com

第一部分采样

引言

为什么要研究采样？

根据采样结果估算分布的参数，完成参数学习。

前提：模型已经存在，但参数未知；

方法：通过采样的方式，获得一定数量的样本，从而学习该系统的参数。

1 采样算法

现需要对概率密度函数f(x)的参数进行估计，若已知的某概率密度函数g(x)容易采样获得其样本，可以如何估计f(x)的参数？

g(x)很容易获取样本，譬如，高斯，均匀分布等等，用简单地分布g(x)来估计f(x)

1.1 带拒绝采样

1.2 Matropolis-Hastings算法

A, 算法的模型

B，分析MH率

下面证明以上的结论

1.3马尔科夫随机过程的平稳分布（MCMC）

1.3.1 基本的知识

初始概率不同，但经过若干次迭代， π最终稳定收敛在某个分布上。

下面两种写法等价：

则矩阵A行加和为1，则一定结果可以满足全1向量，如上图，则可以判断，（1,1……，1）是A的特征向量，1是A的特征值，

对于某概率分布π，生成一个能够收敛到概率分布π的马尔科夫状态转移矩阵P，则经过有限次迭代，一定可以得到概率分布π。

使用MCMC算法模拟 (Markov Chain Monte Carlo)。

1.3.2 细致平稳条件

则π(x)是马尔科夫过程的平稳分布。上式又被称作细致平稳条件(detailed balance condition) 。

细节上面是稳态的

1.3.4 细致平稳条件和平稳分布的关系

1.3.5 设定接受率（小于1的一个数）

对于取小于1的数，因为接受率要小于1，即：

1.4 改造的MCMC算法

MCMC有一定的拒绝率。

基于以上的结论，可以得到：二维Gibbs采样算法：

由以上的结论可以看出M-H拒绝率没有，也就是百分之一百接受

可以推广到高维

固定邻居的值，当前的值

总结：可以用采样改造EM算法

第二部分变分

2.1 变分的核心

2.2 变分的推导

变分推导(variational inference)是一般的确定性的近似推导算法。

思路：选择一个容易计算的近似分布q(x)，它能够尽可能的接近真正的后验分布p(x|D)。

用什么的相似度呢？KL散度

2.2.1 近似分布的KL散度

KL散度至少可以找到一个局部分极值

2.2.2 新目标函数

由上图可以得出：

1, 因为KL散度总是非负的，J(p)是NLL的上界

2, 因此，L(q)是似然函数的下界，当q=p*时取等号。可取等号，说明下界是紧的(tight)

变分的目的是为了求参数

2.3 变分和EM的联系

EM算法：计算关于隐变量后验概率的期望，得到下界；

变分：计算KL散度，得到下界；

相同的思维：不断迭代，得到更好的下界，不断上升。

2.4 平均场方法(Mean field method)

N个因子的乘积

变分的近似推导，主要的近似就在于这部分，即：

2.5 变分的推导

变分的总结：

变分既能够推断隐变量，也能推断未知参数。其难点在于公式演算略复杂。

和采样相对：一个容易计算但速度慢，一个不容易计算但运行效率高。

时间： 2024-11-08 22:01:07

七月算法-12月机器学习在线班--第十六次课笔记—采样和变分的相关文章

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征记做特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,卷积神经网络-CNN 基础知识三个要点 1: 首先将输入数据看成三维的张量(Tensor) 2: 引入Convolution(卷积)操作,单元变成卷积核,部分连接共享权重 3:引入Pooling(采样)操作,降低输入张量的平面尺寸 ,1.1 张量(Tensor) 高,宽度,深度,eg:彩色图像:rgb,3个深度,图

七月算法-12月机器学习在线班--第十四次课笔记—EM算法

七月算法-12月机器学习在线班--第十四次课笔记-EM算法七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? EM Expection Maxium 期望最大化 1 引例 1000人,统计身高,1.75,1.62,1.94,有多少男女,每个身高对应的男女 ? 1.1 如何算?利用极大似然估计,估算均值和方差上述结论和矩估计的结果是一致的, 即:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差. 如果是高斯分布,就可以这么用本

七月算法--12月机器学习在线班-第十二次课笔记—支持向量机（SVM）

七月算法-12月机器学习在线班--第十二次课笔记-支持向量机(SVM) 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 复习的内容: 对偶问题 KKT条件 ? SVM 1.1三类数据类型线性可分支持向量机线性支持向量机非线性支持向量机 ? 1.2 线性分类 1.2.1 样本到分类面的距离的意义点到直线的距离,ABC是归一化的."+"正类别,"-"负类别因此距离可以直接用AX+BY+c=f(x,

七月算法-12月机器学习在线班--第十五次课笔记—主题模型

七月算法-12月机器学习--第十五次课笔记—主题模型七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 复习的知识: 1.,Γ函数是阶乘在实数上的推广,即实数的阶乘 2,Beta分布 Beta分布的概率密度: 其中系数B为: 两者的关系 1,朴素贝叶斯分析朴素贝叶斯没有分析语意,无法解决语料中一词多义和多词一义的问题,更像是词法的分析,可以一, 1个词可能被映射到多个主题中——一词多义二,多个词可能被映射到某个主题的概率很高——多

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第五次课笔记—回归

七月算法--12月机器学习在线班-第五次课笔记—回归七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com