七月算法-12月机器学习在线班--第十六次课笔记—采样和变分

七月算法-12月机器学习--第十六次课笔记—采样和变分

七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com

第一部分 采样

引言

为什么要研究采样?

根据采样结果估算分布的参数,完成参数学习。

前提:模型已经存在,但参数未知;

方法:通过采样的方式,获得一定数量的样本,从而学习该系统的参数。

1 采样算法

现需要对概率密度函数f(x)的参数进行估计,若已知的某概率密度函数g(x)容易采样获得其样本,可以如何估计f(x)的参数?

g(x)很容易获取样本,譬如,高斯,均匀分布等等,用简单地分布g(x)来估计f(x)

1.1 带拒绝采样

1.2 Matropolis-Hastings算法

A, 算法的模型

B,分析MH率

下面证明以上的结论

1.3马尔科夫随机过程的平稳分布(MCMC)

1.3.1 基本的知识

初始概率不同,但经过若干次迭代, π最终稳定收敛在某个分布上。

下面两种写法等价:

则矩阵A行加和为1,则一定结果可以满足全1向量,如上图,则可以判断,(1,1……,1)是A的特征向量,1是A的特征值,

对于某概率分布π,生成一个能够收敛到概率分布π的马尔科夫状态转移矩阵P,则经过有限次迭代,一定可以得到概率分布π。

使用MCMC算法模拟 (Markov Chain Monte Carlo)。

1.3.2 细致平稳条件

则π(x)是马尔科夫过程的平稳分布。上式又被称作细致平稳条件(detailed balance condition) 。

细节上面是稳态的

1.3.4 细致平稳条件和平稳分布的关系

1.3.5 设定接受率(小于1的一个数)

对于取小于1的数,因为接受率要小于1,即:

1.4 改造的MCMC算法

MCMC有一定的拒绝率。

基于以上的结论,可以得到:二维Gibbs采样算法:

由以上的结论可以看出M-H拒绝率没有, 也就是百分之一百接受

可以推广到高维

固定邻居的值,当前的值

总结:可以用采样改造EM算法

第二部分 变分

2.1 变分的核心

2.2 变分的推导

变分推导(variational inference)是一般的确定性的近似推导算法。

思路:选择一个容易计算的近似分布q(x),它能够尽可能的接近真正的后验分布p(x|D)。

用什么的相似度呢?KL散度

2.2.1 近似分布的KL散度

KL散度至少可以找到一个局部分极值

2.2.2 新目标函数

由上图可以得出:

1, 因为KL散度总是非负的,J(p)是NLL的上界

2, 因此,L(q)是似然函数的下界,当q=p*时取等号。 可取等号,说明下界是紧的(tight)

变分的目的是为了求参数

2.3 变分和EM的联系

EM算法:计算关于隐变量后验概率的期望,得到下界;

变分:计算KL散度,得到下界;

相同的思维:不断迭代,得到更好的下界,不断上升。

2.4 平均场方法(Mean field method)

N个因子的乘积

变分的近似推导,主要的近似就在于这部分,即:

2.5 变分的推导

变分的总结:

变分既能够推断隐变量,也能推断未知参数。其难点在于公式演算略复杂。

和采样相对:一个容易计算但速度慢,一个不容易计算但运行效率高。

时间: 2024-11-08 22:01:07

七月算法-12月机器学习在线班--第十六次课笔记—采样和变分的相关文章

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型 一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式 令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征 记做 特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,卷积神经网络-CNN 基础知识 三个要点 1: 首先将输入数据看成三维的张量(Tensor) 2: 引入Convolution(卷积)操作,单元变成卷积核,部分连接共享权重 3:引入Pooling(采样)操作,降低输入张量的平面尺寸 ,1.1 张量(Tensor) 高,宽度,深度,eg:彩色图像:rgb,3个深度,图

七月算法-12月机器学习在线班--第十四次课笔记—EM算法

七月算法-12月机器学习在线班--第十四次课笔记-EM算法 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? EM Expection Maxium 期望最大化 1 引例 1000人,统计身高,1.75,1.62,1.94,有多少男女,每个身高对应的男女 ? 1.1 如何算?利用极大似然估计,估算均值和方差 上述结论和矩估计的结果是一致的, 即:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差. 如果是高斯分布,就可以这么用本

七月算法--12月机器学习在线班-第十二次课笔记—支持向量机(SVM)

七月算法-12月机器学习在线班--第十二次课笔记-支持向量机(SVM) 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 复习的内容: 对偶问题 KKT条件 ? SVM 1.1三类数据类型 线性可分支持向量机 线性支持向量机 非线性支持向量机 ? 1.2 线性分类 1.2.1 样本到分类面的距离的意义 点到直线的距离,ABC是归一化的."+"正类别,"-"负类别 因此距离可以直接用AX+BY+c=f(x,

七月算法-12月机器学习在线班--第十五次课笔记—主题模型

七月算法-12月机器学习--第十五次课笔记—主题模型 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 复习的知识: 1.,Γ函数 是阶乘在实数上的推广,即实数的阶乘 2,Beta分布 Beta分布的概率密度: 其中系数B为: 两者的关系 1,朴素贝叶斯分析 朴素贝叶斯没有分析语意,无法解决语料中一词多义和多词一义的问题,更像是词法的分析,可以 一, 1个词可能被映射到多个主题中——一词多义 二,多个词可能被映射到某个主题的概率很高——多

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第五次课笔记—回归

七月算法--12月机器学习在线班-第五次课笔记—回归 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿 七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com