机器学习之采样和变分（八）

摘要：

　　当我们已知模型的存在，想知道参数的时候我们就可以通过采样的方式来获得一定数量的样本，从而学习到这个系统的参数。变分则是在采样的基础上的一次提升，采用相邻结点的期望。这使得变分往往比采样算法更高效：用一次期望计算代替了大量的采样。直观上，均值的信息是高密(dense)的，而采样值的信息是稀疏(sparse)的。

预备知识：

　　隐马尔科夫模型、EM算法

一、采样

　　1、为何要采样？

　　前提：模型已经存在，但参数未知；

　　 n方法：通过采样的方式，获得一定数量的样本，从而学习该系统的参数。

　　现需要对概率密度函数f(x)的参数进行估计，若已知的某概率密度函数g(x)容易采样获得其样本，可以如何估计f(x)的参数？（若离散分布，则f(x)为概率分布律。）

　　　一个简单粗暴的采样算法：再拒绝采样法（Rejection sampling）

　　　利用已有的概率密度函数g(x)随机采样生成样本，拒绝不在f(x)内的样本

　　2、重述采样——马尔科夫链

　　采样：给定概率分布p(x)，如何在计算机中生成它的若干样本？

　　方法：马尔科夫链模型

　　考虑某随机过程π，它的状态有n个，用1~n表示。记在当前时刻t时位于i状态，它在t+1时刻位于j状态的概率为P(i,j)=P(j|i)：即状态转移的概率只依赖于前一个状态。

　　　马尔科夫随机过程的平稳分布：初始概率不同，但经过若干次迭代，π最终稳定收敛在某个分布上。

　　　上述平稳分布的马尔科夫随机过程对采样带来很大的启发：对于某概率分布π，生成一个能够收敛到概率分布π的马尔科夫状态转移矩阵P，则经过有限次迭代，一定可以得到概率分布π。

　　　该方法可使用MonteCarlo模拟来完成，称之为MCMC(Markov Chain Monte Carlo)。

　　3、细致平稳条件

　　　从稳定分布满足πP=π可以抽象出如下定义：如果非周期马尔科夫过程的转移矩阵P和分布π(x)满足则π(x)是马尔科夫过程的平稳分布。

　　　上式又被称作细致平稳条件(detailed balance condition)。

　　细致平稳的理解：根据定义，对于任意两个状态i，j，从i转移到j的概率和从j转移到i的概率相等。可直观的理解成每一个状态都是平稳的。

　　4、Matropolis-Hastings算法

　　假定t时刻，采取如下策略采样

　　在给定的条件分布中采样一个值

计算M-H率

　　　则t+1时刻的值为

　　　最终得到的序列收敛于f(x)分布。

　　 5、MCMC Matropolis-Hastings算法

　　　根据需要满足的细致平稳条件

　　　　若令，则有：

　　　　从而：

　　　　将接受率置为恒小于1，从而

　　　初始化马尔科夫过程初始状态

　　　　对于第t时刻马尔科夫过程初始状态，采样

　　　　从均匀分布中采样：

　　　　则接受状态j，即，否则，不接受状态j，

　　6、二维Gibbs采样算法

　　　　由：

　　　　很容易得到二维Gibbs采样算法：

　　　　随机初始化：

　　　　对循环采样：

二、变分

　　1、Gibbs采样和变分

　　　Gibbs采样：使用邻居结点（相同文档的词）的主题采样值

　　　变分：采用相邻结点的期望。n

　　　这使得变分往往比采样算法更高效：用一次期望计算代替了大量的采样。直观上，均值的信息是高密(dense)的，而采样值的信息是稀疏(sparse)的。

　　2、变分概述

　　　变分既能够推断隐变量，也能推断未知参数，是非常有力的参数学习工具。其难点在于公式演算略复杂，和采样相对：一个容易计算但速度慢，一个

　　　不容易计算但运行效率高。

　　　平均场方法的变分推导，对离散和连续的隐变量都适用。在平均场方法的框架下，变分推导一次更新一个分布，其本质为坐标上升。可以使用模式

　　　搜索(pattern search)、基于参数的扩展　(parameter expansion)等方案加速。

　　　有时假定所有变量都独立不符合实际，可使用结构化平均场(structured mean field)，将变量分成若干组，每组之间独立。

　　　变分除了能够和贝叶斯理论相配合得到VB（变分贝叶斯），还能进一步与EM算法结合，得到VBEM，用于带隐变量和未知参数的推断。

原文地址：https://www.cnblogs.com/hxf175336/p/9940208.html

时间： 2024-10-10 13:40:45

机器学习之采样和变分（八）的相关文章

七月算法-12月机器学习在线班--第十六次课笔记—采样和变分

七月算法-12月机器学习--第十六次课笔记—采样和变分七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 第一部分采样引言为什么要研究采样? 根据采样结果估算分布的参数,完成参数学习. 前提:模型已经存在,但参数未知: 方法:通过采样的方式,获得一定数量的样本,从而学习该系统的参数. 1 采样算法现需要对概率密度函数f(x)的参数进行估计,若已知的某概率密度函数g(x)容易采样获得其样本,可以如何估计f(x)的参数? g(x)很容

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征记做特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

机器学习-加权采样算法简介

场景用户画像的构造中,想象一个场景:你经过辛辛苦苦抓数据,清洗数据,收集用户行为,目的就是给用户计算兴趣标签. 这时候你可能会遇到一个两难的问题:如果给用户计算出兴趣标签的权重了,那应该保留多少标签呢?保留太多的话,每次召回候选集时,计算复杂度可不低,只保留少部分吧,那真是手心手背都是肉,生怕丢弃的标签才是用户的真爱. 怎么办?这时候,你需要的一个简单的加权采样算法,每次召回时并不使用全部用户标签,而是按照权重采样一部分标签来使用,这样做的好处当然很明显: 大大减少召回时的计算复杂度:可以保留更

初学者的机器学习入门实战教程！

文章来源: https://www.jianshu.com/p/091b7dc8f12a 这是一篇手把手教你使用 Python 实现机器学习算法,并在数值型数据和图像数据集上运行模型的入门教程,当你看完本文后,你应当可以开始你的机器学习之旅了! 本教程会采用下述两个库来实现机器学习算法: scikit-learn Keras 此外,你还将学习到: 评估你的问题准备数据(原始数据.特征提取.特征工程等等) 检查各种机器学习算法检验实验结果深入了解性能最好的算法在本文会用到的机器学习算法

变分贝叶斯VBEM 由浅入深

变分贝叶斯EM指的是变分贝叶斯期望最大化(VBEM, variational Bayes expectation maximization),这种算法基于变分推理,通过迭代寻找最小化KL(Kullback-Leibler)距离的边缘分布来近似联合分布,同时利用mean field 近似减小联合估计的复杂度. 变分贝叶斯EM方程最早是由BEAL M J. 在其论文<Variational Algorithms for Approximate Bayesian Inference>[D], Lon

AI+游戏：高效利用样本的强化学习 | 腾讯AI Lab学术论坛演讲

3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗.游戏.多媒体内容.人机交互等四大领域的跨界研究与应用.全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流.腾讯AI Lab还宣布了2018三大核心战略,以及同顶级研究与出版机构自然科研的战略合作(点击这里查看详情). 腾讯AI Lab希望将论坛打造为一个具有国际影响力的顶级学术平台,推动前沿.原创.开放的研究与应用探讨与交流,让企业.行业和学界「共享AI+未来」. 彭健美国伊利诺伊大学厄巴纳-香槟分校

《深度学习》圣经"花书"经验法则中文版！

作者:Jeff Macaluso https://jeffmacaluso.github.io/post/DeepLearningRulesOfThumb/ 转自CVer,仅用作个人学习当我在研究生期间,第一次学习神经网络时,我问我的教授是否有任何关于选择架构和超参数的经验法则.他的回答是:“嗯,有点,但不...” - 毕竟神经网络的选择远远多于其他机器学习算法!在阅读 Ian Goodfellow,Yoshua Bengio和Aaaron Courville的深度学习书时,我一直在思考这个问

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》安徽大学工程硕士：常凯（二）数据集的介绍

数据集的介绍 1."鲍鱼年龄"数据集(Abalone Data Set).是通过预测鲍鱼环,也就是鲍鱼的年轮,来推断鲍鱼寿命.该数据集来自于UCI(University of California,Irvine,UCI)提出的用于机器学习的数据库. 共有八个属性分别是:性别.长度.直径等具体的属性的介绍方法一:利用BP 方法使用ELM 方法三:使用SVM 我:通过Xmind函数发现其实对一种新的方法而言函数都是集成可以直接用的,我们要做的就是知道每个函数的具体的意义,以及知道大致的

大数据工作由哪几部分组成

关于大数据的概念,指的是无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合.而大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力.那么关于大数据的技术大致包含哪些内容? 一.数据采集 ETL工具负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或数据集市中,成为联机分析处理.数据挖掘的基础. 二.数据存取关系数据库.NOSQL.SQL等. 三.基础架构云存储.分布式文件存储等. 四.数据处理自