深度学习方法:受限玻尔兹曼机RBM(四)对比散度contrastive divergence

技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。

上篇讲到,如果用Gibbs Sampling方法来训练rbm会非常慢,本篇中介绍一下对比散度contrastive divergence, CD算法。

我们希望得到P(v)分布下的样本,而我们有训练样本,可以认为训练样本就是服从P(v)的。因此,就不需要从随机的状态开始gibbs采样,而从训练样本开始。

CD算法大概思路是这样的,从样本集任意一个样本v0开始,经过k次Gibbs采样(实际中k=1往往就足够了),即每一步是:

ht?1~P(h|vt?1)vt~P(v|ht?1)

得到样本vk,然后对应于上一篇三个单样本的梯度,用vk去近似:

?lnP(v)?wij≈P(hi=1|v0)v0j?P(hi=1|vk)vkj?lnP(v)?ai≈=v0i?vki?lnP(v)?bi≈P(hi=1|v0)?P(hi=1|vk)

上述近似的含义是说,用一个采样出来的样本来近似期望的计算。到这里,我们就可以计算LS的梯度了,上面的CD-k算法是用于在一次梯度更新中计算梯度近似值的。下面给出CD-k的算法执行流程,这里小偷懒一下,就借用截图了[7]。

其中,sample_h_given_v(v,W,a,b),做的事情是这样的(sample_v_given_v(h,W,a,b)类似):

记qj=P(hj|v),j=1,2,…,nh,产生一个[0,1]的随机数rj,对每一个hj,如果rj<qj,则hj=1,否则hj=0。

OK, 有了CD-k算法,我们也可以总结RMB整个算法了[7],

好,到这里基本讲完了,还有一些细节trick,是不在RBM本身范畴的,在实现的时候可以具体参考[2]。后面有时间再补一篇关于RBM代码的解读。

参考资料

[1] http://www.chawenti.com/articles/17243.html

[2] 张春霞,受限波尔兹曼机简介

[3] http://www.cnblogs.com/tornadomeet/archive/2013/03/27/2984725.html

[4] http://deeplearning.net/tutorial/rbm.html

[5] Asja Fischer, and Christian Igel,An Introduction to RBM

[6] G.Hinton, A Practical Guide to Training Restricted Boltzmann Machines

[7] http://blog.csdn.net/itplus/article/details/19168937

[8] G.Hinton, Training products of experts by minimizing contrastive divergence, 2002.

[9] Bengio, Learning Deep Architectures for AI, 2009

时间: 2024-10-17 04:32:17

深度学习方法:受限玻尔兹曼机RBM(四)对比散度contrastive divergence的相关文章

深度学习方法:受限玻尔兹曼机RBM(三)模型求解,Gibbs sampling

技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 接下来重点讲一下RBM模型求解方法,其实用的依然是梯度优化方法,但是求解需要用到随机采样的方法,常见的有:Gibbs Sampling和对比散度(contrastive divergence, CD[8])算法. RBM目标函数 假设给定的训练集合是S={vi},总数是ns,其中每个样本表示为vi=(vi1,vi2,-,vinv),且都是独立同分布i.i.d的.RBM采用最大似然估计,即最大化 lnLS=ln∏i=1n

深度学习深入浅出:受限玻尔兹曼机RBM(一)基本概念

技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 最近在复习经典机器学习算法的同时,也仔细看了一些深度学习的典型算法.深度学习是机器学习的"新浪潮",它的成功主要得益于深度"神经网络模型"的优异效果.这个小系列打算深入浅出地记录一下深度学习中常用的一些算法.第一篇先写一下"受限玻尔兹曼机"RBM,会分若干个小段写,这是第一段,关于RBM的基本概念. 网上有很多关于RBM的介绍,但是很多写的比较简略,跳过了很多细节,本文

[深度学习]受限玻尔兹曼机生成手写数字训练样本分析

基于能量的模型(EBM) 基于能量的模型将每一个我们感兴趣的变量构造联系到一个标量能量上. 学习就是修改能量方程从而使得它的外形有我们需要的特点. 举例来说, 我们希望的是: 期望构造的能量低. 基于能量的概率性模型定义了一个概率分布, 它是由能量方程决定的: 归一化因子Z被称为配分函数, 类比于物理系统. 基于能量的模型可以通过SGD(随机梯度下降)算法基于数据的负值对数相似性(NLL)学习得到. 对于对数回归我们首先定义了对数相似性, 之后是损耗函数, 即 负值对数相似性(NLL). 使用随

[深度学习]受限玻尔兹曼机生成手写数字训练样本实现分析

实现 我们构造了RBM类. 网络的参数可以通过构造器或者是输入参数初始化. 这样RBM可以用作构造一个深度网络, 在这种情况下, 权值矩阵和隐层偏置是和一个MLP网络的sigmoidal层共享的. [深度学习]受限玻尔兹曼机生成手写数字训练样本实现分析

深度学习深入浅出:受限玻尔兹曼机RBM(二)模型与目标函数

技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 上解上一篇RBM(一)基本概念,本篇记叙一下RBM的模型结构,以及RBM的目标函数(能量函数),通过这篇就可以了解RBM到底是要求解什么问题.在下一篇(三)中将具体描述RBM的训练/求解方法,包括Gibbs sampling和对比散度DC方法. RBM模型结构 因为RBM隐层和可见层是全连接的,为了描述清楚与容易理解,把每一层的神经元展平即可,见下图[7],本文后面所有的推导都采用下图中的标记来表示. 再重提一下,经典

受限玻尔兹曼机RBM—简易详解

受限玻尔兹曼机(Restricted Boltzmann Machine)

受限玻尔兹曼机(Restricted Boltzmann Machine) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. 生成模型 2. 参数学习 3. 对比散度学习算法 由于受限玻尔兹曼机的特殊结构,因此可以使用一种比吉布斯采样更有效 的学习算法,即对比散度(Contrastive Divergence)对比散度算法仅需k步吉布斯采样.为了提高效率,对比散度算法用一个训练样本作为可观测向量的初始值.然后,交替对可观测向量和隐藏向量进行吉布

受限玻尔兹曼机和深度置信网络

2016-07-20   11:21:33 1受限玻尔兹曼机 受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)[1]由深度学习专家Hinton提出,有很多方面的应用,最成熟的有图像领域的图像识别和手写体数字识别,作为协同过滤算法对某一个未知值做预测,针对具有高维时间序列属性的数据,如人体移动的特征,同样也是做预测,还有针对文档数据分类和音频数据识别等等. 受限玻尔兹曼机RBM是一种特殊的马尔科夫随机场(Markov Random Field, MRF).一个

RBM(受限玻尔兹曼机)

基于能量模型 (EBM) 基于能量模型将关联到感兴趣的变量每个配置的标量能量.学习修改的能量函数使他它的形状具有最好的性能.例如,我们想的得到最好的参量拥有较低的能量. EBM的概率模型定义通过能量函数的概率分布,如下所示: 规则化系数 Z 称为分区函数和物理系统的能量模型相似. 一种基于能量模型可以学习通过随机梯度下降的方法处理负对数似然训练数据的.至于 logistic 回归分析我们将首次作为负对数似然定义对数似然然后损失函数. 使用随机梯度  更新参数权值,  是模型中的各种参数. EBM