MCMC(三)MCMC采样和M-H采样

    MCMC(一)蒙特卡罗方法

    MCMC(二)马尔科夫链

    MCMC(三)MCMC采样和M-H采样

    MCMC(四)Gibbs采样(待填坑)

    在MCMC(二)马尔科夫链中我们讲到给定一个概率平稳分布$\pi$, 很难直接找到对应的马尔科夫链状态转移矩阵$P$。而只要解决这个问题,我们就可以找到一种通用的概率分布采样方法,进而用于蒙特卡罗模拟。本篇我们就讨论解决这个问题的办法:MCMC采样和它的易用版M-H采样。

1. 马尔科夫链的细致平稳条件

    在解决从平稳分布$\pi$, 找到对应的马尔科夫链状态转移矩阵$P$之前,我们还需要先看看马尔科夫链的细致平稳条件。定义如下:

    如果非周期马尔科夫链的状态转移矩阵$P$和概率分布$\pi(x)$对于所有的$i,j$满足:$$\pi(i)P(i,j) = \pi(j)P(j,i)$$

    则称概率分布$\pi(x)$是状态转移矩阵$P$的平稳分布。

    证明很简单,由细致平稳条件有:$$\sum\limits_{i=1}^{\infty}\pi(i)P(i,j)  = \sum\limits_{i=1}^{\infty} \pi(j)P(j,i) =  \pi(j)\sum\limits_{i=1}^{\infty} P(j,i) =  \pi(j)$$

    将上式用矩阵表示即为:$$\pi P = \pi$$

    即满足马尔可夫链的收敛性质。也就是说,只要我们找到了可以使概率分布$\pi(x)$满足细致平稳分布的矩阵$P$即可。这给了我们寻找从平稳分布$\pi$, 找到对应的马尔科夫链状态转移矩阵$P$的新思路。

    不过不幸的是,仅仅从细致平稳条件还是很难找到合适的矩阵$P$。比如我们的目标平稳分布是$\pi(x)$,随机找一个马尔科夫链状态转移矩阵$Q$,它是很难满足细致平稳条件的,即:$$\pi(i)Q(i,j) \neq \pi(j)Q(j,i)$$

    那么如何使这个等式满足呢?下面我们来看MCMC采样如何解决这个问题。

2. MCMC采样

    由于一般情况下,目标平稳分布$\pi(x)$和某一个马尔科夫链状态转移矩阵$Q$不满足细致平稳条件,即$$\pi(i)Q(i,j) \neq \pi(j)Q(j,i)$$

    我们可以对上式做一个改造,使细致平稳条件成立。方法是引入一个$\alpha(i,j)$,使上式可以取等号,即:$$\pi(i)Q(i,j)\alpha(i,j) = \pi(j)Q(j,i)\alpha(j,i)$$

    问题是什么样的$\alpha(i,j)$可以使等式成立呢?其实很简单,只要满足下两式即可:$$\alpha(i,j) = \pi(j)Q(j,i)$$$$\alpha(j,i) = \pi(i)Q(i,j)$$

    这样,我们就得到了我们的分布$\pi(x)$对应的马尔科夫链状态转移矩阵$P$,满足:$$P(i,j) = Q(i,j)\alpha(i,j)$$

    也就是说,我们的目标矩阵$P$可以通过任意一个马尔科夫链状态转移矩阵$Q$乘以$\alpha(i,j)$得到。$\alpha(i,j)$我们有一般称之为接受率。取值在[0,1]之间,可以理解为一个概率值。即目标矩阵$P$可以通过任意一个马尔科夫链状态转移矩阵$Q$以一定的接受率获得。这个很像我们在MCMC(一)蒙特卡罗方法第4节讲到的接受-拒绝采样,那里是以一个常用分布通过一定的接受-拒绝概率得到一个非常见分布,这里是以一个常见的马尔科夫链状态转移矩阵$Q$通过一定的接受-拒绝概率得到目标转移矩阵$P$,两者的解决问题思路是类似的。

    好了,现在我们来总结下MCMC的采样过程。

    1)输入我们任意选定的马尔科夫链状态转移矩阵$Q$,平稳分布$\pi(x)$,设定状态转移次数阈值$n_1$,需要的样本个数$n_2$

    2)从任意简单概率分布采样得到初始状态值$x_0$

    3)for $t = 0$ to $n_1 +n_2-1$:

      a) 从条件概率分布$P(x|x_t)$中采样得到样本$x_{*}$

      b) 从均匀分布采样$u \sim uniform[0,1] $

      c) 如果$u < \alpha(x_t,x_{*}) = \pi(x_{*})Q(x_{*},x_t) $, 则接受转移$x_t \to x_{*}$,即$x_{t+1}= x_{*}$

      d) 否则不接受转移,$t=t-1$

    样本集$(x_{n_1}, x_{n_1+1},..., x_{n_1+n_2-1})$即为我们需要的平稳分布对应的样本集。

    上面这个过程基本上就是MCMC采样的完整采样理论了,但是这个采样算法还是比较难在实际中应用,为什么呢?问题在上面第三步的c步骤,接受率这儿。由于$\alpha(x_t,x_{*}) $可能非常的小,比如0.1,导致我们大部分的采样值都被拒绝转移,采样效率很低。有可能我们采样了上百万次马尔可夫链还没有收敛,也就是上面这个$n_1$要非常非常的大,这让人难以接受,怎么办呢?这时就轮到我们的M-H采样出场了。

3. M-H采样

    M-H采样是Metropolis-Hastings采样的简称,这个算法首先由Metropolis提出,被Hastings改进,因此被称之为Metropolis-Hastings采样或M-H采样

    M-H采样解决了我们上一节MCMC采样接受率过低的问题。

    我们回到MCMC采样的细致平稳条件:$$\pi(i)Q(i,j)\alpha(i,j) = \pi(j)Q(j,i)\alpha(j,i)$$

    我们采样效率低的原因是$\alpha(i,j)$太小了,比如为0.1,而$\alpha(j,i)$为0.2。即:$$\pi(i)Q(i,j)\times 0.1 = \pi(j)Q(j,i)\times 0.2$$

    这时我们可以看到,如果两边同时扩大五倍,接受率提高到了0.5,但是细致平稳条件却仍然是满足的,即:$$\pi(i)Q(i,j)\times 0.5 = \pi(j)Q(j,i)\times 1$$

    这样我们的接受率可以做如下改进,即:$$\alpha(i,j) = min\{ \frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)},1\}$$

    通过这个微小的改造,我们就得到了可以在实际应用中使用的M-H采样算法过程如下:

    1)输入我们任意选定的马尔科夫链状态转移矩阵$Q$,平稳分布$\pi(x)$,设定状态转移次数阈值$n_1$,需要的样本个数$n_2$

    2)从任意简单概率分布采样得到初始状态值$x_0$

    3)for $t = 0$ to $n_1 +n_2-1$:

      a) 从条件概率分布$P(x|x_t)$中采样得到样本$x_{*}$

      b) 从均匀分布采样$u \sim uniform[0,1] $

      c) 如果$u < \alpha(x_t,x_{*}) = min\{ \frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)},1\}$, 则接受转移$x_t \to x_{*}$,即$x_{t+1}= x_{*}$

      d) 否则不接受转移,$t=t-1$

    样本集$(x_{n_1}, x_{n_1+1},..., x_{n_1+n_2-1})$即为我们需要的平稳分布对应的样本集。

    很多时候,我们选择的马尔科夫链状态转移矩阵$Q$如果是对称的,即满足$Q(i,j) = Q(j,i)$,这时我们的接受率可以进一步简化为:$$\alpha(i,j) = min\{ \frac{\pi(j)}{\pi(i)},1\}$$

4. M-H采样实例

    为了更容易理解,这里给出一个M-H采样的实例。

    在例子里,我们的目标平稳分布是一个均值2,标准差3的正态分布,而选择的马尔可夫链状态转移矩阵$Q(i,j)$的条件转移概率是以$i$为均值,方差1的正态分布在位置$j$的值。这个例子仅仅用来让大家加深对M-H采样过程的理解。毕竟一个普通的一维正态分布用不着去用M-H采样来获得样本。

    代码如下:

import random
import math
from scipy.stats import norm
import matplotlib.pyplot as plt
%matplotlib inline

def norm_dist_prob(theta):
    y = norm.pdf(theta, loc=3, scale=2)
    return y

T = 5000
pi = [0 for i in range(T)]
sigma = 1
t = 0
while t < T-1:
    t = t + 1
    pi_star = norm.rvs(loc=theta[t - 1], scale=sigma, size=1, random_state=None)
    #print theta_star
    alpha = min(1, (norm_dist_prob(pi_star[0]) / norm_dist_prob(pi[t - 1])))

    u = random.uniform(0, 1)
    if u < alpha:
        pi[t] = pi_star[0]
    else:
        pi[t] = pi[t - 1]

plt.scatter(pi, norm.pdf(pi, loc=3, scale=2))
num_bins = 50
plt.hist(pi, num_bins, normed=1, facecolor=‘red‘, alpha=0.7)
plt.show()

    输出的图中可以看到采样值的分布与真实的分布之间的关系如下,采样集还是比较拟合对应分布的。

5. M-H采样总结

    M-H采样完整解决了使用蒙特卡罗方法需要的任意概率分布样本集的问题,因此在实际生产环境得到了广泛的应用。

    但是在大数据时代,M-H采样面临着两大难题:

    1) 我们的数据特征非常的多,M-H采样由于接受率计算式$ \frac{\pi(j)Q(j,i)}{\pi(i)Q(i,j)}$的存在,在高维时需要的计算时间非常的可观,算法效率很低。同时$\alpha(i,j)$一般小于1,有时候辛苦计算出来却被拒绝了。能不能做到不拒绝转移呢?

    2) 由于特征维度大,很多时候我们甚至很难求出目标的各特征维度联合分布,但是可以方便求出各个特征之间的条件概率分布。这时候我们能不能只有各维度之间条件概率分布的情况下方便的采样呢?

    Gibbs采样解决了上面两个问题,因此在大数据时代,MCMC采样基本是Gibbs采样的天下,下一篇我们就来讨论Gibbs采样。

(欢迎转载,转载请注明出处。欢迎沟通交流: [email protected])

时间: 2024-08-08 19:25:26

MCMC(三)MCMC采样和M-H采样的相关文章

【数字图像处理】三.MFC实现图像灰度、采样和量化功能详解

本文主要讲述基于VC++6.0 MFC图像处理的应用知识,主要结合自己大三所学课程<数字图像处理>及课件进行讲解,主要通过MFC单文档视图实现显示BMP格式图片,并通过Bitmap进行灰度处理.图片采样和量化功能. 个人认为对初学者VC++6.0可能还是很值得学习的工具,所以采用它来讲解,而不是VS或C#.同时文章比较详细基础,希望该篇文章对你有所帮助~ [数字图像处理]一.MFC详解显示BMP格式图片 [数字图像处理]二.MFC单文档分割窗口显示图片 免费资源下载地址: http://dow

图像上采样和图像下采样

#1. 图像下采样和上采样的概念#无论是图像的上采样还是下采样都可以使用matlab中的imresize函数来实现,而这些操作在使用到图像金字塔的算法中,必然是不可或缺的操作步骤.需要指出的是,当我们对一幅图像先下采样再上采样回原尺寸,得到的结果就是原图像的低频成分了.下面简要介绍2者的概念. 1.1 图像下采样 图像下采样(subsampled)可以通俗地理解成缩小图像,又称为降采样(downsampled).其目的有两个:1)使得图像符合显示区域的大小:2)生成对应图像的缩略图.##1.2

UNIX环境高级编程(第三版)关于apue.h的用法

UNIX环境高级编程(第三版)中的例子用到apue.h这个头文件,但是书里面写的地址已经不能访问. 经过一番查找之后,找到如下解决方案: 1.到www.apuebook.com上下载第2版的源码,也可以直接点这里. 2.下载后的源码,需要修改一下: 1.Make.defines.linux中第6行WKDIR=/home/sar/apue.2e更改为目录的绝对路径. 2.apue.2e/ipp/ipp.h中第122行中的status换为Status.(也可换为其他,但要与下面对应) 3.apue.

[UNIX环境高级编程](第三版)中apue.h的问题

编译 gcc -g myls.c 时,报错 ‘找不到头文件 apue.h’ apue.h是作者自己写的一个文件,系统不自带.其中包含了常用的头文件,以及出错处理函数的定义. 需要到 http://www.apuebook.com/code3e.html(这本书的官网) 下载  ‘src.3e.tar.gz’ 进行解压(最新版产生的目录apue.3e),并执行安装 tar -zvx -f src.3e.tar.gz 进入目录apue.3e,执行安装 ./configure make make in

2016-2017学年第三次测试赛 习题H MCC的考验

问题 H: MCC的考验 时间限制: 1 Sec  内存限制: 128 MB 题目描述 MCC男神听说新一期的选拔赛要开始了,给各位小伙伴们带来了一道送分题,如果你做不出来,MCC会很伤心的. 给定一个大小为n的非空整数数组,现在定义一种操作,每一步操作会将该数组中的n-1个数同时加1,问最少进行多少步操作后,可以使得数组里的每一个数字都相等. 例如,一个n为3的数组[1,2,3],最少进行3步操作后,可以变为[4,4,4] 过程如下:[1,2,3]  =>  [2,3,3]  =>  [3,

Redis源码分析(三十四)--- redis.h服务端的实现分析(1)

上次刚刚分析过了客户端的结构体分析,思路比较简答,清晰,最后学习的是服务端的实现,服务端在Redis可是重中之重,里面基本上囊括了之前模块中涉及到的所有知识点,从redis的头文件就可以看出了,redis.h代码量就已经破1000+行了,而且都还只是一些变量,宏定义的声明,和一些方法原型的声明.所以,今天的总结跟昨天一样,先不做具体的实现学习,先从全局的角度思考,服务端的整体设计思路,这从头文件的声明正好可以学习. /* ----------------------- 声明了一下所需的头文件,主

MCMC(二)马尔科夫链

MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)M-H采样和Gibbs采样(待填坑) 在MCMC(一)蒙特卡罗方法中,我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法,但是这个方法需要得到对应的概率分布的样本集,而想得到这样的样本集很困难.因此我们需要本篇讲到的马尔科夫链来帮忙. 1. 马尔科夫链概述 马尔科夫链定义本身比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态.举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只

MCMC(一)蒙特卡罗方法

MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链(待填坑) MCMC(三)M-H采样和Gibbs采样(待填坑) 作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础.比如我们前面讲到的分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)原理总结,都用到了MCMC来做一些复杂运算的近似求解.下面我们就对MC

文本主题模型之LDA(二) LDA求解之Gibbs采样算法

本文是LDA主题模型的第二篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了基于MCMC的Gibbs采样算法,如果你对MCMC和Gibbs采样不熟悉,建议阅读之前写的MCMC系列MCMC(四)Gibbs采样. 1. Gibbs采样算法求解LDA的思路 首先,回顾LDA的模型图如下: 在Gibbs采样算法求解LDA的方法中,我们的α,ηα,η是已知的先验输入,我们的目标是得到各个zdn,wknzdn,wkn对应的整体z? ,w? z→,w→的概率分布,即文档主题的分布和