采样之Gibbs采样

前面我们讲到了M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是M-H采样有两个缺点:一是需要计算接受率,在高维时计算量大。并且由于接受率的原因导致算法收敛时间变长。二是有些高维数据,特征的条件概率分布好求,但是特征的联合分布不好求。因此需要一个好的方法来改进M-H采样,这就是我们下面讲到的Gibbs采样。

1. 重新寻找合适的细致平稳条件

2.  二维Gibbs采样

 用下图可以很直观的看出,采样是在两个坐标轴上不停的轮换的。当然,坐标轴轮换不是必须的,我们也可以每次随机选择一个坐标轴进行采样。不过常用的Gibbs采样的实现都是基于坐标轴轮换的。

3. 多维Gibbs采样

4.其它解释1

Gibbs采样的目的是获得一个样本,不是计算概率,但可以通过其他方法来统计概率。

5其它解释2

这里通俗点的解释一下。首先,什么是sampling。sampling就是以一定的概率分布,看发生什么事件。举一个例子。甲只能E:吃饭、学习、打球,时间T:上午、下午、晚上,天气W:晴朗、刮风、下雨。现在要一个sample,这个sample可以是:打球+下午+晴朗。。。

问题是我们不知道p(E,T,W),或者说,不知道三件事的联合分布。当然,如果知道的话,就没有必要用gibbs sampling了。但是,我们知道三件事的conditional distribution。也就是说,p(E|T,W),p(T|E,W),p(W|E,T)。现在要做的就是通过这三个已知的条件分布,再用gibbs sampling的方法,得到joint distribution。

参考:https://www.cnblogs.com/xbinworld/p/4266146.html

https://blog.csdn.net/yywan1314520/article/details/51013410

https://blog.csdn.net/zb1165048017/article/details/51778694

http://blog.sina.com.cn/s/blog_5e9e98210102v1wb.html

原文地址:https://www.cnblogs.com/171207xiaohutu/p/9484560.html

时间: 2024-11-05 12:14:19

采样之Gibbs采样的相关文章

gibbs采样

gibbs采样 关键字一 关键字二 参数估计与预测 机器学习的一般思路为: 1.从问题的本质中构建模型,定义样本的产生,有联合概率(图模型). 2.进行模型参数的估计:MLE.MAP.Bayes. 3.使用模型对新样本进行估计. MLE:极大似然估计 估计:解优化函数 预测: MAP:极大后验估计 估计:解优化函数 预测: 对比极大似然估计,引入了关于的先验知识. Bayes估计 估计:后验概率 预测: 对于MLE和MAP算法,对模型参数进行点估计,没有考虑未知样本导致的模型参数的不确定性:对于

MC, MCMC, Gibbs采样 原理&实现(in R)

本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个例子: 1. Markov Chain (马尔科夫链) 2. Random Walk(随机游走) 3. MCMC具体方法: 3.1 M-H法 3.2 Gibbs采样 PS:本篇blog为ese机器学习短期班参考资料(20140516课程),课上讲详述. 下面三节分别就前面几点简要介绍基本概念,并附上代

机器学习:Gibbs 采样

1. 什么是Gibbs采样 Gibbs采样是MH算法的一种特例(α==1),因此可以保证Gibbs抽取的样本,也构成一个非周期不可约稳定收敛的马氏链:Gibbs采样适用于样本是两维或以上的情况:通过积分去除掉相关但是不感兴趣的变量,称为"collapsed"的Gibbs采样:并且个人的一个感觉是,观测量所直接依赖的那些变量是不能被积分掉的,否则无法有效的进行抽样- gibbs采样需要知道样本中一个属性在其它所有属性下的条件概率,然后利用这个条件概率来分布产生各个属性的样本值.gibbs

文本主题模型之LDA(二) LDA求解之Gibbs采样算法

本文是LDA主题模型的第二篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了基于MCMC的Gibbs采样算法,如果你对MCMC和Gibbs采样不熟悉,建议阅读之前写的MCMC系列MCMC(四)Gibbs采样. 1. Gibbs采样算法求解LDA的思路 首先,回顾LDA的模型图如下: 在Gibbs采样算法求解LDA的方法中,我们的α,ηα,η是已知的先验输入,我们的目标是得到各个zdn,wknzdn,wkn对应的整体z? ,w? z→,w→的概率分布,即文档主题的分布和

MCMC(三)MCMC采样和M-H采样

MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)MCMC采样和M-H采样 MCMC(四)Gibbs采样(待填坑) 在MCMC(二)马尔科夫链中我们讲到给定一个概率平稳分布$\pi$, 很难直接找到对应的马尔科夫链状态转移矩阵$P$.而只要解决这个问题,我们就可以找到一种通用的概率分布采样方法,进而用于蒙特卡罗模拟.本篇我们就讨论解决这个问题的办法:MCMC采样和它的易用版M-H采样. 1. 马尔科夫链的细致平稳条件 在解决从平稳分布$\pi$, 找到对应的马尔科夫链状态转移矩

图像的降采样与升采样(二维插值)----转自LOFTER-gengjiwen

图像的降采样与升采样(二维插值) 1.先说说这两个词的概念: 降采样,即是采样点数减少.对于一幅N*M的图像来说,如果降采样系数为k,则即是在原图中 每行每列每隔k个点取一个点组成一幅图像.降采样很容易实现. 升采样,也即插值.对于图像来说即是二维插值.如果升采样系数为k,即在原图n与n+1两点之间插入k-1个点,使其构成k分.二维插值即在每行插完之后对于每列也进行插值. 插值的方法分为很多种,一般主要从时域和频域两个角度考虑.对于时域插值,最为简单的是线性插值.除此之外,Hermite插值,样

SQL Server 查找统计信息的采样时间与采样比例

原文:SQL Server 查找统计信息的采样时间与采样比例 有时候我们会遇到,由于统计信息不准确导致优化器生成了一个错误的执行计划(或者这样表达:一个较差的执行计划),从而引起了系统性能问题.那么如果我们怀疑这个错误的执行计划是由于统计信息不准确引起的.那么我们如何判断统计信息不准确呢?当然首先得去查看实际执行计划中,统计信息的相关数据是否与实际情况有较大的出入,下面我们抛开这个大命题,仅仅从统计信息层面去查看统计信息的更新时间,统计信息的采样行数.采样比例等情况. 1:首先,我们要查查统计信

蒙特卡洛采样之拒绝采样(Reject Sampling)

引子 蒙特卡洛(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法.它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题. 当所求解问题可以转化为某种随机分布的特征数(比如随机事件出现的概率,或者随机变量的期望值等)时,往往就可以考虑使用蒙特卡洛方法.通过随机抽样的方法,以随机事件出现的频率估计其概率,或者以抽样的数字特征估算随机变量的数字特征,并将其作为问题的解.这种方法多用于求解复杂的高

分类问题中的过采样和欠采样

在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡. 针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小. 1.减少正例的数量,使得数据平衡,再进一步分类,这种情况属于"欠采样": 2.增加反例的数目平衡数据,再分类,这种称为"过采样": 3.阈值移动:直接使用原始数据进行分类,但在用训练好的分类器进行预测时,将下式加入到决策过程中,以调整正反例的平衡性. 原文地址:https://www.cnblogs.com/luban/p/941