pgm9

这部分介绍 sampling 方法,书上也称为 particle-based method,这是因为每一个从分布中采集到的样本可以看成是一个
particle(instantiation of r.v.),而我们的 inference 借助了 particles。

比较简单的问题就是 forward sampling,比如一个 BN,如果我们希望得到联合分布下的样本,我们可以按照分解关系依照 topological
order 进行采样,确定了先验后,后面的 r.v.s 就可以使用 CPD 进行采样了。这时的问题是对于某个事件 我们如何进行估计?其实很简单,我们在采样获得的 中看看哪些包含这个 的赋值,进行计数,其占整个样本的比例我们记为 ,Hoeffding bound 揭示了这个估计的准确程度(大数定律):

利 用这个 bound 我们可以推算出来给定 与精度 ,如果希望以 概率以上不等式满足需要多少样本。这是一个绝对误差,对于相对误差来说一般使用 Chernoff bound

对条件概率来说这个问题一般是用 rejection sampling 的策略,比如我们需要计算 ,抽取 particles 之后我们可以仅仅使用满足 的样本,然后仍然使用前面的策略,这时有效的样本仅仅占

rejection 导致样本的利用率降低,为此一个常用的策略是 importance sampling。一种错误的做法是我们在 foward
sampling 产生样本碰到 evidence r.v.s
后直接取我们观测的值,但这并没有考虑到其父节点产生它自己的概率,为此我们必须为每个样本进行适当的调整(加权),使得不大可能产生的样本对应权值会相
对较低,我们可以在产生过程中碰到 evidence 时修改权值 ,它初始为 1,没碰到一个 evidence 就在上面乘以对应的 CPD。如此一来我们产生的样本都与
evidence compatible,但多余了一个权值,我们在计算条件概率时把原先的计数相除换成权值和相除即可。这个技术可以看成通过 likelihood
进行 weighting,因此称为 likelihood weighting。而对应的 particle 由于关联了一个 weight,也称为 weighted
particle。但是这种方法为什么给出的渐进结果收敛到真实值呢?我们可以用 importance sampling 来搞定。

importance sampling 是借助另外一个分布 来求一个采样困难的分布 的 inference 的手法,我们的目标是获得

我们这里近似的时候 是来自 的 i.i.d. r.v.s,importance sampling 使用 ,且每个样本伴随有一个 weight,,最后的估计是

很容易证明这个 unnormalized importance sampling 获得的是无偏估计。如果我们对 并不了解,而仅仅能计算出来 ,这时我们就需要使用 normalized importance sampling,

这个估计不是无偏的,且很难计算其方差。那么为了说明 likelihood weighting 的确能得到我们需要的效果,我们可以提供对应的
importance sampling 下的对应辅助分布。为此我们引入所谓 mutilated network,这是将原先的 BN 进行某种程度的修正,去掉给定
r.v.s. 中父节点的边,将给定的 r.v.s. 的 prior 设置为 deterministic 类型(反应其给定的值),这样在这个新的 BN
上我们的分布作为 ,而原函数作为辅助函数,使用 importance sampling,此时我们需要说明这个 BN
对应的是我们需要的采样分布(比较显然,因为给定的都是先验),而此时如果从原分布里面采样与给定值不相符就会得到一个 0 weight。

事实上 importance sampling 也能处理没有 condition/observation 的情况,这时我们的 可以选择 query r.v.s 上的 函数的乘积。这样我们就可以利用 importance sampling 上面获得的 bound 来分析这些
sampling 的收敛情况了。对条件分布,我们可以转换成为前面两种 case,分别 unnormalized 采样,然后做比(这也称为 ratio
likelihood weighting);或者使用 normalized 采样,这样相比时也能约掉(称为 normalized likelihood
weighting)。这里仅仅谈到了 forward sampling,importance sampling 还包括 backward sampling(有
evidence 的时候 sample reason?)

一类很重要的算法称为 MCMC(Markov Chain Monte Carlo),其中一个典型的代表就是 Gibbs
sampling,这是我们已知所有条件分布时,从条件分布获得样本来 simulate
联合分布下样本的算法。这个方法是计算有效的,这是因为我们根据这个算法发现条件概率其实仅仅于与该变量相关的 factor 有关系,并且无所谓是
normalized 还是 unnormalized factor。

这种方法归到 Monte chain(离散状态离散时间 Markov 过程),描述这个过程需要 transition
matrix、prior。如果某个分布 满足 ,则称为 transition probability 为 的 Markov chain 的 stationary/invariant
distribution。比较重要的一些性质包括周期性(periodic),可约性(reducible,存在多个 stationary
distribution,对应 transition matrix 是 reducible),ergodic(一个状态称为 ergodic
当且仅当其是非周期的,重现概率大于零,对不可约 Markov 过程如果所有状态为 ergodic 则称其为 ergodic)。在这里我们将 ergodicity
定义为 regularity,一个 Markov chain 称为 regular 当且仅当存在 ,对任意 ,从 通过 步迁移到 的概率大于零。可以证明 regular Markov chain 存在唯一的 stationary
distribution。

以上是对于单变量的 Markov chain,对于 PGM 而言,我们可以是一个很复杂的 transition,也可以将这个 transition
定义在单个变量上,这样每个 transition 就可以认为是一个 kernel,且某些情况我们观测到的 transition 是随机选择某个 kernel
之后得到的结果,这样我们就可以换一个角度来理解 Gibbs sampling 的过程,其每步随机变量的 transition
是依赖于其他的变量而不是当前的取值。同时 Gibbs sampling 的思想可以用在 block 上,即我们不是一个变量一个变量的做
transition。

除了 Gibbs sampling 以外,我们还有一类更广义的构造需要的分布是某个 Markov chain 的 stationary
distribution 的算法。它基于所谓的 reversible Markov Chain 的概念,即如果一个 Markov chain 存在唯一一个分布
,使得 ,任意两个状态互相转移的概率相等,这个称为可逆 Markov 过程,这个方程称为 detailed
balance。事实上一个 regular Markov chain 如果是 reversible 的,满足 detailed balance 方程的分布就是
stationary distribution。所谓的 Metropolis-Hastings 算法需要一个 proposal distribution 作为
transition probability,为了使得获得的 transition 以 作为 stationary distribution,我们只需要让它满足 detailed balance
方程,这使得我们需要用某种方式修正这个 proposal distribution,这个 idea 源自 rejection sampling,即我们接受
transition 当且仅当额外的 上均匀分布随机变量小于 ,这也称为 accepting probability,这样一来我们真实的转移概率就变成了 ,容易证明 满足该 Markov chain detailed balance 方程,因为成为了 stationary
distribution。

对于 PGM 来说,如果希望获得联合分布的样本,使用 MH 算法的一种思路是为每个随机变量给出一个 proposal distribution,此时定义的
accepting probability 中 具有和 Gibbs sampling 类似的优点,非常容易计算。事实上,Gibbs sampling
只是选择了某个特殊的 proposal distribution(也很明显正好是条件分布,这样能跟前面一部分约掉),使得 accepting
probability 为 1。

那么使用 Markov chain 获得我们需要的稳态分布的样本如何与我们的 inference 问题发生关系呢?前面的方法都是 i.i.d.
样本,所以我们可以有一些界帮助我们 justify 算法的合理性,这里样本明明不独立,那会有什么样的性质呢?首先,为了使用来自 stationary
distribution 的样本,我们必须等待 Markov chain 进入“足够好”的阶段,为此我们定义了所谓 -mixing time,也就是分布与稳态分布的 KL divergence 小于 的最小时间。可惜对 PGM 来说并不存在一些有意义的 mixing time 的 bound
分析。关于使用稳态分布样本进行估计,我们有如下渐进收敛结果,即通过 MC 样本获得的估计会收敛到以真实期望 为均值的正态分布,其方差比较复杂,但是是有限的。为了减少估计的方差,如何选择合适的 transition
是非常重要的,一般的原则是让状态能够较快/大的变化。实际应用中比较好的策略是通过几个并行的 MC,等待 burn-in
之后,通过几个结果上的比较可以获得收敛性上的判断。

一类减少 MC 方法方差的手法称为 Rao-Blackwellization,其核心思想就是能通过闭式解搞定的就闭式解,迫不得已才用 MC,这反应在
particle-based 的方案中就是所谓的 collapsed
particles(采样后只有一部分随机用来通过样本进行估计,另一部分通过闭式解搞定),这种情况下我们把 ,前部分是通过 particle 这类做法求,而后面是有 的闭式表达,这样计算 时我们可以用

首先产生联合分布样本,而仅仅用 部分,每一个样本对应的 由于可以获得闭式解,我们就可以不使用对应 部分的值,而是给出解析解。这种方法很容易应用到 importance sampling、MCMC
里面去,这会大大减少估计的方差。

对于某些情况,分布集中在少数几个 取值上,直接使用 sampling 的方案会非常慢,这时使用所谓的 deterministic search
method 会更好,此时直接将高概率出现的取值拿出来,然后用他们的加权和即可(会不会一致的偏小/大?)。

——————-
And to Sarah he said, Behold, I have given your brother a
thousand pieces of silver: behold, he is to you a covering of the eyes, to all
that are with you, and with all other: thus she was reproved.

时间: 2024-12-20 01:20:38

pgm9的相关文章

2016行业部分软件展示

加密狗复制备份.定制写狗程序.算法注册机.OEM信息.二次封装.行业软件破解.酒店客房管理.餐饮娱乐管理.美容美发管理.会员管理.口腔管理.商超POS收银.服装鞋帽.家具生产设计.家具数控.家居设计及销售设计.药店管理.汽车行业管理.财务进销存系统 .OA办公 .服装设计.积分管理.电脑行业管理系统.客户管理.洗浴足浴.海迅家具设计拆单管理系统.海迅家具数控生产管理系统.凯恩家美橱衣柜销售设计软件.宏光橱柜衣柜销售设计管理软件.伊莱特衣柜橱柜销售设计管理系统.诗尼曼衣柜橱柜销售设计管理系统.创盈

行业软件 加密狗复制 加密狗数据 加密狗备份 加密狗破解 写狗数据 OEM信息

加密狗复制备份.定制写狗程序.算法注册机.OEM信息.二次封装.行业软件破解.酒店客房管理.餐饮娱乐管理.美容美发管理.会员管理.口腔管理.商超POS收银.服装鞋帽.家具生产设计.家具数控.家居设计及销售设计.药店管理.汽车行业管理.财务进销存系统 .OA办公 .服装设计.积分管理.电脑行业管理系统.客户管理.洗浴足浴.等各行业管理系统.批发零售.量大价优.欢迎选购.合作联系QQ:309889372 部分产品分类展示: 家具厂:海迅家具设计拆单管理系统 海迅家具数控生产管理系统 凯恩家美橱衣柜销

加密狗复制备份 克隆 破解 OEM信息 二次封装 行业软件破解 批发零售

加密狗复制备份 加密狗模拟   加密狗破解  定制写狗程序 算法注册机 OEM信息 二次封装 汉化  行业软件破解   酒店客房管理  餐饮娱乐 美容美发  会员管理  口腔诊所 口腔医院管理 商超POS 服装鞋帽 家具生产数控 家具设计拆单 排料优化 家居设计销售 药店管理 汽配汽修汽贸4S店管理 财务进销存 OA办公 企业积分制管理 电脑行业管理系统 客户管理...等各行业管理软件批发零售 合作联系QQ:309889372 部分产品列表展示 部分产品分类展示: 服装设计类行业: 主要针对服装

Bentley GEOPAK Civil Engineering Suite V8i (SELECTSeries 3) 08.11.09.722 1CD建筑工程解决方案

Bentley GEOPAK Civil Engineering Suite V8i (SELECTSeries 3) 08.11.09.722 1CD建筑工程解决方案GEOPAK Civil Engineering Suite为设计道路.桥梁和多层立体桥梁.铁路.调度场等提供了完善的功能.GEOPAK Civil Engineering Suite是一个具弹性且完整的解决方案 + 诚信合作,保证质量!!!长期有效: + 电话TEL:18980583122 客服 QQ:1140988741 ,它

行业软件

Paraform.v3.0.rar PKPM2006年6月份结构.nrg PKPM使用说明文件.rar Polyworksv9.0forwindows.rar Pro_NC 三轴铣床加工秘籍.rar PTC ICEM DDN V3.404.L.rar ShipConstructor.2006v1.00.rar simpack8613.rar StruCAD10.1.rar T3v2005.1.rar TrafficWare.Simtraffic.v6.614.rar Virtuozo.NT.v3

LMS Raynoise v3.0 1CD(大型声场模拟软件系统).rar

LMS Raynoise v3.0 1CD(大型声场模拟软件系统).rar Mentor PADS 2007.isoMentor Pads2005 中文培训教程 .rarMike Basin v2000 for Arview GIS.rarOrCAD 中文入门教程.rarPCBNavigator在OrCAD与PowerPCB间的应用说明.rarPCschematic v9.0 (英文版).rarPCselCAD v7.0-ISO 1CD(机电-电气CAD绘图软件) .isoProCAST2007

Fluent Airpak v2.1.12 Windows 1CD(CFD 软件,能模拟流动、传热、和化学反应等物理现象).rar

moldex3d-r7.0.rarParaform.v3.0.rarPKPM2006年6月份结构.nrgPKPM使用说明文件.rarPolyworksv9.0forwindows.rarPro_NC 三轴铣床加工秘籍.rarPTC ICEM DDN V3.404.L.rarShipConstructor.2006v1.00.rarsimpack8613.rarStruCAD10.1.rarT3v2005.1.rarTrafficWare.Simtraffic.v6.614.rarVirtuozo

Flowmaster v7 R1 build 7.5.0 热流体系统仿真分析软件\

Flowmaster v7 R1 build 7.5.0 热流体系统仿真分析软件\Fluent.for.CATIA.v5.v1.0.8\Gaussian03 Rev.B-02 for Linux\Geomagic Studio 8中文教程\HEKA.FitMaster.v2.15-TBE_01799\ITTVIS IDL 6.4 数据分析和可视化平台\Lectra.DesignConcept.3D.v3R1c.Multilanguage.ISO_力克三维软装饰设计软件\LMS.SYSNOISE

行业软件网

TrafficWare.Simtraffic.v6.614.rar Virtuozo.NT.v3.6.EN.rar xsteel.rar Zemax20050203.rar 理正岩土计算4.01(16模块).rar ######################################### 联系电话 Phone: 13978244459 QQ:5269150 QQ:5269150 QQ:5269150 Email: [email protected] MSN: [email protec