狄利克雷过程

官方定义:令 表示一个可测的参数空间, 描述某一个类别的参数。令H是空间 上的一个概率测度, 表示一个正实数。对于空间上的任意一个有限分割 : 如果空间上的一个随机概率分布G在这个分割中各部分上的测度服从一个狄利克雷分布:

,

那么我们就称随机概率分布G 服从狄利克雷过程,记为 .

我们把 叫做集中度参数,把H叫做基分布。

解读:

测度的通俗理解就是给一个空间中的每个子集一个度量,即一个实数来衡量各个子集。最直观的例子是用长度来衡量一个一维实数集合,这里的长度就是一种测度。

概率测度是指在空间中定义的测度满足概率的性质,即每个子集的测度大于零,所有子集加和为1。

对于式子 :表示了这个分割是不重叠地充满整个空间。

对比狄利克雷分布分布的定义 ,狄利克雷过程就是把每一个 都看成一个概率分布G,而G 的参数 是属于参数空间的。

当我们取空间的一个子集,即T取 时,狄利克雷过程就会退化成一个狄利克雷分布分布。也就是说分布描述了一种划分下G的分布情况,而过程描述了空间中所有划分的情况。

性质:

如果,当观察到N个独立的来自G的样本,G的后验分布仍然是一个狄利克雷过程:

以上是狄利克雷过程的定义,构造狄利克雷过程的常见方法有三种:

断棍构造过程(Stick-Breaking Construction);

波利亚翁方案(Polya Urn Scheme)也叫(Blackwell-MacQueen 方案);

中餐馆过程(Chinese Restaurant Process),CRP ;

时间: 2024-10-14 16:25:59

狄利克雷过程的相关文章

中国餐馆过程(CRP)

查如何事先确定聚类簇数目发现的,是对狄利克雷过程的(DP)的一种解释. 假设一个中国餐馆有无限的桌子,第一个顾客到来之后坐在第一张桌子上.第二个顾客来到可以选择坐在第一张桌子上,也可以选择坐在一张新的桌子上,假设第n+1个顾客到来的时候,已经有k张桌子上有顾客了,分别坐了n1,n2,...,nk个顾客,那么第n+1个顾客可以以概率为ni/(\alpha+n)坐在第i张桌子上,ni为第i张桌子上的顾客数:同时有概率为\alpha/(\alpha+n)选取一张新的桌子坐下.那么在n个顾客坐定之后,很

断棍构造过程-波利亚翁方案-中餐馆过程

介绍三种构造狄利克雷过程的方法 断棍构造过程(Stick-Breaking Construction) 给出了一种显式采样方法,即构造一个有明确定义的G ,使得G满足狄利克雷过程. 构造:第一步,给定一个正实数 ,先从beta分布中构造一个,,这里k从1到 :再利用构造一个,.之所以要这样得到是为了让 ,即我们希望得到一个概率质量函数. 第二步,从参数空间 中的一个基分布H 中采样一个参数序列 ,这个 是服从分布H的. 第三步,把他们合在一起构成离散分布 ,这便是狄利克雷过程的一个采样. 记为

Hulu机器学习问题与解答系列 | 十九:主题模型

今天的内容是 [主题模型] 场景描述 基于Bag-Of-Words(或N-gram)的文本表示模型有一个明显的缺陷,就是无法识别出不同的词(或词组)具有相同主题的情况.我们需要一种技术能够将具有相同主题的词(或词组)映射到同一维度上去,于是产生了主题模型(Topic Model).主题模型是一种特殊的概率图模型.想象一下我们如何判定两个不同的词具有相同的主题呢?这两个词可能有更高的概率出现在同一主题的文档中:换句话说,给定某一主题,这两个词的产生概率都是比较高的,而另一些不太相关的词产生的概率则

机器学习推荐书单

机器学习很多时候是在跟数学打交道,所以看书看论文肯定是必不可少的.下面是自己读过并觉得很有帮助的一些书,希望对大伙有所帮助.(请忽略糟糕的排版,这个排版功能太难用了..) 拓扑学: Munkres J R. <Topology>拓扑学就只看了这一本,只能说不愧是大师之作.分析学: Rudin三件套这个应该就众所周知了.另外,很早的时候读过柯朗的一个系列微积分教材,用于入门也挺好.再另外,柯朗的数学物理方法也是不可多得的佳作,很多处理问题的视角都只在这本书里见过,不过可惜只读了第一卷的前面几章.

我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)

1. LDA模型是什么 LDA可以分为以下5个步骤: 一个函数:gamma函数. 四个分布:二项分布.多项分布.beta分布.Dirichlet分布. 一个概念和一个理念:共轭先验和贝叶斯框架. 两个模型:pLSA.LDA. 一个采样:Gibbs采样 关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),本文讲后者. 按照wiki上的介绍,L

NLP(一) Python常用开发工具

一.Numpy NumPy系统是Python的一种开源的数值计算包. 包括: 1.一个强大的N维数组对象Array: 2.比较成熟的(广播)函数 库: 3.用于整合C/C++和Fortran代码的工具包: 4.实用的线性代数.傅里叶变换和随机数生成函数. numpy和稀疏矩阵运算包scipy配合使用更加方便. 安装: pip install numpy 二.NLTK Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库. pip in

主题模型TopicModel:隐含狄利克雷分布LDA

http://blog.csdn.net/pipisorry/article/details/42649657 主题模型LDA简介 隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出. 同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可.此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它. LDA首先由Blei, David

【数论】狄利克雷卷积及其快速计算方法及杜教筛

目录(假的 狄利克雷卷积基础知识 数论函数 狄利克雷卷积定义 狄利克雷卷积性质 常用卷积 卷积计算方法 最暴力的暴力 稍好的暴力 优美的暴力 莫比乌斯反演(待填坑) 杜教筛 经典杜教筛 第二种杜教筛 第三种杜教筛 背景 本人即将去CTS&APIO2019,由于一些特殊原因,发现自己数论突然变得很菜. 就决定在去的前一天,翻出来以前的数论学习资料看一看.翻到了czgj的校内狄利克雷卷积课件,发现其中提到了的任意数列\(f(n)\)和\(g(n)\)的狄利克雷卷积\((f*g)(n)\)(从1到n,

Linux下WebSphereV8.5.5.0 安装详细过程

Linux下WebSphereV8.5.5.0 安装详细过程 自WAS8以后安装包不再区别OS,一份介质可以安装到多个平台.只针对Installation Manager 进行了操作系统的区分 ,Websphere产品介质必须通过专门的工具Install Managere安装.进入IBM的官网http://www.ibm.com/us/en/进行下载.在云盘http://yun.baidu.com/share/linkshareid=2515770728&uk=4252782771 中是Linu