狄利克雷过程

官方定义：令表示一个可测的参数空间，描述某一个类别的参数。令H是空间上的一个概率测度，表示一个正实数。对于空间上的任意一个有限分割 : 如果空间上的一个随机概率分布G在这个分割中各部分上的测度服从一个狄利克雷分布：

那么我们就称随机概率分布G 服从狄利克雷过程，记为 .

我们把叫做集中度参数，把H叫做基分布。

解读：

测度的通俗理解就是给一个空间中的每个子集一个度量，即一个实数来衡量各个子集。最直观的例子是用长度来衡量一个一维实数集合，这里的长度就是一种测度。

概率测度是指在空间中定义的测度满足概率的性质，即每个子集的测度大于零，所有子集加和为1。

对于式子：表示了这个分割是不重叠地充满整个空间。

对比狄利克雷分布分布的定义，狄利克雷过程就是把每一个都看成一个概率分布G，而G 的参数是属于参数空间的。

当我们取空间的一个子集,即T取时，狄利克雷过程就会退化成一个狄利克雷分布分布。也就是说分布描述了一种划分下G的分布情况，而过程描述了空间中所有划分的情况。

性质：

如果,当观察到N个独立的来自G的样本,G的后验分布仍然是一个狄利克雷过程：

。

以上是狄利克雷过程的定义，构造狄利克雷过程的常见方法有三种：

断棍构造过程（Stick-Breaking Construction）;

波利亚翁方案（Polya Urn Scheme）也叫（Blackwell-MacQueen 方案）；

中餐馆过程（Chinese Restaurant Process）,CRP ;

时间： 2024-12-17 20:04:58

狄利克雷过程的相关文章

中国餐馆过程（CRP）

查如何事先确定聚类簇数目发现的,是对狄利克雷过程的(DP)的一种解释. 假设一个中国餐馆有无限的桌子,第一个顾客到来之后坐在第一张桌子上.第二个顾客来到可以选择坐在第一张桌子上,也可以选择坐在一张新的桌子上,假设第n+1个顾客到来的时候,已经有k张桌子上有顾客了,分别坐了n1,n2,...,nk个顾客,那么第n+1个顾客可以以概率为ni/(\alpha+n)坐在第i张桌子上,ni为第i张桌子上的顾客数:同时有概率为\alpha/(\alpha+n)选取一张新的桌子坐下.那么在n个顾客坐定之后,很

断棍构造过程-波利亚翁方案-中餐馆过程

介绍三种构造狄利克雷过程的方法断棍构造过程(Stick-Breaking Construction) 给出了一种显式采样方法,即构造一个有明确定义的G ,使得G满足狄利克雷过程. 构造:第一步,给定一个正实数 ,先从beta分布中构造一个,,这里k从1到 :再利用构造一个,.之所以要这样得到是为了让 ,即我们希望得到一个概率质量函数. 第二步,从参数空间中的一个基分布H 中采样一个参数序列 ,这个是服从分布H的. 第三步,把他们合在一起构成离散分布 ,这便是狄利克雷过程的一个采样. 记为

Hulu机器学习问题与解答系列 | 十九：主题模型

今天的内容是 [主题模型] 场景描述基于Bag-Of-Words(或N-gram)的文本表示模型有一个明显的缺陷,就是无法识别出不同的词(或词组)具有相同主题的情况.我们需要一种技术能够将具有相同主题的词(或词组)映射到同一维度上去,于是产生了主题模型(Topic Model).主题模型是一种特殊的概率图模型.想象一下我们如何判定两个不同的词具有相同的主题呢?这两个词可能有更高的概率出现在同一主题的文档中:换句话说,给定某一主题,这两个词的产生概率都是比较高的,而另一些不太相关的词产生的概率则

机器学习推荐书单

机器学习很多时候是在跟数学打交道,所以看书看论文肯定是必不可少的.下面是自己读过并觉得很有帮助的一些书,希望对大伙有所帮助.(请忽略糟糕的排版,这个排版功能太难用了..) 拓扑学: Munkres J R. <Topology>拓扑学就只看了这一本,只能说不愧是大师之作.分析学: Rudin三件套这个应该就众所周知了.另外,很早的时候读过柯朗的一个系列微积分教材,用于入门也挺好.再另外,柯朗的数学物理方法也是不可多得的佳作,很多处理问题的视角都只在这本书里见过,不过可惜只读了第一卷的前面几章.

我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)

1. LDA模型是什么 LDA可以分为以下5个步骤: 一个函数:gamma函数. 四个分布:二项分布.多项分布.beta分布.Dirichlet分布. 一个概念和一个理念:共轭先验和贝叶斯框架. 两个模型:pLSA.LDA. 一个采样:Gibbs采样关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),本文讲后者. 按照wiki上的介绍,L

NLP(一) Python常用开发工具

一.Numpy NumPy系统是Python的一种开源的数值计算包. 包括: 1.一个强大的N维数组对象Array: 2.比较成熟的(广播)函数库: 3.用于整合C/C++和Fortran代码的工具包: 4.实用的线性代数.傅里叶变换和随机数生成函数. numpy和稀疏矩阵运算包scipy配合使用更加方便. 安装: pip install numpy 二.NLTK Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库. pip in

主题模型TopicModel：隐含狄利克雷分布LDA

http://blog.csdn.net/pipisorry/article/details/42649657 主题模型LDA简介隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出. 同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可.此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它. LDA首先由Blei, David

【数论】狄利克雷卷积及其快速计算方法及杜教筛

目录(假的狄利克雷卷积基础知识数论函数狄利克雷卷积定义狄利克雷卷积性质常用卷积卷积计算方法最暴力的暴力稍好的暴力优美的暴力莫比乌斯反演(待填坑) 杜教筛经典杜教筛第二种杜教筛第三种杜教筛背景本人即将去CTS&APIO2019,由于一些特殊原因,发现自己数论突然变得很菜. 就决定在去的前一天,翻出来以前的数论学习资料看一看.翻到了czgj的校内狄利克雷卷积课件,发现其中提到了的任意数列\(f(n)\)和\(g(n)\)的狄利克雷卷积\((f*g)(n)\)(从1到n,

Linux下WebSphereV8.5.5.0 安装详细过程

Linux下WebSphereV8.5.5.0 安装详细过程自WAS8以后安装包不再区别OS,一份介质可以安装到多个平台.只针对Installation Manager 进行了操作系统的区分 ,Websphere产品介质必须通过专门的工具Install Managere安装.进入IBM的官网http://www.ibm.com/us/en/进行下载.在云盘http://yun.baidu.com/share/linkshareid=2515770728&uk=4252782771 中是Linu