贝叶斯网络小结

周末去给同事分享贝叶斯网络,每次分享过后的东西都没有记录感觉挺可惜的,故把准备分享过程中的一些笔记、资料、关键点等写成文章记录下来。

1、贝叶斯网络的定义

一个贝叶斯网络是一个有向无环图(DAG),其节点表示一个变量,边代表变量之间的联系,节点存储本节点相当于其父节点的条件概率分布。

其中每个节点受其父节点所影响,即其父节点代表原因,子节点表示结果。

用数学的形式描述就是贝叶斯网络各变量的联合概率分布等于其每个节点的以其父为条件概率的乘积。

即:

2、贝叶斯网络的推导

贝叶斯网络的推导即回答该贝叶斯网络上所有可能的概率问题,以上图为例,可以回答P(x2=0),P(x3=1|x2=0),P(x2=0,x3=1,x4=0)等任意的概率问题。

(1)精确推导

较为简单的贝叶斯网络可以使用精确推导方式。根据贝叶斯网络的结构可求其联合概率分布,然后根据全概率公式、贝叶斯公式则可推出任意在此网络上概率的形式。

如贝叶斯网络如下:

则其概率问题的推导如下:

精确推导在计算过程中可以使用动态规划做一些优化(如消元法),也可根据一些图论的知识做一些优化(如基于团的推导方法)。

(2)模糊推导

有时候贝叶斯网络过大,则需要使用模糊推导。

模糊推导的方法有很多,这里讲如何使用MCMC(马尔科夫链蒙特卡洛)中的吉布斯抽样来进行推导。

I、样本

样本由观测数据和未知数据组成,即x1,x2,?,x3,?....xn,其中未观测到的数据就以?表示,推理的目的就是求未知节点在已有观测值下的概率分布,即P(?|x1,x2..xn)。

II、马尔科夫毯

贝叶斯网络中的Markov branket指一个节点X的父节点、子节点、子节点的父节点(不包括自己),下文叙述中用MB(X)来表示节点X的马尔科夫毯。

III、算法流程

初始化:初始化未知变量的条件概率分布,根据该分布进行抽样,给未知节点赋值。

(1)随机选择未知节点

(2)根据该未知节点的条件概率分布进行抽样,给该节点赋值。

(3)重新计算该节点的分布P(?)=P(?|MB(?))

(4)返回(1)迭代,直到收敛。

3、贝叶斯网络的训练

(1)结构已知,样本完整

使用最大似然估计的方法(如果离散值使用统计的方法)来获取每个节点的条件概率分布即可。

(2)结构已知,样本不完整

如果存在无法观测的节点(即样本不完整),则可以使用EM方法来训练,大致过程如下:

初始化:随机各节点的条件概率分布

E-step:根据各节点已有条件概率分布,补全样本(如果连续则补全为均值,离散补全为出现概率最大的值)

M-step:根据“完整”的观测值使用最大似然估计或者统计来得到新的各节点概率分布,替换原有值。

(3)结构未知

获取贝叶斯网络结构大致有以下三种方法:

I、由专家建模。

II、使用基于相关性的网络训练方法

大致思路为计算各变量相关性(如互信息,卡方检验等),然后在相关性大的节点之间建立边,再通过和样本拟合程度确定边的方向。

III、基于打分的方法

首先确立打分函数,如MDL等,一个打分函数来描述一个贝叶斯网络的好坏,通常要考虑网络结构(越简单越好)和与样本拟合程度(拟合越大越好)。

其次使用启发式算法(如模拟退火等)在整个网络结构空间进行检索,搜索到一个局部最优值作为算法结果。

时间: 2024-10-26 16:26:01

贝叶斯网络小结的相关文章

从贝叶斯方法谈到贝叶斯网络

0 引言 事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料). 11月9日上午,机器学习班第9次课,邹博讲贝叶斯网络,其帮助大家提炼了贝叶斯网络的几个关

机器学习之&amp;&amp;贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

什么是历史,历史就是我们,不是你,不是他,不是她,是所有人. ----------题记 本文是博主对于bayes及其相关知识的读物总结. 一.数学之美番外篇:平凡而又神奇的贝叶斯方法 二.机器学习理论与实战(三)朴素贝叶斯 三.从贝叶斯方法谈到贝叶斯网络 四.数学之美----贝叶斯网络 (2) 五.贝叶斯网络的学习 六.Stanford概率图模型(Probabilistic Graphical Model)- 第一讲 贝叶斯网络基础 七.隐马尔科夫模型 和动态贝叶斯网络 八.贝叶斯网络在线构建过

概率图模型学习笔记(二)贝叶斯网络-语义学与因子分解

概率分布(Distributions) 如图1所示,这是最简单的联合分布案例,姑且称之为学生模型. 图1 其中包含3个变量,分别是:I(学生智力,有0和1两个状态).D(试卷难度,有0和1两个状态).G(成绩等级,有1.2.3三个状态). 表中就是概率的联合分布了,表中随便去掉所有包含某个值的行,就能对分布表进行缩减. 例如可以去掉所有G不为1的行,这样就只剩下了1.4.7.10行,这样他们的概率之和就不为1了,所以可以重新标准化(Renormalization).如图2所示. 图2 反之也可以

从朴素贝叶斯分类器到贝叶斯网络(下)

书接上文 :从朴素贝叶斯分类器到贝叶斯网络(上) 三.贝叶斯网络 贝叶斯网络(Bayesian Network)是一种用于表示变量间依赖关系的数据结构.有时它又被称为信念网络(Belief Network)或概率网络(Probability Network).在统计学习领域.概率图模型(PGM,Probabilistic Graphical Models)经常使用来指代包括贝叶斯网络在内的更加宽泛的一类机器学习模型.比如隐马尔可夫模型(HMM,Hidden Markov Model)也是一种PG

贝叶斯网络

贝叶斯网络定了这样一个独立的结构:一个节点的概率仅依赖于它的父节点.贝叶斯网络更加适用于稀疏模型,即大部分节点之间不存在任何直接的依赖关系. 联合概率,即所有节点的概率,将所有条件概率相乘: 我们最终的目标是计算准确的边缘概率,比如计算Hangover的概率.在数学上,边缘概率被定义为各种状态下系统所有其他节点对本节点影响的概率的和. 边缘概率 优化 接下来就是要获得观测变量 xh  的估计,需要使 p(xh)的值最大, 即: 如果贝叶斯网络比较小,我们可以很简单的做边缘求和运算,但是如果问题规

PGM学习之六 从有向无环图(DAG)到贝叶斯网络(Bayesian Networks)

本文的目的是记录一些在学习贝叶斯网络(Bayesian Networks)过程中遇到的基本问题.主要包括有向无环图(DAG),I-Maps,分解(Factorization),有向分割(d-Separation),最小I-Maps(Minimal I-Maps)等.主要参考Nir Friedman的相关PPT. 1  概率分布(Probability Distributions) 令X1,...,Xn表示随机变量:令P是X1,...,Xn的联合分布(joint distribution).如果每

数据挖掘算法之贝叶斯网络

贝叶斯网络 序 上上周末写完上篇朴素贝叶斯分类后,连着上了七天班,而且有四天都是晚上九点下班,一直没有多少时间学习贝叶斯网络,所以更新慢了点,利用清明节两天假期,花了大概七八个小时,写了这篇博客,下面讲的例子有一个是上一篇朴素贝叶斯讲过的,还有其他的都是出自贝叶斯网络引论中.我会以通俗易懂的方式写出来,不会讲得很复杂,会介绍贝叶斯网络的绝大部分知识点,看完会让你对于贝叶斯网络有个大概的了解.但是对于比较深层次的东西,我先不打算写.比如训练贝叶斯网络,因为涉及到比较加深入的数学知识,我自己暂时也不

猪猪的机器学习笔记(十三)贝叶斯网络

贝叶斯网络 作者:樱花猪 摘要 本文为七月算法(julyedu.com)12月机器学习第十三次次课在线笔记.贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一.贝叶斯网络适用于表达和分析不确定性和概率性的事件,应用于有条件地依赖多种控制因素的决策,可以从不完全.不精确或不确定的知识或信息中做出推理.本节课从朴素贝叶斯模型开始,详细描述了贝叶斯网络的意义,构建方案以及其他衍生算法. 引言 贝叶斯网络是机器学习中非常经典的算法之一,它能够根据已知的条件

概率图形模型(PGM)学习笔记(四)-贝叶斯网络-伯努利贝叶斯-贝叶斯多项式

之前忘记强调重要的差异:链式法则的条件概率和贝叶斯网络的链式法则之间的差异 条件概率链式法则 P\left({D,I,G,S,L} \right) = P\left( D \right)P\left( {I\left| D \right.}\right)P\left( {G\left| {D,I} \right.} \right)P\left( {S\left| {D,I,G} \right.}\right)P\left( {L\left| {D,I,G,S} \right.} \right)"