猪猪的机器学习笔记(十三)贝叶斯网络

贝叶斯网络

作者:樱花猪

摘要

本文为七月算法(julyedu.com)12月机器学习第十三次次课在线笔记。贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。贝叶斯网络适用于表达和分析不确定性和概率性的事件,应用于有条件地依赖多种控制因素的决策,可以从不完全、不精确或不确定的知识或信息中做出推理。本节课从朴素贝叶斯模型开始,详细描述了贝叶斯网络的意义,构建方案以及其他衍生算法。

引言

贝叶斯网络是机器学习中非常经典的算法之一,它能够根据已知的条件来估算出不确定的知识,应用范围非常的广泛。贝叶斯网络以贝叶斯公式为理论接触构建成了一个有向无环图,我们可以通过贝叶斯网络构建的图清晰的根据已有信息预测未来信息。

本次课程从朴素贝叶斯开始分享了贝叶斯网络的构建方案、贝叶斯网络中独立条件的判断以及我们熟悉的马尔科夫模型、马尔科夫毯等。这一张理论基础不太强,多为理解内容。

预备知识

最大熵模型、概率统计

一、朴素贝叶斯

1、朴素贝叶斯假设(与贝叶斯网络区别

一个特征出现的概率,与其他特征(条件)独立(特征独立性),其实是:对于给定分类的条件下,特征独立

每个特征同等重要(特征均衡性)

例子:文本分类问题:

样本:10000封邮件,每个邮件被标记为垃圾邮件或者非垃圾邮件

分类目标:给定第10001封邮件,确定它是垃圾邮件还是非垃圾邮件

方法:朴素贝叶斯

类别c:垃圾邮件c1,非垃圾邮件c2

词汇表,两种建立方法:

1、使用现成的单词词典;2、将所有邮件中出现的单词都统计出来,得到词典。

记单词数目为N

将每个邮件m映射成维度为N的向量xn

若单词wi在邮件m中出现过,则xi=1,否则,xi=0。即邮件的向量化:m-->(x1,x2……xN)o

贝叶斯公式:P(c|x)=P(x|c)*P(c)/P(x)

P(c1|x)=P(x|c1)*P(c1)/P(x)

P(c2|x)=P(x|c2)*P(c2)/P(x)

注意这里x是向量

(c|x)=P(x|c)*P(c)/P(x)

P(x|c)=P(x1,x2…xN|c)=P(x1|c)*P(x2|c)…P(xN|c)

特征条件独立假设

P(x)=P(x1,x2…xN)=P(x1)*P(x2)…P(xN)

特征独立假设

带入公式:P(c|x)=P(x|c)*P(c)/P(x)

o等式右侧各项的含义:

nP(xi|cj):在cj(此题目,cj要么为垃圾邮件1,要么为非垃圾邮件2)的前提下,第i个单词xi出现的概率

nP(xi):在所有样本中,单词xi出现的概率

nP(cj):在所有样本中,邮件类别cj出现的概率

拉普拉斯平滑(防止是0的情况)

p(x1|c1)是指的:在垃圾邮件c1这个类别中,单词x1出现的概率。(x1是待考察的邮件中的某个单词)

定义符号:

n1:在所有垃圾邮件中单词x1出现的次数。如果x1没有出现过,则n1=0。

nn:属于c1类的所有文档的出现过的单词总数目。

o得到公式:

o拉普拉斯平滑:

n其中,N是所有单词的数目。修正分母是为了保证概率和为1

同理,以同样的平滑方案处理p(x1)

二、贝叶斯网络

把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。

贝叶斯网络,又称有向无环图模型(DAG),是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量{X1,X2...Xn}及其n组条件概率分布(CPD)的性质。

一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。

每个结点在给定其直接前驱时,条件独立于其非后继。

贝叶斯网络的形式化定义:

BN(G,Θ)

G:有向无环图

G的结点:随机变量

G的边:结点间的有向依赖

nΘ:所有条件概率分布的参数集合n结点X的条件概率:P(X|parent(X))

二、马尔科夫模型

贝叶斯网络简化形成一条链式模型,Ai+1只与Ai有关,与A1,…,Ai-1无关

隐马尔科夫模型:

 

三、通过贝叶斯网络判断条件独立:

Tail-to-tail

Head-to-tail

Head-to-head

(C阻断)

四、贝叶斯网络的构建

依次计算每个变量的D-separation的局部测试结果,综合每个结点得到贝叶斯网络。

算法过程:

选择变量的一个合理顺序:X1,X2,...Xn

对于i=1到n

o在网络中添加Xi结点

在X1,X2,...Xi-1中选择Xi的父母,使得:

o这种构造方法,显然保证了全局的语义要求:(

问题,如果碰到了混合(离散+连续)的网络怎么办-->信号函数离散化

时间: 2024-10-12 21:42:17

猪猪的机器学习笔记(十三)贝叶斯网络的相关文章

七月算法--12月机器学习在线班-第十三次课笔记—贝叶斯网络

七月算法--12月机器学习在线班-第十三次课笔记-贝叶斯网络 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 1.1 贝叶斯公式带来的思考:给定结果推原因: 1.2朴素贝叶斯的假设 1,一个特征出现的概率,与其他特征(条件)独立(特征独立性) 2, 每个特征同等重要 例如:文本分类 ,词出现为1,不出现为0 贝叶斯公式: 分解: ? 拉普拉斯平滑 判断两个文档的距离:夹角余弦 判断分类器的正确率:交叉验证 若一个词出现的次数多,一个

机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

什么是历史,历史就是我们,不是你,不是他,不是她,是所有人. ----------题记 本文是博主对于bayes及其相关知识的读物总结. 一.数学之美番外篇:平凡而又神奇的贝叶斯方法 二.机器学习理论与实战(三)朴素贝叶斯 三.从贝叶斯方法谈到贝叶斯网络 四.数学之美----贝叶斯网络 (2) 五.贝叶斯网络的学习 六.Stanford概率图模型(Probabilistic Graphical Model)- 第一讲 贝叶斯网络基础 七.隐马尔科夫模型 和动态贝叶斯网络 八.贝叶斯网络在线构建过

概率图模型学习笔记(二)贝叶斯网络-语义学与因子分解

概率分布(Distributions) 如图1所示,这是最简单的联合分布案例,姑且称之为学生模型. 图1 其中包含3个变量,分别是:I(学生智力,有0和1两个状态).D(试卷难度,有0和1两个状态).G(成绩等级,有1.2.3三个状态). 表中就是概率的联合分布了,表中随便去掉所有包含某个值的行,就能对分布表进行缩减. 例如可以去掉所有G不为1的行,这样就只剩下了1.4.7.10行,这样他们的概率之和就不为1了,所以可以重新标准化(Renormalization).如图2所示. 图2 反之也可以

概率图模型(PGM)学习笔记(四)-贝叶斯网络-伯努利贝叶斯-多项式贝叶斯

指针悬空 指针悬空在我们使用指针的时候很容易被忽视,主要的表现是:指针所指向的内存 释放,指针并没有置为NULL,致使一个不可控制的指针. #include<stdio.h> #include<stdlib.h> int *pointer; void func() { int n=8; pointer=&n; printf("pointer point data is %d\n",*pointer); // pointer=NULL; } int mai

概率图形模型(PGM)学习笔记(四)-贝叶斯网络-伯努利贝叶斯-贝叶斯多项式

之前忘记强调重要的差异:链式法则的条件概率和贝叶斯网络的链式法则之间的差异 条件概率链式法则 P\left({D,I,G,S,L} \right) = P\left( D \right)P\left( {I\left| D \right.}\right)P\left( {G\left| {D,I} \right.} \right)P\left( {S\left| {D,I,G} \right.}\right)P\left( {L\left| {D,I,G,S} \right.} \right)"

概率图模型(PGM)学习笔记(二)贝叶斯网络-语义学与因子分解

概率分布(Distributions) 如图1所看到的,这是最简单的联合分布案例,姑且称之为学生模型. 图1 当中包括3个变量,各自是:I(学生智力,有0和1两个状态).D(试卷难度,有0和1两个状态).G(成绩等级,有1.2.3三个状态). 表中就是概率的联合分布了,表中随便去掉全部包括某个值的行,就能对分布表进行缩减. 比如能够去掉全部G不为1的行,这样就仅仅剩下了1.4.7.10行,这样他们的概率之和就不为1了,所以能够又一次标准化(Renormalization).如图2所看到的. 图2

贝叶斯网络 学习笔记

一.概述 贝叶斯网是概率论和图论相结合的产物,可以从概率论的角度讨论变量间的依赖与独立,也可以从图论的角度讨论节点间的连通与分隔,两者有深刻的联系. 1.通过图论准则可以判别变量间条件独立关系. 2.X 与 Y 不直接相连,通过其他变量才能在两者间传递信息;如果 X 和 Y 之间的所有信息通道都被阻塞,那么信息就无法再它们之间传递. 二.贝叶斯网络推理 (Inference) 贝叶斯网络可以利用变量间的条件独立对联合分布进行分解,降低参数个数,推理 (inference) 是通过计算来回答查询的

猪猪的机器学习笔记(十四)EM算法

EM算法 作者:樱花猪   摘要: 本文为七月算法(julyedu.com)12月机器学习第十次次课在线笔记.EM算法全称为Expectation Maximization Algorithm,既最大期望算法.它是一种迭代的算法,用于含有隐变量的概率参数模型的最大似然估计和极大后验概率估计.EM算法经常用于机器学习和机器视觉的聚类领域,是一个非常重要的算法.而EM算法本身从使用上来讲并不算难,但是如果需要真正的理解则需要许多知识的相互串联. 引言:      EM算法是机器学习十大经典算法之一.

从贝叶斯方法谈到贝叶斯网络

0 引言 事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料). 11月9日上午,机器学习班第9次课,邹博讲贝叶斯网络,其帮助大家提炼了贝叶斯网络的几个关