机器学习笔记——贝叶斯学习

概率

理解概率最简单的方式就是把它们想像成韦恩图中的元素。首先你有一个包括所有可能输出(例如一个实验的)的全集,现在你对其中的一些子集感兴趣,即一些事件。假设我们在研究癌症,所以我们观察人们看他们是否患有癌症。在研究中,假设我们把所有参与者当成我们的全集,然后对任何一个个体来说都有两种可能的结论,患有或没有癌症。我们可以把我们的全集分成两个事件:事件"患有癌症的人"(表示为A),和"不患有癌症的人"(表示为~A)。我们可以构建一张如下的图:

那么一个随机选择的人患有癌症的概率是多少呢?就是在A中的元素数量除以U(全集)。我们记A中元素的数量为|A|,并读作A的基数。定义A的概率,P(A),写作P(A) = |A|/|U|。

由于A可以至多拥有与U一样的元素,概率P(A)至多为1。

到现在还不错吧?好,让我们添加另一个事件。假设还有一个筛选测试,目的是测量别的什么。那个测试对一些人将是"阳性",对一些人将是"阴性"。如果我们把事件B定义为"测试中是阳性的人"。我们可以作出另一张图:

那么对于一个随机选中的人,这个测试为”阳性“的概率是多少呢?将是B中元素的数量(B的基数,或|B|)除以U的元素数量,我把这个称为P(B),事件B的概率有了。

P(B) = |B|/|U|。

记住到目前为止,我们已经处理了两个独立的事件。我们把它们放在一起会发生什么。

我们可以用同样的方法计算两个事件都发生的概率(AB是A∩B的缩写)。

P(AB) = |AB|/|U|。

这就是开始有意思的地方了。从上图中可以读到什么?

我们在处理一个全集(所有人),事件A(患有癌症的人),和事件B(测试中为阳性的人)。

现在有了重叠,即事件AB,我们也可以读作"患有癌症并且测试中为阳性的人"。也有事件B-AB或"未患癌症并且测试结果为阳性的人",还有A-AB或"患有癌症并且测试结果为阴性的人"。 现在,我们要回答的问题是"假设对一个随机选中的人测试结果为阳性,这个人患有癌症的概率是多少?"。在我们的韦恩图中,可以翻译成"假设我们在B区域,我们在区域AB的概率是多少",或者用另一种方式表述:"如果我们把区域B当成我们的全集,A的概率是多少?"。表达式即为P(A|B),读作"给定B下A的概率"。那它应该是什么?好它应该是 P(A|B)
= |AB|/|B|。

假设我们把分子分母同时除以|U|

P(A|B) = (|AB|/|U|)/(|B|/|U|),我们可以把前面的等式重写为:P(A|B)=P(AB)/P(B).

我们有效地完成了把全集从U(所有人)到B(测试为阳性的人)的改变,但是我们仍然需要处理U中定义的概率。

现在让我们来问一个相反的问题"假设一个随机算中的个体患有癌症(事件A),对此人测试为阳性(事件AB)的概率是多少?"。直观来看它就是:P(B|A)=P(AB)/P(A).

现在我们可以推导出贝叶斯公式,把上两个等式放在一起,我们得到:P(A|B)P(B)=P(B|A)P(A)。无论你从A或B的方向上看P(AB)都是一样的,最后推出P(A|B)=P(B|A)P(A)/P(B)。这就是贝叶斯公式。我发现韦恩图让我重新认识了贝叶斯公式,任何时候都不用记住它了。它也对其的应用变简单。

示例

下面的例子来自Yudowsky:

年龄为40岁的参与定期筛查的妇女中有1%患有乳腺癌。患乳腺癌的妇女中的乳房X光片为阳性的有80%。未患乳腺癌的妇女中9.6%也有阳性乳房X光片。在一次定期检查中,在这个年龄群体中的一位妇女的乳房X光片为阳性,她实际上得乳腺癌的概率是多少?

首先,让我们考虑患有癌症的妇女

现在加入乳房X光片为阳性的妇女,记住我们要覆盖事件A中80%的区域和事件A以外9.6%的区域。

从图中很明显。如果我们重新限定我们的全集为B(乳房X光片为阳性的妇女),实际上只有很小的概率得癌症。通过这篇文章,多数医生猜测问题的答案约为80%,从图中看很明显不可能!记住测试的功效从A中得到,"80%患乳腺癌的妇女也有阳性乳房X光片"。这可以解释为"限定全集为A,B的概率是多少?"或者用别的方式P(B|A)。

即使没有韦恩图,可视化图标可以帮助我们应用贝叶斯公式:

组中有1%的妇女患有乳腺癌->P(A)=0.1

那些妇女中80%有阳性乳房X光片,并且未患乳腺癌的妇女中9.6%也有阳性乳房X光片->P(B)=0.8P(A)+0.096(1-P(A))=0.008 + 0.09504 = 0.10304

我们可以从问题的描述中直接得到P(B|A),记住患有乳腺癌的妇女中80%有阳性乳房X光片->P(B|A)=0.8.

现在把这些值带入贝叶斯公式:

P(A|B)=0.8*0.01/0.10304.

答案是 0.0776 或约 7.8%的概率,即如果给定阳性乳房X光片则实质上患有乳腺癌的概率。

(上面的部分翻译了这个原文:http://oscarbonilla.com/2009/05/visualizing-bayes-theorem/)

时间: 2024-11-06 16:40:06

机器学习笔记——贝叶斯学习的相关文章

机器学习笔记 贝叶斯学习(上)

机器学习笔记(一) 今天正式开始机器学习的学习了,为了激励自己学习,也为了分享心得,决定把自己的学习的经验发到网上来让大家一起分享. 贝叶斯学习 先说一个在著名的MLPP上看到的例子,来自于Josh Tenenbaum 的博士论文,名字叫做数字游戏. 用我自己的话叙述就是:为了决定谁洗碗,小明和老婆决定玩一个游戏.小明老婆首先确定一种数的性质C,比如说质数或者尾数为3:然后给出一系列此类数在1至100中的实例D= {x1,...,xN} :最后给出任意一个数x请小明来预测x是否在D中.如果小明猜

神经网络与机器学习笔记——贝叶斯分类器

高斯环境下贝叶斯分类器退化为线性分类器,与感知器形式一样,但是感知器的线性特性并不是由于高斯假设而引起的. 贝叶斯分类器: 高斯分布下的贝叶斯分类器 更多关于神经网络笔记见我的专栏:神经网络与机器学习笔记

机器学习笔记-------贝叶斯算法1

Hello,我就是人见人爱,花见花开,蜜蜂见了会打转的小花..哈哈,我们终于讲到了当年大学让我头痛不已的贝叶斯.先给个模型: 一:贝叶斯定理 维基百科定义:贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关.在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法.这个名称来自于托马斯·贝叶斯. 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的:然而,这两者是有确定的

七月算法--12月机器学习在线班-第十三次课笔记—贝叶斯网络

七月算法--12月机器学习在线班-第十三次课笔记-贝叶斯网络 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 1.1 贝叶斯公式带来的思考:给定结果推原因: 1.2朴素贝叶斯的假设 1,一个特征出现的概率,与其他特征(条件)独立(特征独立性) 2, 每个特征同等重要 例如:文本分类 ,词出现为1,不出现为0 贝叶斯公式: 分解: ? 拉普拉斯平滑 判断两个文档的距离:夹角余弦 判断分类器的正确率:交叉验证 若一个词出现的次数多,一个

机器学习—朴素贝叶斯

机器学习-朴素贝叶斯 本文代码均来自<机器学习实战> 朴素贝叶斯的两个基本假设: 独立:一个特征出现的可能性和与它和其他特征相邻没有关系 每个特征同等重要 这段代码是以文本分类为例介绍朴素贝叶斯算法的 要从文本中获取特征,需要先拆分文本.这里的特征是来自文本的词条(token),一个词条是字符的任意组合.可以把词条想象为单词,也可以使用非单词词条,如URL.IP地址或者任意其他字符串.然后将一个文本片段表示为一个词向量,其中值为1表示词条出现,0表示词条未出现. ??以在线社区的留言板为例,为

机器学习-朴素贝叶斯原理及Python实现

机器学习-朴素贝叶斯原理及Python实现 贝叶斯公式 P(A|B) = (P(B|A)P(A))/P(B) 举例:苹果10个,有2个黄色:梨10个,有6个黄色,求拿出一个黄色水果,是苹果的概率. 代入公式: P(苹果|黄色) = (P(黄色|苹果)P(苹果))/P(黄色) P(黄色) = (2+6)/20 = 2/5 P(苹果) = 10/20 = 1/2 = 0.5 P(黄色|苹果)=1/5 P(黄色|苹果)P(苹果) = P(黄色,苹果) = 1/5*1/2 = 1/10 = 0.1 P(

机器学习之贝叶斯分类器

贝叶斯分类器(Bayesian decision theory) 贝叶斯决策论是概率框架下实施决策的基本方法,通过相关概率预先已知的情况下对误判损失来选择最优的类别分类. 将标记为cj的样本误分类成ci产生的期望损失,即样本上的“条件风险”为 贝叶斯分类的最基本的思想是:为了最小化总体风险,只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记. 要想用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x),机器学习则是基于有限的训练样本集尽可能准确的估计出后验概率P(c|x).通

机器学习——朴素贝叶斯(NBC)

朴素贝叶斯分类(NBC)是机器学习中最基本的分类方法,是其他众多分类算法分类性能的对比基础,其他的算法在评价性能时都在NBC的基础上进行.同时,对于所有机器学习方法,到处都蕴含着Bayes统计的思想. 朴素贝叶斯基于贝叶斯地理和特征条件独立性假设,首先基于条件独立性假设学习输入X和输出Y的联合分布P(X,Y),同时利用先验概率P(Y),根据贝叶斯定理计算出后验概率P(Y|X),找出每个类别的最大的后验概率即确定为相应的类别.算法实现简单,学习和预测的效率都很高, 基本定义 输入空间Rn为特征化的

贝叶斯学习--极大后验概率假设和极大似然假设

在机器学习中,通常我们感兴趣的是在给定训练数据 D 时,确定假设空间 H 中的最佳假设. 所谓最佳假设,一种办法是把它定义为在给定数据 D 以及 H 中不同假设的先验概率的有关知识条件下的最可能(most probable)假设. 贝叶斯理论提供了计算这种可能性的一种直接的方法.更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率.给定假设下观察到不同数据的概率.以及观察的数据本身. 要精确地定义贝叶斯理论,先引入一些记号. 1.P ( h )来代表还没有训练数据前,假设 h