朴素贝叶斯分类器(一)

这两天看了下朴素贝叶斯分类器,在这里根据自己的理解做个简单笔记,也顺便整理一下思路。

一、简介

1. 什么是朴素贝叶斯分类器?
    朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器。基于独立假设的意思是假设样本每个特征与其他特征都不相关,例如,一个物体具有颜色、大小、重量和材质等特征,这些特征互不相关,即不管什么颜色不会影响大小,不管大小如何也不会影响其颜色。

2. 什么是贝叶斯定理?

贝叶斯定理(Bayes‘ theorem)是概率论中的一个结论,它跟随机变量条件概率(Conditional probability)以及边缘概率分布有关。贝叶斯定理是关于随机事件A和B条件概率(或边缘概率)的一则定理,实际上就是求条件概率的一则公式。

所谓条件概率,就是指事件B发生的情况下,事件A发生的概率,用P(A|B)表示。

下面介绍贝叶斯定理的推导过程:

如上文氏图所示,可以看出事件A和事件B同时发生的概率P(A∩B)等于事件B发生的概率P(B)乘以事件B发生的情况下事件A发生的概率P(A|B),

也等于事件A发生的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B|A),用公式表示即:

P(A∩B) = P(A) * P(B|A) 或 P(A∩B) = P(B) * P(A|B)

变形上面的公式可得:

P(A|B) = P(A) * P(B|A) / P(B)

这就是条件概率公式,其中:

P(A|B)是事件B发生的情况下A发生的条件概率,因该值受B的影响而产生,被称为“后验概率”。

P(A)叫做事件A的先验概率(或边缘概率),它不考虑事件B方面的因素,在运用贝叶斯定理时,该值都是已知(根据情况预估的一个值)。

P(B|A)/P(B)可以理解为可能性因子,是对先验概率的一个补充,使结果更接近真实概率

于是,贝叶斯定理可以表示为:

后验概率 = 先验概率 * 可能性因子

一般运用贝叶斯定理时,首先预估一个先验概率,后面的可能性因子根据统计数据算出,如果可能性因子<1,说明事件发生的概率可能性变小(比先验概率低),如果可能性因子>1,说明事件发生的概率可能性变大(比先验概率高),如果可能性因子等于1,说明事件B对事件A发生的概率无影响。

说明:运用贝叶斯定理时,统计数据越多越丰富,最后计算的结果会越接近真实概率!也就是说,在运用的过程中,即使刚开始结果计算不准确,但随着统计数据的增加,可能性因子会不断调整(校准,这个过程也称训练过程),计算结果会不断向真实概率修正。

二、运用:

有如下统计数据,现有一男子喉咙疼,请问该男子患咽炎的概率是多少?

性别 症状 病因
喉咙疼 感冒
发烧 感冒
喉咙疼 咽炎
发烧 咽炎
发烧 感冒
喉咙疼 咽炎

上述问题中,按照贝叶斯定理,可以把“性别”、“症状”和“病因”都看作是事件,问题则是求性别是男和症状为喉咙疼的情况下咽炎发生的概率,即求P(咽炎|男×喉咙疼)。

根据贝叶斯定理,可得:

P(咽炎|男×喉咙疼) = P(咽炎)×P(男×喉咙疼|咽炎)/P(男*喉咙疼)

假设“性别”和“症状”是相互独立的,则:

P(咽炎|男×喉咙疼) = P(咽炎)×((P(男|咽炎)×P(喉咙疼|咽炎))/(P(男)×P(喉咙疼))

其中,P(咽炎)为先验条件,((P(男|咽炎)×P(喉咙疼|咽炎))/(P(男)×P(喉咙疼))为可能性因子,现假设咽炎发生的概率为50%,根据上述的数据,计算结果为:

P(咽炎|男×喉咙疼) = 0.50 × (0.33×0.67)/(0.33×0.50) = 0.67

通过计算结果可知,该男子患咽炎的概率为67%。

如果我们再增加一条记录:

性别 症状 病因
喉咙疼 咽炎

则计算结果为:

P(咽炎|男×喉咙疼) = 0.50 × (0.50×0.75)/(0.43×0.57) = 0.77

由此可见,随着统计数据的增加,计算结果越接近真实概率。

朴素贝叶斯分类器(一)

时间: 2024-11-05 23:14:20

朴素贝叶斯分类器(一)的相关文章

朴素贝叶斯分类器及Python实现

贝叶斯定理 贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进行修正的定理,在概率论中具有重要地位. 先验概率分布(边缘概率)是指基于主观判断而非样本分布的概率分布,后验概率(条件概率)是根据样本分布和未知参数的先验概率分布求得的条件概率分布. 贝叶斯公式: P(A∩B) = P(A)*P(B|A) = P(B)*P(A|B) 变形得: P(A|B)=P(B|A)*P(A)/P(B) 其中 P(A)是A的先验概率或边缘概率,称作"先验"是因为它不考虑B因素. P(A|B)是已知

从朴素贝叶斯分类器到贝叶斯网络(下)

书接上文 :从朴素贝叶斯分类器到贝叶斯网络(上) 三.贝叶斯网络 贝叶斯网络(Bayesian Network)是一种用于表示变量间依赖关系的数据结构.有时它又被称为信念网络(Belief Network)或概率网络(Probability Network).在统计学习领域.概率图模型(PGM,Probabilistic Graphical Models)经常使用来指代包括贝叶斯网络在内的更加宽泛的一类机器学习模型.比如隐马尔可夫模型(HMM,Hidden Markov Model)也是一种PG

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes.TAN.BAN和GBN. 贝叶斯网络是一个带有概率凝视的有向无环图,图中的每个结点均表示一个随机变量,图中两结点 间若存在着一条弧,则表示这两结点相相应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的.网络中随意一个结点X 均有一个对应的条件概率表(Con

朴素贝叶斯分类器的应用 Naive Bayes classifier

一.病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难. 某个医院早上收了六个门诊病人,如下表. 症状 职业 疾病 打喷嚏 护士 感冒  打喷嚏 农夫 过敏  头痛 建筑工人 脑震荡  头痛 建筑工人 感冒  打喷嚏 教师 感冒  头痛 教师 脑震荡 现在又来了第七个病人,是一个打喷嚏的建筑工人.请问他患上感冒的概率有多大? 根据贝叶斯定理: P(A|B) = P(B|A) P(A) / P(B) 可得 P(感冒|打喷嚏x建筑工人)  = P(打喷嚏x建筑工人|感冒)

从朴素贝叶斯分类器到贝叶斯网络(上)

一.贝叶斯公式(一些必备的数学基础) 贝叶斯(Thomas Bayes)是生活在十八世纪的一名英国牧师和数学家.因为历史久远,加之他没有太多的著述留存,今天的人们对贝叶斯的研究所知甚少.唯一知道的是,他提出了概率论中的贝叶斯公式.但从他曾经当选英国皇家科学学会会员(类似于院士)来看,他的研究工作在当时的英国学术界已然受到了普遍的认可. 事实上,在很长一段时间里,人们都没有注意到贝叶斯公式所潜藏的巨大价值.直到二十世纪人工智能.机器学习等崭新学术领域的出现,人们才从一堆早已蒙灰的数学公式中发现了贝

朴素贝叶斯分类器的应用-转载加我的理解注释

生活中很多场合需要用到分类,比如新闻分类.病人分类等等. 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法. 一.病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难. 某个医院早上收了六个门诊病人,如下表. 症状 职业 疾病 打喷嚏 护士 感冒  打喷嚏 农夫 过敏  头痛 建筑工人 脑震荡  头痛 建筑工人 感冒  打喷嚏 教师 感冒  头痛 教师 脑震荡 现在又来了第七个病人,是一个打喷嚏的建筑工人.请问他患

理解朴素贝叶斯分类器的三层境界

1.背景 首先,在文章的开头,先提出几个问题,如果这些问题你都答得上来,那么本文你就无需阅读了,或者你阅读的动机纯粹是给本文挑毛病,当然我也无比欢迎,请发送邮件"毛病の朴素贝叶斯"发送至[email protected],我会认真阅读你的来信. By the way,如果阅读完本文,你还是无法回答以下问题,那么也请你邮件通知我,我会尽量解答你的疑惑. 朴素贝叶斯分类器中的"朴素"特指此分类器的什么特性 朴素贝叶斯分类器与极大似然估计(MLE).最大后验概率(MAP)

基于朴素贝叶斯分类器的文本分类算法

源代码下载:NaviveBayesClassify.rar Preface 文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog<基于K-Means的文本聚类算法>,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得. 在本文的上半部分<基于朴素贝叶斯分类器的文本分类算法(上)>一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论运用到中文文本分类中来,具体的文本分类原理就不再介绍了,在上半部分有,也可以参见代码的注释. 文本特征向量

PGM学习之三 朴素贝叶斯分类器(Naive Bayes Classifier)

介绍朴素贝叶斯分类器的文章已经很多了.本文的目的是通过基本概念和微小实例的复述,巩固对于朴素贝叶斯分类器的理解. 一 朴素贝叶斯分类器基础回顾 朴素贝叶斯分类器基于贝叶斯定义,特别适用于输入数据维数较高的情况.虽然朴素贝叶斯分类器很简单,但是它确经常比一些复杂的方法表现还好. 为了简单阐述贝叶斯分类的基本原理,我们使用上图所示的例子来说明.作为先验,我们知道一个球要么是红球要么是绿球.我们的任务是当有新的输入(New Cases)时,我们给出新输入的物体的类别(红或者绿).这是贝叶斯分类器的典型

十大经典数据挖掘算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器 贝叶斯分类分类原则是一个对象的通过先验概率.贝叶斯后验概率公式后计算.也就是说,该对象属于一类的概率.选择具有最大后验概率的类作为对象的类属.现在更多的研究贝叶斯分类器,有四个,每间:Naive Bayes.TAN.BAN和GBN. 贝叶斯网络是一个带有概率凝视的有向无环图.图中的每个结点均表示一个随机变量,图中两结点 间若存在着一条弧.则表示这两结点相相应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的.网络中随意一个结点X 均有一个对应的条件概率表(Conditio