朴素贝叶斯学习笔记

naivebayes   朴素贝叶斯分类器原理

公式分解:

1.p(word|categroy)=p(分类category的文档中出现word的文档总数)/分类category总文档数

p(word|categroy)意思为在category分类中word出现的概率

2.p(doc|categroy)=p(word1|categroy)*p(word2|categroy)*...*p(wordn|categroy)

p(doc|categroy)文档属于某个分类的概率

3.p(categroy|doc)=p(doc|categroy)*p(categroy)/p(doc)

p(categroy|doc)  指定文档doc为categroy分类的概率

假如有十个分类,分别计算指定文档这个十个类的概率,即p(categroy|doc),值最大的就是这个文档的分类

推荐链接:http://www.jianshu.com/p/b8e0ae7cfa39

时间: 2024-11-17 21:50:14

朴素贝叶斯学习笔记的相关文章

朴素贝叶斯学习

朴素贝叶斯,为什么叫"朴素",就在于是假定所有的特征之间是"独立同分布"的.这样的假设肯定不是百分百合理的,在现实中,特征与特征之间肯定还是存在千丝万缕的联系的,但是假设特征之间是"独立同分布",还是有合理性在里面,而且针对某些特定的任务,用朴素贝叶斯得到的效果还不错,根据"实践是检验真理的唯一标准",这个模型就具备意义了.这其实和那个"马尔科夫"假设有类似的地方. 朴素贝叶斯的一个思想是,根据现有的一些材

朴素贝叶斯算法笔记

算法描述: 输入:训练数据$T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})}$,其中$x_{i}=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)})$,$x_{i}^{(j)}$是第i个样本的第j个特征,$x_{i}^{(j)}\in \{ a_{j1},a_{j2},...,a_{js} \}$,$a_{jl}$表示第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,$y_{i} \in

《机器学习实战》学习笔记:基于朴素贝叶斯的分类方法

概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率. 目录: 一.基于贝叶斯理论的分类方法 二.关于朴素贝叶斯的应用场景 三.基于Python和朴素贝叶斯的文本分类 1.准备数据 2.训练算法 3.测试算法 四.小结 以下进入正文: 一.基于贝叶斯理论的分类方法 假设有两类数据组成的数据集如下: 其中,假设两个概率分布的参数已知,并用p1(x,y)表示当前数据点(x,y)属于类

朴素贝叶斯-Machine Learining In Action学习笔记

优点:在数据较少的情况下仍然有效,可以处理多类别问题. 缺点:对于输入数据的准备方式较为敏感. 适用数据类型:标称型数据. 条件概率:p(x,y|c?) 需要先验知识和逻辑推理 频数概率:从数据本身获得结论,并不考虑逻辑推理及先验知识 朴素贝叶斯的一般过程: 1. 收集数据:可以使用任何方法. 2. 准备数据:需要数值型或者布尔型数据 3. 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好. 4. 训练算法:计算不同的独立特征的条件概率. 5. 测试算法:计算错误率. 6. 使用

《机器学习实战》学习笔记:基于朴素贝叶斯的垃圾邮件过滤

概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率. 之前的基础实验中简单实现了朴素贝叶斯分类器,并正确执行了文本分类,这一节将贝叶斯运用到实际场景,垃圾邮件过滤这一实际应用. 实例:使用朴素贝叶斯过滤垃圾邮件 在上一节:http://blog.csdn.net/liyuefeilong/article/details/48383175中,使用了简单的文本文件,并从中提取了字符

Stanford大学机器学习公开课(五):生成学习算法、高斯判别、朴素贝叶斯

(一)生成学习算法 在线性回归和Logistic回归这种类型的学习算法中我们探讨的模型都是p(y|x;θ),即给定x的情况探讨y的条件概率分布.如二分类问题,不管是感知器算法还是逻辑回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例,只要判断在直线的哪一侧即可:这种直接对问题求解的方法可以称为判别学习方法. 而生成学习算法则是对两个类别分别进行建模,用新的样例去匹配两个模板,匹配度较高的作为新样例的类别,比如分辨大象(y=1)和狗(y=0),首先,观察大象,然后建立一个大

机器学习笔记 贝叶斯学习(上)

机器学习笔记(一) 今天正式开始机器学习的学习了,为了激励自己学习,也为了分享心得,决定把自己的学习的经验发到网上来让大家一起分享. 贝叶斯学习 先说一个在著名的MLPP上看到的例子,来自于Josh Tenenbaum 的博士论文,名字叫做数字游戏. 用我自己的话叙述就是:为了决定谁洗碗,小明和老婆决定玩一个游戏.小明老婆首先确定一种数的性质C,比如说质数或者尾数为3:然后给出一系列此类数在1至100中的实例D= {x1,...,xN} :最后给出任意一个数x请小明来预测x是否在D中.如果小明猜

(笔记)斯坦福机器学习第六讲--朴素贝叶斯

本讲内容 1. Naive Bayes(朴素贝叶斯) 2.Event models(朴素贝叶斯的事件模型) 3.Neural network (神经网络) 4.Support vector machines(支持向量机) 1.朴素贝叶斯 上讲中的垃圾邮件问题有几个需要注意的地方: (1)  一个单词只有出现和不出现两种可能,因此每个特征x只有两个取值 (2) 特征向量x的个数应该等于词典的长度,比如  将该算法一般化: (1) 让 可以取更多的值 此时  服从多项式分布,而不再是伯努利分布.一种

【cs229-Lecture5】生成学习算法:1)高斯判别分析(GDA);2)朴素贝叶斯(NB)

参考: cs229讲义 机器学习(一):生成学习算法Generative Learning algorithms:http://www.cnblogs.com/zjgtan/archive/2013/06/08/3127490.html 首先,简单比较一下前几节课讲的判别学习算法(Discriminative Learning Algorithm)和本节课讲的生成学习算法(Generative Learning Algorithm)的区别. eg:问题:Consider a classi?cat