Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理

1.1. 最开始的垃圾邮件判断方法，使用contain包含判断，只能一个关键词，而且100%概率判断1

1.2. 元件部件串联定律1

1.3. 垃圾邮件关键词串联定律表格法可视化贝叶斯定律1

1.4. 十一、最终的计算公式2

1.5. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，2

1.1. 文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)。

1.2. 最开始的垃圾邮件判断方法，使用contain包含判断，只能一个关键词，而且100%概率判断

那么肯定不适用。。所以使用概率算法，出现一个垃圾词语，比如发票，则会判断概率为90%。。比如在出现另外一个垃圾词，比如购买，那么判断概率就会上升达到9x%...

1.3. 元件部件串联定律

当一个元件可靠性为70%的时候，那么俩个元件串联起来可靠性就降低了达到70%*70%=49%..

元件并联定律。可以提高可靠性，具体提升的百分点以下计算方法。。

1.4. 垃圾邮件关键词串联定律表格法可视化贝叶斯定律

比如如果出现发票这个词，那么此文件垃圾文件的概率为 90%。。

如果出现购买这个词，垃圾文件概率为 80%

得到以下表格----------表格开始----------

词汇	垃圾邮件概率	正常邮件概率
发票	90%	10%
购买	80%	20%
购买发票	90*80=72%（舍弃掉此错误结构	10*20=2%
购买发票	1-2%=98%（根据正常邮件概率反向计算垃圾邮件概率	10*20=2%

--------表格结束=-------

表格解说。。几条规则

第一，如果只是出现发票一词，则垃圾邮件概率为90%，正常邮件概率自然为1-90%==10%

第2，如果只是出现购买一词，则垃圾邮件概率为80%，正常邮件概率自然为1-80%==20%

第三部，如果出现购买发票俩个次，则初步判断垃圾邮件概率为90%*80%=72%,正常邮件概率自然为10%*20%=2%

很明显，如果同时出现多个垃圾关键词。垃圾邮件的概率应该上升才对。。所以舍弃掉72%的错误计算结果。。

第四步。。那么得到正常邮件概率就是2%。。自然垃圾邮件概率就是1-2%==98%了。。。

1.5. 十一、最终的计算公式

将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：

P=1-(1-p1)*(1-p2)*(1-p3);

一封邮件是不是垃圾邮件，就用这个式子进行计算

1.6. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，

表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。

有了这个公式以后，一封正常的信件即使出现sex这个词，

1.7. 解决F1和F2是连续变量，不适宜按照某个特定值计算概率。

但是这里有一个问题：F1和F2是连续变量，不适宜按照某个特定值计算概率。

一个技巧是将连续值变为离散值，计算区间的概率。比如将F1分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞]三个区间，然后计算每个区间的概率。在我们这个例子中，F1等于0.1，落在第二个区间，所以计算的时候，就使用第二个区间的发生概率。

参考资料

朴素贝叶斯分类器的应用 - 阮一峰的网络日志.html

作者:: 绰号:老哇的爪子（全名：：Attilax Akbar Al Rapanui 阿提拉克斯阿克巴阿尔拉帕努伊）

汉字名：艾提拉（艾龙）， EMAIL:[email protected]

转载请注明来源： http://www.cnblogs.com/attilax/

Atiend

时间： 2025-01-11 04:31:28

Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理的相关文章

Atitti 文本分类  以及垃圾邮件判断原理以及贝叶斯算法的应用解决方案

Atitti 文本分类以及垃圾邮件判断原理以及贝叶斯算法的应用解决方案 1.1. 七.什么是贝叶斯过滤器?1 1.2. 八.建立历史资料库2 1.3. 十.联合概率的计算3 1.4. 十一.最终的计算公式3 1.5. .这时我们还需要一个用于比较的门槛值.Paul Graham的门槛值是0.9,概率大于0.9,4 1.1. 七.什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户. 正确识别垃圾邮件的技术难度非常大.传统的垃圾邮件过滤方法,主要有"关键词法&quo

朴素贝叶斯算法原理及实现

朴素贝叶斯算法简单高效,在处理分类问题上,是应该首先考虑的方法之一. 1.准备知识贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类. 这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A).这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率.其基本求解公式为:. 下面不加证明地直接给出贝叶斯定理: 2.朴素贝叶斯分类 2.1

C#编程实现朴素贝叶斯算法下的情感分析

C#编程实现这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Progressing)中的重要问题,用以对文本进行正负面的判断,以及情感度评分和意见挖掘.本文借助朴素贝叶斯算法,针对文本正负面进行判别,并且利用C#进行编程实现. 不先介绍点基础? 朴素贝叶斯,真的很朴素朴素贝叶斯分类算法,是一种有监督学习算法,通过对训练集的学习,基于先验概率与贝叶

机器学习--朴素贝叶斯算法原理、方法及代码实现

一.朴素的贝叶斯算法原理贝叶斯分类算法以样本可能属于某类的概率来作为分类依据,朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,朴素的意思是条件概率独立性. 条件概率的三个重要公式: (1)概率乘法公式: P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA) (2)全概率公式: (3)贝叶斯公式: 如果一个事物在一些属性条件发生的情况下,事物属于A的概率>属于B的概率,则判定事物属于A,这就是朴素贝叶斯的基本思想. 二.算法步骤 (

朴素贝叶斯算法原理及推导

朴素贝叶斯算法主要用来解决分类问题,比如通常的二分类,多分类. 1.数学知识: 贝叶斯定理: 特征条件独立: 1.朴素贝叶斯输入空间: 输出空间:y={C1,C2,…,CK}. 训练集:T={(x1,y1),(x2,y2),…,(xN,yN)}. 对于每个实例,其P(X,Y)独立同分布.在进行分类之前,需要先将计算先验概率和条件概率然后据此计算出后验概率. 1)先验概率分布: P(Y=Ck),k=1,2,..,K. 先验概率的极大似然估计: 2)条件概率分布: 设第j个特征可能取值的集合为:{

朴素贝叶斯算法资料整理和PHP 实现版本

朴素贝叶斯算法简洁 http://blog.csdn.net/xlinsist/article/details/51236454 引言先前曾经看了一篇文章,一个老外程序员写了一些很牛的Shell脚本,包括晚下班自动给老婆发短信啊,自动冲Coffee啊,自动扫描一个DBA发来的邮件啊, 等等.于是我也想用自己所学来做一点有趣的事情.我的想法如下: 首先我写个scrapy脚本来抓取某个网站上的笑话之后写个Shell脚本每天早上6点自动抓取最新的笑话然后用朴素贝叶斯模型来判断当前的笑话是否属于成

【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积

题记: 近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线.也是本节实验课题,roc曲线的计算原理以及如果统计TP.FP.TN.FN.TPR.FPR.ROC面积等等.往往运用ROC面积评估模型准确率,一般认为越接近0.5,模型准确率越低,最好状态接近1,完全正确的模型面积为1.下面进行展开介绍: ROC曲线的面积计算原理一.朴素贝叶斯法的工作过程框架图二.利用weka工具,找到训练的预处理数据 1.利用朴素贝叶斯算法对weather.nominal.arff文件进行

朴素贝叶斯-垃圾邮件分类实现

1. 前言 <朴素贝叶斯算法(Naive Bayes)>,介绍了朴素贝叶斯原理.本文介绍的是朴素贝叶斯的基础实现,用来垃圾邮件分类. 2. 朴素贝叶斯基础实现朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类的方法.对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布:然后基于此模型,对于给定的输入$x$,利用贝叶斯定理求出后验概率最大的输出$y$,完整代码GitHub. 输入: #垃圾邮件的内容 posting_list = [ ['m

挖掘算法(1)朴素贝叶斯算法

原文:http://www.blogchong.com/post/NaiveBayes.html 1 文档说明该文档为朴素贝叶斯算法的介绍和分析文档,并且结合应用实例进行了详细的讲解. 其实朴素贝叶斯的概念以及流程都被写烂了,之所以写这些是方便做个整理,记录备忘.而实例部分进行了详细的描述,网络上该实例比较简单,没有过程. 至于最后部分,则是对朴素贝叶斯的一个扩展了,当然只是简单的描述了一下过程,其中涉及到的中文分词以及TFIDF算法,有时间再具体补上. 2 算法介绍 2.1 贝叶斯定理 (1