贝叶斯过滤器过滤垃圾邮件

贝叶斯过滤器过滤垃圾邮件

什么是贝叶斯过滤器？

垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。

正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语；后者则是计算邮件文本的校验码，再与已知的垃圾邮件进行对比。它们的识别效果都不理想，而且很容易规避。

2002年，Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说，这样做的效果，好得不可思议。1000封垃圾邮件可以过滤掉995封，且没有一个误判。

另外，这种过滤器还具有自我学习的功能，会根据新收到的邮件，不断调整。收到的垃圾邮件越多，它的准确率就越高。

建立历史资料库

贝叶斯过滤器是一种统计学过滤器，建立在已有的统计结果之上。所以，我们必须预先提供两组已经识别好的邮件，一组是正常邮件，另一组是垃圾邮件。

我们用这两组邮件，对过滤器进行"训练"。这两组邮件的规模越大，训练效果就越好。Paul Graham使用的邮件规模，是正常邮件和垃圾邮件各4000封。

"训练"过程很简单。首先，解析所有邮件，提取每一个词。然后，计算每个词语在正常邮件和垃圾邮件中的出现频率。比如，我们假定"sex"这个词，在4000封垃圾邮件中，有200封包含这个词，那么它的出现频率就是5%；而在4000封正常邮件中，只有2封包含这个词，那么出现频率就是0.05%。（【注释】如果某个词只出现在垃圾邮件中，Paul Graham就假定，它在正常邮件的出现频率是1%，反之亦然。这样做是为了避免概率为0。随着邮件数量的增加，计算结果会自动调整。）

有了这个初步的统计结果，过滤器就可以投入使用了。

贝叶斯过滤器的使用过程

现在，我们收到了一封新邮件。在未经统计分析之前，我们假定它是垃圾邮件的概率为50%。（【注释】有研究表明，用户收到的电子邮件中，80%是垃圾邮件。但是，这里仍然假定垃圾邮件的"先验概率"为50%。）

我们用S表示垃圾邮件（spam），H表示正常邮件（healthy）。因此，P(S)和P(H)的先验概率，都是50%。

然后，对这封邮件进行解析，发现其中包含了sex这个词，请问这封邮件属于垃圾邮件的概率有多高？

我们用W表示"sex"这个词，那么问题就变成了如何计算P(S|W)的值，即在某个词语（W）已经存在的条件下，垃圾邮件（S）的概率有多大。

根据条件概率公式，马上可以写出

公式中，P(W|S)和P(W|H)的含义是，这个词语在垃圾邮件和正常邮件中，分别出现的概率。这两个值可以从历史资料库中得到，对sex这个词来说，上文假定它们分别等于5%和0.05%。另外，P(S)和P(H)的值，前面说过都等于50%。所以，马上可以计算P(S|W)的值：

因此，这封新邮件是垃圾邮件的概率等于99%。这说明，sex这个词的推断能力很强，将50%的"先验概率"一下子提高到了99%的"后验概率"。

联合概率的计算

做完上面一步，请问我们能否得出结论，这封新邮件就是垃圾邮件？

回答是不能。因为一封邮件包含很多词语，一些词语（比如sex）说这是垃圾邮件，另一些说这不是。你怎么知道以哪个词为准？

Paul Graham的做法是，选出这封信中P(S|W)最高的15个词，计算它们的联合概率。（【注释】如果有的词是第一次出现，无法计算P(S|W)，Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语，所以如果你从来没见过某个词，它多半是一个正常的词。）

所谓联合概率，就是指在多个事件发生的情况下，另一个事件发生概率有多大。比如，已知W1和W2是两个不同的词语，它们都出现在某封电子邮件之中，那么这封邮件是垃圾邮件的概率，就是联合概率。

在已知W1和W2的情况下，无非就是两种结果：垃圾邮件（事件E1）或正常邮件（事件E2）。

其中，W1、W2和垃圾邮件的概率分别如下：

如果假定所有事件都是独立事件（【注释】严格地说，这个假定不成立，但是这里可以忽略），那么就可以计算P(E1)和P(E2)：

又由于在W1和W2已经发生的情况下，垃圾邮件的概率等于下面的式子：

即

将P(S)等于0.5代入，得到

将P(S|W1)记为P1，P(S|W2)记为P2，公式就变成

这就是联合概率的计算公式。如果你不是很理解，点击这里查看更多的解释。

最终的计算公式

将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：

一封邮件是不是垃圾邮件，就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。

有了这个公式以后，一封正常的信件即使出现sex这个词，也不会被认定为垃圾邮件了。

参考文档：

http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_two.html

时间： 2024-08-11 11:02:49

贝叶斯过滤器过滤垃圾邮件的相关文章

机器学习-朴素贝叶斯应用-判断垃圾邮件

文章中代码均来自于<机器学习实战> 这个程序没有邮件的文件的话是不能运行的,要是想试试可以去网上搞搞文件 ''' Created on Oct 19, 2010 @author: Peter ''' #和其他复杂模型不一样,朴素贝叶斯的思想和操作比较简单,它一般是内嵌在处理具体问题的函数中的,而不像神经网络模型或者决策树等等有自己独立的方法 from numpy import * def createVocabList(dataSet): #将data中出现的所有词放在一个列表中 vocabS

朴素贝叶斯应用：垃圾邮件分类

import nltk nltk.download() from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer #预处理 def preprocessing(text): tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokrnize(sent)] stops = stopwords.words('eng

[转] 贝叶斯推断及其互联网应用：过滤垃圾邮件

[链接] 数学的美学世界上一次,我介绍了贝叶斯推断的原理,今天讲如何将它用于垃圾邮件过滤. ======================================== 贝叶斯推断及其互联网应用作者:阮一峰七.什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户. 正确识别垃圾邮件的技术难度非常大.传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等.前者的过滤依据是特定的词语:后者则是计算邮件文本的校验码,再与已知的垃圾邮件进

贝叶斯推断及其互联网应用（二）：过滤垃圾邮件

有关贝叶斯原理的讲解, 请查看这里.这里讲述的是通过贝叶斯推断如何过滤垃圾邮件. 贝叶斯推断及其互联网应用 (接上文) 七.什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户. 正确识别垃圾邮件的技术难度非常大.传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等.前者的过滤依据是特定的词语:后者则是计算邮件文本的效验码,再与已知的垃圾邮件进行对比.它们的识别效果都不理想,而且很容易规避. 2002年,P

吴裕雄--天生自然python机器学习：使用朴素贝叶斯过滤垃圾邮件

使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量. 准备数据:切分文本测试算法:使用朴素贝叶斯进行交叉验证文件解析及完整的垃圾邮件测试函数 def createVocabList(dataSet): vocabSet = set([]) #create empty set for document in dataSet: vocabSet = vocabSet | set(document) #union of the two sets return

使用朴素贝叶斯分类器过滤垃圾邮件

1.从文本中构建词向量将每个文本用python分割成单词,构建成词向量,这里首先需要一个语料库,为了简化我们直接从所给文本中抽出所有出现的单词构成一个词库. 2.利用词向量计算概率p(x|y) When we attempt to classify a document, we multiply a lot of probabilities together to get the probability that a document belongs to a given class. Thi

Atitti 文本分类  以及垃圾邮件判断原理以及贝叶斯算法的应用解决方案

Atitti 文本分类以及垃圾邮件判断原理以及贝叶斯算法的应用解决方案 1.1. 七.什么是贝叶斯过滤器?1 1.2. 八.建立历史资料库2 1.3. 十.联合概率的计算3 1.4. 十一.最终的计算公式3 1.5. .这时我们还需要一个用于比较的门槛值.Paul Graham的门槛值是0.9,概率大于0.9,4 1.1. 七.什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户. 正确识别垃圾邮件的技术难度非常大.传统的垃圾邮件过滤方法,主要有"关键词法&quo

算法——贝叶斯

简介学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B):即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率.由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A):即,已知P(A|B),P(A)和P(B)可以计算出P(B|A). 假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}.则P(A)可以用全概率公式展开:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)

机器学习实战教程（五）：朴素贝叶斯实战篇之新浪新闻分类

原文链接: Jack-Cui,https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 一.前言上篇文章机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器讲解了朴素贝叶斯的基础知识.本篇文章将在此基础上进行扩展,你将看到以下内容: 拉普拉斯平滑垃圾邮件过滤(Python3) 新浪新闻分类(sklearn) 二.朴素贝叶斯改进之拉普拉斯平滑上篇文章提到过,算法存在一定的问题,需要进行改进.那么需要改进的地方在哪里呢?利用贝叶斯分类器对文档进行

猜你喜欢

团体程序设计天梯赛 L2-018. 多项式A除以B（模拟）

题意:给你A,B两个多项式,问你A/B的值:注意多项式给你的是每个式子的指数与系数:保留到一位小数,如果出现系数为0(保留后也是)的情况,请不要输出它,如果没有非系数为0的情况就输出特殊题解:多项式 ...

封装继承多态到底讲的是什么

封装继承多态到底讲的是什么封装.继承.多态并不是针对C#语言提出来的,他是一个在面向对象思想下产生的一个概念.所以想要弄明白封装.继承.多态,首先就要先了解面向对象概念. 封装:当我们提及面向对象的 ...

[Python] 发送email的几种方式

python发送email还是比较简单的,可以通过登录邮件服务来发送,linux下也可以使用调用sendmail命令来发送,还可以使用本地或者是远程的smtp服务来发送邮件,不管是单个,群发,还是抄送 ...

<%@ page contentType="text/html;charset=UTF-8" language="java" %><html& ...

字符串作为map的key

#include <map> #include <string> struct cmp_str{ bool operator()(char const* a, char con ...

反射 Class类和Class实例

Java [Leetcode 205]Isomorphic Strings

题目描述: Given two strings s and t, determine if they are isomorphic. Two strings are isomorphic if the ...

theano中的concolutional_mlp.py学习

(1) evaluate _lenet5中的导入数据部分 1 # 导入数据集,该函数定义在logistic_sgd中,返回的是一个list 2 datasets = load_data(dataset ...

混合 Data Warehouse 和 Big Data 倉庫的新架構

(讀書筆記)許多公司,儘管想導入 Big Data,仍必須繼續用 Data Warehouse 來管理結構化的營運數據.系統記錄.而 Big Data 的出現,為 Data Warehouse 提供了 ...

Debian下面的ntp服务(ntpdate)的安装

/********************************************************************* * Author : Samson * Date ...

Android开放工具下载

Windows http://dl.google.com/android/installer_r24.0.2-windows.exe http://dl.google.com/android/andr ...

就会哭哭厄飞儿飞儿热隔热千万

http://www.zhuke.com/ideabooks/12725503/list/2014-11-09 http://www.zhuke.com/ideabooks/12725512/list ...

张艾迪（创始人）：发明Global.World.224C的天才

Eidyzhang: Genius.Founder.CEO.23 I 世界级最高级创始人.世界最高级FounderCEO 出生在亚洲中国.Eidyzhang 拥有黑色头发白色皮肤(20岁)大学辍学生. ...

iOS开发中UILocalNotification本地通知实现简单的提醒功能

这段时间项目要求做一个类似的闹钟提醒功能,对通知不太熟悉的我,决定先用到xcode自带的本地通知试试,最终成功的实现了功能,特整理分享下. 它的表现特点: app关闭的时候也能接收和显示通知. app ...

军队清理经济适用房：多占多得要有个说法中国边境加强戒备数架歼7战机处挂实弹状态军队清理经济适用房：多占多得要有个说法中国边境加强戒备数架歼7战机处挂实弹状态

军队清理经济适用房:多占多得要有个说法中国边境加强戒备数架歼7战机处挂实弹状态 http://www.yihaodian.com/marketing/tags/4kk.us/dvd/%E5%BB% ...

Wireshark 捕捉本地数据 --WinPcap切换NPcap

Wireshark默认匹配安装的是WinPcap,但是WinPcap有个缺点,不能抓取本地回环数据 NPcap是在WinPcap的基础上进行优化开发的,可以抓取本地数据如果已安装WinPcap的请卸 ...

RHEL安装docker-compose

安装docker-compose$ docker-compose versiondocker-compose version 1.8.0, build 94f7016docker-py version ...

马士兵java高并发编程三

1.使用静态内部类实现线程安全的单例模式 package com.weiyuan.test; /** * 采用内部类的形式实现单例模式 * 是同步安全的,并且实现了懒加载 * */ public cl ...

任选三种软件，分析其特点

所选三种软件分别是,Web Apps,Mobile Apps以及Operating Systems. 对于Web Apps而言,仅仅使用浏览器便可以完成大多数的业务逻辑,尽管他的实时交互性不如传统软件 ...

小白小号祭拜大号参加

小号祭拜然后大号参加是每天必做任务,5000的功勋感觉还是有点肉的,下一步我们如何来操作呢? 第一步:准备好6个吃功勋的大号,并开启监督祭拜然后列表中等级处是绿色的说明成功开启了,如果是红色的说明1 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.037 s.