机器学习——贝叶斯分类算法详解

一、前言

贝叶斯分类，是机器学习中比较重要并被广泛使用的一个分类算法，它分类思想主要基于贝叶斯定理。用一句话来描述就是，如果一个事件A发生时，总是伴随事件B，那么事件B发生时，事件A发生的概率也会很大。

贝叶斯分类一个很常见的用途是用在识别垃圾邮件上。我们给定一个学习集，程序通过学习集发现，在垃圾邮件中经常出现“免费赚钱”这个词，同时“免费赚钱”这个词又在垃圾邮件中更容易出现。那么在实际判断中，我们发现邮件中出现“免费赚钱”，就可以判定邮件是垃圾邮件。

其实我们每个人，我们的大脑每天都会执行分类操作，而且思考的过程和贝叶斯分类很像。我们可以想象一下，我们自己是如何识别垃圾邮件的。我们识别垃圾邮件总会有一定的规则，比如邮件中含有XX关键词，邮件描述信息太离谱了，邮件的发送人不认识，邮件中包含钓鱼网站。而这些规则，我们都是通过以往的经验总结出来的。通过这些规则，我们就可以判定邮件是垃圾邮件的概率更大，还是非垃圾邮件的概率更大。

二、 贝叶斯定理

首先我们要知道，P(A)，P(B)分别是事件A，B发生的概率，而P(A|B)是在事件A在事件B发生的前提下发生的概率，P(AB)是事件A，B同时发生的概率。那么我们的有公式：

。

那么贝叶斯定理是：

注：P(AB)=P(A)P(B)的充分必要条件是事件A和事件B相互独立。用通俗的语言讲就是，事件A是否发生不会影响到事件B发生的概率。

我们举例说明，比如我们抽取了100封邮件，经过统计如下表：

	包含“免费赚钱”	不包含“免费赚钱”	总数
垃圾邮件	40	10	50
非垃圾邮件	5	45	50
总数	45	55

我们设P(B)是垃圾邮件事件的概率，P(A)是包含“免费赚钱”关键词事件的概率。

那么表示非垃圾邮件的概率，表示不包含“免费赚钱”的概率。

我们可以知道：

P(B)=50/(50+50)=0.5

P(A)=45/(45+55)=0.45

P(A|B)=40/50=0.8（在是垃圾邮件的前提下，包含“免费赚钱”的概率）

因此可以计算得到，如果邮件中包含“免费赚钱”关键字是垃圾邮件的概率是：

=0.8*0.5/0.45=88.9%

而是非垃圾邮件的概率是：

=1-P(B|A)=11.1%

因此，包含“免费赚钱”关键字的邮件是垃圾邮件概率是88.9%，按照贝叶斯分类的理论，我们可以把它判定成垃圾邮件。

三、 朴素贝叶斯分类

现实生活中的情况，通常比我们上面所举得例子复杂的多。比如我们分类的结果，可能不止有两个类别（是垃圾邮件，非垃圾邮件），就像我们在做文章分类的时候，可能的类别有社会，军事，体育，娱乐，财经，科技等很多个类别。还有我们作为分类依据的特征，通常不止1个，可能有几十个甚至有上千个。

这是我们的表达式是这样的：

P(Y=Ck)表示Y是第K个分类的概率。P(X=x)表示X的特征组合是x的概率。

比如如果我们有100个特征，每个特征都只包含2种情况（比如是或否，包含或不包含）。那我们可能特征组合就是2的100次方。

这时我们要计算所有特征的组合的P(X=x)，就要计算2的100次方次，这个计算量就太庞大了，根本无法完成。

因此朴素贝叶斯为了解决这个计算量庞大的问题，它假设所有的特征都是相互独立的，这样大大的简化了计算的复杂程度，但同时也会降低分类的准确率。在贝叶斯定理一节，我们已经说过，P(AB)=P(A)P(B)的充分必要条件是事件A和事件B相互独立。因此我们可以得到：

P(X=x)=P(X1=x1)*P(X2=x2)*…*P(X100=x100)

所以我们只需要计算出每个特征单独发生或不发生（假设每个特征只包含两种情况）的概率，然后想成根据实际情况组合相乘就好了。

同理：P(X=x|Y=Ck)=P(X1=x1,X2=x2,…,Xn=xn|Y=Ck) （表示Y是第K类的前提下，同时发生X1=x1,..Xn=xn事件的概率）

= （表示P(X1=x1|Y=Ck)连乘到P(Xn=xn|Y=Ck)）

下面我们先介绍一下全概率公式：

假设A，B事件的关系如下：

那么我们可以得到：

因此根据上述公式，我们可以得到：

() 及

最终分类器可以表示为：

即在X已知的情况下，计算所有Y的可能值，选择出概率最大的哪一类，就是我们分类的结果。

时间： 2024-10-14 01:52:50

机器学习——贝叶斯分类算法详解的相关文章

机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用

摘要: 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类.总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型:当各特征相关性较小时,朴素贝叶斯分类性能最为良好.另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算.本文详述了朴素贝叶斯分类的统计学

机器学习经典算法详解及Python实现--基于SMO的SVM分类器

原文:http://blog.csdn.net/suipingsp/article/details/41645779 支持向量机基本上是最好的有监督学习算法,因其英文名为support vector machine,简称SVM.通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解. (一)理解SVM基本原理 1,SVM的本质--分类给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些

机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法

摘要聚类是一种无监督的学习(无监督学习不依赖预先定义的类或带类标记的训练实例),它将相似的对象归到同一个簇中,它是观察式学习,而非示例式的学习,有点像全自动分类.说白了,聚类(clustering)是完全可以按字面意思来理解的--将相同.相似.相近.相关的对象实例聚成一类的过程.机器学习中常见的聚类算法包括 k-Means算法.期望最大化算法(Expectation Maximization,EM,参考"EM算法原理").谱聚类算法(参考机器学习算法复习-谱聚类)以及人工神经网络算法

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理.决策树创建过程分析了信息混乱度度量Gini指数.连续和离散特征的特殊处理.连续和离散特征共存时函数的特殊处理和后剪枝:用于回归时则介绍了回归树和模型树的原理.适用场景和创建过程.个人认为,回归树和模型树

机器学习经典算法详解及Python实现--线性回归（Linear Regression）算法

(一)认识回归回归是统计学中最有力的工具之一.机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型.连续性而定义的.顾名思义,分类算法用于离散型分布预测,如前面讲过的KNN.决策树.朴素贝叶斯.adaboost.SVM.Logistic回归都是分类算法:回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签. 回归的目的就是建立一个回归方程用来预测目

机器学习经典算法详解及Python实现--元算法、AdaBoost

第一节,元算法略述遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果.如同专家团临床会诊一样,重大决定汇总多个人的意见往往胜过一个人的决定.机器学习中也吸取了'三个臭皮匠顶个诸葛亮'(实质上是由三个裨将顶个诸葛亮口误演化而来)的思想,这就是元算法的思想.元算法(meta-algorithm)也叫集成方法(ensemble method),通过将其他算法进行组合而形成更优的算法,组合方式包括:不同算法的集成,数据集不同部分采用不同算法分类后的集成或者同一算法在不同设置下的集成.

机器学习经典算法详解及Python实现--决策树（Decision Tree）

(一)认识决策树 1,决策树分类原理近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单.决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的.直观看上去,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子).判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支). 如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上.实际上,样本所有特征中有一些特征

机器学习经典算法详解及Python实现--K近邻(KNN)算法

(一)KNN依然是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归.如果K=1,那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习,数据都有明确的label(分类针对离散分布,回归针对连续分布),根据机器学习产

机器学习经典算法详解及Python实现---Logistic回归（LR）分类器

(一)认识Logistic回归(LR)分类器首先,Logistic回归虽然名字里带"回归",但是它实际上是一种分类方法,主要用于两分类问题,利用Logistic函数(或称为Sigmoid函数),自变量取值范围为(-INF, INF),自变量的取值范围为(0,1),函数形式为: 由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1).因此最基本的LR分类器适合于对两分类(类0,类1)目标进行分类.Sigmoid 函数是个很漂亮的"S"形,如下

猜你喜欢

jQuery初步

1.jQuery开发步骤 jQuery是第三方开源组织基于js写的一款跨主流浏览器的实用库. (1)引用第三方js库文件,<script type="text/javascript&q ...

健康日志之恶黑---恶黑相关用药

http://bbs.tianya.cn/post-funinfo-5659193-1.shtml http://www.adicon.com.cn/yxjy/jbzd/clb/66-jbzd/zlj ...

Iphone H5上传照片被旋转

最近做项目发现在Iphone下,我们上传图片都会被翻转,最后查阅资料发现,的确是IOS的问题不说过程,直接解决方法 iOS下,html方式使用<input type="file&qu ...

DAVINCI开发原理

本文中约定: [host] 表示主机PC机Linux [target] 表示目标板Linux DAVINCI开发原理之一----ARM端开发环境的建立(DVEVM) 1. 对DAVINCI平台,TI在 ...

在Eclipse中运行、配置Hadoop

版权所有: [email protected] 严禁转载! 1.安装插件准备程序: eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse) hadoop-0.20.2-ecli ...

Apache目录别名

1. 打开主配置文件 /usr/local/apache2/conf/httpd.conf,去掉注释 Include conf/extra/httpd-autoindex.conf 2. 编辑 ht ...

Linux之关键目录集锦

1. 如果想让终端的登录提示字符,变成自己喜欢的模样,应该要改/etc/issue: 2. 如果想让使用者在登录后,才显示欢迎信息,应该要改/etc/motd: 3. 假设判断式有三个,也就是: co ...

九度oj题目1181：遍历链表

题目1181:遍历链表时间限制:1 秒内存限制:32 兆特殊判题:否提交:2600 解决:1125 题目描述: 建立一个升序链表并遍历输出. 输入: 输入的每个案例中第一行包括1个整数:n(1 ...

【Leet Code】Reverse Integer——“%”你真的懂吗？

Reverse Integer Total Accepted: 27372 Total Submissions: 68133My Submissions Reverse digits of an in ...

Httperf：测试服务器能承载的最大服务！！！

项目背景我们需要对于自己的web服务器模拟现实环境进行测试!!! 实验环境: vmware workstation 11 centos6.5的系统下服务器:ip:192.168.0.39 Secu ...

驱动开发前奏

一.驱动分类 1.常规分类法 a.字符设备一种以字节为最小访问单位的设备,通常支持open,close,read,write等系统调用.属于这种设备的有led,串口等. b.块设备最小访问单位为5 ...

PHPcms9.6.0任意文件上传漏洞直接getshell 利用教程

对于PHPcms9.6.0 最新版漏洞,具体利用步骤如下: 首先我们在本地搭建一个php环境,我这里是appserv或者使用phpnow (官网下载地址:http://servkit.org/) (只 ...

两个工作机会

碰到两个机会一个老行业手机税后20k * 13-14(按13.5算)= 27 周六上班预计3年的收入 27*3+2 = 83万一个上海影创税后14k * 16(固定)== 22.4 无打卡需 ...

unity，生成的mac版游戏切场景时卡死解法

unity版本为5.1.1,在编辑器里运行没问题,build出的windows版运行也没问题,但build出的mac版在个别场景切换时会卡死,通过查看log(查看build版本log的方法参考:htt ...

ExtJs4学习（一）：正确认识ExtJs4

认识ExtJs 1.Javat能用ExtJs吗? 它是展现层的技术,与JS,HTML,CSS有关.至于server端是.Net,还是PHP等无关. 2.ExtJs适合什么样的项目? 依照官方的说法,E ...

google code jam Round 1A 2015 Problem C. Logging

Problem A certain forest consists of N trees, each of which is inhabited by a squirrel. The boundary ...

HDU 4339 （线段树字符标记）

题意:两字符串s1,s2,给定若干查询. 查询操作: 1 a b c 把第a个字符串的第b个字符换成字符c 2 a 查询从第a个字符开始s1[k]==s2[k],的个数.例如 aaa aab 查询 ...

在IE浏览器下执行js

var navigatorName = "Microsoft Internet Explorer"; var isIE = false; if (navigator.appName ...

必应(http://cn.bing.com/)每日图片下载

/** * Created on 2016年6月15日 */ package com.bing; import java.io.File; import java.io.FileOutputStrea ...

树莓派读取DHT11传感器的源代码

import wiringpi2 as gpio owpin=8 #第8脚为1-wire脚 def getval(owpin): tl=[] #存放每个数据位的时间 tb=[] #存放数据位 gpio ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.