机器学习算法总结(十)——朴素贝叶斯

1、模型的定义　

　　朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分裂方法。首先我们来了解下贝叶斯定理和所要建立的模型。对于给定的数据集

　　

　　假定输出的类别y_i ∈ {c₁, c₂, ...., c_k}，朴素贝叶斯通过训练数据集的来学习联合概率分布P(x|y)。但是直接求联合概率分布P(x|y)一般比较难，因此在这里我们近视的求先验概率分布和条件概率分布来替代它。先验概率分布如下

　　

　　对于先验概率的求解，可以根据大数定理认为就是该类别在总体样本中的比例。条件概率分布如下

　　

　　通过先验概率和条件概率的求解就可以学习到联合概率（一般认为联合概率是正比近似于先验概率和条件概率的乘积），然而在这里的条件概率也是不好求的，若直接求解的话，参数的个数是所有特征取值个数的连乘。因此在这里引入了朴素贝叶斯思想。

　　朴素贝叶斯法假定上面的条件概率中各特征之前是相互独立的。此时我们可以做链式展开，表达式如下

　　

　　朴素贝叶斯法实际上是有求联合概率分布的过程，以及通过联合概率求后验概率（也是一种条件概率）的过程，像这类的分类器属于生成式模型。区别于它的就是判别生成式模型，常见的有决策树，逻辑回归，SVM等，这类模型都是直接生成结果（可能是P(y) 或者P(y|x) ）。了解了先验概率和条件概率的计算过程，我们再来看看贝叶斯定理是如何计算后验概率的

　　

　　引入朴素的思想，假设各特征之间相互独立

　　

　　这就是朴素贝叶斯分类的基本公式，因此我们的模型可以建为

　　

　　而对于右边式子中的分母，分母是一个和类别无关的式子，也就是说对于所有的c_k都是一样的，然后在这里我们只是求的最大概率的类别，因此去掉这一项是不会影响结果的（即对表达式进行同比例的放大或缩小是不会影响最大解的判断的），最终的式子可以写成

　　

2、后验概率最大化

　　先来了解下0-1损失函数：

　　

　　此时的期望风险函数，在优化模型的时候我们的目的是为了使得期望损失最小化

　　

　　而对于朴素贝叶斯模型，期望损失函数可以表示为

　　

　　这里面的损失函数和0-1损失有所不同，可以看成分类到每个类别的概率乘以0-1损失函数，也就是说在k中只有一次L函数会取0，其余的都取1，此时我们还要使得取0时的条件概率P(c_k|x)是最大的，这样整体的期望损失就是最小的。具体的数学推导过程如下

　　

　　为了使得期望风险最小化就是使得后验概率最大化。

3、朴素贝叶斯的参数估计

　　采用极大似然估计来求解先验概率和条件概率，先验概率的极大似然估计

　　

　　条件概率的极大似然估计

　　

　　但是用极大似然估计可能会出现概率值为0的情况。这时候会影响到后验概率的计算（因为链式求解时，一旦存在某一个值为0，则会导致整个链式的解为0，也就是求得的条件概率为0）.因此我们会采用贝叶斯估计，先验概率的表达式

　　

　　贝叶斯估计的条件概率表达式

　　

　　因此朴素贝叶斯模型只要计算出训练集上各类参数，比如先验概率，各特征在各类别上的概率（这些是用来计算条件概率的）等，基于这些学得的值来预测

　　

4、朴素贝叶斯总结

　　朴素贝叶斯的优点：

　　1）朴素贝叶斯模型分类效率稳定

　　2）对小规模的数据集表现很好，能处理多分类问题，适合增量式训练，尤其是数据集超出内存后，我们可以一批批的去训练

　　3）对缺失数据不太敏感，算法比较简单，常用于文本分类

　　朴素贝叶斯的缺点;

　　1）理论上，朴素贝叶斯较其他模型相比具有最小的误差率，但实际上却不一定，因为朴素贝叶斯引进了各特征之间相互独立这一假设。因此在各特征之间相关性较强时，朴素贝叶斯表现一般，但是在各特征之间独立性很强时，朴素贝叶斯表现很好

　　2）通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率

　　3）对输入数据的表达形式很敏感

原文地址：https://www.cnblogs.com/jiangxinyang/p/9297803.html

时间： 2024-10-10 18:52:12

机器学习算法总结(十)——朴素贝叶斯的相关文章

机器学习算法( 四、朴素贝叶斯算法)

一.概述前两章我们要求分类器做出艰难决策,给出“该数据实例属于哪一类”这类问题的明确答案.不过,分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值. 概率论是许多机器学习算法的基础,所以深刻理解这一主题就显得十分重要.第3章在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,就得到了特征取该值的概率.我们将在此基础上深人讨论. 本章会给出一些使用概率论进行分类的方

Stanford机器学习[第六讲]-朴素贝叶斯算法

引文:由于之前讲过了朴素贝叶斯的理论Stanford机器学习[第五讲]-生成学习算法第四部分,同时朴素贝叶斯的算法实现也讲过了,见机器学习算法-朴素贝叶斯Python实现.那么这节课打算讲解一下朴素贝叶斯算法的具体计算流程,通过一个具体的实例来讲解. PS:为了专注于某一个细节,本章节只抽取了视频的一部分来讲解,只讲解一个贝叶斯算法的计算流程,关于视频里面的具体内容请参考下面的视频链接. 讲解的实例是一个文本分类的例子,区分一句话是粗鲁的还是文明的,类别标签只有Yes或No,表示是粗鲁的和不是粗

机器学习（五）—朴素贝叶斯

最近一直在看机器学习相关的算法,今天我们学习一种基于概率论的分类算法—朴素贝叶斯.本文在对朴素贝叶斯进行简单介绍之后,通过Python编程加以实现. 一朴素贝叶斯概述 1 前言 “贝叶斯”又是一个响当当的名字,刚开始接触的是贝叶斯定理.贝叶斯分类器是一类分类算法的总称,是两种最为广泛的分类模型之一,另一种就是上篇中的决策树了.贝叶斯分类均以贝叶斯定理为基础,朴素贝叶斯是

【机器学习实验】使用朴素贝叶斯进行文本的分类

引言朴素贝叶斯由贝叶斯定理延伸而来的简单而强大的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率.该方法基于一个假设,所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系. 虽然这种条件独立的假设在许多应用领域未必能很好满足,甚至是不成立的.但这种简化的贝叶斯分类器在许多实际应用中还是得到了较好的分类精度.训练模型的过程可以看作是对相关条件概率的计算,它可以用统计对应某一类别的特征的频率来估计. 朴素贝叶斯最成功的一个应用是自然语言处理领域,自然语言处理的的数据可以看做是

《机器学习实战》笔记——朴素贝叶斯

运用贝叶斯公式(朴素贝叶斯假设每个特征每个特征都是独立的)可以解决的问题有,已知某些特征,用来判断某情况发生的可能性大小,设置可能性最大的情况作为预测值. 是一种监督算法. 广泛应用于垃圾邮件检测等等. 1 # _*_coding:utf-8_*_ 2 from numpy import * 3 4 # 4-1 词表到向量的转换函数(实验样本) 5 def loadDataSet(): 6 postingList = [['my', 'dog', 'has', 'flea', 'problems

（笔记）斯坦福机器学习第六讲--朴素贝叶斯

本讲内容 1. Naive Bayes(朴素贝叶斯) 2.Event models(朴素贝叶斯的事件模型) 3.Neural network (神经网络) 4.Support vector machines(支持向量机) 1.朴素贝叶斯上讲中的垃圾邮件问题有几个需要注意的地方: (1) 一个单词只有出现和不出现两种可能,因此每个特征x只有两个取值 (2) 特征向量x的个数应该等于词典的长度,比如将该算法一般化: (1) 让可以取更多的值此时服从多项式分布,而不再是伯努利分布.一种

机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

什么是历史,历史就是我们,不是你,不是他,不是她,是所有人. ----------题记本文是博主对于bayes及其相关知识的读物总结. 一.数学之美番外篇:平凡而又神奇的贝叶斯方法二.机器学习理论与实战(三)朴素贝叶斯三.从贝叶斯方法谈到贝叶斯网络四.数学之美----贝叶斯网络 (2) 五.贝叶斯网络的学习六.Stanford概率图模型(Probabilistic Graphical Model)- 第一讲贝叶斯网络基础七.隐马尔科夫模型和动态贝叶斯网络八.贝叶斯网络在线构建过

《机器学习实战》学习笔记：基于朴素贝叶斯的垃圾邮件过滤

概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率. 之前的基础实验中简单实现了朴素贝叶斯分类器,并正确执行了文本分类,这一节将贝叶斯运用到实际场景,垃圾邮件过滤这一实际应用. 实例:使用朴素贝叶斯过滤垃圾邮件在上一节:http://blog.csdn.net/liyuefeilong/article/details/48383175中,使用了简单的文本文件,并从中提取了字符

机器学习实战读书笔记(四)基于概率论的分类方法：朴素贝叶斯

4.1 基于贝叶斯决策理论的分类方法朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据贝叶斯决策理论的核心思想:选择具有最高概率的决策. 4.2 条件概率 4.3 使用条件概率来分类 4.4 使用朴素贝叶斯进行文档分类朴素贝叶斯的一般过程: 1.收集数据 2.准备数据 3.分析数据 4.训练算法 5.测试算法 6.使用算法朴素贝叶斯分类器中的另一个假设是,每个特征同等重要. 4.5 使用Python进行文本分类

猜你喜欢

通过gitlab的webhook进行网站的自动发布

作用:本地提交代码到git仓库以后,自动同步到服务器,避免每次重新登录到服务器去pull代码.本人主要用于管理开发环境和测试环境,在频繁修改开发代码时,每次通过提交git仓库,自动同步到测试环境,减少 ...

.NET Core 1.0 CentOS7 尝试(二)

晚上继续摸索~~ 一.VSCode安装下载VSCode,地址:https://code.visualstudio.com/Docs/?dv=linux64_rpm 直接双击安装或者使用rpm -i ...

mac idea在tomcat 7控制台乱码

在mac或linux下idea 13(可能其它版本也会出现乱码) tomcat 7在输出到控制台的日志中文乱码,解决方式加一个environment variable, 在server - star ...

java基础知识回顾之java Thread类学习（六）--java多线程同步函数用的锁

1.验证同步函数使用的锁----普通方法使用的锁思路:创建两个线程,同时操作同一个资源,还是用卖票的例子来验证.创建好两个线程t1,t2,t1线程走同步代码块操作tickets,t2,线程走同步函数 ...

CentOS 7 + Nginx 1.9.4

环境:CentOS7+Nginx1.9.3 1安装依赖的类库 [[email protected] ~]# yum install zlib zlib-devel openssl openssl-de ...

ubuntu kylin的桌面问题

前几天安了ubuntu kylin,主题还是挺好看的,汉化也很好,就是各种报桌面错误,忍了,结果今天直接进不去桌面了开机,输入密码,登录,然后桌面死活不显示,还弹出了错误提示我系统有问题,建议重启 ...

第八章可直线化的非线性回归分析

确定了曲线类型之后,回归的任务就变成确定曲线公式中的参数,因此,也称为曲线拟合.

ManualResetEvent使用

1.定义 MSDN定义: 通知一个或多个正在等待的线程已发生事件.此类不能被继承. 详细说明: ManualResetEvent 允许线程通过发信号互相通信.通常,此通信涉及一个线程在其他线程进行之前 ...

platform-tools包含开发app的平台依赖的开发和调试工具,包括 adb.fastboot等 android sdk里的各目录作用 AVD Manager.exe:虚拟机管理工具,用于建立和 ...

Bitmap 和Drawable 的区别

Bitmap - 称作位图,一般位图的文件格式后缀为bmp,当然编码器也有很多如RGB565.RGB888.作为一种逐像素的显示对象执行效率高,但是缺点也很明显存储效率低.我们理解为一种存储对象比较好 ...

C# WinForm 上传图片，文件到服务器的方法Uploader.ashx

网上有很多方案,起初用时,因为对asp.net不太了解,觉得FTP实现不错,可是后来发现,如果机器在域控下,就会有问题. 一年过去了,asp.net也熟悉了,知道ajax没事应该用ashx,验证码也用 ...

hdu1166：敌兵布阵（树状数组或线段树）

题目描述: 一堆废话不用看...... 输入: 第一行一个整数T,表示有T组数据.每组数据第一行一个正整数N(N<=50000),表示敌人有N个工兵营地,接下来有N个正整数,第i个正整数ai代表 ...

Altas在Ubuntu系统上的安装部署步骤

1.下载安装: wget https://github.com/Qihoo360/Atlas/releases/download/2.2/Atlas-2.2-debian7.0-x86_64.deb ...

hdu 2923 map+Floyd 拉破车

有向图具体方向看箭头从起点到指定城市拉破车,一个城市可能有多个破车,一次只能拉一辆破车也就是到了指定地点后要回到起点假如有100辆破车但是只有一个城市有就得在起点与这个城市间往返100次所 ...

三点顺序

三点顺序时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述现在给你不共线的三个点A,B,C的坐标,它们一定能组成一个三角形,现在让你判断A,B,C是顺时针给出的还是逆时针 ...

ActiveReports 报表应用教程 (9)---交互式报表之动态排序

原文:ActiveReports 报表应用教程 (9)---交互式报表之动态排序在 ActiveReports 中除了提供对数据源进行排序的功能之外,还提供了最终用户排序功能,最终用户可以对报表进行 ...

创建模型出现成员变量名字冲突时的解决方法

建立模型时可能会出现解析的文件中包含UI里的关键字,比如说id,description,self 解决方法有2. 1.换一个名字作为成员变量的名字,对成员变量逐一赋值,但这个方法不太方便,当变量名太多 ...

ZooKeeper3.4.6简要介绍

1.分布式系统 2.ZooKeeper介绍 3.ZooKeeper部署运行 4.ZooKeeper客户端客户端脚本 Java客户端API 开源客户端 ZkClient Curator

iOS开发网络篇—XML数据的解析

iOS开发网络篇—XML数据的解析 iOS开发网络篇—XML介绍一.XML简单介绍 XML:全称是Extensible Markup Language,译作“可扩展标记语言” 跟JSON一样,也是常 ...

gnuplot画图技巧总结

---------------------------------------------------------------------------------------------------- ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.