统计学习方法 李航---第4章 朴素贝叶斯法

第4章 朴素贝叶斯法

朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y。

4.1 朴素贝叶斯法的学习与分类

基本方法

朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布

P(X,Y)。

具体地,学习以

下先验概率分布及条件概率分布。

先验概率分布

条件概率分布


条件概率分布有指数级数量的参数,其估计实际是不可行的。朴素贝叶斯法对条件概率分布作了条件独立性的假设。条件独立性假设是说用于分类的特征在类确定的条件下都是条件独立的。

朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。

朴素贝叶斯法通过最大后验概率(MAP)准则进行类的判决,基于贝叶斯定理,后验概率为:

分母相同,则分类器可表示为

后验概率最大化等价于0-1损失函数时的期望风险最小化。

4.2 朴素贝叶斯法的参数估计

极大似然估计

先验概率的极大似然估计:

设第j个特征x(j)可能取值的集合为,条件概率的极大似然估计:

总结算法:

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况,使分类产生偏差,解决这一问题的方法是采用贝叶斯估计。条件概率的贝叶斯估计为:

式中lamda>=0。等价于在随机变量各个取值的频数上赋予一个正数。常取lamda=1,称为拉普拉斯平滑( Laplace smoothing)。同样,先验概率的贝叶斯估计为:

来自为知笔记(Wiz)

时间: 2024-11-03 21:58:26

统计学习方法 李航---第4章 朴素贝叶斯法的相关文章

统计学习方法 李航---第12章 统计学习方法总结

第12章 统计学习方法总结 1 适用问题 分类问题是从实例的特征向量到类标记的预测问题:标注问题是从观测序列到标记序列(或状态序列)的预测问题.可以认为分类问题是标注问题的特殊情况. 分类问题中可能的预测结果是二类或多类:而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的. 感知机.k近邻法.朴素贝叶斯法.决策树是简单的分类方法,具有模型直观.方法简单.实现容易等特点: 逻辑斯谛回归与最大熵模型.支持向量机.提升方法是更复杂但更有效的分类方法,往往分类准确率更高: 隐马尔可夫模型.条件

统计学习方法与Python实现(三)——朴素贝叶斯法

统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布.然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y,从而进行决策分类. 朴素贝叶斯法学习到的是生成数据的机制,属于生成模型. 设Ω为试验E的样本空间,A为E的事件,B1~Bn为Ω的一个划分,则

统计学习方法——朴素贝叶斯法、先验概率、后验概率

朴素贝叶斯法,就是使用贝叶斯公式的学习方法,朴素就是它假设输入变量(向量)的各个分量之间是相互独立的.所以对于分量之间不独立的分布,如果使用它学习和预测效果就不会很好. 简化策略 它是目标是通过训练数据集学习联合概率分布$P(X, Y)$用来预测.书上说,具体是先学习到先验概率分布以及条件概率分布,分别如下:(但我认为,直接学习$P(X, Y)$就行了,它要多此一举算出这两个再乘起来变成$P(X, Y)$,但其实计算量差不多,可能这样更好理解吧) $P(Y = c_k), k = 1, 2, 3

朴素贝叶斯法-后验概率最大化

接着上一篇的继续来写. 朴素贝叶斯法分类时,对给定的输入x,通过学习得到的模型计算后验概率分布P(Y=ck|X=x),然后将后验概率最大的类作为x的类输出.后验概率计算根据贝叶斯定理进行: P(Y=ck|X=x)=P(X=x|Y=ck)*P(Y=ck)/(sum (k) P(X=x|Y=ck)*P(Y=ck)) 最后化简成:y=arg max(ck)P(Y=ck)联乘P(X(j)=x(j)|Y=ck).

【资源分享】今日学习打卡--朴素贝叶斯法 (naive bayes classifier)

今日学习打卡,是一个非常简单的模型,朴素贝叶斯法(naive bayes classifier) 总得来说就是贝叶斯 + naive 通过,贝叶斯来计算事件发生概率: 然后,naive就是假设各个因素之间相互独立,互不影响. 在现实生活中,因素经常是有内在联系的.如:是否今天下雨,考虑因素有:气压,湿度,温度.实际上这些因素是有内在联系的,但是模型中假设它们相互独立,所以称为naive.这样,在计算中相当简单,且往往预测结果还算不错的. 链接: https://pan.baidu.com/s/1

4.朴素贝叶斯法

朴素贝叶斯(naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集, 首先基于特征条件独立假设学习输入/输出的联合概率分布: 然后基于此模型, 对给定的输入x, 利用贝叶斯定理求出后验概率最大的输出y. 朴素贝叶斯法实现简单, 学习与预测的效率都很高, 是一种常用的方法. 1. 朴素贝叶斯法的学习与分类基本方法训练数据集: 由X和Y的联合概率分布P(X,Y)独立同分布产生朴素贝叶斯通过训练数据集学习联合概率分布P(X,Y) ,      即先验概率分布:

统计学习方法 李航---第1章 统计学习方法概论

第一章 统计学习方法概论 统计学习的主要特点是: (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的; (2)统计学习以数据为研究对象,是数据驱动的学科: (3)统计学习的目的是对数据进行预测与分析: (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论. 统计学习的对象是数据Cdata) 统计学习的目的是对数据进行预铡与分析

统计学习方法 李航---第8章 提升方法

第8章提升方法 提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效.在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能. 基本思想:对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多.提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器.大多数的提升方法都是改变训练数据的概率分布(训练数据的权值分布),针对

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑