1.朴素贝叶斯概率模型的数学实质:独立条件概率。 朴素在这里的含义就是各影响因子概率发生独立。
2.朴素贝叶斯分类器的数学模型:条件概率模型
P(C|F1F2...Fn)=P(C)P(F1F2...Fn|C)/P(F1F2...Fn) (1)
这里Fn代表的是独立变量C的若干个特征变量(影响因子)。
我们知道,对于数据的分类,Fn是已知的,对于P(F1F2...Fn)来说,他们只受到Fn的影响和独立变量C没有关系,所以对于(1)式,我们进行化简
P(C|F1F2...Fn)~P(C)P(F1F2...Fn|C) (2)(~代表正比于)
因为各特征变量是独立的,所以对于(2)式,我们可以把它变成
P(C|F1F2...Fn)~P(C)P(F1|C)P(F2|C)...P(Fn|C) (3)
最后,我们说
P(C|F1F2...Fn)= Z*P(C)P(F1|C)P(F2|C)...P(Fn|C) (4)
3.对于(4)式,我们对于每一个量进行一下解释
P(C|F1F2...Fn)这是我们的目标,在已知一个独立变量C的特征变量Fn的情况下,怎么把独立变量C合理的分类
P(C) 这是独立变量C的先验概率,仅仅是一个值。
先验概率分为两类:
a.根据历史数据得到 e.g.根据概率论中大数定理,当训练样本数量足够多且来自于样本空间的随机选取时,可以以训练集中各类样本所占的比例来估计P(C)的值
b.人的主观判断 e.g. 对于C的性别进行分类 P(male)=P(female)=1/2
P(Fn|C)这是一个独立概率分布,这就是我们需要用已知的数据进行训练得到(就是一个条件概率),方法分为参数估计和非参数估计
a.参数估计:假定条件概率具有某种分布形式,例如正态分布,二项分布等
b.非参数估计:不假设或者不知道条件概率具有某种分布形式,根据数据所具有的特征发生的频率代表它的概率,常用的方法是最大似然估计法,如果是一个连续连续数据可以选择高斯分布。另一种方法是离散化连续数值的方法。
Z是一个常数,只和Fn有关,通常用来使后验概率的和为1。
4.如果要是在对一个独立变量X进行分类时发现了它有一些新的特征,这在训练时是没有的,所以会出现概率为0的情况,这时候就要对数据进行修正,确保不会出现概率为0导致无法分类的情况。
以上我们讨论完了朴素贝叶斯概率分布模型,下面我们从概率模型中构造一个分类器
分类器的构成包括了刚才我们讨论的朴素贝叶斯分类模型和决策规则。根据决策规则的不同,分类是不一样的。(让我想到了matlab作业要我们对数据进行聚类分析。不同的规则带来不同的结果。) e.g.最小错误率贝叶斯分类器, 最大似然比贝叶斯分类器,最小风险贝叶斯分类器。
这里对于分类器的实现不展开说了,放在具体实现的随笔里。
本文仅仅是对自己学习的知识的一个整理,没有独创新的见解。
资料来源
http://zh.wikipedia.org/zh-cn/%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%88%86%E7%B1%BB%E5%99%A8