思路:
- 之前的线性回归都是根据特征值服从的分布猜想结果,生成算法是根据结果猜想特征值的分布。
- 贝叶斯公式:
GDA高斯分类器:
模型:
- 写成表达式的形式:
- 分离效果图:
推理:
- 原理:根据上述表达式的形式和最大似然原理,我们要求出这两个高斯分布,使给出的case最大限度的符合。
- 写成表达式的形式:
原因:为什么要求p(y|x)的最大似然:
- 因为我们是要求给出X后预测Y,因此我们要求给出x下y的最可能出现的情况下的θ。
- 根据贝叶斯公式:
GDA and Logistic 回归:
- 如果p(x|y;θ) 服从高斯分布,可以推出:p(y=1|x;θ)服从Logistic 回归。即:
- 反之不一定成立。
朴素贝叶斯分类:
应用:
- 主要用于文本分类
模型:
- 将文本分词处理,得到特征值向量(整个词汇表):
0表示该次在这个case中没出现,1表示出现
- 那么该case出现的概率:
- 模型中的参数:
- 对于第i个特征值,有它在y=1时出现的概率,y=0时出现的概率
- 还有y=1 出现的概率
所以:
- ?i|y=1=p(xi=1|y=1)
- ?i|y=0=p(xi=1|y=0)
- ?y=p(y=1)
- joint(联合)最大似然估计:
解:
就是样本出现的频率。如 ?y=p(y=1) ,就是y=1占样本空间的比例
- 根据参数我们可以写出预测:
Laplace smoothing
- 当一个单词从未出现的时候,进行预测的时候参数可能为0
即:
- 解决方法:
版权声明:本文为博主原创文章,未经博主允许不得转载。
时间: 2024-10-05 04:44:52