目录
- 统计学习
- 基本分类
- 按模型分类
- 按算法分类
- 按技巧分类
- 三要素
- 模型
- 策略
- 算法
- 生成模型和判别模型
- 生成方法
- 判别方法
- 应用
- 习题
统计学习
- 对象:data
- 目的:预测和分析
- 方法
- 监督,无监督,强化学习
基本分类
- 监督学习
- 从标注数据中学习预测模型
- 建设\((X,Y)\)遵循联合概率分布\(P(X,Y)\), 样本独立同分布
- 假设空间:输入空间到输出空间映射的集合
- 无监督
- \(X\)是输入空间,\(Z\)是隐式结构空间,学习\(z=g(x)\)或者\(P(z|x)\)
- 强化学习
- 半监督
- 少量标记数据,大量无标记数据
- 主动学习
- 给实例让教师标注
按模型分类
- 概率模型和非概率模型
- 监督学习
- 概率模型(生成模型):\(P(y|x)\)
- 非概率模型(判别模型): \(y=g(x)\)
- 无监督学习
- 概率模型: \(P(z|x),P(x|z)\)
- 非概率模型: \(z= g(x)\)
概率模型可以表示为联合概率分布的形式
- 监督学习
- 线性模型和非线性模型
- 参数化模型和非参数化模型
- 参数化模型: 模型参数维度固定
- 非参数化模型:参数随数据量增大而不断增加
按算法分类
- 在线学习
- 批量学习
按技巧分类
- 贝叶斯学习,利用贝叶斯定理
\[P(\theta|D) = \frac{P(\theta)P(D|\theta)}{P(D)}\]
\(P(\theta|D)\)后验概率,\(P(\theta)\)先验概率,\(P(D|\theta)\)似然函数
如果要给一个模型,给后验概率最大的模型(MAP)
预测时\(P(x|D) = \int P(x|\theta,D)P(\theta|D)d\theta\)
- 核方法
三要素
方法=模型+策略+算法
模型
- 假设空间:决策函数集合
\(F=\{f|Y=f(X)\}\)
\(F=\{f|Y=f_\theta(X),\theta\in R^n\}\),参数\(\theta\)所在的空间叫参数空间
- 假设空间:条件概率集合
\(F=\{P|P(Y|X)\}\)
\(F = \{P_\theta|P_\theta(Y|X),\theta\in R^n\}\)
策略
引入损失函数,风险函数度量模型好坏
- 0-1损失:\(\begin{equation} L(Y,f(x))=\left\{ \begin{aligned} 1 & , & Y\neq f(x) \\ 0 & , & Y =f(x) \end{aligned} \right. \end{equation}\)
- 平方损失函数:\(L(Y,f(X))= (Y-f(X)^2\)
- 绝对损失函数: \(L(Y,f(X)) = |Y-f(X)|\)
- 对数损失函数:\(L(Y,P(Y|X))=-log P(Y|X)\)
风险损失,期望损失:
\(\begin{align*}R_{exp}(f) = &E_P[L(Y,f(x))] \\=&\int_{X\times Y} L(y,f(x))p(x,y)dxdy\end{align*}\)
由于不知道联合概率分布,只能使用经验风险,或者经验损失:
\(R_{emp}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))\)
由于样本数量有限,大数定律不起作用
- 经验分布最小化学习
\(\underset{f\in F}{min} \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))\)
- 结构风险最小化学习
\(R_{stm}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)\)
\(J(f)\)是泛函,衡量模型复杂度
算法
求解最优化问题
生成模型和判别模型
监督学习方法可以分为生成方法或者判别方法,所学到的模型分别为生成模型或者判别模型
生成方法
由数据学习联合分布\(P(X,Y)\),然后求条件概率\(P(Y|X)=\frac{P(X,Y)}{P(X)}\)
典型:朴素贝叶斯,隐马尔科夫模型
判别方法
直接学习决策函数\(f(X)\),或者条件概率分布\(P(Y|X)\)
应用
- TP:把真的预测成真的
- FN:把真的预测成假的
- TN:把假的预测成假的
- FP:把假的预测成真的
precision:\(P = \frac{TP}{TP+FP}\)
recall:\(R = \frac{TP}{TP+FN}\)
F1:\(\frac{2}{F_1} = \frac{1}{P}+\frac{1}{R}\)
习题
- 伯努利模型n次实验结果,k次结果为1,
- 极大似然估计
\(f(X,\theta) = \theta^k(1-\theta)^{n-k}\)
\(\begin{align*}\underset{\theta}{argmax}f(X,\theta) =& \underset{\theta}{argmax}log(f(X,\theta)) \\=&\underset{\theta}{argmax}(klog\theta +(n-k)log(1-\theta)) \end{align*}\)
\(g(\theta) = klog\theta +(n-k)log(1-\theta)\)
\(g'(\theta) = (1-\theta)k-(n-k)(1-\theta)\)
\(g'(\theta)=0\)的解为\(\theta=\frac{k}{n}\)
- 贝叶斯估计
- 极大似然估计
原文地址:https://www.cnblogs.com/Lzqayx/p/12151009.html