统计学习是基于数据构建统计模型从而对数据进行预测与分析,统计学习由监督学习,非监督学习,半监督学习和强化学习等组成
统计学习由模型的假设空间(学习的模型属于某个函数的集合),模型选择的准则,及模型学习的算法
统计学习方法步骤如下:
(1)得到一个有限的训练数据集合
(2)确定包含所有可能的模型的假设空间(学习模型的集合)
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法即学习的算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析
1.监督学习
1)输入特征向量,每一维对应一个特征,如x=(x(1),x(2),....x(n)),其中x(i)表示x的第i特征Xi表示多个输入中的第i个
2)输入变量和输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题;输入与输出变量均为变量序列的预测问题称为标注
3)监督学习的模型可以使概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示
2、损失函数度量一次预测的好坏,分先函数度量评价意义下模型预测的好坏,损失函数式f(X)和Y的非负实值函数记作L(Y,f(X))
常用的损失函数0-1损失函数(0—1 loss function)(Y与f(X)不等为1,相等为0),平方损失函数(quadratic loss funcition)(Y-X)^2,绝对损失函数(absolute loss function)|Y-f(X)|,对数损失函数(logarithmic loss function)或者对数似然损失函数(log-likelihood loss function)(-logP(Y|X))
风险函数是期望的损失
经验风险最小化:min 1/N∑L(yi,f(xi)) ,当样本容量很小时会产生过拟合(over-fitting)的现象
结构风险最小化是为防止过拟合而提出的,定义为Rsrm= 1/N∑L(yi,f(xi))+rJ(f),其中J(f)为模型的复杂度,模型f越复杂度J(f)越大(贝叶斯估计中最大后验概率估计MAP就是结构风险最小化的例子)
3.I是指示函数(indicator function)y=f(X)时为1否则为0
通常将学习方法对未知数据的预测能力称为泛化能力(generalization ability)
过拟合是学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象,因为训练数据本身存在噪声,测试误差会随着多项式的次数的增加先减小后增加
模型选择方法:正则化与交叉验证
正则化:
min(1/N∑L(yi,f(xi))+rJ(f)),J(f)是正则化项,有不同的形式,在回归问题中正则化项可以是参数向量L2范式,也可以是L1范式
交叉验证:
若数据充足:将数据集随机分成训练集、验证集、测试集;训练集用于训练模型,验证集用于模型选择,测试集用于对学习方法的评估,要选择对验证集有最小预测误差的模型
数据不足:交叉验证反复使用数据:把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复进行训练、测试及模型选择
应用最多的是S折交叉验证:随机将数据切分成s个互不相交的大小相同的子集,然后利用S-1个自己的数据训练模型,利用剩下的自己测试模型;将这一过程对可能的s中选择重复进行,最后选出s此凭此中平均误差最小的模型
4.泛化能力值由该方法学习到的模型对未来数据的预测能力
这种评价依赖于测试数据集的
泛化误差上界:他是样本容量的函数,样本容量增加,泛化上界趋于0,假设空间容量越大,模型越难学,泛化误差越大
生成模型,由数据学习联合概率分布,然后求出条件概率分布:P(Y|X)=P(X,Y)/P(X)
判别方法:由数据直接学习决策函数f(X)或者条件分布P(Y|X)
生成方法:可还原P(X,Y)判别不能;学习收敛速度快,即样本容量增加时,学到的模型可以很快的收敛到真实模型,存在隐变量的时候也能
判别方法:直接面对预测,准确率高,简化学习问题
5.分类问题
5.标注:
标注的输入是一个观测序列,输出时一个标记序列或者状态序列
常见的例子隐马尔科夫模型,条件随机场
6.回归问题按照输入变量的个数分为医院回归、多元回归,输入变量与输出变量的关系分为线性回归和非线性回归,回归学习最常用的损失函数是平方损失函数,在此情况下,函数回归问题有著名的最小二乘法求解