2.1 经验误差与过拟合
基本概念:
错误率:分类错误数/总样本数
训练误差/经验误差:学习器在训练集上所产生的误差
泛化误差:学习器在测试集上产生的误差
2.2 评估方法
在实际应用中会有多种不同的算法进行选择,对于不同的问题,我们该选择用哪种学习算法和参数配置,是机器学习中的模型选择。无法直接获得泛化误差,训练误差由于过拟合现象的存在也不适合作为标准,我们如何对模型进行评估和选择。
从训练集中随机获取测试集,测试集和训练集互斥。通过对D进行适当的处理,从中产生出训练集S和测试集T,下面介绍几种常见的做法。
2.1 留出法 (2/3~4/5)
注意:避免由于数据划分过程引入额外的偏差二造成对结果的影响
方法:分层采样(针对不同的类别分别进行采样)
若干次的随机重复划分进行评估,取平均值。
2.2 交叉验证法(10次10折)
方法:将数据集划分为k个大小相似的互斥子集,然后用k-1作为训练集,剩下一个作为测试集
注意:10次随机重新采样
2.3 自助法
方法:有放回的进行抽取样本数量个大小
注意:自助法产生的数据改变了初始数据集的分布,这就引入估计偏差,因此在初始数据量足够时,留出法和交叉验证呢法更加常用些。
2.3 性能度量
衡量模型的泛化能力,就是性能度量。在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。好坏是相对的,不仅取决于算法和数据同时还取决任务需求。
错误率:分类错误的样本占总体样本。
查全率(recall):判断正例,占所有正例
查准率(precision):判断为正例中,判断正确占比
P-R曲线(面积):
根据学习的预测结果对样例进行排序,排在最前面的学习器是“最可能”为正例样本,排在后面是学习器认为“最不可能的”,按顺序作为正例进行预测,计算precision 和 recall,并作为横坐标和纵坐标,显示出对应的P-R图。
利用平衡点(Break-Even Point, BEP)进行比较,获取方式为和直线y=x和P-R曲线的交点。
F1:基于查准率和查全率的调和平均:
FB:表达对查全率和查准率不同偏好的度量:
对上述评估方法(留存法,交叉验证法,)我能能够得到多个混淆矩阵。通常有两种做法一种是“宏F1”对各个混淆矩阵求解后整体求平均。另一个是“微F1”先对混淆矩阵求平均然后再计算F1的值。
ROC和AUC
ROC(Receiver Operating Characteristic)“受试者工作特征”