机器学习之模型评估与选择

2.1 经验误差与过拟合

　　基本概念：

　　　　错误率：分类错误数/总样本数

　　　　训练误差/经验误差：学习器在训练集上所产生的误差

　　　　泛化误差：学习器在测试集上产生的误差

2.2 评估方法

　　在实际应用中会有多种不同的算法进行选择，对于不同的问题，我们该选择用哪种学习算法和参数配置，是机器学习中的模型选择。无法直接获得泛化误差，训练误差由于过拟合现象的存在也不适合作为标准，我们如何对模型进行评估和选择。

　　从训练集中随机获取测试集，测试集和训练集互斥。通过对D进行适当的处理，从中产生出训练集S和测试集T，下面介绍几种常见的做法。

　　2.1 留出法（2/3~4/5）

　　　　注意：避免由于数据划分过程引入额外的偏差二造成对结果的影响

　　　　方法：分层采样（针对不同的类别分别进行采样）

　　　　　　　若干次的随机重复划分进行评估，取平均值。

　　2.2 交叉验证法（10次10折）

　　　　方法：将数据集划分为k个大小相似的互斥子集，然后用k-1作为训练集，剩下一个作为测试集

　　　　注意：10次随机重新采样

　　2.3 自助法

　　　　方法：有放回的进行抽取样本数量个大小

　　　　注意：自助法产生的数据改变了初始数据集的分布，这就引入估计偏差，因此在初始数据量足够时，留出法和交叉验证呢法更加常用些。

2.3 性能度量

　　衡量模型的泛化能力，就是性能度量。在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果。好坏是相对的，不仅取决于算法和数据同时还取决任务需求。

　　错误率：分类错误的样本占总体样本。

　　查全率（recall）：判断正例，占所有正例

　　查准率（precision）：判断为正例中，判断正确占比

　　P-R曲线（面积）：

　　　　根据学习的预测结果对样例进行排序，排在最前面的学习器是“最可能”为正例样本，排在后面是学习器认为“最不可能的”，按顺序作为正例进行预测，计算precision 和 recall，并作为横坐标和纵坐标，显示出对应的P-R图。

　　利用平衡点（Break-Even Point， BEP）进行比较，获取方式为和直线y=x和P-R曲线的交点。

　　F1：基于查准率和查全率的调和平均：

　　FB：表达对查全率和查准率不同偏好的度量：

　　对上述评估方法（留存法，交叉验证法，）我能能够得到多个混淆矩阵。通常有两种做法一种是“宏F1”对各个混淆矩阵求解后整体求平均。另一个是“微F1”先对混淆矩阵求平均然后再计算F1的值。

　　ROC和AUC

　　ROC（Receiver Operating Characteristic）“受试者工作特征”

时间： 2024-10-11 17:36:55

机器学习：模型评估和选择