评价分类器性能的度量
分类器评估度量包括准确率(又称“识别率”)、敏感度(或称为召回率recall)、特效性、精度(precision)F1和FΒ。
度量 | 公式 |
---|---|
准确率、识别率 |
TP+TNP+N |
错误率、识分类率 |
FP+FNP+N |
敏感度 |
TPP |
特效性、真负例率 |
TNN |
精度 |
TPtp+fp |
F分数 |
2?precision?recallprecision+recall |
FB |
(1+B2)?precision?recallB2?precision+recall |
TP:被分类器正确分类的正元组;
TN:被分类器正确分类的负元组;
FP:被错误的标记为正元组的负元组;
FN:被错误标记为负元组的正元组。
混淆矩阵表示
灵敏性
SN=TPP
特异性
SP=TNN
精度和召回率
SP=sensitivityPP+N+specificityNP+N
k倍交叉验证
初始数据随机划分为k个互不相交的自己,每个自己的大小大致相等。训练和检验进行k次。在第i次迭代,分区Di用做检验集,其余的分区一起用作训练模型,
ROC曲线
组合分类
小结
- 混淆举证可以用来评估分类器的质量。
- 显著性检验和ROC曲线对于模型选择是有用的。显著性检验可以用来评估两个分类器准确率的差别是否处于偶然。ROC曲线绘制一个或多个分类器的真正例率(或灵敏性)与假正例率(或1-sp)。
- 组合方法可以通过学习和组合一系列个体基分类模型提高总体的准确率。装袋、提升和随机森林都是流行的组合方法。
时间: 2024-10-28 14:46:34