Precision, Recall, F1-Score

首先我们先来看一组机器学习评价标准中中常见概念, 总结如下表

术语 缩写 含义
True Positive TP 被模型预测为正的正样本
True Negative TN 被模型预测为负的负样本
False Negative FN 被模型预测为负的正样本
False Positive FP 被模型预测为正的负样本

上述定义解读如下

  • true, false 表明算法预测的正确与否
  • positives, negatives 为模型预测为正例/负例

在理解一个组合的含义时, 先看第二个关键字含义, 然后再看第一个关键字含义

如: True Negative

  • 第二个关键字: Negative, 表明模型将该样例预测为负例
  • 第一个关键字: True, 表明模型预测正确, 所以该样本真实标签就是负例

即该样本为被模型预测为负的负样本

?

Precision, AR

精确率(Precision)是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是

\[
\begin{align}
\bf Precision = \frac{TP}{TP+FN} \tag{1}\\end{align}
\]

召回率(Recall)是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。

\[
\begin{align}
\bf Recall = \frac{TP}{TP+FP} \tag{2}
\end{align}
\]

?

F-Score

维基百科 F1_score
?

F-measure 是一种统计量,F-Measure 又称为 F-Score,F-Measure 是 Precision 和 Recall 加权调和平均,是IR(信息检索)领域的常用的一个评价标准,常用于评价分类模型的好坏. F-measure 综合了 Presion 和 Recall 的结果,当 F-measure 较高时则能说明试验方法比较有效。 F1-Measure 定义如下

\[{\displaystyle F_{1}=\left({\frac {\mathrm {recall} ^{-1}+\mathrm {precision} ^{-1}}{2}}\right)^{-1}=2\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}}\]

在 F-measure 的通用定义如下,

\[
F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}}
\]

将式(1)和式(2)代入上式

\[{\displaystyle F_{\beta }={\frac {(1+\beta ^{2})\cdot \mathrm {true\ positive} }{(1+\beta ^{2})\cdot \mathrm {true\ positive} +\beta ^{2}\cdot \mathrm {false\ negative} +\mathrm {false\ positive} }}\,} \]

使用 β的平方, 只是为了说明 Presion 上的因子大于 0

?

原文地址:https://www.cnblogs.com/nowgood/p/APdefinite.html

时间: 2024-08-02 12:38:55

Precision, Recall, F1-Score的相关文章

BERT模型在多类别文本分类时的precision, recall, f1值的计算

BERT预训练模型在诸多NLP任务中都取得最优的结果.在处理文本分类问题时,即可以直接用BERT模型作为文本分类的模型,也可以将BERT模型的最后层输出的结果作为word embedding导入到我们定制的文本分类模型中(如text-CNN等).总之现在只要你的计算资源能满足,一般问题都可以用BERT来处理,此次针对公司的一个实际项目--一个多类别(61类)的文本分类问题,其就取得了很好的结果. 我们此次的任务是一个数据分布极度不平衡的多类别文本分类(有的类别下只有几个或者十几个样本,有的类别下

机器学习中的 precision、recall、accuracy、F1 Score

1. 四个概念定义:TP.FP.TN.FN 先看四个概念定义: - TP,True Positive - FP,False Positive - TN,True Negative - FN,False Negative 如何理解记忆这四个概念定义呢? 举个简单的二元分类问题 例子: 假设,我们要对某一封邮件做出一个判定,判定这封邮件是垃圾邮件.还是这封邮件不是垃圾邮件? 如果判定是垃圾邮件,那就是做出(Positive)的判定: 如果判定不是垃圾邮件,那就做出(Negative)的判定. Tru

通过Precision/Recall判断分类结果偏差极大时算法的性能

当我们对某些问题进行分类时,真实结果的分布会有明显偏差. 例如对是否患癌症进行分类,testing set 中可能只有0.5%的人患了癌症. 此时如果直接数误分类数的话,那么一个每次都预测人没有癌症的算法也是性能优异的. 此时,我们需要引入一对新的判别标准:Precision/Recall来进行算法的性能评判,它们的定义如下: 可以看出,Precision表示:预测一件事件发生,它实际发生的概率是多少.换言之:预测准的概率如何. Recall表示:一件事情实际发生了,能把它预测出来的概率是多少.

F1 score,micro F1score,macro F1score 的定义

F1 score,micro F1score,macro F1score 的定义 2018年09月28日 19:30:08 wanglei_1996 阅读数 976 本篇博客可能会继续更新 最近在文献中经常看到precesion,recall,常常忘记了他们的定义,在加上今天又看到评价多标签分类任务性能的度量方法micro F1score和macro F2score.决定再把F1 score一并加进来把定义写清楚,忘记了再来看看. F1score F1score(以下简称F1)是用来评价二元分类

信息检索的评价指标(Precision, Recall, F-score, MAP)

之前写过一篇blog叫做机器学习实战笔记之非均衡分类问题:http://blog.csdn.net/lu597203933/article/details/38666699其中对Precision和Recall及ROC都有所讲解,其中区别在于Precision,Recall, F-score, MAP主要用于信息检索,而ROC曲线及其度量指标AUC主要用于分类和识别,ROC的详细介绍见上面的blog,这里的Precision.Recall和上篇blog的计算结果其实是一样的,只是这里从检索的角度

目标检测的评价标准mAP, Precision, Recall, Accuracy

目录 metrics 评价方法 TP , FP , TN , FN 概念 计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 Average Precision mAP 参考资料 metrics 评价方法 注意,在多分类问题中,评价方法是逐个类计算的,不是所有类一起算,是只针对一个类算,每个类别有自己的指标值! TP , FP , TN , FN 概念 TP = 预测为positive 且ground-truth和预测一致

Precision/Recall和ROC曲线与分类

[混淆矩阵与Precision/Recall和ROC曲线的关系] Precision/Recall和ROC曲线的基本介绍可以看我的另一篇博客: http://blog.csdn.net/adminabcd/article/details/46475361 接下来我们引入混淆矩阵: 当我们对样本进行分类时,会分成正例样本(记为1)和负例样本(记为0),根据分类结果与原始分类,可以计算出相应的混淆矩阵.那么则有: Precision(pre)=true positive rate=tp/(tp+fp

Precision / Recall 及 F1-score

True positive(tp): algorithm predicts 1 and it actually is 1 True negtive(tn): algorithm predicts 0 and it actually is 0 False positive(fp):  algorithm predicts 1 and it actually is 0 False negative(fn): algorithm predicts 0 and it actually is 1 Prec

准确率和召回率(precision&recall)

在机器学习.推荐系统.信息检索.自然语言处理.多媒体视觉等领域,经常会用到准确率(precision).召回率(recall).F-measure.F1-score 来评价算法的准确性. 一.准确率和召回率(P&R) 以文本检索为例,先看下图 其中,黑框表示检索域,我们从中检索与目标文本相关性大的项.图中黄色部分(A+B)表示检索域中与目标文本先关性高的项,图中 A+C部分表示你的算法检索出的项.A.B.C的含义图中英文标出. 准确率: 召回率: 一般来说,准确率表示你的算法检索出来的有多少是正

precision recall

以人脸数据为例 给定的数据集中有是人脸的图,也有不是人脸的图. precision = #将人脸识别为人脸/(#将人脸识别为人脸 +#将不是人脸识别为人脸) recall = #将人脸识别为人脸/(#将人脸识别为人脸 + #将人脸识别为不是人脸) 也就是说, precision高,指将不是人脸识别为人脸的数比较少 recall高,指将人脸识别为不是人脸的数比较少