[zz] ROC曲线

wiki

https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF

在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）是一种座标图式的分析工具，用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。

在做决策时，ROC分析能不受成本／效益的影响，给出客观中立的建议。

ROC曲线首先是由二战中的电子工程师和雷达工程师发明的，用来侦测战场上的敌军载具（飞机、船舰），也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。数十年来，ROC分析被用于医学、无线电、生物学、犯罪心理学领域中，而且最近在机器学习（machine learning）和数据挖掘（data mining）领域也得到了很好的发展。

分类模型（又称分类器，或诊断）是将一个实例映射到一个特定类的过程。ROC分析的是二元分类模型，也就是输出结果只有两种类别的模型，例如：（阳性／阴性）（有病／没病）（垃圾邮件／非垃圾邮件）（敌军／非敌军）。

当讯号侦测（或变数测量）的结果是一个连续值时，类与类的边界必须用一个阈值（英语：threshold）来界定。举例来说，用血压值来检测一个人是否有高血压，测出的血压值是连续的实数（从0~200都有可能），以收缩压140／舒张压90为阈值，阈值以上便诊断为有高血压，阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局：

真阳性（TP）：诊断为有，实际上也有高血压。
伪阳性（FP）：诊断为有，实际却没有高血压。
真阴性（TN）：诊断为没有，实际上也没有高血压。
伪阴性（FN）：诊断为没有，实际却有高血压。

这四种结局可以画成2 × 2的Confusion matrix：

		真实值		总数
		p	n	总数
预测输出	p‘	真阳性 (TP)	伪阳性 (FP)	P‘
预测输出	n‘	伪阴性 (FN)	真阴性 (TN)	N‘
总数		P	N

阳性 (P, positive)
阴性 (N, Negative)
真阳性 (TP, true positive): 正确的肯定。又称：命中 (hit)
真阴性 (TN, true negative): 正确的否定。又称：正确拒绝 (correct rejection)
伪阳性 (FP, false positive): 错误的肯定，又称：假警报 (false alarm)，第二型错误
伪阴性 (FN, false negative): 错误的否定，又称：未命中 (miss)，第一型错误
真阳性率 (TPR, true positive rate): 又称：命中率 (hit rate); TPR = TP / P = TP / (TP+FN)
伪阳性率(FPR, false positive rate): 又称：错误命中率，假警报率 (false alarm rate); FPR = FP / N = FP / (FP + TN)
准确度 (ACC, accuracy): ACC = (TP + TN) / (P + N); 即：(真阳性+真阴性) / 总样本数
真阴性率 (TNR): 又称：特异度 (SPC, specificity); SPC = TN / N = TN / (FP + TN) = 1 - FPR
阳性预测值 (PPV): PPV = TP / (TP + FP)
阴性预测值 (NPV): NPV = TN / (TN + FN)
假发现率 (FDR): FDR = FP / (FP + TP)
Matthews相关系数 (MCC)，即 Phi相关系数: MCC = (TP*TN - FP*FN) / \sqrt{P N P‘ N‘}
F1评分: F1 = 2TP/(P+P‘)

Source: Fawcett (2006).

ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。

TPR：在所有实际为阳性的样本中，被正确地判断为阳性之比率。

FPR：在所有实际为阴性的样本中，被错误地判断为阳性之比率。

给定一个二元分类模型和它的阈值，就能从所有样本的（阳性／阴性）真实值和预测值计算出一个 (X=FPR, Y=TPR) 座标点。

从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上／右下两个区域，在这条线的以上的点代表了一个好的分类结果（胜过随机分类），而在这条线以下的点代表了差的分类结果（劣于随机分类）。

曲线下面积（AUC）

AUC值越大的分类器，正确率越高。

时间： 2024-10-09 05:36:43

[zz] ROC曲线

曲线下面积（AUC）

[zz] ROC曲线的相关文章

精确率与召回率，RoC曲线与PR曲线

ROC曲线、AUC、Precision、Recall、F-measure理解及Python实现

ROC曲线和PR曲线绘制【转】

ROC曲线

从TP、FP、TN、FN到ROC曲线、miss rate、行人检测评估

xgene：之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA

【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积

【ROC曲线】关于ROC曲线、PR曲线对于不平衡样本的不敏感性分析说引发的思考

ROC曲线与AUC值