机器学习评价指标 本文针对二元分类器

机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

在介绍指标前必须先了解“混淆矩阵”:

混淆矩阵

True Positive(真正,TP):将正类预测为正类数,是正的,也预测正的

True Negative(真负,TN):将负类预测为负类数,是负的,也预测负的

False Positive(假正,FP):将负类预测为正类数误报 (Type I error),是负的,预测为正的

False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error),是正的,预测为负的

1、准确率(Accuracy)

分子:正正+负负

分母:正负+负正+正正+负负

准确率(accuracy)计算公式为:

2、错误率(Error rate)

分子:负正+正负

分母:所有

错误率则与准确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(TP+TN+FP+FN),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate。

3、灵敏度(sensitive)、召回率

分子:正正,

分母:正正+正负

sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。

4、特效度(sensitive)

分子:负负

分母:负负+负正

specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。

5、精确率、精度(Precision)

分子:正正

分母:正正+负正

精确率(precision)定义为:

表示被分为正例的示例中实际为正例的比例。

原文地址:https://www.cnblogs.com/vivianzy1985/p/9209150.html

时间: 2024-10-31 13:15:26

机器学习评价指标 本文针对二元分类器的相关文章

分类问题(一)MINST数据集与二元分类器

分类问题 在机器学习中,主要有两大类问题,分别是分类和回归.下面我们先主讲分类问题. MINST 这里我们会用MINST数据集,也就是众所周知的手写数字集,机器学习中的 Hello World.sk-learn 提供了用于直接下载此数据集的方法: from sklearn.datasets import fetch_openml minst = fetch_openml('mnist_784', version=1) minst.keys() >dict_keys(['data', 'targe

针对二元分类机器学习模型中的准确率(Precision)、召回率(Recall)、F值(F-Measure)的学习

一.首先了解混淆矩阵中的四个值对应的意思: True Positive(真正,TP):将正类预测为正类数  True Negative(真负,TN):将负类预测为负类数  False Positive(假正,FP):将负类预测为正类数误报 (Type I error)  False Negative(假负,FN):将正类预测为负类数漏报 (Type II error) 如下图所示: 二.评价指标的意义 1.准确率(Accuracy) 注:准确率是我们最常见的评价指标,而且很容易理解,就是被分对的

机器学习 评价指标整理

目录 1.准确率(Accuracy) 2.召回率(Recall) 3.精确率(Precision) 4.召回率与精确率的关系 ?5.误报率(FPR)与漏报率(FNR) 1.准确率(Accuracy) 准确率是指我们的模型预测正确的结果所占的比例. 正式点说,准确率的定义如下: $Accuracy = \frac{Number of correct predictions}{Total number of predictions}$ 对于二元分类,也可以根据正类别和负类别按如下方式计算准确率: $

机器学习----分布问题(二元,多元变量分布,Beta,Dir)

这涉及到数学的概率问题. 二元变量分布:          伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的 取值就应

机器学习系列-朴素贝叶斯分类器

贝叶斯分类器 什么是贝叶斯分类器 贝叶斯分类器是一类分类器的总称,这些分类器均以贝叶斯定理为基础,故统称为贝叶斯分类器.这些分类器中最简单的是朴素贝叶斯分类器,它几乎完全按照贝叶斯定理进行分类,因此我们从朴素贝叶斯分类器说起. 贝叶斯定理: 贝叶斯定理是概率论中一个比较重要的定理,在讲解贝叶斯定理之前,首先回顾一下贝叶斯定理的基础:条件概率和全概率公式. 条件概率:设\(A,B\)是两个事件,且\(P(A)>0\),称 \[P(B|A)=\frac{P(AB)}{P(A)}\] 为在事件\(A\

机器学习之朴素贝叶斯分类器

朴素贝叶斯分类器 (naive bayes classifier, NBC) 是一种常见且简单有效的贝叶斯分类算法.对已知类别,朴素贝叶斯分类器在估计类条件概率时假设特征之间条件独立.这样的假设,可以使得在有限的训练样本下,原本难以计算的联合概率 \(P(X_1, X_2, \cdots, X_n | Y)\) 转化为每个类别条件概率的乘积.尤其是在特征很多时,就显得更加简便. 条件独立性 给定 X, Y 条件独立,则有: \[ P(X,Y|Z)=P(X|Z)\times P(Y|Z) \] 有

复习机器学习算法:贝叶斯分类器

朴素贝叶斯算法是寻找一个极大后验假设(MAP),即候选假设的最大后验概率. 如下: 在朴素贝叶斯分类器中,假设样本特征之间是独立的,则有: 计算每个假设的后验概率,选出最大的概率,对应的类别就是样本的分类结果. 优缺点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练.当时,需要样本的特征之间独立性较高,不能有太多的相关性.对输入数据的表达形式很敏感. 还有,当样本中某个特征在该类别中出现次数为0,即P(ai |vj)=0, 导致上式的分子全部为0. 这个时候需要使用m-估计和贝叶斯结合

机器学习二分类模型评价指标:准确率\召回率\特异度等

混淆矩阵是一种用于性能评估的方便工具,它是一个方阵,里面的列和行存放的是样本的实际类vs预测类的数量. P =阳性,N =阴性:指的是预测结果. T=真,F=假:表示 实际结果与预测结果是否一致,一致为真,不一致为假. TP=真阳性:预测结果为P,且实际与预测一致. FP=假阳性:预测结果为P,但与实际不一致. TN=真阴性:预测结果为N,且与实际一致. FN=假阴性:预测结果为N,但与实际不一致. 分类模型的经验误差可以通过计算1-准确率得到. 然而,如何选择一个适当的预测误差度量是高度依赖于

文本数据的机器学习自动分类方法(转)

http://blog.csdn.net/jdbc/article/details/50586042 本文为第一部分,着重介绍文本预处理以及特征抽取的方法. 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类."文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程"(达观数据科技联合创始人,张健).文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,