评价分类与预测算法的指标

  分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫做测试集。模型预测效果评价,通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差、平均绝对百分误差等指标来衡量。

1、绝对误差与相对误差

  设$Y$表示实际值,$\hat{Y}$表示预测值,则$E$为绝对误差,其计算公式为:$E=Y-\hat{Y}$

  $e$为相对误差,其计算公式为:$e=\frac{Y-\hat{Y}}{Y}$

2、平均绝对误差

  平均误差的计算公式为:$MAE=\frac{1}{n} \sum_{i=1}^{n}\left|E_{i}\right|=\frac{1}{n} \sum_{i=1}^{n}\left|Y_{i}-\hat{Y}_{i}\right|$

  其中,$MAE$表示平均绝对误差,$E_{i}$表示第$i$个实际值与预测值的绝对误差,$Y_{\mathrm{i}}$表示第$i$个实际值,$\hat{Y}_{i}$表示第$i$个预测值。

  由于预测误差有正有负,为了避免正负相抵消,故取误差的绝对值进行综合并取其平均数,这是误差分析的综合指标法之一。

3、均方误差

  均方误差的计算公式为:$MSE=\frac{1}{n} \sum_{i=1}^{n} E_{i}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\hat{Y}_{i}\right)^{2}$

  其中,MSE表示均方差。均方误差一般用于还原平方失真程度。均方误差是预测误差平方之和的平均数,它避免了正负误差不能相加的问题。

  由于对误差E进行了平方,加强了数值大的误差在指标中的作用,从而提高了这个指标的灵敏性,是一大优点。均方误差是误差分析的综合指标之一。

4、均方根误差

  均方根误差的计算公式为:$RMSE=\sqrt{\frac{1}{n} \sum_{i=1}^{n} E_{i}^{2}}=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\hat{Y}_{i}\right)^{2}}$

  其中,RMSE表示均方根误差,其他符号同前。

  这是均方误差的平方根,代表了预测值的离散程度,也叫标准误差,最佳拟合情况为$RMSE$=0。均方根误差也是误差分析的综合指标之一。

5、平均绝对百分误差

  平均绝对百分误差为:$MAPE=\frac{1}{n} \sum_{i=1}^{n}\left|E_{i} / Y_{i}\right|=\frac{1}{n} \sum_{i=1}^{n}\left|\left(Y_{i}-\hat{Y}_{i}\right) / Y_{i}\right|$

  其中,MAPE表示平均绝对百分误差。一般认为MAPE小于10时,预测精度较高。

6、Kappa统计

  Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,是以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不但可以用于无序和有序分类变量资料的一致性、重现性检验,而且能给出一个反映一致性大小的“量”值。

  Kappa取值在[-1,+1]之间,其值的大小均有不同的意义:

    Kappa=+1,说明两次判断的结果完全一致。

    Kappa=-1,说明两次判断的结果完全不一致。

    Kappa=0,说明两次判断的结果是机遇造成的。

    Kappa<0,说明一致程度比机遇造成的还差,两次检查结果很不一致,在实际应用中无意义。

    Kappa>0,说明有意义,Kappa越大,说明一致性愈好。

    Kappa≥0.75,说明已经取得了相当满意的一致程度。

    Kappa<0.4,说明一致程度不够。

7、识别准确度

  识别精确度的计算公式为:$\text {Accuracy}=\frac{T P+F N}{T P+T N+F P+F N} \times 100 \%$

  其中各项的含义:

  TP(True Positives):正确的肯定,表示正确肯定的分类数。

  TN(True Negatives):正确的否定,表示正确否定的分类数。

  FP(False Positives):错误的肯定,表示错误肯定的分类数。

  FN(False Negatives):错误的否定,表示错误否定的分类数。

8、识别精确率

  识别精确率的计算公式为:$\text { Precision }=\frac{T P}{T P+F P} \times 100 \%$

9、反馈率

  反馈率的计算公式为:$\text {Recall}=\frac{T P}{T P+T N} \times 100 \%$

10、ROC曲线

  受试者工作特性(Receiver Operating Characteristic,ROC)曲线,得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚惊概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

  这是一种非常有效的模型评价方法,可为选定临界值给出定量提示。将灵敏度(Sensitivity)设在纵轴,1-特异性(1-Specificity)设在横轴,就可得出ROC曲线图。该曲线下的积分面积(Area)大小与每种方法的优劣密切相关,反映分类器正确分类的统计概率,其值越接近1说明该算法的效果越好。

11、混淆矩阵

  混淆矩阵(Confusion Matrix)是模式识别领域中一种常用的表达形式。它描绘样本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法。假设对于N类模式的分类任务,识别数据集D包括$T_{0}$个样本,每类模式分别含有$T_{i}$个数据(i=1…N)。采用某种识别算法构造分类器$C$,$c m_{i j}$,表示第$i$类模式被分类器$C$判断成第$j$类模式的数据占第$i$类模式样本总数的百分率,则可得到如下N·N维混淆矩阵:$$C M(C, D)=\left(\begin{array}{ccccc}{c m_{11}} & {c m_{22}} & {\dots} & {c m_{1 i}} & {\dots} & {c m_{1 N}} \\ {c m_{21}} & {c m_{22}} & {\dots} & {c m_{2 i}} & {\dots} & {c m_{2 N}} \\ {\vdots} & {\vdots} & {} & {\vdots} & {} \\ {c m_{i 1}} & {c m_{i 2}} & {\dots} & {c m_{i i}} & {\dots} & {c m_{i N}} \\ {\vdots} & {\vdots} & {} & {\vdots} & {} \\ {c m_{N 1}} & {c m_{N 2}} & {\dots} & {c m_{N i}} & {\dots} & {c m_{N N}}\end{array}\right)$$

  混淆矩阵中元素的行下标对应目标的真实属性,列下标对应分类器产生的识别属性。对角线元素表示各模式能够被分类器C正确识别的百分率,而非对角线元素则表示发生错误判断的百分率。

  通过混淆矩阵,可以获得分类器的正确识别率和错误识别率。

  各模式正确识别率:$R_{i}=c m_{i i}, \quad i=1, \cdots, N$

  平均正确识别率:$R_{A}=\sum_{i=1}^{N}\left(c m_{i i} \cdot T_{i}\right) / T_{0}$

  各模式错误识别率:$W_{i}=\sum_{j=1, j \neq i}^{N} c m_{i j}=1-c m_{i i}=1-R_{i}$

  平均错误识别率:$W_{A}=\sum_{i=1}^{N} \sum_{j=1, j \neq i}^{N}\left(c m_{i i} \cdot T_{i}\right) / T_{0}=1-R_{A}$

原文地址:https://www.cnblogs.com/fangxiaoqi/p/11456301.html

时间: 2024-11-07 16:04:29

评价分类与预测算法的指标的相关文章

分类预测算法评价(初识)

分类于预测算法评价 分类与预测模型对训练集进行预测而得出得准确率并不能很好得反映预测模型未来得性能,为了有效判断一个预测模型得性能表现,需要一组没有参与预测模型建立得数据集并在该数据集上评价预测模型得准确率,这组独立耳朵数据集叫做测试集,模型预测效果评价,通常用相对绝对误差,平均绝对误差,均方误差,均方根误差来衡量. 绝对误差与相对误差 设Y表示实际值, Ý表示预测值, 则称E为绝对误差,计算公式如下: Ε = Y - Ý e为相对误差, 计算公式如下 e = (Y - Ý) / Y 有时也可以

「数据挖掘入门系列」挖掘建模之分类与预测&ndash;逻辑回归

拿电商行业举例,经常会遇到以下问题: 如果基于商品的历史销售情况,以及节假日.气候.竞争对手等影响因素,对商品的销量进行趋势预测? 如何预测未来一段时间哪些客户会流失,哪些客户可能会成为VIP用户? 如果预测一种新商品的销售量,以及哪种类型的客户会比较喜欢? 除此之外,运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯,管理人员希望了解下一个月的销售收入等,这些都是分类与预测的日志. 分类和预测是预测问题的两种主要类型. 分类主要是预测分类标号(离散值) 预测主要是建立连续值函数模型 挖

7.评价分类结果

1.准确度的陷阱和混淆矩阵 我们之前对于分类问题,一直使用分类的准确度评价分类的结果,但是实际上分类问题的评价比回归问题的评价要复杂很多,相应的指标也多很多.可是之前使用准确度来进行评价不是挺好吗?但其实准确度是有一个很大的问题的,举个例子 我有一个癌症检测系统,通过对人进行体检,那么可以判断这个人是否患有癌症,而这个系统预测的准确度是99%,那么这个系统是好,还是坏呢?按照我们之前的逻辑,准确度都达到99%了,那么肯定是一个好系统了,其实不然.如果这个癌症的发病率只有百分之1呢,换句话说,10

如何开发一个异常检测系统:如何评价一个异常检测算法

利用数值来评价一个异常检测算法的重要性 使用实数评价法很重要,当你用某个算法来开发一个具体的机器学习应用时,你常常需要做出很多决定,如选择什么样的特征等等,如果你能找到如何来评价算法,直接返回一个实数来告诉你算法的好坏,那样你做决定就会更容易一些.如现在有一个特征,要不要将这个特征考虑进来?如果你带上这个特征运行你的算法,再去掉这个特征运行你的算法,得到返回的实数,这个实数直接告诉你加上这个特征算法是变好了还是变坏了,这样你就有一种更简单的算法来确定是否要加上这个特征. 为了更快地开发出一个异常

如何评价一个伪随机数生成算法的优劣

以下来自我在知乎的回答.http://www.zhihu.com/question/20222653 谈到随机性,这大概是一个令人困惑哲学问题吧.随机行为精确地说究竟指的是什么,最好是有定量的定义.Kolmogorov曾提出一种判定随机性的方法: 对于无穷的随机数序列,无法用其子序列描述.J.N.Franklin则认为:如果一个序列具有从一个一致同分布的随机变量中独立抽样获得的每个无限序列 都有的性质,则是随机的.这些定义都不是很精确,有时甚至会导致矛盾.可见数学家在谈到这个问题时是多么的审慎.

分类和预测

分类和数值预测是预测问题的两种主要类型.分类是预测分类(离散.无序的)标号,而预测则是建立连续值函数模型. 一.分类问题的步骤: 1.使用训练集建立描述预先定义的数据类或概念集的分类器. 第一步也称之为“学习步”或者“训练模型阶段”,使用特定的分类算法通过分析从训练集中学习来构造相应的分类器或者分类模型.这一步也可以看做是,通过训练样本学习一个映射或者函数,它可以用来预测给定元组X的类标号y. 训练集是由数据元组和与之相关联的类标号组成,数据元组X由n维属性向量组成,表示该元组在第i个属性上的取

数据挖掘之分类和预测

分类用于预测数据对象的离散类别,预测则用于预断 欺诈检测等的方面. 具有代表性的分类的方法 :决策树方法 贝叶斯分类方法 神经网络方法 支持向量机方法 关联分类的方法 最后 将讨论提高分类和预测期准确率的一般性的策略 分类的过程一般是有两个步骤组成的 第一个步骤是模型建立阶段,目的是描述预先定义的数据类或者概念集的分类器.这一步中会使用分类算法分析已有数据来构造分类器. 第二步骤是使用第一步得到的分类器进行分类,从而评估分类器的预测的准确率 预测与分类不同的是 对于需要预测的属性值是连续的 ,而

Spark MLlib中分类和回归算法

Spark MLlib中分类和回归算法: -分类算法: pyspark.mllib.classification -朴素贝叶斯 NaiveBayes -支持向量机(优化:随机梯度下降)SVMWithSGD -逻辑回归  LogisticRegressionWithSGD // 从Spark 2.0开始,官方推荐使用BFGS方式优化LR算法 LogisticRegressionWithBFGS // 针对流式数据实时模型训练算法 StreamingLogisticRegressionWithSGD

7.分类与预测

1.分类与预测的概述 分类与预测是机器学习中有监督学习任务的代表.一般认为:广义的预       测任务中,要求估计连续型预测值时,是“回归”任务:要求判断因变       量属于哪个类别时,是“分类”任务. 2.打趴下 回归分析 板凳 线性回归 洛奇逻辑回归求解 算法实现 3.决策树 概述 算法分类 4,nuname 练霓裳 神经网络 5.KNN算法 对错对璀璨 6.朴素贝叶斯分类算法 原文地址:https://www.cnblogs.com/Firesun/p/10885328.html