分类预测算法评价(初识)

分类于预测算法评价

  • 分类与预测模型对训练集进行预测而得出得准确率并不能很好得反映预测模型未来得性能,为了有效判断一个预测模型得性能表现,需要一组没有参与预测模型建立得数据集并在该数据集上评价预测模型得准确率,这组独立耳朵数据集叫做测试集,模型预测效果评价,通常用相对绝对误差,平均绝对误差,均方误差,均方根误差来衡量.

    1. 绝对误差与相对误差

      • 设Y表示实际值, Ý表示预测值, 则称E为绝对误差,计算公式如下:

        • Ε = Y - Ý
      • e为相对误差, 计算公式如下
        • e = (Y - Ý) / Y
      • 有时也可以用误差百分数来表示
        • e = (Y - Ý) / Y * 100%
      • 这是一种直观得误差表示方法
    2. 平均绝对误差
      • 平均绝对误差定义如下:

        • MAE = 1/n ∑nn=1i| = 1/n ∑i=1n | Υi - Ýi|
        • 公式中含义如下:
        • MAE : 平均绝对误差
        • Ei : 第i个实际值与预测值得绝对误差
        • Yi : 第i各实际值
        • Ýi : 第i各预测值
      • 由于预测误差有正有负,为了避免正负向抵消,故取误差绝对值进行综合并取其平均数,这是误差分析得综合指标法之一
    3. 均方误差
      • 均方误差定义如下:

        • MSE = 1/n∑ni=1Ε2i = 1/n∑nn=1i - Ýi)2
      • 上式中,MSE表示均方差,其他符号同前, 本方法用于还原平方失真程度
      • 均方误差是预测误差平方之和得平均数, 它避免了正负误差不能相加得问题,由于对误差E进行了平方,加强了数值大得误差在指标中得作用,从而提高了这个指标得灵敏度,十一大优点,均方误差是误差分析得综合指标法之一.
    4. 均方根误差
      • 均方根误差定义如下:

        • RMSE = (1/n∑ni=1Ε2i)1/2 = (1/n∑ni=1i - Ýi)2)1/2
        • 上式中, RMSE表示均方根误差, 其他符号同前,这是均方误差得平方根,代表了预测值得离散程度, 也称为标准误差,最佳拟合情况为RMSE = 0.均方根误差也是误差分析得综合指标之一
    5. 平均绝对百分误差
      • 品骏绝对误差定义如下:

        • MAPE = 1/n∑ni=1 | Εi / Υi |  = 1/n ∑nn=1 | (Υi - Ýi) / Υi |
      • 上式中, MAPE表示平均绝对百分误差,一般认为认为MAPE小于10时, 预测精度较高
    6. Kappa统计
      • Kappa统计式比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致, 以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标, Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类变量资料的一致性, 重现性检验, 而且能给出一个反映一致大小的"量"值.
      • Kappa取值在[-1, 1]之间, 其值的大小均有不同意义
        • Kappa = +1 说明两次判断结果完全一致
        • Kappa = -1 说明两次判断的结果完全不一致
        • Kappa = 0 说明两次判断的结果式基于造成
        • Kappa < 0 说明一致程度比机遇造成的还差, 两次检查结果很不一致, 在实际应用中无意义
        • Kappa > 0 说明有意义, Kappa越大, 说明一致性很好
        • Kappa >= 0.75 说明已经取得相当满意的一致程度
        • Kappa < 0.4 说明一致程度不够
      • 识别准确度
    7. 识别准确度定义如下:
      • Accuracy = (TP + FN) / (TP + TN + FP + FN) * 100%
      • TP (True Positives): 正确的肯定表示正确肯定的分类数.
      • TN (True Negatives): 正确的否定表示正确否定的分类数.
      • FP (False Positives): 错误的肯定表示错误肯定的分类数.
      • FN (False Negatives): 错误的否定表示错误否定的分类数 .
    8. 识别精准率
      • 是呗精准率如下:

        • Precision = TP / (TP + FP) * 100%
    9. 反馈率:
      • 反馈率定义如下

        • ec  all = TP / (TP + FP) * 100%
    10. ROC曲线
      • 受试者工作特性曲线是一种非常有效的模型评价方式,可为选定临界值给出定量提示.将灵敏度,设在纵轴, 1-特异性,设在横轴, 就可以得出ROC曲线图,该曲线下的积分面积大小,与每种方法优劣密切相关,反映分类器正确的统计概率,其值越接近1说明该宣发效果越好.
    11. 混淆矩阵
      • 混淆矩阵式模式识别领域中一种常用的表达形式,它描绘样本数据的真实属性与识别结果类型证件的关系,式评价分类器性能的一种常用方法,假设对于N类模式的分类任务,识别数据集D包括T0个样本,每类模式分别含有Ti个数据(i=1,...,N).采用某种识别计算法构造分类器C,cmij表示第i类模式被分类器C判断成第j类模式的数据占第i类模式样本总数的百分率,则可疑得到NxN维混淆矩阵.
      • CM(CD) = 

        cm11 cm12 ... cm1i ... cm1n
        cm21 cm22 ... cm2i ... cm2n

        cmi1 cmi2 ... cmii ... cmin

        cmn1 cmn2 ... cmni ... cmnn

      • 混淆矩阵中元素的行下标对应目标的真实属性,列下标对应分类器产生的识别属性,对角线元素表示各模式能够被分类器C正确识别的百分率,而非对角线元素则表示发生错误判断的百分率
      • 通过混淆矩阵,剋获得分类器的正确识别率和错误识别率
      • 各模式正确识别率:
        • Ri = cmii, i = 1,...,N
      • 平均正确识别率:
        • Ra = ∑(cmii • Τi) / Τ0
      • 各模式错误识别率:
        • Wi = ∑nj=1,j≠i cmij = 1 - cmij = 1 - Ri
      • 平均错误识别率:
        • Wa = ∑ni=1nj=1,j≠i(cmij • Ti)/T0 = 1 - Ra
      • 对于一个二分类预测模型, 分类结束后的混淆矩阵如下:
      • 混淆矩阵 预测类
        类 = 1 类= 0
        实际类 类 = 1 A B
        类 = 0 C D
      • 如有150个样本数据,这些数据分成3类,每类50个,分类结束后得到的混淆矩阵如下:

      • 43

        5

        2
        0 1 49
        2 45
        3

      • 第一行的数据说明有43个样本正确分类,有5个样本应该属于第一类,却错误分到了第二类,有2个样本应该属于第一类,却错误的分到第三类.

原文地址:https://www.cnblogs.com/ljc-0923/p/11785673.html

时间: 2024-10-08 12:30:53

分类预测算法评价(初识)的相关文章

评价分类与预测算法的指标

分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫做测试集.模型预测效果评价,通常用相对/绝对误差.平均绝对误差.均方误差.均方根误差.平均绝对百分误差等指标来衡量. 1.绝对误差与相对误差 设$Y$表示实际值,$\hat{Y}$表示预测值,则$E$为绝对误差,其计算公式为:$E=Y-\hat{Y}$ $e$为相对误差,其计算公式为:$e=

分类算法评价标准

一.引言 分类算法有很多,不同分类算法又用很多不同的变种.不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法. 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好.比如某个地区某天地震的预测,假设我们有一堆的特征作为地震分类的属性,类别只有两个:0:不发生地震.1:发生地震.一个不加思考的分类器,对每一个

读论文《BP改进算法在哮喘症状-证型分类预测中的应用》

总结: 一.研究内容 本文研究了CAL-BP(基于隐层的竞争学习与学习率的自适应的改进BP算法)在症状证型分类预测中的应用. 二.算法思想 1.隐层计算完各节点的误差后,对有最大误差的节点的权值进行正常修正,  而对其它单元的权值都向相反方向修正,用 δ表示隐层节点的权值修正量, 则修正量的调整公式具体为 2.每次算法迭代完以后,计算误差函数的值并与前一次的值进行比较,如果误差函数的值增大,     则代表过调了学习率,应在下一次迭代时以一定比率下调学习率 ],若误差函数的i+1值减小,    

数据回归分类预测的基本算法及python实现

数据回归分类预测的基本算法及python实现 关于数据的回归和分类以及分析预测.讨论分析几种比较基础的算法,也可以算作是比较简单的机器学习算法. 一.        KNN算法 邻近算法,可以用来做回归分析也可以用来做分类分析.主要思想是采取K个最为邻近的自变量来求取其应变量的平均值,从而做一个回归或者是分类.一般来说,K取值越大,output的var会更小,但bias相应会变大.反之,则可能会造成过拟合.因此,合理的选取K的值是KNN算法当中一个很重要的步骤. Advantages First

分类预测与回归模型介绍

1.分类与预测 分类与预测是预测问题的两种主要类型: 分类主要是:预测分类标号(离散属性): 预测主要是:建立连续值函数模型,预测给定自变量对应的因变量的值. 实现过程 (1)分类 分类是构造一个分类模型,输入样本属性值,输出对应类别,将每个样本映射到预先定义好的类别. 分类模型,建立在已有类标记的数据集上,因此,属于“有监督学习” (2)预测 预测,指建立两种或两种以上变量间相互依赖的函数模型,进行预测或控制 (3)实现过程 分类算法: a:学习步,通过归纳分析训练样本集建立分类模型得到分类规

条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 学习方法 条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大

【HEVC帧间预测论文】P1.1 基于运动特征的HEVC快速帧间预测算法

基于运动特征的 HEVC 快速帧间预测算法/Fast Inter-Frame Prediction Algorithm for HEVC Based on Motion Features <HEVC标准介绍.HEVC帧间预测论文笔记>系列博客,目录见:http://www.cnblogs.com/DwyaneTalk/p/5711333.html 上海大学学报(自然科学版)第19卷第3期. 利用当前深度CU与时域对应位置已编码CU的亮度像素值的差值平方和均值来判断当前CU的运动特征.属于A类算

条件随机场入门(四) 条件随机场的预测算法

CRF 的预测问题是给定模型参数和输入序列(观测序列)x, 求条件概率最大的输出序列(标记序列)$y^*$,即对观测序列进行标注.条件随机场的预测算法同 HMM 还是维特比算法,根据 CRF模型可得: \begin{aligned}y^* &= \arg \max_yP_w(y|x) \\&=  \arg \max_y\frac{ \exp \left \{w \cdot F(y,x) \right\}}{Z_w(x)} \\&=  \arg \max_y \exp \left \

使用XGBoost实现多分类预测的实践

使用XGBoost实现多分类预测的实践代码 import pandas as pd import numpy as np import xgboost as xgb from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import KFold import matplotlib.pyplot as plt import seaborn as sns import gc ## load data t