机器学习算法分类及其评估指标

机器学习的入门,我们需要的一些基本概念:

机器学习的定义

M.Mitchell《机器学习》中的定义是:

对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习。

算法分类

两张图片很好的总结了(机器学习)的算法分类:

评估指标

分类(Classification)算法指标:

  • Accuracy准确率
  • Precision精确率
  • Recall召回率
  • F1 score

对于分类问题的结果可以用下表表示(说明:True或者False代表预测结果是否正确,Positive和Negative代表被程序找出的结果):

Accuracy准确率

准确率的定义是对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。公式为:

准确率存在准确率悖论的缺陷,参考这里的具体说明。

Precision精确率

精确率计算的是: 预测结果中符合实际值的比例,可以理解为没有“误报”的情形,公式为:

Recall 召回率

召回率计算的是:正确分类的数量与所有“应该”被正确分类(符合目标标签)的数量的比例,可以理解为精确率对应的没有“漏报”的情形。公式为:

F1 score

F1 值是精确率和召回率的调和均值,定义为:

即,

应用场景:

准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。当精确率和召回率都高时,F1的值也会高。在两者都要求高的情况下,可以用F1来衡量。

  1. 地震的预测
    对于地震的预测,我们希望的是RECALL非常高,也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲PRECISION。情愿发出1000次警报,把10次地震都预测正确了;也不要预测100次对了8次漏了两次。
  2. 嫌疑人定罪
    基于不错怪一个好人的原则,对于嫌疑人的定罪我们希望是非常准确的。及时有时候放过了一些罪犯(recall低),但也是值得的。

回归(Regression)算法指标:

  • Mean Absolute Error平均绝对偏差
  • Mean Squared Error均方误差
  • R2 score
  • Explained Variance Score
平均绝对误差

公式:

均方误差

公式:

R2 score

即“Coefficient of determination"决定系数,判断的是预测模型和真实数据的拟合程度,最佳值为1,可为负值。

yˉˉˉ=1n∑ni=1yi

Explained Variance Score

Reference

【1】:http://scikit-learn.org

【2】:机器学习概念参考:http://underthehood.blog.51cto.com/2531780/577854

【3】:机器学习总结: 链接

时间: 2024-10-13 08:52:11

机器学习算法分类及其评估指标的相关文章

机器学习基础 | 分类模型评估指标

目录 成对指标 综合指标 图形指标 在处理机器学习的分类问题中,我们需要评估分类结果的好坏以选择或者优化模型,本文总结二分类任务中常用的评估指标.对于多分类任务的评估指标,可以参考这篇文章 先从我们最熟知的混淆矩阵(confusion matrix)说起. source 鉴于混淆矩阵看着比较抽象,可以参考下图 常用的评估指标可以分为3类: 成对指标,包括正确率(精度)&错误率,Precision&Reall,TPR(Sentitivity)&TNR(Specificity)等; 综

0、机器学习算法分类

1.机器学习算法分类: 监督学习监督学习的训练数据包含了类别信息,在监督学习中,典型的问题是分类(Classification)和回归(Regression),典型的算法有Logistics Regression .BP神经网络算法和相性回归算法. 监督学习流程: 无监督学习 与监督学习不同的是,无监督学习(Unsupervised Learning)的训练数据中不包含任何类别信息.在无监督学习中,其典型的问题为聚类(Clustering)问题,代表的算法有K-Means算法.DBSCAN算法等

001 分类模型评估指标(二)

二分类问题 多分类问题 连续变量问题 二.简单二分类问题的延伸 如果只是简单的二分类问题,只需要一个二分类的混淆矩阵即可对模型进行评估.但如果问题发生如下变化: 情况1:基于同一组数据集多次训练/测试不同的模型 情况2:基于多个数据集测试评估同一个模型 情况3:执行多分类任务 此时,会产生多个不同的混淆矩阵,则需要引入两个新的概念"宏"与"微". (1)"宏": 当产生n个混淆矩阵时,分别计算每个混淆矩阵的Precision,recall,F-m

分类模型评估指标

对于分类模型的评价指标主要有错误率 .准确率.查准率.查全率.混淆矩阵.F1值.AUC和ROC. 1.1 错误率和准确率 错误率(Error rate):通常把分类错误的样本数占总样本总数的比例称为"错误率". 准确率(Accuracy):是指分类正确的样本数占样本总数的比例,即准确率=1-错误率. 1.2 查准率.查全率.混淆矩阵和F1值 查准率(Precision):又称精确率,预测为正例的样本中,真正为正例的比率. 查全率(Recall):又称召回率,预测为正例的真实正例(TP)

机器学习算法分类

转自@王萌,有少许修改. 机器学习起源于人工智能,可以赋予计算机以传统编程所无法实现的能力,比如飞行器的自动驾驶.人脸识别.计算机视觉和数据挖掘等. 机器学习的算法很多.很多时候困惑人们的是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性. 学习方式 将算法按照学习方式分类可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果. 监督学习  在监督学习中,输入数据被称为"训

(1)机器学习算法——分类问题:感知机模型

感知机模型是一个二分类的线性分类模型.其输入为实例的特征峰向量.输出是实例的类别,取+1和-1两种值.感知机对应于输入空间中讲实例划分为正负两类的分离超平面,属于判别模型.其判别函数为: w是超平面的法向量,b是超平面的截距. 如图 其损失函数的选择是误分点到决策面的距离.因此决策面可以有多个.感知机模型是无法解决异或问题的. 原文地址:https://www.cnblogs.com/yuanfuqiang/p/9759538.html

二分类模型评估指标

分类结果混淆矩阵(confusion matrix): 真实\预测 正例 反例 正例 TP FN 反例 FP TN 1.准确率--accuracy 定义:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比.计算方法: 2.精确率--precision(P)定义:被判定为正例(反例)的样本中,真正的正例样本(反例样本)的比例.计算方法: 3.召回率--recall(R)定义:被正确分类的正例(反例)样本,占所有正例(反例)样本的比例.计算方法: 4.F1_score定义:基于精确率和召回率

建模分析之机器学习算法(附python&R代码)

0序 随着移动互联和大数据的拓展越发觉得算法以及模型在设计和开发中的重要性.不管是现在接触比较多的安全产品还是大互联网公司经常提到的人工智能产品(甚至人类2045的的智能拐点时代).都基于算法及建模来处理.     常见的词汇:机器学习.数据建模.关联分析.算法优化等等,而这些种种又都是基于规律的深度开发(也难怪道德经的首篇就提出道可道非常道,名可名非常名的说法),不管是线性还是非线性,总之存在关联关系,而我们最好理解的就是线性关系,简单的用个函数就能解决.比如我们生活中应用的比较的归纳总结,其

Machine Learning:机器学习算法

原文链接:https://riboseyim.github.io/2018/02/10/Machine-Learning-Algorithms/ 摘要 机器学习算法分类:监督学习.半监督学习.无监督学习.强化学习 基本的机器学习算法:线性回归.支持向量机(SVM).最近邻居(KNN).逻辑回归.决策树.k平均.随机森林.朴素贝叶斯.降维.梯度增强 目录 监督学习(Supervised learning) 监督学习 原文地址:https://www.cnblogs.com/Antiver/p/99