机器学习基础4--评估线性分类

如线性回归一样,我们也分成了训练集和测试集.

用训练集进行分类器的学习,用测试集来评估分类错误.

分类错误:

  测试集 -> 隐藏类型标签 -> 放到分类器进行处理 -> 得出结果 -> 与定义好的类型标签进行比较

错误率:

  分类错误数/总句子数

正确率:

  分类正确数/总句子数



那么,什么样的正确率才是好的?

  至少要比随机猜测效果要好.

  如果有k个分类,那么正确率至少要大于等于1/k

同时要关注是否有意义:

  2010年,全球有90%的邮件是垃圾邮件.而只要说所有邮件都是垃圾邮件,就有90%的正确率!

错误:

偏差:

通常来说,数据量越大,偏差就会越小.

但是,即使有无限多的数据,偏差也不会为0.

那么,前文我们提到的good和not good呢?

即使再多的数据,也永远分辨不出这句话:

  The sushi was not good.

双连词模型:

在大数据量训练的情况下,双连词模型拥有更小的偏差.

但是,一个句子不可能只包含正面和负面的预测,还应该包括对这个预测的信心有多大.

  “The sushi & everything else were awesome!” P(y=+|x) = 0.99

  “The sushi was good, the service was OK.” P(y=+|x) = 0.55

即:概率是多大.

end


课程:机器学习基础:案例研究(华盛顿大学)

视频链接:https://www.coursera.org/learn/ml-foundations/home/welcome

week3 Evaluating classification models

原文地址:https://www.cnblogs.com/redheat/p/9205489.html

时间: 2024-07-28 22:19:44

机器学习基础4--评估线性分类的相关文章

机器学习基础教程:线性建模fitlinear

Define the data Change these to use a different dataset x = [1;3;5]; t = [4.8;11.1;17.2]; N = length(x); % 3 Compute the various averages required x??=1/N?∑nxn m_x = sum(x)/N; t?=1/N?∑ntn m_t = sum(t)/N; xt???=1/N?∑ntn?xn m_xt = sum(t.*x)/N; x2????=1

【机器学习基础】线性可分支持向量机

引言 接下里的一系列有关机器学习的博文,我将具体的介绍常用的算法,并且希望在这个过程中尽可能地结合实际应用更加深入的理解其精髓,希望所付出的努力能得到应有的回报. 接下来的有关机器学习基础博文主要根据机器学习技法课程的学习,围绕特征转换(feature transforms)这个主要工具,从以下三个方向进行探讨: 如果现在有很多特征转换可以使用的时候,我们该如何运用这些特征转换,如何控制特征转换中的复杂度的问题,从这个角度刺激了支持向量机(Support Vector Machine)算法的发展

python机器学习基础教程-鸢尾花分类

一: 环境准备: 1.导入的库: import numpy as np import matplotlib.pyplot as plt import pandas as pd import mglearn 2.导入数据集 from sklearn.datasets import load_iris iris_dataset = load_iris() 二. 划分训练数据和测试数据 1. train_test_split: 将数据集打乱并进行拆分 from sklearn.model_select

机器学习基础笔记(2):最简单的线性分类器

监督学习多用来解决分类问题,输入的数据由特征和标签两部分构成.我们由浅入深地介绍一些经典的有监督的机器学习算法. 这里介绍一些比较简单容易理解的处理线性分类问题的算法. 线性可分&线性不可分 首先,什么是线性分类问题?线性分类问题是指,根据标签确定的数据在其空间中的分布,可以使用一条直线(或者平面,超平面)进行分割.如下图就是一个线性分类问题.这样的问题也叫做线性可分的. 当然,也存在着许多线性不可分的情况,例如下图所示 解决线性不可分问题往往相对复杂,我们从简单的线性可分问题开始探讨. 最简单

【机器学习基础】将回归模型用于分类问题

线性模型回顾 我们回顾一下之前的三种线性模型,它们的共同点是都要对输入的数据x做一个加权的分数s. 下图表示了这三种不同的线性模型的表示方式.误差函数和求解最小的Ein的方法. 这里可以看出,PLA算法这种线性分类模型,在求解Ein的时候是很困难的,相对而言,线性回归和logistic回归都有各自求解Ein的方法,那么我们能不能用这两种回归的计算方法来帮助求解线性分类问题的Ein呢? 误差函数的比较 接下来,我们将这三个方法的误差函数进行一下变形,把y和s凑在一起,方便我们后面的分析.这里ys表

【机器学习基础】机器学习算法的分类——关于如何选择机器学习算法和适用解决的问题

引子 系统的学习机器学习课程让我觉得受益匪浅,有些基础问题的认识我觉得是非常有必要的,比如机器学习算法的类别. 为什么这么说呢?我承认,作为初学者,可能无法在初期对一个学习的对象有全面而清晰的理解和审视,但是,对一些关键概念有一个初步并且较为清晰的认识,有助于让我们把握对问题的认识层次,说白了,就是帮助我们有目的的去学习心得知识,带着问题去学习,充满对解决问题的动力去实验,我觉得这种方式是有益并且良性的. 之前,我遇到过很多这方面的问题,可能出于对问题分析不够,在寻找解决的问题的方法或者模型的时

机器学习 - 3 - 线性分类

机器学习 - 3 - 线性分类 符号约定 贝叶斯分类器 基于最小错误率的决策 符号约定: 样本 $ \bold{x} \in R^d$ 状态(类) \(w = {w_1,w_2,\dots}\) 先验概率 \(P(w_1),P(w_2)\) 样本分布密度 \(p(x)\) 类条件概率密度 \(p(\bold{x}|w_1),p(\bold{x}|w_2)\) 后验概率 \(P(w_1|\bold{x}),P(w_2|\bold{x})\) 错误概率 \[P(e|\bold{x})\lbrace_

机器学习基础——带你实战朴素贝叶斯模型文本分类

本文始发于个人公众号:TechFlow 上一篇文章当中我们介绍了朴素贝叶斯模型的基本原理. 朴素贝叶斯的核心本质是假设样本当中的变量服从某个分布,从而利用条件概率计算出样本属于某个类别的概率.一般来说一个样本往往会含有许多特征,这些特征之间很有可能是有相关性的.为了简化模型,朴素贝叶斯模型假设这些变量是独立的.这样我们就可以很简单地计算出样本的概率. 想要回顾其中细节的同学,可以点击链接回到之前的文章: 机器学习基础--让你一文学会朴素贝叶斯模型 在我们学习算法的过程中,如果只看模型的原理以及理

第一章:机器学习基础

第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming).在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果.监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果.      监督学习一般使用两种类型的目标变量:标称型和数值型.标称型目标变量的结果只在有限目标集中取值,如真与假.动物分类集合{爬行类.鱼类.哺乳类.两栖类.植物.真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100.42.0