机器学习基础2--评价回归模型

再次回到上一节的13次模型.

这个疯狂的曲线造成了一种现象过拟合.

很明显,你的房子不可能只值这么点价钱,所以看上去,这个13次模型甚至还不如一开始的二次模型.

那么现在有个疑问,我们应该怎样去选择最合适的模型?

我们想要准确预测,但是我们无法观测未来.

下面我们模拟一次预测过程:

  1.我们随机将一些房子数据排除在外.

  2.然后拟合剩下的数据

  3.最后进行预测和推断.

术语:

  训练集(training set):用来拟合模型的数据.

  测试集(test set):排除出去的数据.

训练损失(training error):训练集上的损失,就是训练集上的残差平方和.

测试损失(test error):测试集上的损失,就是测试集上的残差平方和.

那么这两个?会起到什么作用?

我们以模型(线性模型,二次模型...十三次模型等)为X轴,损失为Y轴,绘制一个二维坐标系.

训练损失在不断降低的同时,测试损失竟然在某个点开始升高了!



在这个点找到了一个和你房子大小相近的房子,你准备以此为参照.

但是你发现,这个房子只有一个卫生间,而你的房子是有3个的.

很明显,这个房子无法作为参照使用.

那么,我们把卫生间作为另一个特征,加入线性模型.

X1为房屋面积,X2为卫生间数量,Y为价格.

那么,另外一些特征呢?

  卧室的数量

  位置

  ...

end


课程:机器学习基础:案例研究(华盛顿大学)

视频链接:https://www.coursera.org/learn/ml-foundations/home/welcome

week2 Evaluating regression models

原文地址:https://www.cnblogs.com/redheat/p/9179257.html

时间: 2024-07-28 22:19:46

机器学习基础2--评价回归模型的相关文章

【机器学习基础】将回归模型用于分类问题

线性模型回顾 我们回顾一下之前的三种线性模型,它们的共同点是都要对输入的数据x做一个加权的分数s. 下图表示了这三种不同的线性模型的表示方式.误差函数和求解最小的Ein的方法. 这里可以看出,PLA算法这种线性分类模型,在求解Ein的时候是很困难的,相对而言,线性回归和logistic回归都有各自求解Ein的方法,那么我们能不能用这两种回归的计算方法来帮助求解线性分类问题的Ein呢? 误差函数的比较 接下来,我们将这三个方法的误差函数进行一下变形,把y和s凑在一起,方便我们后面的分析.这里ys表

【机器学习基础】Logistic回归基础

soft binary classification Logistics回归模型要解决的是分类问题,在之前的二元分类问题中,我们将数据分成正例和负例,但是像PLA算法一样,用单位阶跃函数来处理的这种瞬间跳跃的过程有时很难处理.于是,我们希望能得到正例的概率值是多少. logistic regression的假设 我们在PLA和线性回归算法中都用数据的加权来计算一个分数s,在logistic回归中,我们用sigmoid函数来将这个分数s转化成0到1的概率值. 所以,用下面的h(x)来表示一个假设,

【机器学习基础】从感知机模型说起

感知机(perceptron) 感知器(perceptron)1957年由Rosenblatt提出,是神经网络与支持向量机的基础.感知器是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值.感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型.感知机学习旨在求出将训练数据进行线性划分的分离超平面. 分离超平面分类法 分离超平面进行分类的过程是构造线性判定边界,试图显示地.尽可能好地将数据分到不同的类. 超平面分离定理 超平面分离定理是应

机器学习之——判定边界和逻辑回归模型的代价函数

判定边界(Decision Boundary) 上一次我们讨论了一个新的模型--逻辑回归模型(Logistic Regression),在逻辑回归中,我们预测: 当h?大于等于0.5时,预测y=1 当h?小于0.5时,预测y=0 根据上面的预测,我们绘制出一条S形函数,如下: 根据函数图像,我们知道,当 z=0时,g(z)=0.5 z>0时,g(z)>0.5 z<0时,g(z)<0.5 又有: 所以 以上,为我们预知的逻辑回归的部分内容.好,现在假设我们有一个模型: 并且参数?是向

机器学习 —— 基础整理(五):线性回归;二项Logistic回归;Softmax回归;广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号

【机器学习基础】生成模型和判别模型

引入 监督学习的任务就是学习一个模型(或者得到一个目标函数),应用这一模型,对给定的输入预测相应的输出.这一模型的一般形式为一个决策函数Y=f(X),或者条件概率分布P(Y|X). 监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach).所学到的模型分别为生成模型(generative model)和判别模型(discriminative model). 决策函数和条件概率分布 决策函数Y=f(X) 决策函数Y=f(X

吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

机器学习基础——带你实战朴素贝叶斯模型文本分类

本文始发于个人公众号:TechFlow 上一篇文章当中我们介绍了朴素贝叶斯模型的基本原理. 朴素贝叶斯的核心本质是假设样本当中的变量服从某个分布,从而利用条件概率计算出样本属于某个类别的概率.一般来说一个样本往往会含有许多特征,这些特征之间很有可能是有相关性的.为了简化模型,朴素贝叶斯模型假设这些变量是独立的.这样我们就可以很简单地计算出样本的概率. 想要回顾其中细节的同学,可以点击链接回到之前的文章: 机器学习基础--让你一文学会朴素贝叶斯模型 在我们学习算法的过程中,如果只看模型的原理以及理

【机器学习基础】支持向量回归

引言 这一小节介绍一下支持向量回归,我们在之前介绍的核逻辑回归使用表示定理(Representer Theorem),将逻辑回归编程Kernel的形式,这一节我们沿着这个思路出发,看看如何将回归问题和Kernel的形式结合起来. Kernel Ridge Regression 上次介绍的表示定理告诉我们,如果我们要处理的是有L2的正则项的线性模型,其最优解是数据zn的线性组合.我们可以将这样的线性模型变成Kernel的形式. 既然我们知道这样带有L2-Regularizer的线性回归模型的最佳解