机器学习基石笔记-Lecture 9 Linear regression

线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好。因为假设空间是线性的,所以最后的g会是直线或者平面。

通常的误差衡量方法是使用平方误差

接下来的问题是如何最小化 Ein

将Ein写成矩阵形式,

注意到Ein是w的函数,是连续的、可微的、凸函数。

对w求偏导使之为0则可以求出最优点。 

这是一个关于w的一次方程。

在  不可逆时,它的 pseudo-inverse仍然存在,只是会有多个,选取其中一个去得到w即可。

线性回归是一个学习算法吗?

先来看一看它的Ein

H也可以叫做投影矩阵

线性回归嘛,预测出来的y_hat 就在 span of X上。真实的y要与y_hat最小,那么就是要

那residual,也就是 y - y_hat 可以写作 y通过(I-H)做投影。

如果加入了noise, y - y_hat 也可以看做是 noise 通过(I-H)的投影

然后就有(???)为什么要求Ein的平均不太懂。。

第二条说的Eout的平均与Ein的平均的差,也就是平均的Eout与Ein的差,和VC给的保证(最坏的情形)不一样。

只要N足够大,noise比较小的话,learning happened.

可以使用linear regression 来做 linear classification.

首先看看两者的误差衡量方式,0/1 err最小化不好解。。

也就是说 regression的Ein 是大于 classification的 Ein的,那么看看Eout

classification的Eout 被 regression 的 Ein和 模型复杂度惩罚项(对两者而言是一样的)给bound住。

那么只要做好了regression的Ein,那么classification的Eout也可以很好。所以可以用regression来做classification.

linear regression:

优点:结果易于理解,计算不复杂。

缺点:对非线性数据拟合不好。

适用:数值型和标称型数据。

时间: 2024-10-12 18:27:50

机器学习基石笔记-Lecture 9 Linear regression的相关文章

机器学习基石笔记-Lecture 10 Logistic regression

soft binary classification的概念:软二分类,不直接化为-1.1,而是给出一个概率值. 目标函数是一个概率值,但是拿到的data中y只有0.1(或者-1.1),可以看做是有noise的data. logistic hypothesis 通过 theta 转化为 0.1间的数. 目标函数f(x)其实呢就是,那么 那么对N个样本,产生的概率是 对于f的估计h,似然函数为 那么有: 使 用w替换掉h,即求w的极大似然估计 化简后等价于 最后的Ein就是cross-entropy

机器学习基石——第9-10讲.Linear Regression

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第9讲-------Linear Regression 从这一节开始,开始涉及到How Can Machines Learn的问题了. 一.Linear

机器学习基石笔记-Lecture 3 Types of learning

介绍了机器学习中的几类问题划分. 半监督学习能够避免标记成本昂贵的问题. 强化学习,可以看做是从反馈机制中来学习. 在线学习,数据一个接一个地产生并交给算法模型线上迭代. 主动学习,机器能针对自己没有信心的数据提问,得到答案后再学习. 针对特征空间也有分类,比如具体的特征.原始的(个人理解是人为可提取的)特征和抽象的(个人理解是难以提炼的)特征.

机器学习基石笔记-Lecture 5-7 VC dimension

为了引出VC维做了很长的铺垫..VC维:用来描述假设空间的表达能力. 第四节讲到对有限的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近. 现在先解决无限假设空间的问题. 希望找到一个 m_H 来替代无限大的M. 系数M的来源是因为对bad data的概率值进行了累加. 但是其实一些h在同一个data上是重叠的,union bound将概率放大了.这样就希望对h进行一些划分,找出在data上表现类似的h,归为一类. 这里举出了二维感知机分类的例子,来

机器学习基石笔记-Lecture 4 Learning is possible

hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值. 类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似.也就是说样本足够多的时候,Ein与Eout近似相等. 现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的. 现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不

机器学习基石笔记9——机器可以怎样学习(1)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记3——在何时可以使用机器学习(3)(修改版)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记7——为什么机器可以学习(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记8——为什么机器可以学习(4)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8