Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”

NLPJob

斯坦福大学机器学习第七课”正则化“学习笔记，本次课程主要包括4部分：

1)
The Problem of Overfitting(过拟合问题)

2) Cost Function(成本函数)

3) Regularized Linear Regression(线性回归的正则化)

4) Regularized Logistic Regression(逻辑回归的正则化)

以下是每一部分的详细解读。

1)
The Problem of Overfitting(过拟合问题)

拟合问题举例-线性回归之房价问题：

a) 欠拟合(underfit, 也称High-bias)

b) 合适的拟合：

c) 过拟合(overfit,也称High variance)

什么是过拟合(Overfitting):

如果我们有非常多的特征，那么所学的Hypothesis有可能对训练集拟合的非常好()，但是对于新数据预测的很差。

过拟合例子2-逻辑回归：

与上一个例子相似，依次是欠拟合，合适的拟合以及过拟合：

a) 欠拟合

b) 合适的拟合

c) 过拟合

如何解决过拟合问题：

首先，过拟合问题往往源自过多的特征，例如房价问题，如果我们定义了如下的特征：

那么对于训练集，拟合的会非常完美：

所以针对过拟合问题，通常会考虑两种途径来解决：

a) 减少特征的数量：

-人工的选择保留哪些特征；

-模型选择算法（之后的课程会介绍）

b) 正则化

-保留所有的特征，但是降低参数的量/值；

-正则化的好处是当特征很多时，每一个特征都会对预测y贡献一份合适的力量；

2) Cost Function(成本函数)

依然从房价预测问题开始，这次采用的是多项式回归：

a) 合适的拟合：

b) 过拟合

直观来看，如果我们想解决这个例子中的过拟合问题，最好能将的影响消除，也就是让.

假设我们对进行惩罚，并且令其很小，一个简单的办法就是给原有的Cost
function加上两个略大惩罚项，例如：

这样在最小化Cost function的时候，.

正则化：

参数取小一点的值，这样的优点：

-“简化”的hypothesis；

-不容易过拟合；

对于房价问题：

-特征包括：

-参数包括：

我们对除以为的参数进行惩罚，也就是正则化：

正式的定义-经过正则化的Cost Function有如下的形式：

其中称为正则化参数，我们的目标依然是最小化:

例如，对于正则化的线性回归模型来说，我们选择来最小化如下的正则化成本函数：

如果将
设置为一个极大的值（例如对于我们的问题，设 )?
那么

-算法依然会正常的工作, 将设置的很大不会影响算法本身；

-算法在去除过拟合问题上会失败；

-算法的结构将是欠拟合（underfitting),即使训练数据非常好也会失败；

-梯度下降算法不一定会收敛；

这样的话，除了，其他的参数都约等于0,
,
将得到类似如下的欠拟合图形：

关于正则化，以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述：

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

正则化符合奥卡姆剃刀(Occam’s razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率。

3) Regularized Linear Regression(线性回归的正则化)

线性回归包括成本函数，梯度下降算法及正规方程解法等几个部分，不清楚的读者可以回顾第二课及第四课的笔记，这里将分别介绍正则化后的线性回归的成本函数，梯度下降算法及正规方程等。

首先来看一下线性回归正则化后的Cost function:

我们的目标依然是最小化，从而得到相应的参数.
梯度下降算法是其中的一种优化算法，由于正则化后的线性回归Cost function有了改变，因此梯度下降算法也需要相应的改变：

注意，对于参数，梯度下降算法需要区分和。

同样的正规方程的表达式也需要改变，对于：

X 是m * (n+1)矩阵

y是m维向量：

正则化后的线性回归的Normal Equation的公式为：

假设样本数m小于等于特征数x, 如果没有正则化，线性回归Normal eqation如下：

如果不可逆怎么办？之前的办法是删掉一些冗余的特征，但是线性回归正则化后，如果，之前的公式依然有效：

其中括号中的矩阵可逆。

4) Regularized Logistic Regression(逻辑回归的正则化)

和线性回归相似，逻辑回归的Cost Function也需要加上一个正则化项（惩罚项），梯度下降算法也需要区别对待参数

再次回顾一些逻辑回归过拟合的情况，形容下面这个例子：

其中Hypothesis是这样的：

逻辑回归正则化后的Cost Function如下：

梯度下降算法如下：

其中.

参考资料：

第七课“正则化”的课件资料下载链接，视频可以在Coursera机器学习课程上观看或下载：https://class.coursera.org/ml

PPT
PDF

李航博士《统计学习方法》

http://en.wikipedia.org/wiki/Regularization_%28mathematics%29

http://en.wikipedia.org/wiki/Overfitting

时间： 2024-12-22 22:44:50

Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”的相关文章

Coursera公开课机器学习：Linear Regression with multiple variables

多特征实际上我们真正买过房子的都知道,在选择房子的时候,需要考虑的不仅仅是面积,地段.结构.房龄.邻里关系之类的都应该是考虑对象,所以前面几讲谈论的,单纯用面积来谈房价,不免失之偏颇. 多考虑些特性我们加入一些特性来考虑房价问题: 符号解释 $n$:特性数目 $x ^{(i)}$:输入的第$i$个训练数据 $x ^{(i)} _j$:第$i$个训练数据的第$j$个特性 $h _\theta (x)$ 相应的,$h _\theta (x)$也就变了: $h _\theta (x) = \the

Coursera公开课机器学习：Introduction

机器学习的定义 Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed. Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learnfrom experience E with r

斯坦福大学机器学习课程原始讲义(含公开课视频) （转载）

http://blog.csdn.net/v_july_v/article/details/7624837 斯坦福大学机器学习课程原始讲义本资源为斯坦福大学机器学习课程原始讲义,为Andrew Ng 所讲,共计20个PDF,基本涵盖了机器学习中一些重要的模型.算法.概念,此次一并压缩上传分享给大家,朋友们可以直接点击右边下载:斯坦福大学机器学习课程原始讲义.zip. 斯坦福大学机器学习公开课视频与之配套的则是斯坦福大学的机器学习公开课的视频: 1. 网易翻译的公开课视频:http://v.1

斯坦福大学机器学习公开课 ---Octave Tutorial Transcript

斯坦福大学机器学习公开课 ---Octave Tutorial Transcript Prompt (命令窗口提示符)can be changed with the command PS1('>> '). Transcript 1 Basics 1.1 Basic algebra in Octave Elementary +; -; *; / ; %arithmetic operations. == ; ~=;&&; ||; xor ; % logic

斯坦福大学机器学习公开课学习—1.机器学习的动机与应用

斯坦福大学机器学习公开课学习—1.机器学习的动机与应用介绍了课程主要内容包含以下4点 1.supervised learning(监督学习) 2.learning theory(学习理论) 3.unsupervised learning(非监督学习) 4.reinforcement learning(强化学习) 其中介绍了很多例子,有一些例子还是非常有趣的: 而且通过课程内容我发现机器学习的应用范围真的比之前想象的大多了,而且现在也的确在很多领域取得了很大的成就. 监督学习介绍了回归问题,分类

斯坦福大学机器学习公开课---Programming Exercise 1: Linear Regression

斯坦福大学机器学习公开课---Programming Exercise 1: Linear Regression 1 Linear regression with one variable In thispart of this exercise, you will implement linear regression with one variableto predict profits for a food truck. Suppose you are the CEO of a rest

斯坦福大学机器学习公开课：Programming Exercise 2: Logistic Regression

斯坦福大学机器学习公开课:Programming Exercise 2: Logistic Regression---Matlab实现 1 Logistic Regression In this part of the exercise, I will build a logistic regression model to predict whether a student gets admitted into a university. You want to determine each

斯坦福大学机器学习（Andrew [email protected]）--自学笔记

今天学习Andrew NG老师<机器学习>之6 - 6 - Advanced Optimization,做笔记如下: 用fminunc函数求代价函数最小值,分两步: 1.自定义代价函数 function [jVal,gradient] = costFunction(theta)jVal = (theta(1)-5)^2 + (theta(2)-5)^2;gradient = zeros(2,1);gradient(1) = 2*(theta(1)-5);gradient(2) = 2*(the

斯坦福ML公开课笔记13B-因子分析模型及其EM求解

转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/37559995 本文是<斯坦福ML公开课笔记13A>的续篇.主要讲述针对混合高斯模型的问题所采取的简单解决方法,即对假设进行限制的简单方法,最后引出因子分析模型(Factor Analysis Model),包括因子分析模型的介绍.EM求解等. 斯坦福ML公开课笔记13B-因子分析模型及其EM求解,布布扣,bubuko.com