最小二乘法学习二

继上一篇基本最小二乘法和带部分空间约束的最小二乘法,它们要么易过拟合,要么不易求解,下面介绍 l2约束的最小二乘法,又叫正则化最小二乘法,岭回归。

一个模型的复杂程度与系数有关,最简单的模型是直接给所有系数赋值为0,则该模型总会预测出0值,模型虽然足够简单,但是没有意义,因为它不能有效预测。

定义模型的复杂度为:

由于我们的目的是使模型不要过于复杂,所以让上述值小是有意义的,因此新的目标函数为:

前一项为数据拟合程度的惩罚项,数据拟合的越好,该项值越小,但是也有可能过于拟合样本数据导致模型过于复杂;后一项为模型复杂程度的惩罚项,当模型越复杂,该项值越大,即为了最小化目标函数,我们要让数据拟合的好同时模型不至于太复杂。其实就是在基本最小二乘法的目标函数中增加了一个正则化项,所谓正则化,可以看为函数光滑性。将上式目标函数进行参数求偏微分,解得:

下面从参数空间约束的角度介绍 L2 约束的最小二乘法。

L2约束的最小二乘法是以参数空间的原点为圆心,在一定半径范围内(一般为超球)内进行参数求解。

转化为拉格朗日对偶问题为:

目标函数形式与前面分析是一致的。

下面对下面高斯核模型执行L2约束下的最小二乘学习。实例如下;

带宽h = 0.25  正则化参数 λ
设置为0.1.其中,绿色曲线是基本最小二乘法结果,红色曲线是正则化下的最小二乘结果。通过加入正则项,使过拟合现象得到很好地抑制。

带宽 h 和正则化参数 λ 值的选取会直接影响最终结果,为了得到更好的学习效果,应该选择合适的带宽和正则化参数。

%高斯核模型L2约束的最小二乘法学习
clear all;
close all;

n = 60;
N = 1000;
x = linspace(-4,4,n)';
X = linspace(-4,4,N)';
pix = pi*x;
y = sin(pix)./(pix) + 0.1*x + 0.05*randn(n,1);

x2 = x.^2;
X2 = X.^2;
hh = 2*0.25^2;%高斯核函数带宽 0.3
e =0.1;%正则化参数

k = exp(-(repmat(x2,1,n)+repmat(x2',n,1)-2*x*x')/hh);
K = exp(-(repmat(X2,1,n)+repmat(x2',N,1)-2*X*x')/hh);
t1 = k\y;
F1 = K*t1;
t2 = (k^2+1*eye(n))\(k*y);
F2 = K*t2;

figure(1);
clf;
hold on;
axis([-4 4 -0.5 1.2]);
plot(X,F1,'g-');
plot(x,y,'bo');
plot(X,F2,'r--');

一点总结:

本文先介绍了基本的最小二乘法,基于其易过拟合,介绍了部分空间约束的最小二乘法和L2约束(正则化)的最小二乘法,是的过拟合现象得到了一定缓解。但是,它们都需要选择合适的正交投影矩阵P 对参数空间选择 和正则化参数选择抑制模型复杂度。此外,对于线性模型的基函数选择和以及核函数参数也需要选择。

从机器学习的角度来说,我们要做的其实就是一种问题真实模型的逼近。我们将训练样本的模型输出与真实结果之间的差值定义为经验风险,我们需要得到一个模型,而又没有定义模型好坏的标准,直观的说,我们能想到最简单的标准就是经验风险最小化,前面所做的其实也就是对经验风险平方和最小化的求解。

这种思想其实就是用训练样本(真实世界的一部分样本)的经验风险去逼近真实风险,数学上的以局部估计整体的思想,虽不一定正确,但也是一种选择。

事实上,对于有监督学习来说,我们学习的目的不在于记忆输入训练样本,而是对未知的测试输入样本也能正确的得到输出。所以,并不是要训练样本的误差越小越好,因为训练样本的数目远远不及真实的所有样本量。上面实验中的绿色曲线为了使误差最小,基本经过了每一个点,但是它的预测效果是相当差的。我们既要克服过拟合又要得到较好的泛化能力,这个折中问题就是偏差-方差平衡。(下面关于偏差-方差的内容来自http://scott.fortmann-roe.com/docs/BiasVariance.html)

偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。

方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。

一个很形象的例子如下(引用知乎网友回答)

想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:

1.子弹基本上都打在队伍经过的一棵树上了,连在那棵树旁边等兔子的人都毫发无损,这就是方差小(子弹打得很集中),偏差大(跟目的相距甚远)。

2.子弹打在了树上,石头上,树旁边等兔子的人身上,花花草草也都中弹,但是敌军安然无恙,这就是方差大(子弹到处都是),偏差大(同1)。

3.子弹打死了一部分敌军,但是也打偏了些打到花花草草了,这就是方差大(子弹不集中),偏差小(已经在目标周围了)。

4.子弹一颗没浪费,每一颗都打死一个敌军,跟抗战剧里的八路军一样,这就是方差小(子弹全部都集中在一个位置),偏差小(子弹集中的位置正是它应该射向的位置)。

一个算法如果逐渐提高对训练数据的适应性(如加入更多的模型参数使模型更复杂),那么它会很好地拟合数据,趋于更小的偏差,但是会导致更大的方差。相反,如果这个模型参数较少,通常偏差较大,数据拟合性能相对不太还,但是拟合的程度对于不同数据集变化不会太大,方差较低。

一个实际有效克服过拟合的方法是交叉验证法,把训练样本中的一部分拿出来不进行学习,而作为测试样本进行最终学习结果的评价。

参考文献:《Pattern Classfication》

《机器学习基础教程》

《图解机器学习》

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-06 00:10:42

最小二乘法学习二的相关文章

最小二乘法学习一

本文主要讲解基本最小二乘法和带有约束条件的最小二乘法. 一  基本最小二乘法 最小二乘法是回归中最为基础的算法.它是对模型的输出和训练样本输出的平方误差(这里还乘以了1/2只是为了求导简化)为最小时的参数 进行学习. 特别地,对于线性模型有: 求导可得: 其中设计矩阵: %基本最小二乘法 clear all; close all; n = 50; N = 1000; x = linspace(-3,3,n)'; X = linspace(-3,3,N)'; y = x.^2 + 2*x + 3

[Python 学习] 二、在Linux平台上使用Python

这一节,主要介绍在Linux平台上如何使用Python 1. Python安装. 现在大部分的发行版本都是自带Python的,所以可以不用安装.如果要安装的话,可以使用对应的系统安装指令. Fedora系统:先以root登入,运行 yum install python Ubuntu系统:在root组的用户, 运行 sudo apt-get install python 2. 使用的Python的脚本 Linux是一个以文件为单位的系统,那么我们使用的Python是哪一个文件呢? 这个可以通过指令

OpenCV for Python 学习 (二 事件与回调函数)

今天主要看了OpenCV中的事件以及回调函数,这么说可能不准确,主要是下面这两个函数(OpenCV中还有很多这些函数,可以在 http://docs.opencv.org/trunk/modules/highgui/doc/user_interface.html 找到,就不一一列举了),然后自己做了一个简单的绘图程序 函数如下: cv2.setMouseCallback(windowName, onMouse[, param]) cv2.createTrackbar(trackbarName,

Makefile持续学习二

Makefile概述 一.Makefile里有什么? Makefile里主要包含5个东西:显式规则.隐晦规则.变量定义.文件指示和注释 1.显式规则:显式规则说明如恶化生成一个或多的目标文件,包含要生成的文件,文件的依赖文件,生成的命令 2.隐晦规则:由make自动推动功能完成 3.变量定义:变量一般都是字符串,类似C语言中的宏定义,当Makefile被执行时,其中的变量都会被扩展到相应的引用位置上 4.文件指示: 在一个Makefile中引用另一个Makefile 根据某些情指定Makefil

redis ruby客户端学习( 二)

接上一篇redis ruby客户端学习( 二) 对于redis的五种数据类型:字符串(String), 哈希(Map), 列表(list), 集合(sets) 和 有序集合(sorted sets),上一篇介绍了字符串. 1,哈希(Map) hset.设置 key 指定的哈希集中指定字段的值.如果 key 指定的哈希集不存在,会创建一个新的哈希集并与 key 关联.如果字段在哈希集中存在,它将被重写. require "redis" r = Redis.new r.hset 'my_h

Duilib学习二 第一个程序 Hello World

Duilib学习二  第一个程序 Hello World #pragma once #include <UIlib.h> using namespace DuiLib; #ifdef _DEBUG # ifdef _UNICODE # pragma comment(lib, "DuiLib_ud.lib") # else # pragma comment(lib, "DuiLib_d.lib") # endif #else # ifdef _UNICOD

Jquery Easy UI初步学习(二)datagrid的使用

第一篇学的是做一个管理的外框,接着就是数据datagrid绑定了,这里我用asp.net mvc3来做的,主要就是熟悉属性.方法. 打开easyui的demo 就可以看到如下一段代码: 和上篇一样class="easyui-datagrid", data-options="...",这是一样的,其他我在网上查了查,并做了整理 DataGrid 属性 参数名 类型 描述 默认值 title string Datagrid面板的标题 null iconCls strin

Oracle学习(二):过滤和排序

1.知识点:可以对照下面的录屏进行阅读 SQL> --字符串大小写敏感 SQL> --查询名叫KING的员工信息 SQL> select * 2 from emp 3 where ename = 'KING'; SQL> --日期格式敏感 SQL> --查询入职日期为17-11月-81的员工 SQL> select * 2 from emp 3 where hiredate='17-11月-81'; --正确例子 SQL> ed 已写入 file afiedt.b

Jetty学习二:配置概览-怎么配置Jetty

Jetty POJO配置 Jetty的核心组件是Plain Old Java Objects(POJOs):配置Jetty的大部分工作就是在Jetty POJOs上的初始化.装配和设置域的处理,你能通过以下的方式来实现:  1)直接通过Java代码初始化和装配Jetty对象.这个在后面Embedding Jetty讲. 2)用Jetty XML配置(一个控制反转(IoC)框架)初始化和装配Jetty对象.etc/jetty.xml文件是基本的Jetty XML配置文件,但有一些其它的etc/je