总体最小二乘(TLS)

对于见得多了的东西,我往往就习以为常了,慢慢的就默认了它的存在,而不去思考内在的一些道理。总体最小二乘是一种推广最小二乘方法,本文的主要内容参考张贤达的《矩阵分析与应用》。

1. 最小二乘法

最小二乘法,大家都很熟悉,用在解决一超定方程。最小“二”乘的“二”体现在准则上——令误差的平方和最小,等价于

最小二乘解为(非奇异)

可以从多个角度来理解最小二乘方法,譬如从几何方面考虑,利用正交性原理导出。

Steven M.Kay 的《统计信号处理—估计理论》中是这样介绍最小二乘估计的:最小二乘估计特点在于对观察数据没有任何概率假设,只需要假设一个信号模型,因此它不是最佳的,如果没有对数据的概率结构做出假设,其统计性能也是无法评判的。(实际上LSE可能是MVU,说不是最佳有些不妥)

当然,我们希望能够分析最小二乘解的特性,即使不能对其进行全面的评判,至少需要了解其应用范围和特点。

2. 稳定性分析

一个好的估计往往具有无偏和最小方差的特性(或是渐进无偏的,譬如最大似然估计)。Gauss-Markov定理告诉我们,对于数据向量具有加性噪声或者扰动的超定方程,如果误差向量满足以下条件,此时最小二乘解是无偏且具有最小方差的。

定理证明可见张贤达《矩阵分析与应用》p406页。这一结论表明,最小二乘解是一个很好的估计,那么问题出现在哪呢?我们注意到,采用最小均方误差准则的线性回归(Linear regression)和最小二乘解具有相同的形式。《Machine Learning plus Intelligent Optimization》书中有这样一幅图显示了线性回归中存在的稳定性问题。

左图表示一个好的数据集合能够确定一个稳定的平面。右图中,不恰当的取样点使得微小的扰动会导致大的结果的偏差。 然而往往数据集的分布是不可控的。

稳定性指数据小的扰动只会导致小的结果偏差。一个良态问题(well-posed problem)是稳定的,然而实际上的问题往往是病态(ill-posed)。为此,在线性回归以及其他多种解决问题方案中采用了正则化方法。广为应用的方法是Tichonov regularization,思想在于利解的先验知识使解稳定,即假设解是光滑的。关于正则化问题,可以参考Simon Haykin的《神经网络原理》,此处不做讨论。对于稳定性分析,或者说数值稳定性,《矩阵分析与应用》p342进行了详细的讨论。



(矩阵)数值稳定性

研究矩阵,其中发生扰动时,解向量如何发生变化?讨论得到以下结果

由此可见,影响解向量变化的重要参数是,我们将其记为条件数,记作

这就是矩阵的条件数的定义,由上式易知,条件数刻画了误差经过矩阵后扩大为解向量误差的程度。当系数矩阵一个很小扰动只会引起解向量很小变化的时候,我们将矩阵称为是“良态”的,反之称为是“病态”的。

正定矩阵的Cholesky分解这篇文章中提到了矩阵的“良态”和特征值之间的关系,此处我并没有进行太多思考,有兴趣的话可以去看看特征值扩散度相关知识。wiki百科上给出的例子表明,如果采用2-范数,条件数可以记为

其中代表的是矩阵的奇异值。



最小二乘法中对于超定方程实际求解的是,条件数表示为

也就是说,误差对方程解的影响和的条件数的平方成反比,这显然是我们不愿意看到的。采用正则化方法实际求解的是,由上可知条件数下降了(从2-范数来看,分子分母同时加上了)。

3.总体最小二乘

如果说模型是完全正确的,我们根本不需要考虑算法的稳定性(当然,由于计算机计算时会有截位,所以这是不可能的)。道理很简单,没有扰动,为何需要分析稳定性呢?这充分说明了,最小二乘没有考虑到扰动的存在,因此其稳定性较差是情有可原的。

可以对矩阵有扰动情况下,最小二乘的性能进行分析,矩阵的扰动矩阵非零情况下,一般有偏。且可以证明(p407)

如果为零均值,方差为的独立同分布噪声,为零均值,方差为的独立同分布噪声。此时最小二乘解方差相对于矩阵无扰动下增加倍数等于

我们知道其根源在于没有考虑矩阵的扰动,在这一情况下,为了克服最小二乘的缺点,引入了总体最小二乘方法。

总体最小二乘思想在于分别使用扰动向量和扰动矩阵去修正中的扰动。也就是说,总体最小二乘解决以下问题

其中为扰动矩阵,,此处范数采用Frobenius范数。

利用增广矩阵的奇异值分解可以求得总体最小二乘解。(只讨论超定方程情况)其中分为两种情况:只有一个最小的奇异值时有一组解,最小奇异值多重或者后面若干个非常接近时求解某一意义下的最小二乘解。即应该是非满秩矩阵(由于噪声存在,一般都是满秩的),因此对应最小特征值的特征向量就是总体最小二乘解,多个相同最小二乘解时特征向量有多个,因此加上其他约束求解。具体方法本文不做论述。

4.TLS解释和分析

真正吸引人的不是TLS的解法,而是它到底为何能够(在一定条件下)弥补LS的缺点?(虽然从其推导过程中感觉是有效的)即使有效,那么原因是什么呢?

张贤达书p414页神奇的推导出了这么一个结果(不可逆情况下求伪逆,此时有其他诸如最小范数的约束)

第一眼看到这个结果的时候,我想:怎么可能?正则化中的加法很有道理,这里的减法不是会让情况更差吗?但是这里的解释很有道理

    总体最小二乘可以解释为一种具有噪声消除的最小二乘方法,先从协方差矩阵中减去噪声影响项,然后再对矩阵求逆求解,得到最小二乘解。

那么问题出在哪呢?我们注意到正则化中的是任意选取的,或者说不是“任意”,也是和矩阵没有多大关系的。然而此处的实际上是矩阵的奇异值中的最小的那个,由于TLS采用了完全不同的思路,出现相异的结果也就不足为奇了。

我们再对TLS进行详细的分析,实际上,所以至少应该有一个特征值为零的。由于噪声的存在,这一要求往往是达不到的。假设噪声是高斯白且独立同分布,那么噪声的自相关矩阵是对角阵,也就相当于在所有特征值上加上了一个固定的常数,这个常数就是噪声的方差。一般而言是实数,其特征值都是正数,所以我们可以认为最小的特征值(多个最小则都取)实际上就是噪声的方差。这些特征值对应的特征函数构成的线性空间被称为噪声子空间。总体最小二乘就是去除了噪声的最小二乘,从这一点上看,TLS对矩阵的扰动有抑制作用,即TLS的更加接近无扰动子空间。

对于扰动敏感度分析,可参考《矩阵分析与应用》p416。

5.总结

接触这一方法的时间不长,如有错误,还请大家指正。本文只对其进行了理论上的分析,就我接触而言,在谱分析中总体最小二乘应用广泛,不知在其他应用上是否能够取得好的效果。就线性回归而言,一般情况下正则化方法应该会有更好的效果,总体最小二乘还是有太多的假设了。不知这一结论是否正确,还请大家指明或仿真分析。

但毋庸置疑的是,总体最小二乘在很多地方都取得了很好的效果,或许还能够得到更广泛的应用。同时,最重要的是在这一过程中我深刻的体会到了对越熟悉的东西要越了解,而不是麻木。

算法对扰动的敏感度要低,我们对算法的敏感度要高才好。

时间: 2024-10-05 04:44:56

总体最小二乘(TLS)的相关文章

非负矩阵分解(1):准则函数及KL散度

作者:桂. 时间:2017-04-06  12:29:26 链接:http://www.cnblogs.com/xingshansi/p/6672908.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 之前在梳理最小二乘的时候,矩阵方程有一类可以利用非负矩阵分解(Non-negative matrix factorization, NMF)的方法求解,经常见到别人提起这个算法,打算对此梳理一下.优化问题求解,最基本的是问题描述与准则函数的定义,紧接着才涉及准则函数的求解问题,本文为NMF

PCA-特征提取

介绍 在这篇文章中,我们讨论主成分分析(PCA)是如何工作的,以及它如何被用来作为分类问题的降维技术.在这篇文章的末尾,出于证明的目的提供了Matlab源代码. 在前面的文章中,我们讨论了所谓的维数诅咒,表明在高维空间分类器倾向于过度拟合训练数据.接下来产生的问题是哪些特征应该保留,哪些应该从高维特征向量中删除. 如果此特征向量的所有特征是统计独立的,可以简单地从这个向量中消除最小的判别特征.通过各种贪婪特征选择方法可以找到最小的判别特征.然而,在实践中,许多特征互相依赖或依赖于底层未知变量.因

利用主成分PCA进行特征提取

本文将介绍主成分分析(Principal Component Analysis,PCA)原理,并且它如何在分类问题中发挥降维的作用.译自 Feature extraction using PCA. 简介 本文将介绍主成分分析(Principal Component Analysis,PCA)原理,并且它如何在分类问题中发挥降维的作用. 在前面我们讲到过维度灾难,分类器容易对高维的训练集产生过拟合.那么,哪些特征是更好的呢,而哪些又该从高维中除去呢 如果所有的特征向量间相互独立,我们可以很容易的去

最小二乘法和最大似然估计

一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事先知道参数{a1,a2}.而最小二乘法和最大似然估计就是根据一些给定样本(包括标签值)去对参数进行估计<参数估计的方法>.一般用于线性回归中获得参数进行拟合.而梯度下降方法主要用于逻辑回归分类问题中寻找最佳参数. 二:最小二乘法: 基本思想: 简单地说,最小二乘的思想就是要使得观测点和估计点的距离

【机器学习详解】线性回归、梯度下降、最小二乘的几何和概率解释

线性回归 即线性拟合,给定N个样本数据(x1,y1),(x2,y2)....(xN,yN)其中xi为输入向量,yi表示目标值,即想要预测的值.采用曲线拟合方式,找到最佳的函数曲线来逼近原始数据.通过使得代价函数最小来决定函数参数值. 采用斯坦福大学公开课的例子:假如一套房子的价格只考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定,现在拿到手有m个样本,如下图所示.此例中,输入x=(x1,x2)为2维向量,分别对应房屋面积和卧室数目,y对应价格.现在想根据上述样本

最小二乘法和最大似然估计的联系和区别(转)

对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小.而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大.显然,这是从不同原理出发的两种参数估计方法. 在最大似然法中,通过选择参数,使已知数据在某种意义下最有可能出现,而某种意义通常指似然函数最大,而似然函数又往往指数据的概率分布函数.与最小二乘法不同的是,最大似然法需要已知这个概率分布函

[转载] TLS协议分析 与 现代加密通信协议设计

https://blog.helong.info/blog/2015/09/06/tls-protocol-analysis-and-crypto-protocol-design/?from=timeline&isappinstalled=0 最近发现密码学很有意思,刚好还和工作有点关系,就研究了一下,本文是其中一部分笔记和一些思考. 密码学理论艰深,概念繁多,本人知识水平有限,错误难免,如果您发现错误,请务必指出,非常感谢! 本文禁止转载 本文目标: 学习鉴赏TLS协议的设计,透彻理解原理和重

【转】Tomcat总体结构(Tomcat源代码阅读系列之二)

本文是Tomcat源代码阅读系列的第二篇文章,我们在本系列的第一篇文章:在IntelliJ IDEA 和 Eclipse运行tomcat 7源代码一文中介绍了如何在intelliJ IDEA 和 Eclipse中运行Tomcat源代码,本文介绍一下Tomcat的总体结构. 本文没有特别指明的地方,源代码都是针对tomcat7.0.42来说. Tomcat的总体结构 Tomcat即是一个Http服务器也是一个Servlet容器,它的总体结构我们可以用下图来描述: 通过上图我们可以看出Tomcat中

SSL/TLS的原理以及互联网究竟是如何工作的(1) —“每个协议生而平等”

计算机网络里有一个模型非常有名:OSI(Open Systems Interconnection,开放系统互连)模型,几乎所有的计算机网络教学和科研都要在OSI的基础上进行,想要讨论计算机网络中的问题也要依靠这个模型. OSI模型是这样的结构(从底层到最高层): 1,物理层(physical layer) 物理层负责最后将信息编码成电流脉冲或其它信号用于网上传输.它由计算机和网络介质之间的实际界面组成,可定义电气信号.符号.线的状态和时钟要求.数据编码和数据传输用的连接器.有线网络信号有电流脉冲