SVD总结

1.概述

  我们先从实数域R开始说起,再延伸到复数域C上去,先列出一个表格,把实数域以及复数域中常见的矩阵及其性质概括如下:

表1 常见矩阵及其性质

  我们知道实对称矩阵正交相似于对角阵,从而将一个方阵对角化,那么一个的矩阵能否对角化为对角阵呢,答案是肯定的,这也是奇异值分解(singular value decomposition,SVD)的意义所在。

  设A是一个矩阵,则存在m阶正交矩阵U和n阶正交矩阵V,满足

  其中.习惯上,设,称为奇异值(singular value),称U和V的前r列向量为奇异向量(singular vector),这个分解为奇异值分解。

  那现在就有疑问了,奇异值怎么求呢,m阶正交矩阵U和n阶正交矩阵V又怎么求呢,为了回答上述问题,我们将SVD写成向量形式,从而对SVD有初步的了解。令,因为V是正交矩阵,所以有

  写成向量的形式有

对1.1式转置得,

同理可得,

对1.4式两端左乘AT得,

将1.6式代入1.7式中,

同理可得,

  故vi是实对称矩阵ATA属于的特征向量,ui是实对称矩阵AAT属于的特征向量。也就是说,奇异值就是实对称矩阵AAT(或者ATA)非零特征值的模长(即非零特征值开根号),而正交矩阵U(V)就是AAT(ATA)特征值所对应的特征向量。当然并不是随意地取m个特征向量组成U,随意地取n个特征向量组成V就可以构成A奇异值分解的正交矩阵的,U和V之间是配对的,有固定的关系,用表达式表示即为

这个式子的推导在后面会介绍,现在继续探讨实对称矩阵AAT和 ATA特征值的性质,有如下两个性质:

1)AAT和 ATA的特征值为非负数;


证明:

,则,即

.同理可得AAT的特征值也全为非负数。

2)AAT和ATA的非零特征值集合相同;


证明:

假设A的秩为r,因为r(AAT) = r(AT),r(ATA) = r(A),且r(A) = r(AT),故

r(AAT) = r(ATA) = r(A) = r

因为AAT是实对称矩阵,所以,其中是AAT的特征值,所以有#{AAT非零特征值} = r,同理有,#{ATA非零特征值} = r.

是ATA的非零特征值,即,使得,则有

所以也是AAT的非零特征值,反之亦然。故AAT和ATA具有相同的非零特征值。

  因此,AAT和 ATA的特征值为非负数,且AAT和 ATA的非零特征值集合相同,即求A的奇异值时,只需求出AAT和ATA其中一个矩阵的特征值即可。

  接下来,推导正交矩阵U和正交矩阵V之间的配对关系,设为是n阶对称方阵ATA的单位正交特征向量,

注意到,故,即.令,则

且有

是AAT的单位正交特征向量。也就是说,当是ATA的单位正交特征向量时,是AAT的单位正交特征向量,且.

  至此,矩阵A的奇异值分解就可以求出来了,首先求出AAT(ATA)的特征值,其中,非零特征值就是矩阵A的奇异值;接着求出AAT(ATA)特征值所对应的特征向量(包括零特征值对应的特征向量)作为正交矩阵U(V);最后根据配对关系求出另一个正交矩阵V(U)非零特征值所对应的特征向量,而正交矩阵V(U)的零特征值对应的特征向量则可以代入特征方程求出(或者其他方法),从而,得到任意矩阵A的奇异值分解。

  这是实数域R的情况,复数域C中的奇异值分解大同小异。

  设是A的r个奇异值,则存在m阶酉矩阵U和n阶酉矩阵V,满足

则上面的分解称为奇异值分解(复数域中)。

求任意一个复矩阵A的奇异值分解跟实矩阵A的奇异值分解步骤是一样的,就是非零特征值对应的次酉矩阵U1、V1的配对关系变为

其中,,这是在求一个复矩阵A的奇异值分解时应该注意的。

2.例子

求矩阵

的奇异值分解表达式。


解:

步骤一:求出AAH和AHA的非零特征值(A的奇异值)

AAH的特征多项式为

AAH的特征值为,0

所以A的奇异值为.

步骤二:求出AAH和AHA非零特征值对应的次酉矩阵U1和V1

AAH特征值为4的单位特征向量为

AAH特征值为1的单位特征向量为

所以AAH非零特征值对应的次酉矩阵U1

因此,AHA非零特征值对应的次酉矩阵V1

所以

3.应用

  奇异值分解(SVD)的应用有特征降维(feature reduction)、图像压缩以及潜在语义分析(latent semantic indexing,LSI)等。就图像压缩来说,例如一张的图像,需要的矩阵来存储它。而利用奇异值分解,则只需存储矩阵的奇异值,奇异向量,数目为,而不是。通常,所以,即存储该图像所需的存储量减小了。比值称为图像的压缩比,其倒数称为数据压缩率。如果矩阵的奇异值从一个数开始值远小于前面的奇异值,则可以删去,这样在保证图像不失真的前提下,进一步减小了存储量。

时间: 2024-10-09 23:28:48

SVD总结的相关文章

奇异值分解(SVD) --- 几何意义 (转载)

PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义.能在有限的篇幅把 这个问题讲解的如此清晰,实属不易.原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理 解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD. 原文:We recommend a singular value decomposition 关于线性变换部分的一些知识可以猛戳这里  奇异值分解(S

自适应滤波:奇异值分解SVD

作者:桂. 时间:2017-04-03  19:41:26 链接:http://www.cnblogs.com/xingshansi/p/6661230.html 声明:欢迎被转载,不过记得注明出处哦~ [读书笔记10] 前言 广义逆矩阵可以借助SVD进行求解,这在上一篇文章已经分析.本文主要对SVD进行梳理,主要包括: 1)特征向量意义: 2)特征值分解与SVD: 3)PCA与SVD: 内容为自己的学习记录,其中多有借鉴他人之处,最后一并给出链接. 一.特征向量 第一反应是:啥是特征向量?为什

(转)机器学习之SVD分解

一.SVD奇异值分解的定义 假设是一个的矩阵,如果存在一个分解: 其中为的酉矩阵,为的半正定对角矩阵,为的共轭转置矩阵,且为的酉矩阵.这样的分解称为的奇异值分解,对角线上的元素称为奇异值,称为左奇异矩阵,称为右奇异矩阵. 二.SVD奇异值分解与特征值分解的关系 特征值分解与SVD奇异值分解的目的都是提取一个矩阵最重要的特征.然而,特征值分解只适用于方阵,而SVD奇异值分解适用于任意的矩阵,不一定是方阵. 这里,和是方阵,和为单位矩阵,为的特征向量,为的特征向量.和的特征值为的奇异值的平方. 三.

非对称SVD电影推荐系统

采用1M MovieLensz数据(80%train, 20%test, UserIDs range between 1 and 6040 ,MovieIDs range between 1 and 3952, From http://files.grouplens.org/datasets/movielens/) 进行训练和测试,在k仅为10时,得到最佳RMSE为0.854743.在100k数据上k=100时最佳RMSE为0.916602. 以下公式和文字来自陈靖_的博文 http://blo

[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用

本文先从几何意义上对奇异值分解SVD进行简单介绍,然后分析了特征值分解与奇异值分解的区别与联系,最后用python实现将SVD应用于推荐系统. 1.SVD详解 SVD(singular value decomposition),翻译成中文就是奇异值分解.SVD的用处有很多,比如:LSA(隐性语义分析).推荐系统.特征压缩(或称数据降维).SVD可以理解为:将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示,这3个小矩阵描述了大矩阵重要的特性. 1.1奇异值分解的几何意义(因公式输入比较麻烦

如何轻松干掉svd(矩阵奇异值分解),用代码说话

svd我认识我机器学习里面最扯淡的玩意了.尼玛.老实说,好多机器学习的书老是在扯svd有多高端,然后看了netflix电影推荐大赛,哇塞,冠军队就是用svd+做的.然后狠狠的下载了所有他们的论文,硬是没看明白.后来居然对svd有恐惧感.感觉这个玩意好高端似的.你看他啊,它能提高预测精度,它好像是万能的,能降维,什么比赛有事没事都要扯扯svd.后来看Kaggle上的比赛,有个walmat仓储量预测大赛,也是对数据先用svd预处理. 回去下载了好多svd论文看,搞了好久都没搞明白.他们都是说自己如何

SVD小结

1.矩阵分解 假设一个矩阵Data是m行n列,SVD(奇异值分解)将Data分解为U,E,VT 三个矩阵: Datam*n=Um*kEk*kVTk*n E是一个对角矩阵,对角元素为奇异值,对应Data的奇异值,即Data*DataT特征值的平方 2.选取特征 下面确定选取哪几维特征实现降维,去除噪声和冗余信息,用低维数据集表示原数据集. 典型做法是保留矩阵90%能量信息,公式如下,先选一个值h: 奇异阵的平方 sig=ETE 如果奇异阵的平方中前i项的和大于奇异阵的平方总和,即sum(sig[:

机器学习实战精读--------奇异值分解(SVD)

奇异值分解(SVD):是一种强大的降维工具,通过利用SVD来逼近矩阵并从中提取重要特征,通过保留矩阵80%~ 90%的能量,就能得到重要的特征并去掉噪声 SVD分解会降低程序的速度,大型系统中SVD每天运行一次或者频率更低,并且还要离线进行. 隐性语义索引(LST):试图绕过自然语言理解,用统计的办法得到相同的目标 隐性语义分析(LSA):LSA的基本思想就是把高维的文档降到低维空间,那个空间被称为潜在语义空间 协同过滤:通过将用户和其它用户的数据进行对比来实现推荐. 协同过滤的缺点: ① 用户

SVD简化数据

一,引言 我们知道,在实际生活中,采集到的数据大部分信息都是无用的噪声和冗余信息,那么,我们如何才能剔除掉这些噪声和无用的信息,只保留包含绝大部分重要信息的数据特征呢? 除了上次降到的PCA方法,本次介绍另外一种方法,即SVD.SVD可以用于简化数据,提取出数据的重要特征,而剔除掉数据中的噪声和冗余信息.SVD在现实中可以应用于推荐系统用于提升性能,也可以用于图像压缩,节省内存. 二,利用python事先SVD 1 svd原理--矩阵分解   在很多情况下,数据中的一小段携带了数据集的大部分信息