特征值与特征向量的几何意义

特征值与特征向量的几何意义

矩阵的乘法是什么,别只告诉我只是“前一个矩阵的行乘以后一个矩阵的列”,还会一点的可能还会说“前一个矩阵的列数等于后一个矩阵的行数才能相乘”,然而,这里却会和你说——那都是表象。

矩阵乘法真正的含义是变换,我们学《线性代数》一开始就学行变换列变换,那才是线代的核心——别会了点猫腻就忘了本——对,矩阵乘法 就是线性变换,若以其中一个向量A为中心,则B的作用主要是使A发生如下变化:

  1. 伸缩

    clf;
    A = [0, 1, 1, 0, 0;...
        1, 1, 0, 0, 1];  % 原空间
    B = [3 0; 0 2];      % 线性变换矩阵
    
    plot(A(1,:),A(2,:), ‘-*‘);hold on
    grid on;axis([0 3 0 3]); gtext(‘变换前‘);
    
    Y = B * A;
    
    plot(Y(1,:),Y(2,:), ‘-r*‘);
    grid on;axis([0 3 0 3]); gtext(‘变换后‘);

    1

    从上图可知,y方向进行了2倍的拉伸,x方向进行了3倍的拉伸,这就是B=[3 0; 0 2]的功劳,3和2就是伸缩比例。请注意,这时B除了对角线元素为各个维度的倍数外,非正对角线元素都为0,因为下面将要看到,对角线元素非0则将会发生切变及旋转的效果。

  2. 切变
    clf;
    A = [0, 1, 1, 0, 0;...
         1, 1, 0, 0, 1];  % 原空间
    B1 = [1 0; 1 1];       % 线性变换矩阵
    B2 = [1 0; -1 1];       % 线性变换矩阵
    B3 = [1 1; 0 1];       % 线性变换矩阵
    B4 = [1 -1; 0 1];       % 线性变换矩阵
    
    Y1 = B1 * A;
    Y2 = B2 * A;
    Y3 = B3 * A;
    Y4 = B4 * A;
    
    subplot(2,2,1);
    plot(A(1,:),A(2,:), ‘-*‘); hold on;plot(Y1(1,:),Y1(2,:), ‘-r*‘);
    grid on;axis([-1 3 -1 3]);
    subplot(2,2,2);
    plot(A(1,:),A(2,:), ‘-*‘); hold on;plot(Y2(1,:),Y2(2,:), ‘-r*‘);
    grid on;axis([-1 3 -1 3]);
    subplot(2,2,3);
    plot(A(1,:),A(2,:), ‘-*‘); hold on;plot(Y3(1,:),Y3(2,:), ‘-r*‘);
    grid on;axis([-1 3 -1 3]);
    subplot(2,2,4);
    plot(A(1,:),A(2,:), ‘-*‘); hold on;plot(Y4(1,:),Y4(2,:), ‘-r*‘);
    grid on;axis([-1 3 -1 3]);

    2

  3. 旋转

    所有的变换其实都可以通过上面的伸缩和切变变换的到,如果合理地对变换矩阵B取值,能得到图形旋转的效果,如下,

    clf;
    A = [0, 1, 1, 0, 0;...
         1, 1, 0, 0, 1];  % 原空间
    theta = pi/6;
    B = [cos(theta) sin(theta); -sin(theta) cos(theta)];
    Y = B * A;
    figure;
    plot(A(1,:),A(2,:), ‘-*‘); hold on;plot(Y(1,:),Y(2,:), ‘-r*‘);
    grid on;axis([-1 3 -1 3]);

    3

好,关于矩阵乘就这些了。那么,我们接着就进入主题了,对特定的向量,经过一种方阵变换,经过该变换后,向量的方向不变(或只是反向),而只是进行伸缩变化(伸缩值可以是负值,相当于向量的方向反向)?这个时候我们不妨将书上对特征向量的定义对照一遍:

数学教材定义: 设A是n阶方阵,如果存在 λ 和n维非零向量X,使  ,则 λ 称为方阵A的一个特征值,X为方阵A对应于或属于特征值 λ 的一个特征向量。

上面特定的向量不就是特征向量吗? λ 不就是那个伸缩的倍数吗?因此,特征向量的代数上含义是:将矩阵乘法转换为数乘操作;特征向量的几何含义是:特征向量通过方阵A变换只进行伸缩,而保持特征向量的方向不变。特征值表示的是这个特征到底有多重要,类似于权重,而特征向量在几何上就是一个点,从原点到该点的方向表示向量的方向。

特征向量有一个重要的性质:同一特征值的任意多个特征向量的线性组合仍然是A属于同一特征值的特征向量。关于特征值,网上有一段关于“特征值是震动的谱”的解释:

戏说在朝代宋的时候,我国就与发现矩阵特征值理论的机会擦肩而过。话说没有出息的秦少游在往池塘里扔了一颗小石头后,刚得到一句“投石冲开水底天”的泡妞诗对之后,就猴急猴急地去洞房了,全然没有想到水波中隐含着矩阵的特征值及特征向量的科学大道理。大概地说,水面附近的任一点水珠在原处上下振动(实际上在做近似圆周运动),并没有随着波浪向外圈移动,同时这些上下振动的水珠的幅度在渐渐变小,直至趋于平静。在由某块有着特定质量和形状的石头被以某种角度和速度投入某个面积和深度特定的水池中所决定的某个矩阵中,纹波荡漾中水珠的渐变过程中其特征值起着决定性的作用,它决定着水珠振动的频率和幅度减弱的衰退率。

在理解关于振动的特征值和特征向量的过程中,需要加入复向量和复矩阵的概念,因为在实际应用中,实向量和实矩阵是干不了多少事的。机械振动和电振动有频谱,振动的某个频率具有某个幅度;那么矩阵也有矩阵的谱,矩阵的谱就是矩阵特征值的概念,是矩阵所固有的特性,所有的特征值形成了矩阵的一个频谱,每个特征值是矩阵的一个“谐振频点”。

美国数学家斯特让(G..Strang)在其经典教材《线性代数及其应用》中这样介绍了特征值作为频率的物理意义,他说:

大概最简单的例子(我从不相信其真实性,虽然据说1831年有一桥梁毁于此因)是一对士兵通过桥梁的例子。传统上,他们要停止齐步前进而要散步通过。这个理由是因为他们可能以等于桥的特征值之一的频率齐步行进,从而将发生共振。就像孩子的秋千那样,你一旦注意到一个秋千的频率,和此频率相配,你就使频率荡得更高。一个工程师总是试图使他的桥梁或他的火箭的自然频率远离风的频率或液体燃料的频率;而在另一种极端情况,一个证券经纪人则尽毕生精力于努力到达市场的自然频率线。特征值是几乎任何一个动力系统的最重要的特征。

其实,这个矩阵之所以能形成“频率的谱”,就是因为矩阵在特征向量所指的方向上具有对向量产生恒定的变换作用:增强(或减弱)特征向量的作用。进一步的,如果矩阵持续地叠代作用于向量,那么特征向量的就会凸现出来。

更多关于特征向量及特征值的实际例子参见Wikipedia: http://zh.wikipedia.org/wiki/特征向量 。

特征值分解

设A有n个特征值及特征向量,则:

将上面的写到一起成矩阵形式:

若(x1,x2,...,xn)可逆,则左右两边都求逆,则方阵A可直接通过特征值和特征向量进行唯一的表示,令

Q=(x1,x2,...,xn)

Σ?=?diag(λ1,?λ2,?...,?λn)

则  ,该表达式称为方阵的特征值分解,这样方阵A就被特征值和特征向量唯一表示。

一个变换方阵的所有特征向量组成了这个变换矩阵的一组基。所谓基,可以理解为坐标系的轴。我们平常用到的大多是直角坐标系,在线性代数中可以把这个坐标系扭曲、拉伸、旋转,称为基变换。我们可以按需求去设定基,但是基的轴之间必须是线性无关的,也就是保证坐标系的不同轴不要指向同一个方向或可以被别的轴组合而成,否则的话原来的空间就“撑”不起来了。从线性空间的角度看,在一个定义了内积的线性空间里,对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。不过,特征值分解也有很多的局限,比如说变换的矩阵必须是方阵。

在机器学习特征提取中,意思就是最大特征值对应的特征向量方向上包含最多的信息量,如果某几个特征值很小,说明这几个方向信息量很小,可以用来降维,也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据量减小,但有用信息量变化不大,PCA降维就是基于这种思路。

Matlab中通过eig函数就可求得特征值和特征向量矩阵。

>> B = [ 3     -2      -.9    2*eps
     -2      4       1    -eps
     -eps/4  eps/2  -1     0
     -.5    -.5      .1    1   ]
B =
    3.0000   -2.0000   -0.9000    0.0000
   -2.0000    4.0000    1.0000   -0.0000
   -0.0000    0.0000   -1.0000         0
   -0.5000   -0.5000    0.1000    1.0000

>> [V D] = eig(B)
V =
    0.6153   -0.4176   -0.0000   -0.1437
   -0.7881   -0.3261   -0.0000    0.1264
   -0.0000   -0.0000   -0.0000   -0.9196
    0.0189    0.8481    1.0000    0.3432
D =
    5.5616         0         0         0
         0    1.4384         0         0
         0         0    1.0000         0
         0         0         0   -1.0000

D对角线的元素即为特征值(表示了伸缩的比例),D就是特征值分解公式中的Q,V的每一列与D没列对应,表示对应的特征向量,即特征值分解中的Σ。

奇异值分解

特征值分解是一个提取矩阵特征很不错的方法,但是它只适用于方阵。而在现实的世界中,我们看到的大部分矩阵都不是方阵,比如说有M个学生,每个学生有N科成绩,这样形成的一个M * N的矩阵就可能不是方阵,我们怎样才能像描述特征值一样描述这样一般矩阵呢的重要特征呢?奇异值分解就是用来干这个事的,奇异值分解是一个能适用于任意的矩阵的一种分解的方法。我们有必要先说说特征值和奇异值之间的关系。

对于特征值分解公式, ATA 是方阵,我们求 ATA 的特征值,即  ,此时求得的特征值就对应奇异值的平方,求得的特征向量v称为右奇异向量,另外还可以得到:

所求的ui就是左奇异向量, σi 就是奇异值。已有人对SVD的几何机理做了清晰的分析,非常受用,就不重复造轮子,下文为转载自http://blog.sciencenet.cn/blog-696950-699432.html 。

时间: 2024-10-25 14:39:47

特征值与特征向量的几何意义的相关文章

特征值和特征向量的几何意义、计算及其性质(一个变换(或者说矩阵)的特征向量就是这样一种向量,它经过这种特定的变换后保持方向不变,只是进行长度上的伸缩而已)

  对于任意一个矩阵,不同特征值对应的特征向量线性无关. 对于实对称矩阵或埃尔米特矩阵来说,不同特征值对应的特征向量必定正交(相互垂直).   一.特征值和特征向量的几何意义 特征值和特征向量确实有很明确的几何意义,矩阵(既然讨论特征向量的问题,当然是方阵,这里不讨论广义特征向量的概念,就是一般的特征向量)乘以一个向量的结果仍是同维数的一个向量.因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量. 那么变换的效果是什么呢?这当然与方阵的构造有密切的关系,比如可以取适当的二维方阵,使得

特征值与特征向量几何意义

对于特征值与特征向量的理解一直有些困惑,最近看PageRank算法碰巧有遇到了特征值与特征向量,所以想探究一下特征值与特征向量的几何意义. 矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量.在这个变换的过程中,原向量主要发生旋转.伸缩的变化.如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值. 假设变换矩阵为,因为这个矩阵M乘以一个向量(x,y)的结果是:.它其实对应的线性变换是下面的

好文!特征值和特征向量的几何和物理意义 【转载东山狼的blog】

我们知道,矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量.在这个变换的过程中,原向量主要发生旋转.伸缩的变化.如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值. 实际上,上述的一段话既讲了矩阵变换特征值及特征向量的几何意义(图形变换)也讲了其物理含义.物理的含义就是运动的图景:特征向量在一个矩阵的作用下作伸缩运动,伸缩的幅度由特征值确定.特征值大于1,所有属于此特征值的特征向量身形

线性代数之矩阵的特征值与特征向量

数学上,线性变换的特征向量(本征向量)是一个非退化的向量,其方向在该变换下不变.该向量在此变换下缩放的比例称为其特征值(本征值). 一个线性变换通常可以由其特征值和特征向量完全描述.特征空间是相同特征值的特征向量的集合.“特征”一词来自德语的eigen.1904年希尔伯特首先 在这个意义下使用了这个词,更早亥尔姆霍尔兹也在相关意义下使用过该词.eigen一词可翻译为”自身的”.“特定于……的”.“有特征的”.或者“个体 的”.这显示了特征值对于定义特定的线性变换有多重要. 线性变换的特征向量是指

帮你理解特征向量的几何意义?

线性代数中特征向量的几何意义? 概念: 特征向量确实有很明确的几何意义,矩阵(既然讨论特征向量的问题,当然是方阵,这里不讨论广义特征向量的概念,就是一般的特征向量)乘以一个向量的结果仍是同维数的一个向量,因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量,那么变换的效果是什么呢?这当然与方阵的构造有密切关系,比如可以取适当的二维方阵,使得这个变换的效果就是将平面上的二维向量逆时针旋转30度,这时我们可以问一个问题,有没有向量在这个变换下不改变方向呢?可以想一下,除了零向量,没有其他向

图像处理之基础---特征向量的 几何意义

特征向量的几何意义 长时间以来一直不了解矩阵的特征值和特征向量到底有何意义(估计很多兄弟有同样感受).知道它的数学公式,但却找不出它的几何含义,教科书里没有真正地把这一概念从各种角度实例化地进行讲解,只是一天到晚地列公式玩理论——有个屁用啊. 根据特征向量数学公式定义,矩阵乘以一个向量的结果仍是同维数的一个向量,因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量,那么变换的效果是什么呢?这当然与方阵的构造有密切关系,比如可以取适当的二维方阵,使得这个变换的效果就是将平面上的二维向量逆

特征值和特征向量(二)

转自:https://blog.csdn.net/fuming2021118535/article/details/51339881 在刚开始学的特征值和特征向量的时候只是知道了定义和式子,并没有理解其内在的含义和应用,这段时间整理了相关的内容,跟大家分享一下: 首先我们先把特征值和特征向量的定义复习一下: 定义: 设A是n阶矩阵,如果数λ和n维非零向量x使关系式 --(1) 成立,那么,这样的数λ称为矩阵A的特征值,非零向量x称为A的对应于特征值λ的特征向量,(1)式还可以写为: --(2)

雅可比算法求矩阵的特征值和特征向量

目的 求一个实对称矩阵的所有特征值和特征向量. 前置知识 对于一个实对称矩阵\(A\),必存在对角阵\(D\)和正交阵\(U\)满足\[D=U^TAU\]\(D\)的对角线元素为\(A\)的特征值,\(U\)的列向量为\(A\)的特征向量. 定义\(n\)阶旋转矩阵\[G(p,q,\theta)= \begin{bmatrix} 1 & & & & & \cdots& & & & & 0\ &\ddots &

线性代数精华——矩阵的特征值与特征向量

今天和大家聊一个非常重要,在机器学习领域也广泛使用的一个概念--矩阵的特征值与特征向量. 我们先来看它的定义,定义本身很简单,假设我们有一个n阶的矩阵A以及一个实数\(\lambda\),使得我们可以找到一个非零向量x,满足: \[Ax=\lambda x\] 如果能够找到的话,我们就称\(\lambda\)是矩阵A的特征值,非零向量x是矩阵A的特征向量. 几何意义 光从上面的式子其实我们很难看出来什么,但是我们可以结合矩阵变换的几何意义,就会明朗很多. 我们都知道,对于一个n维的向量x来说,如