特征值和特征向量(二)

转自:https://blog.csdn.net/fuming2021118535/article/details/51339881

在刚开始学的特征值和特征向量的时候只是知道了定义和式子,并没有理解其内在的含义和应用,这段时间整理了相关的内容,跟大家分享一下;

首先我们先把特征值和特征向量的定义复习一下:

定义: 设A是n阶矩阵,如果数λ和n维非零向量x使关系式

……(1)

成立,那么,这样的数λ称为矩阵A的特征值,非零向量x称为A的对应于特征值λ的特征向量,(1)式还可以写为:

……(2)

如果想求出矩阵对应的特征值和特征向量就是求式(2)的解了。

那么,问题来了,这个式子要怎么理解呢?

首先得先弄清矩阵的概念:一个矩阵代表的是一个线性变换规则,而一个矩阵的乘法运行代表的是一个变换;

比如有一个矩阵A:

一个列向量为X为:

一个矩阵的乘法为:

向量X通过矩阵A这个变化规则就可以变换为向量Y了

在几何上的变换就类似于这样:

知道了这个就可以从几何上理解特征值和特征向量是什么意思了,由

可知:

所以,确定了特征值之后,向量x的变换为:

引用《线性代数的几何意义》的描述:“矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。”

那么这样定义的特征值和特征向量有什么实际用途呢?在这里我举个数据挖掘算法中重要的一个算法:PCA(主成分分析)来给大家直观的感受一下。

首先,理解一下信息量这个概念

看几张图:

如果我们单独看某一个维度的话,比如看x1这个维度

可以看到将点投影到x1这个维度上看的话,图1的数据离散性最高,图3较低,图2数据离散性是最低的。数据离散性越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量。如果我们用方差来形容数据的离散性的话,就是数据方差越大,表示数据的区分度越高,也就是蕴含的信息量是越大的。

基于这个知识,如果我们想对数据进行降维的话,比如图1的两个维度的数据降成一维,我们可以选择保留X1这个维度的数据,因为在这个维度上蕴含的信息量更多。

同理,图2就可以保留x2这个维度的数据。但是,问题来了,图3应该保留哪个维度的数据呢?答案是保留哪个维度都不好,都会丢失较大的信息量。但是,如果我们把图3的坐标轴旋转一下


   比较容易看出,图3在新的坐标轴下就能进行降维了。所以选取正确的坐标轴,然后根据各个维度上的数据方差大小,决定保留哪些维度的数据,这样的做法就是主成分分析的核心思想。

选取正确的坐标轴的过程中,我们需要一个矩阵变换,就类似于这样:

也就是:

其实,经过数学上的推导的,我们就可以知道,特征值对应的特征向量就是理想中想取得正确的坐标轴,而特征值就等于数据在旋转之后的坐标上对应维度上的方差。

也就是说,直接求出矩阵A的特征向量得出对应的特征向量。我们就能找到旋转后正确的坐标轴。这个就是特征值和特征向量的一个实际应用:“得出使数据在各个维度区分度达到最大的坐标轴。”

所以,在数据挖掘中,就会直接用特征值来描述对应特征向量方向上包含的信息量,而某一特征值除以所有特征值的和的值就为:该特征向量的方差贡献率(方差贡献率代表了该维度下蕴含的信息量的比例)。

通常经过特征向量变换下的数据被称为变量的主成分,当前m个主成分累计的方差贡献率达到一个较高的百分数(如85%以上)的话,就保留着这m个主成分的数据。实现了对数据进行降维的目的。整个主成分分析的算法原理也就是这个。

原文地址:https://www.cnblogs.com/zzdbullet/p/10069414.html

时间: 2024-11-09 03:21:30

特征值和特征向量(二)的相关文章

线性代数 - 05 矩阵的特征值与特征向量

线性代数 - 05 矩阵的特征值与特征向量 一.特征值与特征向量 二.矩阵的相似与矩阵的对角化 三.实对称矩阵的对角化 1.向量的内积与正交矩阵 2.实对称矩阵的特征值与特征向量 线性代数 - 05 矩阵的特征值与特征向量,码迷,mamicode.com

特征值和特征向量的几何意义、计算及其性质(一个变换(或者说矩阵)的特征向量就是这样一种向量,它经过这种特定的变换后保持方向不变,只是进行长度上的伸缩而已)

  对于任意一个矩阵,不同特征值对应的特征向量线性无关. 对于实对称矩阵或埃尔米特矩阵来说,不同特征值对应的特征向量必定正交(相互垂直).   一.特征值和特征向量的几何意义 特征值和特征向量确实有很明确的几何意义,矩阵(既然讨论特征向量的问题,当然是方阵,这里不讨论广义特征向量的概念,就是一般的特征向量)乘以一个向量的结果仍是同维数的一个向量.因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量. 那么变换的效果是什么呢?这当然与方阵的构造有密切的关系,比如可以取适当的二维方阵,使得

利用QR算法求解矩阵的特征值和特征向量

利用QR算法求解矩阵的特征值和特征向量 为了求解一般矩阵(不是那种幼稚到shi的2 x 2矩阵)的特征值. 根据定义的话,很可能需要求解高阶方程... 这明显是个坑...高阶方程你肿么破... 折腾了好久 1.我要求特征值和特征向量. 2.找到一种算法QR分解矩阵求解特征值 3.QR矩阵分解需要Gram-schimidt正交化分解 有一种很明显的感觉,往往在现在很难有 很系统 很深入 的学习某一个学科的某一门知识. 往往学的时候"靠,学这东西有什么用""学了这么久,也不知道怎么用,不想学" 到后

好文!特征值和特征向量的几何和物理意义 【转载东山狼的blog】

我们知道,矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量.在这个变换的过程中,原向量主要发生旋转.伸缩的变化.如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值. 实际上,上述的一段话既讲了矩阵变换特征值及特征向量的几何意义(图形变换)也讲了其物理含义.物理的含义就是运动的图景:特征向量在一个矩阵的作用下作伸缩运动,伸缩的幅度由特征值确定.特征值大于1,所有属于此特征值的特征向量身形

线性代数之矩阵的特征值与特征向量

数学上,线性变换的特征向量(本征向量)是一个非退化的向量,其方向在该变换下不变.该向量在此变换下缩放的比例称为其特征值(本征值). 一个线性变换通常可以由其特征值和特征向量完全描述.特征空间是相同特征值的特征向量的集合.“特征”一词来自德语的eigen.1904年希尔伯特首先 在这个意义下使用了这个词,更早亥尔姆霍尔兹也在相关意义下使用过该词.eigen一词可翻译为”自身的”.“特定于……的”.“有特征的”.或者“个体 的”.这显示了特征值对于定义特定的线性变换有多重要. 线性变换的特征向量是指

特征值和特征向量

一.其他定义 设T是线性空间V的线性变换,V中所有向量的象形成的集合,称为T的值域,用R(T)表示,即 R(T)={Tx|x属于V} V中所有被T变为零向量的原象构成的集合,成为T的核,用N(T)表示,即 N(T)={x|Tx=0,x属于V} 定理1:线性空间V的线性变换T的值域和核都是V的线性子空间. 定义:象子空间的维数dimR(T)称为T的秩,核子空间的维数dimN(T)称为T的亏(或零度) 定理2:dimR(T)+dimN(T)=n,n为列数 定理3:折线性空间Vn的线性变换T,对于Vn

矩阵及其变换、特征值与特征向量的物理意义

矩阵及其变换.特征值与特征向量的物理意义 最近在做聚类的时候用到了主成分分析PCA技术,里面涉及一些关于矩阵特征值和特征向量的内容,在网上找到一篇对特征向量及其物理意义说明较好的文章,整理下来,分享一下. 一.矩阵基础[1]: 矩阵是一个表示二维空间的数组,矩阵可以看做是一个变换.在线性代数中,矩阵可以把一个向量变换到另一个位置,或者说从一个坐标系变换到另一个坐标系.矩阵的“基”,实际就是变换时所用的坐标系.而所谓的相似矩阵(),就是同样的变换,只不过使用了不同的坐标系.线性代数中的相似矩阵实际

均值、方差、协方差、协方差矩阵、特征值、特征向量

均值:描述的是样本集合的中间点. 方差:描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的. 协方差: 是一种用来度量两个随机变量关系的统计量. 只能处理二维问题. 计算协方差需要计算均值. 如下式: 方差与协方差的关系 协方差矩阵: 协方差矩阵能处理多维问题: 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差. 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的. 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要按列计算均值. 如果数据是

第四章 特征值与特征向量

§4.1  特征值与特征向量 §4.1.1特征值与特征向量的概念及其计算 定义1.  设A是数域P上的一个n阶矩阵,l是一个未知量,       称为A的特征多项式,记 |(l)=| lE-A|,是一个P上的关于 l 的n次多项式,E是单位矩阵. |(l)=| lE-A|=ln+a1ln-1+-+an= 0是一个n次代数方程,称为A的特征方程. 特征方程 |(l)=| lE-A|=0的根 (如:l0) 称为A的特征根(或特征值). n次代数方程在复数域内有且仅有n 个根,而在实数域内不一定有根,