如何理解正定矩阵和半正定矩阵

乍看正定和半正定会被吓得虎躯一震,因为名字取得不知所以,所以老是很排斥去理解这个东西是干嘛用的,下面根据自己和结合别人的观点解释一下什么是正定矩阵(positive definite, PD)半正定矩阵(positive semi-definite, PSD)

定义

首先从定义开始对PD和PSD有一个初步的概念:

  • 正定矩阵(PD):

    给定一个大小为 \(n\times n\) 的实对称矩阵 \(A\) ,若对于任意长度为 \(n\) 的非零向量 \(X\),有 \(X^TAX>0\) 恒成立,则矩阵 \(A\) 是一个正定矩阵。

  • 半正定矩阵(PSD)

    给定一个大小为 \(n\times n\) 的实对称矩阵 \(A\) ,若对于任意长度为 \(n\) 的非零向量 \(X\),有 \(X^TAX≥0\) 恒成立,则矩阵 \(A\) 是一个半正定矩阵。

说人话来理解

光看定义其实肯定不能理解到底是个啥,以及为什么要这么定义。所以下面用说人话的方式来进行解释。

仔细看一下上面的定义可以看到两种矩阵的唯一区别就是正定要求是大于0,而半正定要求大于等于0。这个是不是很像二次函数\(y=ax^2\):

  • 当\(a>0\)时, \(y>0\);
  • 当\(a≥0\)时,\(y≥0\)。

其实我们可以把\(y=X^TAX\)看作是\(y=ax^2\)的多维扩展表达式,我们所说的正定矩阵就是希望矩阵\(A\)能够起到\(a>0\)的效果,半正定就是希望有一个矩阵\(A\)能够起到像\(a≥0\)的效果。

这么说起来你可能还是不太能理解,没关系,我们进一步从向量相乘的角度来理解。

以正定矩阵为例,它需要满足\(X^TAX>0\),而且我们知道矩阵相乘(如\(AX\))的本质是将向量\(X\)按照矩阵\(A\)所指定的方式进行变换(你可以通过阅读理解矩阵等系列文章来对矩阵乘法产生更加深刻的理解)。

我们可以记\(M=AX\),那么对于正定矩阵有\(X^TAX=X^TM>0\),看到这有没有想起cos公式呢?如下:

\[cos(\theta)=\frac{a^Tb}{||a||\times ||b||}\]

下面的内容是一层一层推进的,所以可能有点绕,请耐心阅读并思考:

  • 所以正定矩阵是个什么意思呢?实际上就是说对于一个向量\(X\),我们希望 \(X\)在经过有一个矩阵\(A\)的变化后得到的新的向量\(M\)和它本身的夹角小于90度。
  • 而小于90度背后的含义是变换后的向量\(M\)是沿着原向量\(X\)的正方向进行缩放的(即 \(M\)投影回原向量时方向不变)。
  • 而上面这句话还可以从特征向量的角度进一步理解,在介绍之前我们回顾一下特征值和特征向量的概念:

首先一个矩阵\(A\)的特征向量\(x\)就是表示某个向量会沿着特征向量的方向进行变换(缩放),缩放比例由特征值\(\lambda\)决定。例如:

\[
A_{1}=\left[\begin{array}{cc}{0.5} & {0} \\ {0} & {2}\end{array}\right]
\]
很简单地可以计算得到\(A\)的特征值分别是0.5和2,而它们对应的特征向量分别是\([1,0]^T\)和\([0,1]^T\)。所以如果一个向量\(b\)左乘一个矩阵\(A\),其本质就是将向量\(b\)沿着\([1,0]^T\)和\([0,1]^T\)方向分别放大0.5和2倍。我们假设\(b=[2,2]^T\),那么\(Ab\)最终得到的向量为\([1,4]^T\),结合下图看更加直观:

我们看上图,如果其中一个特征值小于0,比如\(\lambda_1<0\)那么最终得到的向量\(\overrightarrow{Ab}\)投射到\(\overrightarrow{b}\)方向的向量与\(\overrightarrow{b}\)反向。综上,要使得变换后的向量\(M\)与原向量\(x\)夹角小于90度,即映射回原来的向量时保持方向不变,那么就需要特征值大于0,所以这也是为什么正定矩阵的特征值都大于0.

MARSGGBO?原创

2019-8-28


原文地址:https://www.cnblogs.com/marsggbo/p/11461155.html

时间: 2024-10-29 00:36:42

如何理解正定矩阵和半正定矩阵的相关文章

半正定矩阵

我来表露下个人浅显的理解.半正定与正定矩阵同意用半正定矩阵来事例:首先半正定矩阵定义为: 其中X 是向量,M 是变换矩阵 我们换一个思路看这个问题,矩阵变换中,代表对向量 X进行变换,我们假设变换后的向量为Y,记做.于是半正定矩阵可以写成: 这个是不是很熟悉呢? 他是两个向量的内积. 同时我们也有公式: ||X||, ||Y||代表向量 X,Y的长度,是他们之间的夹角. 于是半正定矩阵意味着, 这下明白了么? 正定.半正定矩阵的直觉代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度.

机器学习笔记——矩阵分析与应用

0.0 第三讲依然是数学,因为数学是解决一切问题的基础,一个问深入到最后都是数理知识的支撑.所谓基础决定上层建筑,比如参加ACM比赛,高手之间的比赛已经不是编程技巧了,更多的是数学知识的比拼.若想走得远,数学基础一定要打好.嗯,好遗憾之前学数学多是为了考试,学完就忘,现在要好好再复习一下.程博士用两个小时概讲了<线性代数><矩阵论>两本书的内容,结合其他的相关资料,总结一下. 1. 线性代数概念回顾 在听课之前,重新翻了一遍本科的<线性代数>,温习了线性代数中的重要概念

Cs231n课堂内容记录-Lecture 7 神经网络二

Lecture 7 神经网络二 课程内容记录:https://zhuanlan.zhihu.com/p/21560667?refer=intelligentunit 1.协方差矩阵: 协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差.而方差是协方差的一种特殊情况,即当两个变量是相同的情况. 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同. 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间

正定矩阵(Positive-definite Matrix)

原文链接 正定矩阵是自共轭矩阵的一种.正定矩阵类似复数中的正实数.定义:对于对称矩阵M,当且仅当存在任意向量x,都有 若上式大于等于零,则称M为半正定矩阵.正定矩阵记为M>0.也被称为正定二次型 正定矩阵的判定 1.所有特征值为正数(根据谱定理,若条件成立,必然可以找到对角矩阵的D和正定矩阵P,使M=P^-1DP):2.所有的顺序主子式为正定:3.Cholesky分解得到的矩阵,其主对角线上的元素全为正数:4.矩阵有半双线性映射形式. 首先解释双线性映射.假设三个向量空间X, Y和Z,有Z =

正定矩阵

正定矩阵式自共轭矩阵的一种.正定矩阵类似复数中的正实数.定义:对于对称矩阵M,当且仅当存在任意向量x,都有若上式大于等于零,则称M为半正定矩阵.正定矩阵记为M>0.也被称为正定二次型 正定矩阵的判定 1.所有特征值为正数(根据谱定理,若条件成立,必然可以找到对角矩阵呢D和正定矩阵P,使M=P^-1DP):2.所有的顺序主子式为正定:3.Cholesky分解得到的矩阵,其主对角线上的元素全为正数:4.矩阵有半双线性映射形式. 首先解释双线性映射.假设三个向量空间X, Y和Z,有Z = B(X, Y

线性代数二、正定矩阵及其最小值

一.说明 本博客讲述内容根据MIT线性代数第二十八课归纳而成. MIT线性代数链接:http://open.163.com/newview/movie/courseintro?newurl=%2Fspecial%2Fopencourse%2Fdaishu.html 二.主要讲述问题 1-如何判断一个矩阵是正定矩阵 2-正定矩阵的最小值 3-正定矩阵的几何解释 三.如何判断一个矩阵是正定矩阵 1-首先我们需要明确一个概念-正定矩阵 一个矩阵是正定矩阵,那么必须要满足以下的关系 (1)它必须是一个n

支持向量机通俗导论(理解SVM的三层境界)

作者:July.pluskid :致谢:白石.JerryLead 出处:结构之法算法之道blog. 前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够.得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介

支持向量机通俗导论(理解SVM的三层境地)

支持向量机通俗导论(理解SVM的三层境地) 作者:July :致谢:pluskid.白石.JerryLead.出处:结构之法算法之道blog. 前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因非常简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末參考链接),但在描写叙述数学公式的时候还是显得不够.得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通

理解支持向量机(二)核函数

由之前对核函数的定义(见统计学习方法定义7.6): 设χ是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从χ到Η的映射 φ(x): χ→Η 使得对所有的x,z∈χ,函数Κ(x,z)=φ(x)?φ(z), 则称Κ(x,z)为核函数,φ(x)为映射函数,φ(x)?φ(z)为x,z映射到特征空间上的内积. 由于映射函数十分复杂难以计算,在实际中,通常都是使用核函数来求解内积,计算复杂度并没有增加,映射函数仅仅作为一种逻辑映射,表征着输入空间到特征空间的映射关系.例如: 设输