Gershgorin圆盘定理

  众所周知,对一个$n$阶方阵求取特征值需要解一个一元$n$次方程,当$n$很大时,这是很难实现的。但是,在有些涉及矩阵的实际问题中,我们并不需要知道矩阵特征值的准确值而只需要知道其大概范围就行了,例如判定一个线性系统最终是否会趋于稳定时,只需要看其特征方程的所有特征根是否均有负实部,即所有的特征根是否均落在$x$轴负半轴上就行了;判定一个$n$阶方阵是否半正定,只需要考察其所有特征值是否均非负,类似的例子还有很多,就不一一赘述了。那么对于这类问题,我们迫切地需要这样一个工具,相比于解$n$次的特征方程,它可以很轻松地估计出特征值的大概范围,下面将要介绍的Gershgorin圆盘定理就是这样一个工具。

  该定理是基于下面这样一段简单的推导:考虑$n$阶方阵$\boldsymbol{A}$的特征值$\lambda$及其对应的特征向量$\boldsymbol{x} = [x_1, \cdots, x_n]^\top \neq \boldsymbol{0} $,显然有$\boldsymbol{A} \boldsymbol{x} = \lambda \boldsymbol{x}$,设$|x_i| = \|\boldsymbol{x}\|_\infty$,于是\begin{align*} \lambda x_i = [\lambda \boldsymbol{x}]_i = [\boldsymbol{A} \boldsymbol{x}]_i = \sum_{j=1}^n a_{ij} x_j \Longrightarrow x_i (\lambda - a_{ii}) = \sum_{j=1, j \neq i}^n a_{ij} x_j \end{align*}两边同时取模,由三角不等式得\begin{align*} |x_i| |\lambda - a_{ii}| \leq \sum_{j=1, j \neq i}^n |a_{ij}| |x_j| \leq |x_i| \sum_{j=1, j \neq i}^n |a_{ij}| = |x_i| R_i \end{align*}其中$R_i = \sum_{j=1, j \neq i}^n |a_{ij}|$是$\boldsymbol{A}$的第$i$行除对角线元素外,剩余元素的模的和。由于$\boldsymbol{x}$是非零向量,必然有$|x_i| \neq 0$,所以\begin{align*} |\lambda - a_{ii}| \leq R_i \end{align*}这意味着$\lambda$包含在复平面上以$a_{ii}$为圆心、$R_i$为半径的圆盘中。于是由$\lambda$的任意性知,$\boldsymbol{A}$ 的所有特征值必然属于如下这$n$个圆盘的并集\begin{align*} G(\boldsymbol{A}) = \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| \leq R_i(\boldsymbol{A}) = \sum_{j=1, j \neq i}^n |a_{ij}| \right\} \end{align*}这就是Gershgorin行圆盘定理。由于$\boldsymbol{A}^\top$和$\boldsymbol{A}$有相同的特征值,于是对$\boldsymbol{A}^\top$应用Gershgorin行圆盘定理,可以得到如下的Gershgorin列圆盘定理:$\boldsymbol{A}$的所有特征值必然属于如下这$n$个圆盘的并集\begin{align*} G(\boldsymbol{A}^\top) = \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{jj}| \leq C_j(\boldsymbol{A}) = \sum_{i=1, i \neq j}^n |a_{ij}| \right\} \end{align*}对比一下可以发现,区别仅仅是每个圆盘的半径变了。

  根据圆盘定理,我们立马可以得到如下两个推论:

  • 由三角不等式可知,若特征值$\lambda_i$属于第$i$个圆盘,那么该特征值的模不超过$|a_{ii}| + R_i = \sum_{j=1}^n |a_{ij}|$,于是有\begin{align*} \rho(\boldsymbol{A}) = \max_i \lambda_i \leq \max_i \left\{ \sum_{j=1}^n |a_{ij}| \right\} = \|\boldsymbol{A}\|_\infty \end{align*}其中$\rho(\boldsymbol{A})$是$\boldsymbol{A}$的谱半径。同理有\begin{align*} \rho(\boldsymbol{A}) = \max_i \lambda_i \leq \max_i \left\{ \sum_{j=1}^n |a_{ji}| \right\} = \|\boldsymbol{A}\|_1 \end{align*}这两个不等式从几何的角度证明了谱半径小于等于矩阵的无穷范数和1范数
  • 若方阵$\boldsymbol{A}$满足对于任意$i$有$|a_{ii}| > \sum_{i=1, i \neq j}^n |a_{ij}|$,则称其为严格对角占优矩阵。显然对于任意严格对角占优矩阵,原点必然不属于它的任意圆盘,因此原点不是它的特征值,也即严格对角占优矩阵必然是可逆矩阵

  下面让我们回到开始的那个问题:特征值估计。显然,圆盘定理是可以给出特征值的估计范围的,就是那些圆盘嘛。那么如何判断估计地好不好呢?这当然取决于圆盘半径的大小,如果圆盘的半径普遍很小,则特征值都被限定在比较小的范围里了,极限情况圆盘半径都是零,那就相当于直接得到所有特征值了。下面介绍一个小技巧,可以改进圆盘的半径,它基于的是相似矩阵有相同特征值这一结论。注意$\boldsymbol{A}$的所有相似矩阵都可以写成$\boldsymbol{S}^{-1} \boldsymbol{A} \boldsymbol{S}$的形式,其中$\boldsymbol{S}$是某个可逆矩阵。那么考虑$\boldsymbol{S}$为对角阵这个最简单的情况,即$\boldsymbol{S} = \boldsymbol{D} = diag (p_1, p_2, \cdots , p_n)$,易知$\boldsymbol{D}^{-1}\boldsymbol{A}\boldsymbol{D}$的第$i$行第$j$列的元素为$p_j a_{ij} / p_i$,于是由圆盘定理可知$\boldsymbol{A}$的所有特征值属于如下这$n$个圆盘的并集\begin{align*} \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| \leq \frac{1}{p_i} \sum_{j \neq i} p_j |a_{ij}| \right\} = G(\boldsymbol{D}^{-1} \boldsymbol{A} \boldsymbol{D}) \end{align*}通过优化$p_1, p_2, \cdots , p_n$的取值,我们可以得到更小的圆盘,从而估计地更好。



  最后再让我们看两个圆盘定理的扩展,其中第一个扩展基于以下的推导。回忆之前对于$n$阶方阵$\boldsymbol{A}$的特征值$\lambda$及其对应的特征向量$\boldsymbol{x} = [x_1, \cdots, x_n]^\top \neq \boldsymbol{0} $,我们有\begin{align*} |x_i| |\lambda - a_{ii}| \leq \sum_{j=1, j \neq i}^n |a_{ij}| |x_j| \end{align*}将$|a_{ij}| |x_j|$写作$|a_{ij}|^\alpha |a_{ij}|^{1-\alpha}|x_j|$,于是\begin{align*} |x_i| |\lambda - a_{ii}| \leq \sum_{j=1, j \neq i}^n \left(|a_{ij}|^\alpha\right) \left(|a_{ij}|^{1-\alpha}|x_j|\right) \leq \left[\sum_{j=1, j \neq i}^n \left(|a_{ij}|^\alpha\right)^{1/\alpha} \right]^\alpha \left[\sum_{j=1, j \neq i}^n \left(|a_{ij}|^{1-\alpha}|x_j|\right)^{1/(1-\alpha)} \right]^{1-\alpha} = R_i^\alpha \left[\sum_{j=1, j \neq i}^n \left(|a_{ij}|^{1-\alpha}|x_j|\right)^{1/(1-\alpha)} \right]^{1-\alpha} \end{align*}其中第二个不等号是基于Hoder不等式。移项整理有\begin{align*} \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} |x_i|^{1/(1-\alpha)} \leq \sum_{j=1, j \neq i}^n |a_{ij}| |x_j|^{1/(1-\alpha)} \end{align*}两边对$i$求和有\begin{align*} \sum_{i=1}^n \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} |x_i|^{1/(1-\alpha)} \leq \sum_{i=1}^n \sum_{j=1, j \neq i}^n |a_{ij}| |x_j|^{1/(1-\alpha)} = \sum_{j=1}^n \sum_{i=1, j \neq i}^n |a_{ij}| |x_j|^{1/(1-\alpha)} = \sum_{j=1}^n C_j |x_j|^{1/(1-\alpha)} \end{align*}也即\begin{align} \label{equ1} \sum_{i=1}^n \left( \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} - C_i \right) |x_i|^{1/(1-\alpha)} \leq 0 \end{align}注意对于任意非零的$x_i$有$|x_i|^{1/(1-\alpha)} > 0$,若对于所有的这些$i$有\begin{align*} \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} - C_i > 0 \end{align*}则式(\ref{equ1})不可能成立,所以必然存在某个$k$,满足$|x_k|^{1/(1-\alpha)} > 0$且\begin{align*} \left(\frac{|\lambda - a_{kk}|}{R_k^\alpha}\right)^{1/(1-\alpha)} - C_k \leq 0 \end{align*}于是有\begin{align*} |\lambda - a_{kk}| \leq R_k^\alpha C_k^{1-\alpha} \end{align*}由$\lambda$的任意性知,$\boldsymbol{A}$的所有特征值必然属于如下这$n$个圆盘的并集\begin{align*} \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| \leq R_i^\alpha C_i^{1-\alpha} \right\} \end{align*}这就是Ostrowski定理,可以看出当$\alpha=1$时,就是Gershgorin行圆盘定理,当$\alpha=0$时,就是Gershgorin列圆盘定理,因此它是比圆盘定理更强的一个结论。

  第二个扩展考虑$\boldsymbol{x}$的模最大的两个元素的下标,不妨设分别为$p$和$q$,也即$\min \{|x_p|,|x_q|\} \geq |x_i|, i \neq \{p,q\}$,于是有\begin{align*} |x_p| |\lambda - a_{pp}| & \leq \sum_{j=1, j \neq p}^n |a_{pj}| |x_j| \leq \sum_{j=1, j \neq p}^n |a_{pj}| |x_q| = |x_q| \sum_{j=1, j \neq p}^n |a_{pj}| = |x_q| R_p \\ |x_q| |\lambda - a_{qq}| & \leq \sum_{j=1, j \neq q}^n |a_{qj}| |x_j| \leq \sum_{j=1, j \neq q}^n |a_{qj}| |x_p| = |x_p| \sum_{j=1, j \neq q}^n |a_{qj}| = |x_p| R_q \end{align*}将上面两式相乘可得\begin{align*} |\lambda - a_{pp}| |\lambda - a_{qq}| \leq R_p R_q \end{align*}由$\lambda$的任意性知,$\boldsymbol{A}$的所有特征值必然属于如下这$n(n-1)/2$个Cassini椭圆形的并集\begin{align*} \bigcup_{i \neq j}^n C_{ij} = \bigcup_{i \neq j}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| |z - a_{jj}| \leq R_i R_j \right\} \end{align*}这就是Brauer定理。不难看出有$C_{ij} \subseteq G_i \cup G_j$,其中$G_i$和$G_j$分别是第$i$个和第$j$个Gershgorin圆盘,否则若对于任意$z \in C_{ij}$有$z \not \in G_i$且$z \not \in G_j$,则必然有$|z - a_{ii}| |z - a_{jj}| > R_i R_j$,这与$C_{ij}$的定义矛盾。由此可知,$n(n-1)/2$个Cassini椭圆形的并集是$n$个Gershgorin圆盘的并集的子集,因此Brauer定理也是比圆盘定理更强的一个结论。

Gershgorin圆盘定理

时间: 2024-11-04 08:01:17

Gershgorin圆盘定理的相关文章

【转】深入浅出PageRank算法

原文链接 http://segmentfault.com/a/1190000000711128 PageRank算法 PageRank算法是谷歌曾经独步天下的“倚天剑”,该算法由Larry Page和Sergey Brin在斯坦福大学读研时发明的, 论文点击下载: The PageRank Citation Ranking: Bringing Order to the Web. 本文首先通过一些参考文献引出问题,然后给出了PageRank的几种实现算法, 最后将其推广至在MapReduce框架下

[詹兴致矩阵论习题参考解答]目录

说明: 1. 有些是自己做的, 而有些是参考文献后再做的. 2. 如果您有啥好的想法, 好的解答, 热切的欢迎您告知我, 或者在相应的习题解答网页上回复. 哪里有错误, 也盼望您指出. 3. 毕竟大学时学过高等代数, 想多学点矩阵论的东西 (matrix=magic), 就先选这本书看看了. 第一章 预备知识 [詹兴致矩阵论习题参考解答]习题1.1 1. 设 $a_1,\cdots,a_n$ 为正实数, 证明矩阵 $$\bex \sex{\frac{1}{a_i+a_j}}_{n\times n

压缩感知——SP(subspace pursuit)重构算法前言翻译

压缩感知是一种采样方法,它和变换编码类似,后者被广泛用于涉及到大规模数据采样的现代通信系统中.变换编码将高维空间中的输入信号,转换成非常低的低维空间中的信号.变换编码器的例子有著名的小波变换和普遍存在的傅立叶变换. 压缩感知技术将变换编码成功的用于可压缩信号或者是稀疏信号.将一个K稀疏N维离散时间信号x进行编码,是通过计算一个m维的测量向量y来完成的,y是x的线性投影.这可以通过下式进行简洁表示:y=Phi*x.在这里,Phi代表一个m*N的矩阵,通常是在实数领域中.在这个框架中,投影基被假设成

NKOJ1236 a^b (数论定理的应用)

          a^b 对于任意两个正整数a,b(0<=a,b<10000)计算a b各位数字的和的各位数字的和的各位数字的和的各位数字的和. Input 输入有多组数据,每组只有一行,包含两个正整数a,b.最后一组a=0,b=0表示输入结束,不需要处理. Output 对于每组输入数据,输出ab各位数字的和的各位数字的和的各位数字的和的各位数字的和. Sample Input 2 3 5 7 0 0 Sample Output 8 5 思路: 数论定理:任何数除以9的余数等于各位数的和除

卢卡斯定理的模板以及应用

定义: Lucas定理是用来求 C(n,m) MOD p,p为素数的值.Lucas定理:我们令n=sp+q,m=tp+r.(q,r≤p) 那么:(在编程时你只要继续对 调用 Lucas 定理即可.代码可以递归的去完成这个过程,其中递归终点为 t=0 :时间复杂度 O(logp(n)?p):) 主要解决当 n,m 比较大的时候,而 p 比较小的时候 <1e6 ,那么我们就可以借助 卢卡斯定理来解决这个问题: 模板: #include <iostream> #include <cstd

计算理论中的莱斯定理(Rice&#39;s Theorem)——证明与应用

我们给出一个在探讨不可判定性时非常有用的结论--莱斯定理(Rice's Theorem).首先,我们来看前面讨论过的几个不可判定的例子: 这些都是由图灵机识别之语言的性质.而莱斯定理告诉我们,任何由图灵机识别之语言的非平凡性质(nontrivial property)都是不可判定的. 最后通过几个例子来探讨一下莱斯定理的应用.来看看下面这个语言能否使用莱斯定理来确定其可判定性. {<M> | M是一个TM,且L(M)可由一些拥有偶数个状态的图灵机识别} 首先来确定这是否是一个语言属性,显然是的

谈谈对CAP定理的理解

谈谈对CAP定理的理解 CAP定理的常规解释是任何分布式系统只能在一致性(Consitency),可用性(Availability)和分区容忍性(Partition Tolerance)中三选二.这个解释很让人费解,笔者在看了一些文章后谈谈我对它的理解,还请斧正. 从问题出发 假设我们用一台服务器A对外提供存储服务,为了避免这台服务器宕机导致服务不可用,我们又在另外一台服务器B上运行了同样的存储服务.每次用户在往服务器A写入数据的时候,A都往服务器B上写一份,然后再返回客户端.一切都运行得很好,

POJ 2769 Reduced ID Numbers 同余定理

Reduced ID Numbers Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 8989 Accepted: 3610 Description T. Chur teaches various groups of students at university U. Every U-student has a unique Student Identification Number (SIN). A SIN s is an

棋盘的多米诺覆盖:Dimer Lattice Model,Pfaff 多项式,Kasteleyn 定理

这次来介绍计数组合学里面一个经典的问题:Dimer Lattice Model.问题是这样的:一个有 64 个方格的国际象棋棋盘,有多少种不同的多米诺骨牌覆盖?这里的覆盖是指不重复不遗漏地盖住整个棋盘. 下图是一种可能的覆盖方式(图片来自 Wiki 百科): 这个问题的答案是 12988816,非常大的一个数字,绝对不是一个一个数出来的.1961 年德国物理学家 Kasteleyn 借助于线性代数中的一个结论首先解决了这个问题,我们接下来就介绍他的方法. ~~~~~~~~~~~~~~~~~~~~