众所周知,对一个$n$阶方阵求取特征值需要解一个一元$n$次方程,当$n$很大时,这是很难实现的。但是,在有些涉及矩阵的实际问题中,我们并不需要知道矩阵特征值的准确值,而只需要知道其大概范围就行了,例如判定一个线性系统最终是否会趋于稳定时,只需要看其特征方程的所有特征根是否均有负实部,即所有的特征根是否均落在$x$轴负半轴上就行了;判定一个$n$阶方阵是否半正定,只需要考察其所有特征值是否均非负,类似的例子还有很多,就不一一赘述了。那么对于这类问题,我们迫切地需要这样一个工具,相比于解$n$次的特征方程,它可以很轻松地估计出特征值的大概范围,下面将要介绍的Gershgorin圆盘定理就是这样一个工具。
该定理是基于下面这样一段简单的推导:考虑$n$阶方阵$\boldsymbol{A}$的特征值$\lambda$及其对应的特征向量$\boldsymbol{x} = [x_1, \cdots, x_n]^\top \neq \boldsymbol{0} $,显然有$\boldsymbol{A} \boldsymbol{x} = \lambda \boldsymbol{x}$,设$|x_i| = \|\boldsymbol{x}\|_\infty$,于是\begin{align*} \lambda x_i = [\lambda \boldsymbol{x}]_i = [\boldsymbol{A} \boldsymbol{x}]_i = \sum_{j=1}^n a_{ij} x_j \Longrightarrow x_i (\lambda - a_{ii}) = \sum_{j=1, j \neq i}^n a_{ij} x_j \end{align*}两边同时取模,由三角不等式得\begin{align*} |x_i| |\lambda - a_{ii}| \leq \sum_{j=1, j \neq i}^n |a_{ij}| |x_j| \leq |x_i| \sum_{j=1, j \neq i}^n |a_{ij}| = |x_i| R_i \end{align*}其中$R_i = \sum_{j=1, j \neq i}^n |a_{ij}|$是$\boldsymbol{A}$的第$i$行除对角线元素外,剩余元素的模的和。由于$\boldsymbol{x}$是非零向量,必然有$|x_i| \neq 0$,所以\begin{align*} |\lambda - a_{ii}| \leq R_i \end{align*}这意味着$\lambda$包含在复平面上以$a_{ii}$为圆心、$R_i$为半径的圆盘中。于是由$\lambda$的任意性知,$\boldsymbol{A}$ 的所有特征值必然属于如下这$n$个圆盘的并集\begin{align*} G(\boldsymbol{A}) = \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| \leq R_i(\boldsymbol{A}) = \sum_{j=1, j \neq i}^n |a_{ij}| \right\} \end{align*}这就是Gershgorin行圆盘定理。由于$\boldsymbol{A}^\top$和$\boldsymbol{A}$有相同的特征值,于是对$\boldsymbol{A}^\top$应用Gershgorin行圆盘定理,可以得到如下的Gershgorin列圆盘定理:$\boldsymbol{A}$的所有特征值必然属于如下这$n$个圆盘的并集\begin{align*} G(\boldsymbol{A}^\top) = \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{jj}| \leq C_j(\boldsymbol{A}) = \sum_{i=1, i \neq j}^n |a_{ij}| \right\} \end{align*}对比一下可以发现,区别仅仅是每个圆盘的半径变了。
根据圆盘定理,我们立马可以得到如下两个推论:
- 由三角不等式可知,若特征值$\lambda_i$属于第$i$个圆盘,那么该特征值的模不超过$|a_{ii}| + R_i = \sum_{j=1}^n |a_{ij}|$,于是有\begin{align*} \rho(\boldsymbol{A}) = \max_i \lambda_i \leq \max_i \left\{ \sum_{j=1}^n |a_{ij}| \right\} = \|\boldsymbol{A}\|_\infty \end{align*}其中$\rho(\boldsymbol{A})$是$\boldsymbol{A}$的谱半径。同理有\begin{align*} \rho(\boldsymbol{A}) = \max_i \lambda_i \leq \max_i \left\{ \sum_{j=1}^n |a_{ji}| \right\} = \|\boldsymbol{A}\|_1 \end{align*}这两个不等式从几何的角度证明了谱半径小于等于矩阵的无穷范数和1范数。
- 若方阵$\boldsymbol{A}$满足对于任意$i$有$|a_{ii}| > \sum_{i=1, i \neq j}^n |a_{ij}|$,则称其为严格对角占优矩阵。显然对于任意严格对角占优矩阵,原点必然不属于它的任意圆盘,因此原点不是它的特征值,也即严格对角占优矩阵必然是可逆矩阵。
下面让我们回到开始的那个问题:特征值估计。显然,圆盘定理是可以给出特征值的估计范围的,就是那些圆盘嘛。那么如何判断估计地好不好呢?这当然取决于圆盘半径的大小,如果圆盘的半径普遍很小,则特征值都被限定在比较小的范围里了,极限情况圆盘半径都是零,那就相当于直接得到所有特征值了。下面介绍一个小技巧,可以改进圆盘的半径,它基于的是相似矩阵有相同特征值这一结论。注意$\boldsymbol{A}$的所有相似矩阵都可以写成$\boldsymbol{S}^{-1} \boldsymbol{A} \boldsymbol{S}$的形式,其中$\boldsymbol{S}$是某个可逆矩阵。那么考虑$\boldsymbol{S}$为对角阵这个最简单的情况,即$\boldsymbol{S} = \boldsymbol{D} = diag (p_1, p_2, \cdots , p_n)$,易知$\boldsymbol{D}^{-1}\boldsymbol{A}\boldsymbol{D}$的第$i$行第$j$列的元素为$p_j a_{ij} / p_i$,于是由圆盘定理可知$\boldsymbol{A}$的所有特征值属于如下这$n$个圆盘的并集\begin{align*} \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| \leq \frac{1}{p_i} \sum_{j \neq i} p_j |a_{ij}| \right\} = G(\boldsymbol{D}^{-1} \boldsymbol{A} \boldsymbol{D}) \end{align*}通过优化$p_1, p_2, \cdots , p_n$的取值,我们可以得到更小的圆盘,从而估计地更好。
最后再让我们看两个圆盘定理的扩展,其中第一个扩展基于以下的推导。回忆之前对于$n$阶方阵$\boldsymbol{A}$的特征值$\lambda$及其对应的特征向量$\boldsymbol{x} = [x_1, \cdots, x_n]^\top \neq \boldsymbol{0} $,我们有\begin{align*} |x_i| |\lambda - a_{ii}| \leq \sum_{j=1, j \neq i}^n |a_{ij}| |x_j| \end{align*}将$|a_{ij}| |x_j|$写作$|a_{ij}|^\alpha |a_{ij}|^{1-\alpha}|x_j|$,于是\begin{align*} |x_i| |\lambda - a_{ii}| \leq \sum_{j=1, j \neq i}^n \left(|a_{ij}|^\alpha\right) \left(|a_{ij}|^{1-\alpha}|x_j|\right) \leq \left[\sum_{j=1, j \neq i}^n \left(|a_{ij}|^\alpha\right)^{1/\alpha} \right]^\alpha \left[\sum_{j=1, j \neq i}^n \left(|a_{ij}|^{1-\alpha}|x_j|\right)^{1/(1-\alpha)} \right]^{1-\alpha} = R_i^\alpha \left[\sum_{j=1, j \neq i}^n \left(|a_{ij}|^{1-\alpha}|x_j|\right)^{1/(1-\alpha)} \right]^{1-\alpha} \end{align*}其中第二个不等号是基于Hoder不等式。移项整理有\begin{align*} \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} |x_i|^{1/(1-\alpha)} \leq \sum_{j=1, j \neq i}^n |a_{ij}| |x_j|^{1/(1-\alpha)} \end{align*}两边对$i$求和有\begin{align*} \sum_{i=1}^n \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} |x_i|^{1/(1-\alpha)} \leq \sum_{i=1}^n \sum_{j=1, j \neq i}^n |a_{ij}| |x_j|^{1/(1-\alpha)} = \sum_{j=1}^n \sum_{i=1, j \neq i}^n |a_{ij}| |x_j|^{1/(1-\alpha)} = \sum_{j=1}^n C_j |x_j|^{1/(1-\alpha)} \end{align*}也即\begin{align} \label{equ1} \sum_{i=1}^n \left( \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} - C_i \right) |x_i|^{1/(1-\alpha)} \leq 0 \end{align}注意对于任意非零的$x_i$有$|x_i|^{1/(1-\alpha)} > 0$,若对于所有的这些$i$有\begin{align*} \left(\frac{|\lambda - a_{ii}|}{R_i^\alpha}\right)^{1/(1-\alpha)} - C_i > 0 \end{align*}则式(\ref{equ1})不可能成立,所以必然存在某个$k$,满足$|x_k|^{1/(1-\alpha)} > 0$且\begin{align*} \left(\frac{|\lambda - a_{kk}|}{R_k^\alpha}\right)^{1/(1-\alpha)} - C_k \leq 0 \end{align*}于是有\begin{align*} |\lambda - a_{kk}| \leq R_k^\alpha C_k^{1-\alpha} \end{align*}由$\lambda$的任意性知,$\boldsymbol{A}$的所有特征值必然属于如下这$n$个圆盘的并集\begin{align*} \bigcup_{i=1}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| \leq R_i^\alpha C_i^{1-\alpha} \right\} \end{align*}这就是Ostrowski定理,可以看出当$\alpha=1$时,就是Gershgorin行圆盘定理,当$\alpha=0$时,就是Gershgorin列圆盘定理,因此它是比圆盘定理更强的一个结论。
第二个扩展考虑$\boldsymbol{x}$的模最大的两个元素的下标,不妨设分别为$p$和$q$,也即$\min \{|x_p|,|x_q|\} \geq |x_i|, i \neq \{p,q\}$,于是有\begin{align*} |x_p| |\lambda - a_{pp}| & \leq \sum_{j=1, j \neq p}^n |a_{pj}| |x_j| \leq \sum_{j=1, j \neq p}^n |a_{pj}| |x_q| = |x_q| \sum_{j=1, j \neq p}^n |a_{pj}| = |x_q| R_p \\ |x_q| |\lambda - a_{qq}| & \leq \sum_{j=1, j \neq q}^n |a_{qj}| |x_j| \leq \sum_{j=1, j \neq q}^n |a_{qj}| |x_p| = |x_p| \sum_{j=1, j \neq q}^n |a_{qj}| = |x_p| R_q \end{align*}将上面两式相乘可得\begin{align*} |\lambda - a_{pp}| |\lambda - a_{qq}| \leq R_p R_q \end{align*}由$\lambda$的任意性知,$\boldsymbol{A}$的所有特征值必然属于如下这$n(n-1)/2$个Cassini椭圆形的并集\begin{align*} \bigcup_{i \neq j}^n C_{ij} = \bigcup_{i \neq j}^n \left\{ z \in \mathbb{C} \ | \ |z - a_{ii}| |z - a_{jj}| \leq R_i R_j \right\} \end{align*}这就是Brauer定理。不难看出有$C_{ij} \subseteq G_i \cup G_j$,其中$G_i$和$G_j$分别是第$i$个和第$j$个Gershgorin圆盘,否则若对于任意$z \in C_{ij}$有$z \not \in G_i$且$z \not \in G_j$,则必然有$|z - a_{ii}| |z - a_{jj}| > R_i R_j$,这与$C_{ij}$的定义矛盾。由此可知,$n(n-1)/2$个Cassini椭圆形的并集是$n$个Gershgorin圆盘的并集的子集,因此Brauer定理也是比圆盘定理更强的一个结论。
Gershgorin圆盘定理