L29-相似矩阵和若尔当形

linear-algebra

L29-相似矩阵和若尔当形

参考

正定矩阵相关

正定矩阵源自于最小二乘法,在该算法/求解步骤中出现了 ATAA^{T}A,其作用是将长方形的矩阵 Am×nA_{m \times n} 构造/变成了 n×nn \times n 的方阵 这个方阵是半正定矩阵

证明

正是通过该公式 ATAA^{T}A 可以快速构建出一个对称矩阵,所以 ATAA^{T}A 的结果矩阵就是对称矩阵

再进一步分析其正定性

xT(ATA)x=(xTAT)(Ax)x^{T}(A^{T}A)x=(x^{T}A^{T})(Ax)

根据置换运算的规则,可以将 xTATx^{T}A^{T} 转换为 (Ax)T(Ax)^{T} 所以以上等式可以变成

xT(ATA)x=(xTAT)(Ax)=(Ax)T(Ax)x^{T}(A^{T}A)x=(x^{T}A^{T})(Ax)=(Ax)^{T}(Ax)

其中 AxAx 的结果是一个向量,即 xT(ATA)xx^{T}(A^{T}A)x 实际是向量 AxAx 模长的平方

xT(ATA)x=(Ax)T(Ax)=Ax20x^{T}(A^{T}A)x=(Ax)^{T}(Ax)=\|Ax\|^{2}\ge 0

因为 xT(ATA)x0x^{T}(A^{T}A)x\ge 0 所以方阵 ATAA^{T}A 是半正定矩阵

如果矩阵 AA 的零空间只有零向量,即方程 Ax=0Ax=0 只有唯一解 x=0x=0,那么对于 x0x\ne 0 的任意向量,xT(ATA)x=(Ax)T(Ax)=Ax2>0x^{T}(A^{T}A)x=(Ax)^{T}(Ax)=\|Ax\|^{2}> 0 成立,则 ATAA^{T}A 是正定矩阵

当矩阵 AA 的零空间只有零向量,则表示矩阵各列向量是线性独立的,相对应地 ATAA^{T}A 是可逆的,则最小二乘法有最优解

对于正定矩阵 AA 的逆矩阵 A1A^{-1},也是正定矩阵

证明

因为逆矩阵 A1A^{-1} 的特征值是原矩阵 AA 的特征值 λ\lambda 的倒数 1λ\cfrac{1}{\lambda},如果原矩阵 AA 是正定矩阵,则它的所有特征值都是正数,相应地逆矩阵 A1A^{-1} 的所有特征值也是正数,那么逆矩阵 A1A^{-1} 也是正定矩阵

矩阵 AABB 都是正定矩阵,则它们的和 A+BA+B 的结果矩阵也是正定矩阵

证明

如果矩阵 AABB 是正定矩阵,则对于任意向量 xx 都满足

{xTAx>0xTBx>0\left\{\begin{matrix} x^{T}Ax>0 \\ x^{T}Bx>0 \end{matrix}\right.

根据矩阵相乘法则(满足分配律)可得 xT(A+B)x=xTAx+xTBx>0x^{T}(A+B)x=x^{T}Ax+x^{T}Bx>0

所以矩阵 A+BA+B 也是正定矩阵

相似矩阵

如果存在一个矩阵 MM 它具有可逆矩阵 M1M^{-1},使得 B=M1AMB=M^{-1}AM 成立,则两个方阵 AABB 相似

使用以上等式,基于矩阵 AA,采用不同的矩阵 MM 就可以得到一系列的相似矩阵,这样就将一些矩阵联系起来,将它们归为一个族 family(类似于向量空间对线性运算封闭,该矩阵集合对 M1AMM^{-1}AM 这个运算封闭❓),每个族内的所有矩阵彼此相似。每个族可以用一个对角矩阵(或结构与对角矩阵相似的矩阵)来表示。

例如对于矩阵 A2×2=[2121]A_{2 \times 2}=\begin{bmatrix} 2 & 1 \\ 2 & 1 \end{bmatrix} 它的特征值是 λ1=3\lambda_{1}=3λ2=1\lambda_{2}=1

由于它具有 22 个独立的特征向量,则可以进行对角化分解,得到 A=S1ΛSA=S^{-1}\Lambda S 其中特征值矩阵 Λ=[3001]\Lambda=\begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix},那么矩阵 AA 相似于矩阵 Λ\Lambda

以上是通过分解矩阵的方式来找到相似矩阵,还可以通过「逆向构造」的方式,找到相似矩阵

例如给出一个矩阵 M=[1401]M=\begin{bmatrix} 1 & 4 \\ 0 & 1 \end{bmatrix} 其逆矩阵是 M1=[1401]M^{-1}=\begin{bmatrix} 1 & -4 \\ 0 & 1 \end{bmatrix},将它们相乘起来就可以得到与矩阵 AA 相似的矩阵 BB

B=M1AM=[1401][2121][1401]=[21516]\begin{aligned} B&=M^{-1}AM \\ &= \begin{bmatrix} 1 & -4 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 2 & 1 \\ 2 & 1 \end{bmatrix} \begin{bmatrix} 1 & 4 \\ 0 & 1 \end{bmatrix} \\ &= \begin{bmatrix} -2 & -15 \\ 1 & 6 \end{bmatrix} \end{aligned}

通过计算可以知道矩阵 BB 的特征值也是 λ1=3\lambda_{1}=3λ2=1\lambda_{2}=1,它与矩阵 AA 以及前面分解得到的特征值矩阵 Λ\Lambda 都是相似的,而且它们的特征值都相同

根据特征值相同的这一特点,再根据 trace=λ1+λ2trace=\lambda_{1} + \lambda_{2} 以及 detA=λ1λ2detA=\lambda_{1}\lambda_{2},可以快速构造出更多与 AA 相似的矩阵,例如 [3701]\begin{bmatrix} 3 & 7 \\ 0 & 1 \end{bmatrix}[1703]\begin{bmatrix} 1 & 7 \\ 0 & 3 \end{bmatrix}

其中特征值矩阵 Λ\Lambda 是最特殊的,可以作为这一类相似矩阵的代表

相似矩阵都具有相同的特征值,且线性无关/独立的特征向量的数量也一样

证明

当矩阵 BB 与矩阵 AA 相似,则可以找到一个矩阵 MM 满足等式 B=M1AMB=M^{-1}AM

矩阵 AA 的特征值 λ\lambda 满足等式 Ax=λxAx=\lambda x

将以上等式变形为 AIx=AMM1x=λxA{\color{Red} I}x=A{\color{Red} MM^{-1}}x=\lambda x

再在以上等式两边乘上矩阵 M1M^{-1} 可得

M1AMM1x=λM1xM^{-1}AMM^{-1}x=\lambda M^{-1}x

B=M1AMB=M^{-1}AM 替换上式等号的左边部分,可得

BM1x=λM1xBM^{-1}x=\lambda M^{-1}x

化简可得 BxλxBx\lambda xλ\lambda 也是矩阵 BB 的特征值

但是矩阵 BB 与矩阵 AA 的特征向量并不完全相同(如果特征值相同,特征向量也相同,则矩阵就会相同)

存在一种特殊的情况,即矩阵 An×nA_{n \times n} 出现了数值相同的特征值(由于特征向量和特征值是成对出现的,相应地无法得到 nn 个线性独立的特征向量),则矩阵 AA 无法进行对角化(也就无法得到相应的对角矩阵 Λ\Lambda 作为相似矩阵)

例如对于矩阵 A2×2A_{2 \times 2} 它具有两个相同的特征值 λ1=λ2=4\lambda_{1}=\lambda_{2}=4

⚠️ 那么由这两个特征值构成的对角矩阵 B=[4004]B=\begin{bmatrix} 4 & 0 \\ 0 & 4 \end{bmatrix} 并不是与矩阵 AA 相似,并不能和它归到一个族 family,这个特殊的对角矩阵(实际上是与单位矩阵呈倍数关系)是单独成为一类/族

因为对于任意可逆矩阵 MM,公式 M1BM=4M1IM=4M1M=4I=BM^{-1}BM=4M^{-1}IM=4M^{-1}M=4I=B 都是成立的,即它(对于该公式)是「自我封闭」的

而矩阵 AA 与其他具有相同特征值矩阵归到另外一个族 family,例如 [4104],[5113],[40174]\begin{bmatrix} 4 & 1 \\ 0 & 4 \end{bmatrix}, \begin{bmatrix} 5 & 1 \\ -1 & 3 \end{bmatrix}, \begin{bmatrix} 4 & 0 \\ 17 & 4 \end{bmatrix} 等,

若尔当形

若尔当 Jordan 提出了一种矩阵形式(和对角矩阵相似,更具有普遍性),以表示某一类的相似矩阵,可以包括具有相同的特征值的矩阵(而特征值矩阵 Λ\Lambda 只能用来表示没有相同数值的特征值的矩阵),称作 Jordan Form 若尔当形

例如对于以上示例的一系列相似矩阵,其若尔当形是 [4104]\begin{bmatrix} 4 & 1 \\ 0 & 4 \end{bmatrix}

对于以下的 4×44 \times 4 的矩阵,它是一类相似矩阵的若尔当形

A=[0100001000000000]A= \begin{bmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}

其特征值都是 λi=0\lambda_{i}=0 秩为 rank=2rank=2,所以零空间为 42=24-2=2,那么它的特征向量就「缺失」了两个(这里指的是特征向量线性相关,所以只有两个特征向量是线性独立的)

对于另一个矩阵,它具有相同的特征值,而且特征向量也是「缺失」两个,它与矩阵 AA 相似

B=[0170001000000000]B= \begin{bmatrix} 0 & 1 & 7 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix}

而考察以下矩阵

C=[0100000000010000]C= \begin{bmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{bmatrix}

虽然它具有相同的特征值,而且特征向量也是「缺失」两个,但是它与矩阵 AA 相似

这里是根据矩阵可以划分的 若尔当块 Jordan Blocks 进行判定的

若尔当块 Jordan block 是一个矩阵 jij_{i} 它在对角线上是重复的特征值,左下方元素都是 00,右上方紧挨着对角线的元素都是 11,其余都是 00

Ji=[λi1000λi1000λi1000λi]J_{i}= \begin{bmatrix} \lambda_{i} & 1 & 0 & \dots & 0 \\ 0 & \lambda_{i} & 1 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \dots & \lambda_{i} & 1 \\ 0 & 0 & \dots & 0 & \lambda_{i} \end{bmatrix}

若尔当理论是指每一个方阵 AA 都相似于一个若尔当矩阵 JJ,而这个若尔当矩阵是由若干个若尔当块 Jordan Blocks 构成的。可以对原矩阵按照若尔当块进行划分,如果两个矩阵是由不同的若尔当块构成的,那么即使它们矩阵相同的特征值和特征向量,也不能说明它们是相似矩阵

J=[J1000J2000Jd]J= \begin{bmatrix} J_{1} & 0 & \dots & 0 \\ 0 & J_{2} & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & J_{d} \end{bmatrix}

对于以上的矩阵 AACC,它们按照若尔当块进行划分,得到不同的结构,所以两个矩阵并不相似

若尔当块
若尔当块

计算若尔当矩阵的思路

  • 如果方阵 An×nA_{n \times n} 含有 nn 个线性独立的特征向量,则它是可对角化的,那么它所对应的若尔当矩阵 JJ 是特征值矩阵(对角矩阵)J=ΛJ=\Lambda
  • 如果方阵 An×nA_{n \times n}nn 个重复的特征指,则相应地会有 nn 个「缺失」的特征向量(这里指的是特征向量线性相关),则在若尔当矩阵 JJ 中将会有 ndn-d11 位于对角元素的右上方

Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes