L21-特征值和特征向量

linear-algebra

L21-特征值和特征向量

参考

特征值 Eigenvalue 和特征向量 Eigenvector,与行列式一样,反映了矩阵的信息

说明

行列式、特征值、特征向量都是针对方阵而言的,即讨论一个矩阵的行列式、特征值、特征向量时,假定了该矩阵就是 n×nn \times n 方阵

函数 f(x)=yf(x)=y 的作用是对于传入自变量 xx,函数 ff 对其进行转换,得到因变量 yy。如果以函数的角度看待/思考矩阵 AA,对于传入一个向量 xx 进行转换作用,得到结果向量 AxAx

结果向量 AxAx 一般与原向量 xx方向不同,对于那些转换后依然与原向量平行(方向可以相同也可以相反)的向量 AxxAx \parallel x 称为特征向量

对于矩阵 AA,其特征向量是指那些使得 AxxAx \parallel x 成立的向量 xx,也可以表示为 Ax=λxAx=\lambda x 则系数 λ\lambda 为特征值(所以特征向量和特征值伴随出现)

当特征值为 λ=0\lambda =0 时,矩阵 AA 的零空间中的向量就是特征向量(或者说特征向量构成了零空间)

说明

如果特征值为 00,那么等式就变成 Ax=λx=0Ax=\lambda x=0,其中使得该等式成立的向量 xx 就是特征向量

而对于方程 Ax=0Ax=0 的解,构成了矩阵 AA零空间

所以当特征值 λ=0\lambda =0 时,矩阵 AA 的零空间中的向量就是特征向量(或者说特征向量构成了零空间)

对于奇异的 singular 矩阵 AA,由于矩阵中存在非线性独立的列向量,所以 Ax=0Ax=0 必有解,即当矩阵 AA 是奇异矩阵时,00 必然是该矩阵的特征值之一

求解示例

以下介绍一些特别的矩阵,利用它们的特性来求解(通过分析直接得出)特征值和特征向量

投影矩阵

对于矩阵 A2×2A_{2 \times 2} (由它的两个列向量可以构成一个平面),其投影矩阵是 P=A(ATA)1ATP=A(A^{T}A)^{-1}A^{T}

投影矩阵的作用

投影矩阵(以相乘的方式)作用于向量 xx 所得的结果向量 PxPx 是向量 xx 在平面的分量

所以投影矩阵的作用相当于将向量 xx 投影于平面上

根据投影矩阵 PP 的特殊作用/定义,可以知道:

  • 当向量 xx 位于平面上时,满足 Px=xPx=x 即向量在平面上的投影等于自身。
    而根据特征向量的定义,可知这样的向量(位于平面 AA 上)就是投影矩阵的特征向量,此时特征值为 λ=1\lambda =1
  • 当向量 xx 垂直于平面时,满足 Px=0Px=0 即向量在平面上没有分量。
    而根据特征向量的定义,可知这样的向量(垂直于平面 AA)就是投影矩阵的特征向量,此时特征值为 λ=0\lambda =0
提示

投影矩阵 PP 的这两类特征向量正好相互垂直,所以由它们就可以张成整个(矩阵维度所在的)向量空间

但是这只是特例,并非所有矩阵的特征向量都可以张成其所在维度的向量空间

对称矩阵

对于以下对称矩阵

A=[0110]A= \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}

其作用是将(与之相乘的)向量 x=[x1x2]x=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix} 的元素(上下)互换

Ax=[0110][x1x2]=[x2x1]Ax= \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}= \begin{bmatrix} x_{2} \\ x_{1} \end{bmatrix}

求该矩阵的特征向量和特征值,就是要寻找使得等式成立 Ax=λxAx=\lambda x 的向量和系数 λ\lambda

Ax=[0110][x1x2]=[x2x1]=λx=λ[x1x2]Ax= \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}= \begin{bmatrix} x_{2} \\ x_{1} \end{bmatrix}= \lambda x= \lambda \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}

可得

[x2x1]=λ[x1x2]\begin{bmatrix} x_{2} \\ x_{1} \end{bmatrix}= \lambda \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}

将等式写成方程组形式

{x2=λx1x1=λx2\left\{\begin{matrix} x_{2}=\lambda x_{1}\\ x_{1}=\lambda x_{2} \end{matrix}\right.

将第二个等式 x1=λx2x_{1}=\lambda x_{2} 代入第一个等式中 x2=λx1x_{2}=\lambda x_{1} 以替换掉 x1x_{1} 可得

x2=λx1=λ(λx2)=λ2x2λ2=1x_{2}=\lambda x_{1}=\lambda (\lambda x_{2})= \lambda^{2} x_{2} \Rightarrow \lambda^{2} = 1

解得 λ1=1\lambda_{1}=1λ2=1\lambda_{2}=-1

  • 当特征值 λ=1\lambda = 1,代入到以上方程组,可得 x1=x2x_{1}=x_{2},那么其中一个特解是 x1=x2=1x_{1}=x_{2}=1,所以其中一个特征向量是 [11]\begin{bmatrix} 1 \\ 1 \end{bmatrix}
  • 当特征值 λ=1\lambda = -1,代入到以上方程组,可得 x1=x2x_{1}=-x_{2},那么其中一个特解是 x1=1,x2=1x_{1}=-1, x_{2}=1,所以其中一个特征向量是 [11]\begin{bmatrix} -1 \\ 1 \end{bmatrix}

💡 正好该矩阵的两类特征向量也可以张成矩阵所在的向量空间,由于矩阵是对称矩阵 B=BTB=B^{T},所以两类特征向量相互垂直

求解算法

对于 n×nn \times n 矩阵,具有 nn 个特征值(可能会存在相同的值)

特征值之和称为迹 trace,也正好等于矩阵对角线上元素之和,即 i=1nλi=i=1naii\sum_{i=1}^{n}\lambda_{i}=\sum_{i=1}^{n}a_{ii}

根据特征向量的定义而得的等式 Ax=λxAx=\lambda x 其中属于未知数的有系数 λ\lambda(特征值)和变量 xx(特征向量),在求解时需要分步骤:

  1. 首先求出 λ\lambda 特征值

将等式 Ax=λxAx=\lambda x 变换为 (AλI)x=0(A-\lambda I)x=0 为了让该等式必然成立(方程组必然有解),则需要矩阵 AλxA-\lambda x 是奇异矩阵

注意

对于等式/方程组 (AλI)x=0(A-\lambda I)x=0 必然有解 x=0x=0 但是零向量是无用特征值,因为任何矩阵与零向量相乘,其结果向量都必然是零向量

所以上面所说的「让该等式必然成立(方程组必然有解)」并没有去考虑 x=0x=0 的必然情况

分析并没有从 x=0x=0 入手,而是从使得 xx 必然有解(非零解 ❓)入手,得出矩阵 AλxA-\lambda x 需要是奇异矩阵

提示

对于 AλIA-\lambda I 其中 λI\lambda I 的作用就像是对矩阵 AA 进行「校正」/「平移」 shifted,使得它变成一个奇异矩阵

而奇异矩阵的行列式为 00,所以可以得到关于 λ\lambda 的方程 det(AλI)=0det(A-\lambda I)=0

说明

det(AλI)=0det(A-\lambda I)=0 被称为 key equation 关键方程/ characteristic equation 特征方程/ eigenvalue equation 特征值方程

求解 (AλI)x=0(A-\lambda I)x=0 可以得到矩阵的所有特征值(对于 n×nn \times n 的矩阵,有 nn 个特征值,即以上方程会有 nn 个解,虽然可能出现解的值相同的情况,但实际上数量依然是 nn 个)

  1. 接着求解 xx 特征向量

将上一步骤中所求出的 nnλ\lambda 值分别代入到等式中 (AλI)x=0(A-\lambda I)x=0 则得到 nn 个关于 xx 的方程

求解每个方程 (AλI)x=0(A-\lambda I)x=0 则可以按照求解矩阵 AλIA-\lambda I 零空间的步骤进行(消元法找出矩阵的主元 ➡️ 为其中的自由变量赋值 ➡️ 求出特解/特征向量)

求解演示

使用以上算法步骤求解特殊的矩阵的特征值和特征向量

对称矩阵

求解以下对称矩阵的特征值和特征向量

[3113]\begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix}

根据算法步骤进行求解:

  1. 求出特征值

求解关于 λ\lambda 的方程 det(AλI)=0det(A-\lambda I)=0

det(AλI)=3113λ1001=3λ113λ=(3λ)21=λ26λ+8=(λ2)(λ4)=0\begin{aligned} det(A-\lambda I)&= \begin{vmatrix} 3 & 1 \\ 1 & 3 \end{vmatrix}-\lambda \begin{vmatrix} 1 & 0 \\ 0 & 1 \end{vmatrix} \\ &= \begin{vmatrix} 3-\lambda & 1 \\ 1 & 3-\lambda \end{vmatrix} \\ &= (3-\lambda)^{2}-1 \\ &=\lambda^{2}-6\lambda+8 \\ &=(\lambda-2)(\lambda-4)=0 \end{aligned}

解得 λ1=2\lambda_{1}=2λ2=4\lambda_{2}=4

提示

一元二次方程可以进行因式分解得到 (xx1)(xx2)=0(x-x_{1})(x-x_{2})=0

如果将以上式子展开可得 x2(x1+x2)x+x1x2=0x^{2}-(x_{1}+x_{2})x+x_{1}x_{2}=0,所以两个解的和 x1+x2x_{1}+x_{2} 为一次项系数的相反数,两个解的积 x1x2x_{1}x_{2} 为常数项

所以对于以上例子中矩阵 AA 的两个特征值 λ1\lambda_{1}λ2\lambda_{2},它们的和为 λ1+λ2=6\lambda_{1}+\lambda_{2}=6,它们的积为 λ1λ2=8\lambda_{1}\lambda_{2}=8

此外对于矩阵而言,它的对角线上的元素的和 3+3=63+3=6 这特征值的和一样,前面以及提到,该值也称为矩阵的迹 track

另外矩阵 AA 的行列式是 detA=3×31×1=8detA=3 \times 3 - 1 \times 1=8,正好是特征值的积,其实该规律具有一般性,即 特征值的积等于矩阵的行列式 i=1nλi=detA\prod_{i=1}^{n} \lambda_{i}=detA

  1. 分别将以上求出的特征值 λ\lambda 代入到等式 (AλI)x=0(A-\lambda I)x=0
  • λ=2\lambda=2(A2I)x=([3113]2[1001])x=[1111]x=0(A-2I)x= (\begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix}-2 \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix})x= \begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}x=0
    其中一个特解为 x=[11]x=\begin{bmatrix} -1 \\ 1 \end{bmatrix}
  • λ=4\lambda=4(A4I)x=([3113]4[1001])x=[1111]x=0(A-4I)x= (\begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix}-4 \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix})x= \begin{bmatrix} -1 & 1 \\ 1 & -1 \end{bmatrix}x=0
    其中一个特解为 x=[11]x=\begin{bmatrix} 1 \\ 1 \end{bmatrix}
提示

对比前面的例子 A=[0110]A=\begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} 它的特征值为 λ=1\lambda =1 时,特征向量是 x=[11]x=\begin{bmatrix} 1 \\ 1 \end{bmatrix};特征值为 λ=1\lambda =-1 时,特征向量是 x=[11]x=\begin{bmatrix} -1 \\ 1 \end{bmatrix}

而该例子 A=[3113]A^{'}=\begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix} 它的特征值为 λ=4\lambda^{'} =4 时,特征向量是 x=[11]x^{'}=\begin{bmatrix} 1 \\ 1 \end{bmatrix};它的特征值为 λ=2\lambda^{'} =2 时,特征向量是 x=[11]x^{'}=\begin{bmatrix} -1 \\ 1 \end{bmatrix}

两个矩阵的关系 A=A+3IA^{'}=A+3I,而两者特征值的对应关系是 λ=3+λ\lambda^{'}=3+\lambda,而两者特征向量并没有发生变化

这是由于矩阵的特征值和特征向量满足等式 Ax=λxAx=\lambda x,当矩阵发生变化从 AA 变成 A+3IA+3I 时,等式会发生相应的变化

(A+3I)x=Ax+3Ix=λx+3x=(λ+3)x\begin{aligned} (A+3I)x&=Ax+3Ix \\ &=\lambda x+3x \\ &=(\lambda + 3)x \end{aligned}

特征值变成了 λ+3\lambda + 3 但特征向量不变

但以上规律只适用于矩阵通过 kIkI(单位向量的倍数)进行「平移」 shifted,而一般不适用于与其他类型的矩阵作用下的变化

例如已知矩阵 AABB 的特征值和特征向量,满足等式 Ax=λxAx=\lambda xBx=αxBx=\alpha x,但是一般无法得到 (A+B)x=(λ+α)x(A+B)x=(\lambda + \alpha)x 这样的等式,因为一般两个矩阵的特征向量是不同的,所以不能进行合并同类项

旋转矩阵

旋转矩阵是一种特殊的正交矩阵,记作 QQ,该矩阵可以将(与之相乘的)向量旋转 9090^{\circ}

以下是一个旋转矩阵

Q=[cos90sin90sin90cos90]=[0110]Q= \begin{bmatrix} \cos90^{\circ} & -\sin90^{\circ} \\ \sin90^{\circ} & \cos90^{\circ} \end{bmatrix}= \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}

求它的特征值

提示

假如该矩阵的特征向量是 xx,而结合该矩阵的作用,向量 xx 经过该矩阵的作用后,所得的结果向量 QxQx 都会与原矩阵垂直,那么这个和特征向量的(平行)定义矛盾

而根据之前的分析,该 2×22 \times 2 矩阵具有 22 个特征值 λ1\lambda_{1}λ2\lambda_{2},而特征值的和 λ1+λ2\lambda_{1}+\lambda_{2} 和矩阵对角线上元素之和一样,即 λ1+λ2=0+0=0\lambda_{1}+\lambda_{2}=0+0=0,特征值的积 λ1×λ2\lambda_{1} \times \lambda_{2} 和矩阵的行列式一样,即 λ1×λ2=(0×0)(1×1)=1\lambda_{1} \times \lambda_{2}=(0 \times 0)-(-1 \times 1)=1

根据 λ1+λ2=0\lambda_{1}+\lambda_{2}=0λ1×λ2=1\lambda_{1} \times \lambda_{2}=1 这两个矛盾的等式,可知该矩阵没有实数的特征值

通过求解特征方程 det(QλI)det(Q-\lambda I) 求出特征值

det(QλI)=det([0110]λ[1001])=λ11λ=λ2+1=0\begin{aligned} det(Q-\lambda I)&= det( \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix}-\lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}) \\ &= \begin{vmatrix} -\lambda & -1 \\ 1 & -\lambda \end{vmatrix} \\ &=\lambda^{2}+1=0 \end{aligned}

可得 λ1=i\lambda_{1}=iλ=i\lambda=-i(一对共轭复数)

其实特征值与矩阵的对称性相关:

  • 若矩阵是对称矩阵 symmetric,即矩阵满足 BT=BB^{T}=B,那么它的特征值都是实数(而且特征向量相互垂直 ❓)
  • 若矩阵是反对称矩阵 anti-symmetric,即矩阵满足 BT=BB^{T}=-B,那么它的特征值是虚数(即复数中没有实数的部分)
  • 若矩阵的对称性介于完全对称和反对称之间,那么它的特征值是复数(每个特征值都是由实数和虚数构成 ❓)

对角矩阵

求以下对角矩阵的特征值和特征向量

A=[3103]A= \begin{bmatrix} 3 & 1 \\ 0 & 3 \end{bmatrix}
  1. 通过求解特征方程 det(AλI)det(A-\lambda I) 求出特征值 det(AλI)=det([3103]λ[1001])=3λ103λ=(3λ)2=0\begin{aligned} det(A-\lambda I)&= det( \begin{bmatrix} 3 & 1 \\ 0 & 3 \end{bmatrix}-\lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}) \\ &= \begin{vmatrix} 3-\lambda & 1 \\ 0 & 3-\lambda \end{vmatrix} \\ &=(3-\lambda)^{2} \\ &=0 \end{aligned}
    解得 λ1=λ2=3\lambda_{1}=\lambda_{2}=3 正好是矩阵对角线上的元素
  2. 将以上求出的特征值 λ\lambda 代入到等式 (AλI)x=0(A-\lambda I)x=0
    当特征值为 λ1=3\lambda_{1}=3(A3I)x=[0100]x=0(A-3I)x= \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix}x=0
    其中一个特解为 x=[10]x=\begin{bmatrix} 1 \\ 0 \end{bmatrix}

以上 2×22 \times 2 矩阵只能得到 11 类特征向量(无法得到 22 类线性无关的特征向量),这是由于有重复的特征值造成的,这种类型的矩阵称为退化矩阵 degenerate matrix

三角矩阵 triangular matrix 的特征值(nn 个)和矩阵对角线上的元素一样


Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes