L25-复习二 参考 Unit II: Least Squares, Determinants and Eigenvalues - Exam 2 Review | pdf 课本章节:Review Chapters 4, 5, and 6 (through Sec. 6.3) plus Sections 8.3 and 8.5 in the 4th edition or Review Chapters 4, 5, and 6 (through Sec. 6.3) plus Sections 10.3 and 10.5 in the 5th edition. 练习题:测试 2 该单元主要介绍了三大主题
正交矩阵 Orthogonal matrices Q = [ q 1 ⋯ q n ] Q=\begin{bmatrix} q_{1} & \cdots & q_{n} \end{bmatrix} 满足 Q T Q = I Q^{T}Q=I 投影矩阵的应用:最小二乘法求出拟合直线,求解 A x = b Ax=b 方程 矩阵的行列式 d e t A detA 特性一至特性三定义了行列式,并推导出特性四至特性十 求解行列式的通用公式,是 n ! n! 项求和,而且其中 + + 符号为正和 − - 符号为负的项各占一半 使用代数余子式 cofactor formula 可以将简化求解过程 特征值和特征向量,满足 A x = λ x Ax=\lambda x 等式 通过特征方程 d e t ( A − λ I ) = 0 det(A-\lambda I)=0 求出特征值 矩阵对角化 S − 1 A S = Λ S^{-1}A S=\Lambda (需要满足前提,即矩阵 A A 具有 n n 个线性独立的特征向量) 基于矩阵的对角化,可以对矩阵的幂进行化简 A k = ( S Λ S − 1 ) k = S Λ S − 1 A^{k}=(S\Lambda S^{-1})^{k}=S\Lambda S^{-1} 已知向量 a = [ 2 1 2 ] a=\begin{bmatrix} 2 \\ 1 \\ 2 \end{bmatrix}
找出投影矩阵,可以将任何向量投影到向量 a a 所在直线 矩阵 P P 的秩 矩阵 P P 的列空间 矩阵 P P 的特征值 当矩阵 P P 的特征值为 1 1 时,对应的特征向量是多少 假设递推关系式 u k + 1 = P u k u_{k+1}=Pu_{k} 的首项是 u 0 = [ 9 9 0 ] u_{0}=\begin{bmatrix} 9 \\ 9 \\ 0 \end{bmatrix} 求通项公式 u k u_{k} 投影到矩阵 A A 的列空间的投影矩阵的通用公式为 P = A ( A T A ) − 1 A T P=A(A^{T}A)^{-1}A^{T}
由于这里是投影到一条直线/向量 a a 上,所以以上公式中的 ( A T A ) − 1 (A^{T}A)^{-1} 其结果是一个常数
( a T a ) − 1 = 1 a T a = 1 [ 2 1 2 ] [ 2 1 2 ] = 1 9 (a^{T}a)^{-1}=\cfrac{1}{a^{T}a}=
\cfrac{1}{
\begin{bmatrix}
2 & 1 & 2
\end{bmatrix}
\begin{bmatrix}
2 \\
1 \\
2
\end{bmatrix}
}=\cfrac{1}{9} 所以投影矩阵为
P = a a T a T a = 1 9 [ 4 2 4 2 1 2 4 2 4 ] \begin{aligned}
P&=\cfrac{aa^{T}}{a^{T}a} \\
&=\cfrac{1}{9}
\begin{bmatrix}
4 & 2 & 4 \\
2 & 1 & 2 \\
4 & 2 & 4
\end{bmatrix}
\end{aligned} 投影矩阵 P P
P = 1 9 [ 4 2 4 2 1 2 4 2 4 ] P=\cfrac{1}{9}
\begin{bmatrix}
4 & 2 & 4 \\
2 & 1 & 2 \\
4 & 2 & 4
\end{bmatrix} 观察可知矩阵的各列向量都是线性相关的,所以它的秩为 r a n k = 1 rank=1 (主元数量)
投影矩阵 P P
P = 1 9 [ 4 2 4 2 1 2 4 2 4 ] P=\cfrac{1}{9}
\begin{bmatrix}
4 & 2 & 4 \\
2 & 1 & 2 \\
4 & 2 & 4
\end{bmatrix} 观察可知矩阵 P P 的第一个列向量(和第三个列向量)都可以看作是由第二个列向量乘上某个倍数得到,所以矩阵的列空间可以是由该向量 [ 2 1 2 ] \begin{bmatrix} 2 \\ 1 \\ 2 \end{bmatrix} 张成的
而该向量就是 a a 向量,所以矩阵的列空间就是向量 a a 所在的直线
由「解答一」可知矩阵 P P 的秩为 r a n k = 1 rank=1 则它的零空间的维度是 n − r = 3 − 1 = 2 n-r=3-1=2
即对于方程 P x = 0 Px=0 有两个 (非零)解/向量,它们是相互线性独立的,可以张成零空间(相应地零空间维度是 2 2 )
而根据特征向量的定义,可知方程 P x = 0 Px=0 的解就是特征值为 λ = 0 \lambda=0 时的特征向量,由于 P x = 0 Px=0 有两个解,它们所对应的特征值都为 0 0 ,所以已知矩阵 P P 含有两个相同的特征值 λ 1 = λ 2 = 0 \lambda_{1}=\lambda_{2}=0
由于 P 3 × 3 P_{3 \times 3} 有 3 3 个特征值,再利用矩阵的迹 t r a c e = λ 1 + λ 2 + λ 3 = 1 9 ( 4 + 1 + 4 ) trace=\lambda_{1}+\lambda_{2}+\lambda_{3}=\cfrac{1}{9}(4+1+4) 可以求出余下的一个特征值为 λ 3 = 1 \lambda_{3}=1
当特征值为 λ = 1 \lambda=1 时,通过求解方程 ( P − λ I ) x = 0 (P-\lambda I)x=0 得到相应的特征向量
( P − λ I ) x = ( P − I ) x = 0 ⇒ P x = x (P-\lambda I)x=(P-I)x=0 \Rightarrow Px=x 由于投影矩阵 P P 的作用是将任意向量投影到向量 a a 所在的直线上,如果向量本来就在该直线 是(即向量与 a a 共线),则投影的结果向量等于其自身,即 P a = a Pa=a
即向量 a a 可以使得 P a = a Pa=a 等式成立
而根据特征向量和特征值的定义,则向量 a a 就是特征值 λ = 1 \lambda=1 所对应的特征向量
根据递推关系式 u k + 1 = P u k u_{k+1}=Pu_{k} 可知
u 1 = P u 0 = a a T a T a u 0 = a a T u 0 a T a = a [ 2 1 2 ] [ 9 9 0 ] [ 2 1 2 ] [ 2 1 2 ] = 27 9 a = 3 a \begin{aligned}
u_{1}&=Pu_{0} \\
&=\cfrac{aa^{T}}{a^{T}a}u_{0} \\
&=a\cfrac{a^{T}u_{0}}{a^{T}a} \\
&=
a
\cfrac{
\begin{bmatrix}
2 & 1 & 2
\end{bmatrix}
\begin{bmatrix}
9 \\
9 \\
0
\end{bmatrix}
}{
\begin{bmatrix}
2 & 1 & 2
\end{bmatrix}
\begin{bmatrix}
2 \\
1 \\
2
\end{bmatrix}
} \\
&=\cfrac{27}{9}a \\
&=3a
\end{aligned} 由于 u 1 = 3 a u_{1}=3a 所以向量 u 1 u_{1} 在向量 a a 所在的直线上
说明 由于 u 1 = P u 0 u_{1}=Pu_{0} 其中 P P 是投影矩阵,其作用正是将任意向量(这里是 u 0 u_{0} )投影到向量 a a 所在的直线上
同理对于递推公式 u k + 1 = P u k u_{k+1}=Pu_{k} 其作用就是将 u k u_{k} 投影到向量 a a 所在的直线上,将投影结果向量作为 u k + 1 u_{k+1}
根据递推公式可得 u 2 = P u 1 u_{2}=Pu_{1} 所以 u 2 u_{2} 就是 u 1 u_{1} 投影到向量 a a 所在的直线上的投影结果向量。由于向量 u 1 u_{1} 已经在向量 a a 所在的直线上,所以投影结果向量是其自身,即 u 2 = P u 1 = u 1 u_{2}=Pu_{1}=u_{1}
依此类推,可知 u k = P u k − 1 = u 1 u_{k}=Pu_{k-1}=u_{1}
所以当 k = 0 k=0 时,u 0 = [ 9 9 0 ] u_{0}=\begin{bmatrix} 9 \\ 9 \\ 0 \end{bmatrix} ;当 k > 0 k>0 时 u k = u 1 = 3 a = [ 6 3 6 ] u_{k}=u_{1}=3a=\begin{bmatrix} 6 \\ 3 \\ 6 \end{bmatrix}
差分方程 由于投影矩阵的特殊性质,所以可以直接通过分析数列的前几项找到规律,直接写出通项公式
而求解差分方程的更一般/通用步骤如下
对于差分方程 u k = A u k − 1 u_{k}=Au_{k-1} 其通式为 u k = c 1 λ 1 k x 1 + c 2 λ 2 k x 3 + ⋯ + c n λ n x n u_{k}=c_{1}\lambda_{1}^{k}x_{1}+c_{2}\lambda_{2}^{k}x_{3}+\dots +c_{n}\lambda_{n}x_{n}
根据以上表达式可知,要求出通用公式则需要求解系数矩阵 A A 的所有特征值 λ i \lambda_{i} 和特征向量 x i x_{i} ,以及利用 u 0 = c 1 x 1 + ⋯ + c n x n u_{0}=c_{1}x_{1}+\dots +c_{n}x_{n} 求出系数 c i c_{i}
假设有以下数据集
使用一条过原点的直线 y = D t y=Dt (最小二乘法)拟合以上数据点 从两种角度看待最小二乘法 将各个数据点代入直线可得
{ 4 = D ⋅ 1 5 = D ⋅ 2 8 = D ⋅ 3 \left\{\begin{matrix}
4=D \cdot 1 \\
5=D \cdot 2 \\
8=D \cdot 3
\end{matrix}\right. 将方程组写成矩阵形式(A x = b Ax=b 的形式)
[ 1 2 3 ] D = [ 4 5 8 ] \begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix}D=
\begin{bmatrix}
4 \\
5 \\
8
\end{bmatrix} 由于以上方程无解,需要进行变换,在方程等式两边乘上 A T A^{T} 可得
A T A D = A T b ⇓ [ 1 2 3 ] [ 1 2 3 ] D = [ 1 2 3 ] [ 4 5 8 ] ⇓ 14 x = 38 ⇓ x = 38 14 ⇓ x = 19 7 A^{T}AD=A^{T}b \\
\Downarrow \\
\begin{bmatrix}
1 & 2 & 3
\end{bmatrix}
\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix}
D=
\begin{bmatrix}
1 & 2 & 3
\end{bmatrix}
\begin{bmatrix}
4 \\
5 \\
8
\end{bmatrix} \\
\Downarrow \\
14x=38 \\
\Downarrow \\
x=\cfrac{38}{14} \\
\Downarrow \\
x=\cfrac{19}{7} \\ 即 D = 19 7 D=\cfrac{19}{7} 所以拟合直线是 y = 19 7 t y=\cfrac{19}{7}t
从平面几何的角度看,最小二乘法是让数据点到拟合直线的距离最小;从矩阵的角度看,最小二乘法是将原本无解的方程 A x = b Ax=b 其右边的向量 b b 投影到系数矩阵 A A 的列空间 中(投影结果向量为 p p ),使得方程变成 A x ^ = p A\hat{x}=p 可以有解
由向量 a 1 = [ 1 2 3 ] a_{1}=\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} 和向量 a 2 = [ 1 1 1 ] a_{2}=\begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} 张成的平面,在该平面上寻找两个正交向量
使用 Gram-Schmidt 正交化来求解正交向量
假设其中一个正交向量为 A = a 1 = [ 1 2 3 ] A=a_{1}=\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} 另一个正交向量为 B B 是向量 a 2 a_{2} 在向量 A A 的垂直方向上的分量 B = a 2 − a 1 T a 2 a 1 T a 1 a 1 = [ 1 1 1 ] − [ 1 2 3 ] [ 1 1 1 ] [ 1 2 3 ] [ 1 2 3 ] [ 1 2 3 ] = [ 1 1 1 ] − 6 14 [ 1 2 3 ] = [ 4 / 7 1 / 7 − 2 / 7 ] \begin{aligned}
B&=a_{2}-\cfrac{a_{1}^{T}a_{2}}{a_{1}^{T}a_{1}}a_{1} \\
&=
\begin{bmatrix}
1 \\
1 \\
1
\end{bmatrix}-
\cfrac{
\begin{bmatrix}
1 & 2 & 3
\end{bmatrix}
\begin{bmatrix}
1 \\
1 \\
1
\end{bmatrix}
}{
\begin{bmatrix}
1 & 2 & 3
\end{bmatrix}
\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix}
}
\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix} \\
&=
\begin{bmatrix}
1 \\
1 \\
1
\end{bmatrix}-
\cfrac{6}{14}
\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix} \\
&=
\begin{bmatrix}
4/7 \\
1/7 \\
-2/7
\end{bmatrix} \\
\end{aligned} 已知 A 4 × 4 A_{4 \times 4} 方阵的特征值分别为 λ 1 \lambda_{1} 、λ 2 \lambda_{2} 、λ 3 \lambda_{3} 、λ 4 \lambda_{4}
当特征值满足什么条件时,可以判断矩阵 A A 是可逆的 逆矩阵 A − 1 A^{-1} 的行列式 d e t A − 1 detA^{-1} 矩阵 A + I A+I 的迹 t r a c e ( A + I ) trace(A+I) 特征值满足 λ i ≠ 0 \lambda_{i}\ne 0 时,矩阵 A A 是可逆的
由于当矩阵 A A 是可逆矩阵,则表示矩阵的各列向量相互线性独立,即 A x = 0 Ax=0 是无解,所以 0 0 不会是矩阵 A A 的特征值
反证法 也可以用反证法来证明
如果存在特征值 λ = 0 \lambda=0 则 A x = 0 Ax=0 就存在非零解(矩阵 A A 的零空间中存在非零向量),即矩阵 A A 的各列向量存在某种线性组合可以等于零向量,则矩阵 A A 的各列向量并非线性独立的,所以矩阵 A A 是奇异的/不可逆矩阵,这与题设矛盾
所以可以证得矩阵 A A 是不存在 特征值为 0 0 的情况
由于逆矩阵与原矩阵的的特征值存在倒数 关系,即矩阵 A − 1 A^{-1} 的特征值为 1 λ 1 \cfrac{1}{\lambda_{1}} 、1 λ 2 \cfrac{1}{\lambda_{2}} 、1 λ 3 \cfrac{1}{\lambda_{3}} 、1 λ 4 \cfrac{1}{\lambda_{4}}
根据矩阵的特征值和行列式的关系可得,逆矩阵的行列式为 d e t A − 1 = ( 1 λ 1 ) ( 1 λ 2 ) ( 1 λ 3 ) ( 1 λ 4 ) detA^{-1}=(\cfrac{1}{\lambda_{1}})(\cfrac{1}{\lambda_{2}})(\cfrac{1}{\lambda_{3}})(\cfrac{1}{\lambda_{4}})
矩阵的迹为 t r a c e ( A ) = λ 1 + λ 2 + λ 3 + λ 4 trace(A)=\lambda_{1}+\lambda_{2}+\lambda_{3}+\lambda_{4} 也等于矩阵对角线上元素之和
矩阵 A + I A+I 是原矩阵 A A 偏移 shift I I 一个单位矩阵,而从矩阵的具体元素而言,是在原矩阵 A A 的每个对角线上的元素都加上 1 1 (在矩阵 A A 的对角线上共有 4 4 个元素)
所以矩阵 A + I A+I 的迹为原矩阵 A A 的迹之间的关系为 t r a c e ( A + I ) = t r a c e ( A ) + 4 = λ 1 + λ 2 + λ 3 + λ 4 + 4 trace(A+I)=trace(A)+4=\lambda_{1}+\lambda_{2}+\lambda_{3}+\lambda_{4}+4
三对角矩阵 tridiagonal matrix 是一种具有特殊形式的矩阵,在其元素中非零的只位于对角线上或对角线相邻的位置上,例如以下是一个 4 × 4 4 \times 4 三对角矩阵
A 4 = [ 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 ] A_{4}=
\begin{bmatrix}
1 & 1 & 0 & 0 \\
1 & 1 & 1 & 0 \\
0 & 1 & 1 & 1 \\
0 & 0 & 1 & 1
\end{bmatrix} 记三对角矩阵 A n A_{n} 的行列式为 D n = d e t A n D_{n}=detA_{n} 使用代数余子式求解行列式时,会得到形如 D n = a D n − 1 + b D n − 2 D_{n}=aD_{n-1}+bD_{n-2} 的结构,求出等式里面的系数 a a 和 b b 从上一问可知 D n = a D n − 1 + b D n − 2 D_{n}=aD_{n-1}+bD_{n-2} 求解 D n D_{n} 具体表达式 使用代数余子式求解三对角矩阵 A n A_{n} 的行列式 D n D_{n} ,以 A 4 A_{4} 为例
说明 这里基于 A 4 A_{4} 得到的规律得到的是一个关于 D n D_{n} 的递推公式,而不是具体表达式,由于三对角矩阵都满足同样的(形状/元素布局)规律 ,所以从特例得到的关于 D n D_{n} 的递推公式也适用于其他维度/形状的三对角矩阵
A 4 = [ 1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 ] A_{4}=
\begin{bmatrix}
{\color{Red}1 } & {\color{Green}1 } & 0 & 0 \\
1 & 1 & 1 & 0 \\
0 & 1 & 1 & 1 \\
0 & 0 & 1 & 1
\end{bmatrix} D 4 = 1 D 3 − 1 D 3 + 0 − 0 = 1 [ 1 1 0 1 1 1 0 1 1 ] − 1 [ 1 1 0 0 1 1 0 1 1 ] \begin{aligned}
D_{4}&=
{\color{Red}1 }D_{3}-{\color{Green}1 }D_{3}+0-0 \\
&={\color{Red}1 }
\begin{bmatrix}
1 & 1 & 0 \\
1 & 1 & 1 \\
0 & 1 & 1
\end{bmatrix}
-{\color{Green}1 }
\begin{bmatrix}
1 & 1 & 0 \\
0 & 1 & 1 \\
0 & 1 & 1
\end{bmatrix}
\end{aligned} 对于以上等式的第二项 − - D_{3}$$ 可以继续使用代数余子式进行分解
提示 但是结合其矩阵的结构特点,在选取元素时应该以列向量的角度(或转置矩阵的行向量)来考虑 ,可以简化计算
由于矩阵的第一列只有一个非零元素(而如果从行向量的角度来考虑,则第一个行有两个非零元素)
D 4 = 1 D 3 − 1 D 3 = 1 D 3 − 1 [ 1 1 0 0 1 1 0 1 1 ] = 1 D 3 − 1 ⋅ 1 [ 1 1 1 1 ] = 1 D 3 − 1 ⋅ 1 D 2 = D 3 − D 2 \begin{aligned}
D_{4}&={\color{Red}1 }D_{3}-{\color{Green}1 }D_{3} \\
&={\color{Red}1 }D_{3}-{\color{Green}1 }
\begin{bmatrix}
{\color{Blue}1 } & 1 & 0 \\
{\color{Cyan}0 } & 1 & 1 \\
{\color{Cyan}0 } & 1 & 1
\end{bmatrix} \\
&=
{\color{Red}1 }D_{3}-{\color{Green}1 }\cdot {\color{Blue}1 }
\begin{bmatrix}
1 & 1 \\
1 & 1
\end{bmatrix} \\
&={\color{Red}1 }D_{3}-{\color{Green}1 }\cdot {\color{Blue}1 }D_{2} \\
&=D_{3}-D_{2}
\end{aligned} 所以等式 D n = a D n − 1 + b D n − 2 D_{n}=aD_{n-1}+bD_{n-2} 中的系数为 a = 1 a=1 、 b = − 1 b=-1
基于差分方程 D n = D n − 1 − D n − 2 D_{n}=D_{n-1}-D_{n-2} 构成一个方程组
{ D n = D n − 1 − D n − 2 D n − 1 = D n − 1 \begin{aligned}
\left\{\begin{matrix}
D_{n}=D_{n-1}-D_{n-2} \\
D_{n-1}=D_{n-1}
\end{matrix}\right.
\end{aligned} 将以上方程组写出矩阵形式
[ D n D n − 1 ] = [ 1 − 1 1 0 ] [ D n − 1 D n − 2 ] \begin{bmatrix}
D_{n} \\
D_{n-1}
\end{bmatrix}=
\begin{bmatrix}
1 & -1 \\
1 & 0
\end{bmatrix}
\begin{bmatrix}
D_{n-1} \\
D_{n-2}
\end{bmatrix} 令 u n = [ D n D n − 1 ] u_{n}=\begin{bmatrix} D_{n} \\ D_{n-1} \end{bmatrix} 所以方程组可以写成 u n = A u n − 1 u_{n}=Au_{n-1} 形式,将二阶差分方程转换为一阶差分方程
对于形如 u k = A u k − 1 u_{k}=Au_{k-1} 的差分方程,其通式为 u k = c 1 λ 1 k x 1 + c 2 λ 2 k x 3 + ⋯ + c n λ n x n u_{k}=c_{1}\lambda_{1}^{k}x_{1}+c_{2}\lambda_{2}^{k}x_{3}+\dots +c_{n}\lambda_{n}x_{n}
所以需要先求出系数矩阵 A A 的所有特征值 λ i \lambda_{i} 和特征向量 x i x_{i} ,再利用 u 0 = c 1 x 1 + ⋯ + c n x n u_{0}=c_{1}x_{1}+\dots +c_{n}x_{n} 求出系数 c i c_{i}
通过求解特征方程 d e t ( A − λ I ) = 0 det(A-\lambda I)=0 可以得到所有特征值
d e t ( A − λ I ) = ∣ 1 − λ − 1 1 − λ ∣ = λ 2 − λ + 1 = 0 \begin{aligned}
det(A-\lambda I)&=
\begin{vmatrix}
1-\lambda & -1 \\
1 & -\lambda
\end{vmatrix} \\
&=\lambda^{2}-\lambda+1 \\
&=0
\end{aligned} 解得 λ = 1 ± 1 − 4 2 \lambda=\cfrac{1\pm \sqrt{1-4}}{2}
即特征值为 λ 1 = 1 + 3 2 = e i π / 3 \lambda_{1}=\cfrac{1+\sqrt{3}}{2}=e^{i\pi /3} 和 λ 2 = 1 − 3 2 = e − i π / 3 \lambda_{2}=\cfrac{1-\sqrt{3}}{2}=e^{-i\pi /3} 它们是复数
由于这些特征值(复数)的模长都是 1 1 ❓ 这表示它们处于一个稳定的体系中,由 λ 1 6 = λ 2 6 \lambda_{1}^{6}=\lambda_{2}^{6} 可知 A 6 = I A^{6}=I 即通项公式 u k = A u k − 1 u_{k}=Au_{k-1} 所表示的数列中,各项的值以 6 6 为周期进行重复
当 n − 1 n-1 时,矩阵 A 1 × 1 = [ 1 ] A_{1 \times 1}=\begin{bmatrix}1\end{bmatrix} 其行列式为 D 1 = 1 D_{1}=1 当 n = 2 n=2 时,矩阵 A 2 × 2 = [ 1 1 1 1 ] = A_{2 \times 2}=\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}= 其行列式为 D 2 = 1 × 1 − 1 × 1 = 0 D_{2}=1 \times 1 - 1 \times 1=0 当 n = 3 n=3 时,根据递推关系式可知 D 3 = D 2 − D 1 = 0 − 1 = − 1 D_{3}=D_{2}-D_{1}=0-1=-1 当 n = 4 n=4 时,行列式为 D 4 = D 3 − D 2 = − 1 − 0 = − 1 D_{4}=D_{3}-D_{2}=-1-0=-1 当 n = 5 n=5 时,行列式为 D 5 = D 4 − D 3 = − 1 − ( − 1 ) = 0 D_{5}=D_{4}-D_{3}=-1-(-1)=0 当 n = 6 n=6 时,行列式为 D 6 = D 5 − D 4 = 0 − ( − 1 ) = 1 D_{6}=D_{5}-D_{4}=0-(-1)=1 这是完整的一个周期 当 n = 7 n=7 时,行列式为 D 7 = D 6 − D 5 = 1 − 0 = 1 D_{7}=D_{6}-D_{5}=1-0=1 出现重复值(与 D 1 D_{1} 一样),因为进入了下一个周期 依此类推,当 n n 大于 6 6 时可以拆分为 n = 6 j + k n=6j+k ,可得行列式为 D n = D k D_{n}=D_{k} (其中 k k 是 1 1 到 5 5 的整数) 考虑以下一系列(遵循特定规律的)对称矩阵
A 2 = [ 0 1 1 0 ] , A 3 = [ 0 1 0 1 0 2 0 2 0 ] , A 4 = [ 0 1 0 0 1 0 2 0 0 2 0 3 0 0 3 0 ] , … A_{2}=
\begin{bmatrix}
0 & 1 \\
1 & 0
\end{bmatrix},
A_{3}=
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2 \\
0 & 2 & 0
\end{bmatrix},
A_{4}=
\begin{bmatrix}
0 & 1 & 0 & 0 \\
1 & 0 & 2 & 0 \\
0 & 2 & 0 & 3 \\
0 & 0 & 3 & 0
\end{bmatrix}, \dots 寻找将任意向量投影到 A 3 A_{3} 列空间的投影矩阵 P P 求矩阵 A 3 A_{3} 的特征值和特征向量 寻找将任意向量投影到 A 4 A_{4} 列空间的投影矩阵 P P 请证明当 n n 为奇数时,矩阵 A n A_{n} 是否为奇异矩阵;当 n n 为偶数时,矩阵 A n A_{n} 是否为不可逆矩阵 观察矩阵 A 3 A_{3} 可知它的第三个列向量是第一个列向量的两倍,即矩阵 A 3 A_{3} 是奇异矩阵,所以矩阵 A 3 A_{3} 的列空间只需由两个列向量张成
因此可以使用矩阵 A = [ 0 1 1 0 0 2 ] A=\begin{bmatrix} 0 & 1 \\ 1 & 0 \\ 0 & 2 \end{bmatrix} 来求解投影矩阵 P P
提示 「简化」的矩阵 A = [ 0 1 1 0 0 2 ] A=\begin{bmatrix} 0 & 1 \\ 1 & 0 \\ 0 & 2 \end{bmatrix} 取自 A 3 A_{3} 前两个列向量
投影矩阵的作用是将任意向量投影到相应的矩阵的列空间 中,由于「简化」的矩阵 A A 与 A 3 A_{3} 具有相同的列空间,所以这个「简化」矩阵的投影矩阵,也可以充当矩阵 A 3 A_{3} 的投影矩阵
P = A ( A T A ) − 1 A T = [ 0 1 1 0 0 2 ] ( [ 0 1 0 1 0 2 ] [ 0 1 1 0 0 2 ] ) − 1 [ 0 1 0 1 0 2 ] = [ 0 1 1 0 0 2 ] ( [ 1 0 0 5 ] ) − 1 [ 0 1 0 1 0 2 ] = [ 0 1 1 0 0 2 ] [ 1 0 0 1 / 5 ] [ 0 1 0 1 0 2 ] = [ 0 1 / 5 1 0 0 2 / 5 ] [ 0 1 0 1 0 2 ] = [ 1 / 5 0 2 / 5 0 1 0 2 / 5 0 4 / 5 ] \begin{aligned}
P&=A(A^{T}A)^{-1}A^{T} \\
&=
\begin{bmatrix}
0 & 1 \\
1 & 0 \\
0 & 2
\end{bmatrix}
(
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2
\end{bmatrix}
\begin{bmatrix}
0 & 1 \\
1 & 0 \\
0 & 2
\end{bmatrix}
)^{-1}
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2
\end{bmatrix} \\
&=
\begin{bmatrix}
0 & 1 \\
1 & 0 \\
0 & 2
\end{bmatrix}
(
\begin{bmatrix}
1 & 0 \\
0 & 5
\end{bmatrix}
)^{-1}
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2
\end{bmatrix} \\
&=
\begin{bmatrix}
0 & 1 \\
1 & 0 \\
0 & 2
\end{bmatrix}
\begin{bmatrix}
1 & 0 \\
0 & 1/5
\end{bmatrix}
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2
\end{bmatrix} \\
&=
\begin{bmatrix}
0 & 1/5 \\
1 & 0 \\
0 & 2/5
\end{bmatrix}
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2
\end{bmatrix} \\
&=
\begin{bmatrix}
1/5 & 0 & 2/5 \\
0 & 1 & 0\\
2/5 & 0 & 4/5
\end{bmatrix}
\end{aligned} 通过求解特征方程 d e t ( A 3 − λ I ) = 0 det(A_{3}-\lambda I)=0 可以得到所有的特征值
d e t ( A 3 − λ I ) = ∣ − λ 1 0 1 − λ 2 0 2 − λ ∣ = ( − λ ) × ( − λ ) × ( − λ ) − ( − λ ) × 2 × 2 − 1 × 1 × ( − λ ) = − λ 3 + 5 λ \begin{aligned}
det(A_{3}-\lambda I)&=
\begin{vmatrix}
-\lambda & 1 & 0 \\
1 & -\lambda & 2 \\
0 & 2 & -\lambda
\end{vmatrix} \\
&=(-\lambda) \times (-\lambda) \times (-\lambda) \\
&\hspace{1em}-(-\lambda) \times 2 \times 2 \\
&\hspace{1em}-1 \times 1 \times (-\lambda) \\
&=-\lambda^{3}+5\lambda
\end{aligned} 解得 λ 1 = 0 \lambda_{1}=0 、λ 2 = 5 \lambda_{2}=\sqrt{5} 、λ 3 = − 5 \lambda_{3}=-\sqrt{5}
将前面求得的所有特征值分别代入方程 ( A − λ I ) x = 0 (A-\lambda I)x=0 中求出相应的特征向量
当 λ 1 = 0 \lambda_{1}=0 时( A 3 − 0 I ) x = [ 0 1 0 1 0 2 0 2 0 ] x = 0 (A_{3}-0I)x=
\begin{bmatrix}
0 & 1 & 0 \\
1 & 0 & 2 \\
0 & 2 & 0
\end{bmatrix}x=0 其中一个特解为 x 1 = [ − 2 0 1 ] x_{1}=\begin{bmatrix} -2 \\ 0 \\ 1 \end{bmatrix} 当 λ 2 = 5 \lambda_{2}=\sqrt{5} 时
( A 3 − 5 I ) x = [ − 5 1 0 1 − 5 2 0 2 − 5 ] x = 0 (A_{3}-\sqrt{5}I)x=
\begin{bmatrix}
-\sqrt{5} & 1 & 0 \\
1 & -\sqrt{5} & 2 \\
0 & 2 & -\sqrt{5}
\end{bmatrix}x=0 其中一个特解为 x 1 = [ 1 5 2 ] x_{1}=\begin{bmatrix} 1 \\ \sqrt{5} \\ 2 \end{bmatrix} 当 λ 2 = − 5 \lambda_{2}=-\sqrt{5} 时
( A 3 − ( − 5 ) I ) x = [ 5 1 0 1 5 2 0 2 5 ] x = 0 (A_{3}-(-\sqrt{5})I)x=
\begin{bmatrix}
\sqrt{5} & 1 & 0 \\
1 & \sqrt{5} & 2 \\
0 & 2 & \sqrt{5}
\end{bmatrix}x=0 其中一个特解为 x 1 = [ 1 − 5 2 ] x_{1}=\begin{bmatrix} 1 \\ -\sqrt{5} \\ 2 \end{bmatrix} 若一个 4 × 4 4 \times 4 矩阵是一个可逆矩阵(它的各个列向量相互线性独立),则它的列空间就是整个 R 4 \mathbb{R}^{4} 向量空间,如果将任意向量 v = [ v 1 v 2 v 3 v 4 ] v=\begin{bmatrix} v_{1} \\ v_{2} \\ v_{3} \\ v_{4} \end{bmatrix} 投影到这个矩阵的列空间,则相当于将向量 v v 投影到 R 4 \mathbb{R}^{4} 空间中,由于向量空间 R 4 \mathbb{R}^{4} 包含所有向量(即向量 v v 本来就在这个向量空间中),所以投影结构向量等于其自身 v v ,相应地投影矩阵就是单位矩阵 P = I 4 × 4 P=I_{4 \times 4}
所以如果证明 A 4 A_{4} 是一个可逆矩阵,就可以得到投影矩阵 P = I 4 × 4 P=I_{4 \times 4}
A 4 = [ 0 1 0 0 1 0 2 0 0 2 0 3 0 0 3 0 ] A_{4}=
\begin{bmatrix}
0 & {\color{Green}1 } & 0 & 0 \\
1 & 0 & 2 & 0 \\
0 & 2 & 0 & 3 \\
0 & 0 & 3 & 0
\end{bmatrix} 通过求解行列式 d e t A 4 ≠ 0 detA_{4} \ne 0 来证明 A 4 A_{4} 是一个可逆矩阵
d e t A 4 = − 1 ∣ 1 2 0 0 0 3 0 3 0 ∣ detA_{4}=-{\color{Green}1 }
\begin{vmatrix}
{\color{Blue}1 } & 2 & 0 \\
{\color{Cyan}0 } & 0 & 3 \\
{\color{Cyan}0 } & 3 & 0
\end{vmatrix} 提示 结合以上等式中的矩阵的结构特点,再使用代数余子式进行分解时,选取元素应该以列向量的角度(或转置矩阵的行向量)来考虑 ,可以简化计算
由于矩阵的第一列只有一个非零元素(而如果从行向量的角度来考虑,则第一个行有两个非零元素)
d e t A 4 = − 1 ∣ 1 2 0 0 0 3 0 3 0 ∣ = − 1 × 1 ∣ 0 3 3 0 ∣ = − 1 × 1 ( 3 × 3 − 0 × 0 ) = − 9 ≠ 0 \begin{aligned}
detA_{4}&=-{\color{Green}1 }
\begin{vmatrix}
{\color{Blue}1 } & 2 & 0 \\
{\color{Cyan}0 } & 0 & 3 \\
{\color{Cyan}0 } & 3 & 0
\end{vmatrix} \\
&=-{\color{Green}1 } \times {\color{Blue}1 }
\begin{vmatrix}
0 & 3 \\
3 & 0
\end{vmatrix} \\
&=-{\color{Green}1 } \times {\color{Blue}1 } (3 \times 3 - 0 \times 0) \\
&=-9 \ne 0
\end{aligned} 所以 A 4 A_{4} 是一个可逆矩阵,则它的投影矩阵是 P = I 4 × 4 P=I_{4 \times 4}