L14-正交向量与正交子空间

linear-algebra

L14-正交向量与正交子空间

参考

向量正交

当两个二维向量在 XOY 平面直角坐标系中垂直 perpendicular,即它们的夹角是 9090^\circ,则称这两个向量正交 orthogonal,用符号 \perp 表示,则它们的唯一交点是零点 origin

提示

将正交概念进行拓展,应用到高维度,如果两个空间垂直,则它们的唯一交点是零向量

两个向量正交有一个很重要的结论:两个向量正交,则它们的内积 inner product(即点乘 dot product)为零,反之亦然

xTy=0x^{T}y=0

其中 xxyy 都是列向量,要计算两者的内积,需要将其中一个转置,则 xTx^{T} 为行向量

证明

如果二维向量 x=[x1x2]x=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix} 与向量 y=[y1y2]y=\begin{bmatrix} y_{1} \\ y_{2} \end{bmatrix} 正交

根据向量的几何含义,在一个二维平面中,如果两个向量正交 xyx \perp y,则这两个向量与它们的和(向量)构成一个直角三角形,这两个垂直的向量是直角边,它们的和是斜边。

根据毕达哥拉斯定理 Pythagoras 可知 x2+y2=x+y2\Vert x \Vert ^{2} + \Vert y \Vert ^{2} = \Vert x+y \Vert ^{2}

向量的模的平方与向量的关系为 x2=xTx\Vert x \Vert ^{2}=x^{T}x

所以毕达哥拉斯定理用向量本身表示,可以写为

xTx+yTy=(x+y)T(x+y)=xTx+yTy+xTy+yTy\begin{aligned} x^{T}x+y^{T}y&=(x+y)^{T}(x+y) \\ &=x^{T}x+y^{T}y+x^{T}y+y^{T}y \end{aligned}

化简可得

xTy+yTx=0x^{T}y+y^{T}x=0

根据向量的内积运算规则可得

xTy=yTx=x1y2+x2y2x^{T}y=y^{T}x=x_{1}y_{2}+x_{2}y_{2}

可得 xTy=yTxx^{T}y=y^{T}x

所以 xTy+yTx=2xTy=0x^{T}y+y^{T}x=2x^{T}y=0

xTy=0x^{T}y=0

子空间正交

将向量正交的定义推广开来,定义子空间 SS 与子空间 TT 正交时,则 SS 中的每个向量TT 中的每个向量正交

例如在二维平面空间 R2\mathbb{R}^{2} 中,过原点的直线所表示的子空间 \perp 只包含零向量的子空间;而过原点的直线(依然在平面中)所表示的子空间并不与平面所表示的空间垂直;两个过原点且呈 90 ° 的直线所表示的子空间相互垂直。

注意

两个子空间正交根据定义表示的是两个子空间中的向量均相互垂直。

但需要注意与现实中所说的垂直相区分。

课堂上列举了一个反例,如果教室的墙面和地板所在的平面分别是表示三维空间中的子空间,虽然两者在建筑结构上是相互垂直的,但是根据子空间垂直的定义,墙面和地板所表示的两个子空间并不垂直。

因为两个面的交线处,在交线上的向量既属于墙面也属于地板,但是它们并不垂直(而是重叠/平行的)

如果两个空间垂直,则它们的唯一交点是零向量

对于矩阵的四个特别的子空间,其中行空间 C(AT)C(A^{T}) 与零空间 N(A)N(A) 正交,而列空间 C(A)C(A) 与左零空间 N(AT)N(A^{T}) 正交

mermaid

行空间与零空间

矩阵的行空间 C(AT)C(A^{T}) 与零空间 N(A)N(A) 正交

零空间 N(A)N(A) 包含所有(注意不是部分)垂直于行空间 C(AT)C(A^{T}) 的向量(反之亦然)

提示

行空间的维度是 dimC(AT)=rdimC(A^{T})=r,而零空间的维度是 dimN(A)=nrdimN(A)=n-r,它们的和正好是 dimC(AT)+dimN(A)=r+(nr)=ndimC(A^{T})+dimN(A)=r+(n-r)=n

这不是巧合,因为矩阵 Am×nA_{m \times n} 的行空间和零空间中的向量都是由 nn 个元素构成的,所以行空间和列空间都是 Rn\mathbb{R}^n 的子空间,而它们正好将这个完整的空间分成两个(不重叠的,相互正交的)子空间,因此这两个子空间的维度之和正好就是等于 nn

这两个子空间称为 nn 维空间内的正交补 orthogonal complements

证明

可以从空间正交的定义入手,即证明行空间 C(AT)C(A^{T}) 与零空间 N(A)N(A) 里的向量相互垂直

对于矩阵 Am×nA_{m \times n}

A=[row1row2rowm]A= \begin{bmatrix} row_{1} \\ row_{2} \\ \vdots \\ row_{m} \end{bmatrix}

其行空间由矩阵各行 row1row_{1}row2row_{2} \dots rowmrow_{m} 的各行向量的线性组合构成

而零空间则是方程组 Ax=0Ax=0所有解构成的

x=[x1x2xn]x= \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}

Ax=[row1row2rowm][x1x2xn]=[000]Ax= \begin{bmatrix} row_{1} \\ row_{2} \\ \vdots \\ row_{m} \end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}= \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix}

行向量与矩阵相乘的角度来看待以上等式,可以得到一系列的行向量 rowirow_{i}xx 向量相乘等于 00 的等式

row1[x1x2xn]=0,row2[x1x2xn]=0rowm[x1x2xn]=0row_{1} \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}=0, row_{2} \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}=0 \dots row_{m} \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}=0

因为矩阵 AA 各行与 xx 的乘积都为 00,根据矩阵乘法的运算规则可知,由 AA 各行的线性组合构成的行向量与 xx 相乘也会是 00,即满足行空间 C(AT)C(A^{T}) 内的向量 aa 与零空间 N(A)N(A) 内的向量 bb 内积为 ab=0ab=0,这样也证明了行空间和零空间正交

列空间和左零空间

矩阵的列空间 C(A)C(A) 与左零空间 N(AT)N(A^{T}) 正交

这两个空间都是 Rm\mathbb{R}^{m} 的子空间,它们正好将该空间分成两部分,是 mm 维空间内的正交补

证明

对于方程组 ATy=0A^{T}y=0 由上一章节可知,矩阵 ATA^{T} 的行空间和 yy 正交,而矩阵 ATA^{T} 的行空间就是矩阵 AA 的列空间,另外转置后得到 yTA=0y^{T}A=0 所以 yy 就是矩阵 AA 的左零空间。

其实列空间和左零空间是对应于行空间和零空间,这样利用上一章节的证明,间接也可以证明列空间与左零空间正交

Ax=b 最优解

当矩阵 Am×nA_{m \times n} 是一个长方形矩阵 rectangular 即 m>nm > n 则矩阵的秩 rn<mr \le n < m,此时方程组 Ax=bAx=b 的可解性由 bb 决定(有 00 个或无限个解)

提示

对于由长方形矩阵 AA 所构成的方程组 Ax=bAx=b 较常见的情况是没有解

课堂列举了一些例子,在实际场景中矩阵 AA 各行表示一次测量获得的数据,各列对应于相应的属性/指标,因为指标是固定的,而测量是可以重复多次,所以构建得到的矩阵 AA 一般是长方形矩阵,即行数远大于列数 mnm \gg n

而在测量中存在误差,导致所获取的数据会有「噪音」,所以列出的方程组 Ax=bAx=b 一般是无解的(无法找到同时满足方程组中所有等式的解)

有两种求解 Ax=bAx=b 「无解」方程组的思路

  • 思路一:从所有方程组等式中挑选出「好」的等式
  • 思路二:通过在方程组两边同时乘上 ATA^{T},则方程组就变成 ATAx^=ATbA^{T}A\hat{x}=A^{T}b,则系数矩阵就变成 ATAA^{T}A 是一个对称的方阵,它有可能是一个可逆矩阵,这样方程组就会有唯一解,那么该解 x^\hat{x} 可以作为原方程组的最优解

按照思路二的方法,在方程组等式两边乘上转置矩阵 ATA^{T} 构建一个新的等式 ATAx^=ATbA^{T}A\hat{x}=A^{T}b

而新的方程组是否可解,关键要看方阵 ATAA^{T}A 是否可逆,在这一节课先说了一个判断依据(结论),即 ATAA^{T}A 是否为可逆矩阵(方阵),关键看矩阵 AA 的零空间 N(A)N(A) 是否只有零向量

这是因为 ATAA^{T}A 乘积与 AA 存在以下的关系(在下下节课证明)

r(ATA)=r(A)r(A^{T}A) = r(A)N(ATA)=N(A)N(A^{T}A) = N(A)

所以当矩阵 AA 的零空间 N(A)N(A) 只有零向量(即本来的矩阵 AA 就是可逆矩阵,各列向量线性无关,列满秩),则 ATAA^{T}A 乘积所得的矩阵的零空间也是只有零向量,则方阵就是可逆矩阵,那么方程组 ATAx^=ATbA^{T}A\hat{x}=A^{T}b 必有解

提示

上面提到的结论 r(ATA)=r(A)r(A^{T}A) = r(A) 其实在平时的运算中可以有类似的结论,对于两个秩为 11 的矩阵相乘,得到的矩阵其秩也不可能大于 11


Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes