L28-正定矩阵和最小值

linear-algebra

L28-正定矩阵和最小值

参考

正定矩阵

以下是四个判定矩阵为正定矩阵的完整条件

说明

完整条件是指矩阵满足其中任何一个条件就可以证明是正定矩阵

所以这四个判定条件是平行等价的

  • 特征值 λi\lambda_{i} 均为正数
  • 除了矩阵自身的行列式 detAdetA 为正数,沿着对角线向上的 n1n-1 个「子方阵」的行列式也都为正数
  • 主元均为正数
  • 对于任意向量 xx(除了 x=0x=0 零向量),公式/函数 xATxxA^{T}x 均为正数

最后一个判定条件更为常用

2×22 \times 2 矩阵为例

A=[abbc]A=\begin{bmatrix} a & b \\ b & c \end{bmatrix}

当矩阵满足以下任意一个条件,则可证得它是正定矩阵

  • 特征值的角度:λ1>0\lambda_{1}>0λ2>0\lambda_{2}>0
  • 行列式的角度:(左上角的矩阵 \begin{bmatrix} a \end{bmatrix}的行列式) 的行列式)a>0,(原矩阵的行列式),(原矩阵的行列式)ac-b^{2}>0$
  • 主元角度:a>0a>0acb2a>0\cfrac{ac-b^{2}}{a}>0
提示

可以用消元法来求出主元,将 col2col1bacol2-col1*\frac{b}{a} 作为第二列

[abbc][ab0cbba]=[ab0acb2a]\begin{bmatrix} a & b \\ b & c \end{bmatrix}\Rightarrow \begin{bmatrix} a & b \\ 0 & c-b*\frac{b}{a} \end{bmatrix}= \begin{bmatrix} a & b \\ 0 & \cfrac{ac-b^{2}}{a} \end{bmatrix}

也可以使用主元与行列式的关系(矩阵的行列式是其主元的乘积)来求解

矩阵的行列式为 detA=acb2detA=ac-b^{2} 根据 detA=pivot1pivot2=apivot2detA=pivot1 \cdot pivot2=a \cdot pivot2

解得 pivot2=acb2apivot2=\cfrac{ac-b^{2}}{a}

  • 特殊等式的角度:对于任意向量 x=[x1x2]x=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}(除了 x=0x=0 零向量),等式 xTAxx^{T}Ax 的值均为正数

二维矩阵

对于以下 2×22 \times 2 矩阵判定其正定性

A=[26618]A=\begin{bmatrix} 2 & 6 \\ 6 & 18 \end{bmatrix}

从行列式的角度来判断,detA=2×186×6=0detA=2 \times 18 - 6 \times 6=0 处于正负数的「临界值」,将这种类型的矩阵称为半正定矩阵 semi-definite

从特征值的角度来判断,由于矩阵是奇异的(3col1=col23 * col1=col2 列向量线性相关),所以必然存在一个特征值为 λ1=0\lambda_{1}=0,根据矩阵的迹与特征值的关系 trace(A)=λ1+λ2=2+18=20trace(A)=\lambda_{1}+\lambda_{2}=2+18=20 可得 λ2=20\lambda_{2}=20,所以矩阵的特征值只有一个是正数的,并不是正定矩阵(而是半正定矩阵)

xTAxx^{T}Ax 等式的角度来判断

xTAx=[x1x2][26618][x1x2]=[x1x2][2x1+6x26x1+18x2]=2x12+12x1x2+18x22\begin{aligned} x^{T}Ax&= \begin{bmatrix} x_{1} & x_{2} \end{bmatrix} \begin{bmatrix} 2 & 6 \\ 6 & 18 \end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix} \\ &= \begin{bmatrix} x_{1} & x_{2} \end{bmatrix} \begin{bmatrix} 2x_{1}+6x_{2} \\ 6x_{1}+18x_{2} \end{bmatrix} \\ &=2x_{1}^{2}+12x_{1}x_{2}+18x_{2}^{2} \\ \end{aligned}

将以上等式看作一个二元二次函数 f(x1,x2)=ax12+2bx1x2+cx22f(x_{1}, x_{2})=ax_{1}^{2}+2bx_{1}x_{2}+cx_{2}^{2}

提示

在等式 f(x1,x2)=ax12+2bx1x2+cx22f(x_{1}, x_{2})=ax_{1}^{2}+2bx_{1}x_{2}+cx_{2}^{2} 中,系数 a,b,ca, b, c 为矩阵对应位置的元素

[abbc]=[26618]\begin{bmatrix} a & b \\ b & c \end{bmatrix}= \begin{bmatrix} 2 & 6 \\ 6 & 18 \end{bmatrix}

可以将以上等式看作是矩阵 AA 的 quadratic form 二次形式

当该等式对于任意 x1,x2x_{1}, x_{2} 都大于零,则矩阵 AA 是正定矩阵;只要找出一组 x1,x2x_{1}, x_{2} 使得等式为负数(存在反例),则矩阵 AA 就不是正定矩阵

可以将等式进行配方,以便判断正负性 2x12+12x1x2+18x22=2(x1+3x2)202x_{1}^{2}+12x_{1}x_{2}+18x_{2}^{2}=2(x_{1}+3x_{2})^{2}\ge 0,其中当等式为零时,其解除了 x1=0,x2=0x_{1}=0, x_{2}=0,还可以有其他解,例如 x1=3,x2=1x_{1}=3, x_{2}=-1,所以原矩阵 AA 不是正定矩阵(而是半正定矩阵)

最小值

除了对矩阵的二次形式(函数)进行配方,根据其结构推断函数值的正负,还有另一个更通用的方式,就是求出函数的最小值,将其与 00 比较,从而判断矩阵的正定性

注意

一般通过求导来寻找函数的最值。

要判断一个点是否为一元二次函数的极值点,需要同时考虑函数的一阶导二阶导。当函数在该点的一阶导为零,且二阶导大于零时,该点就是函数的极小值点。

而对于多元二次函数,需要对各个变量进行求导,可以将不同变量的二阶导构成一个矩阵,例如对于 f(x,y)f(x, y) 函数,将其二阶导 fxx,fxy,fyx,fyyf_{xx}, f_{xy}, f_{yx}, f_{yy} 构成一个 2×22 \times 2 矩阵

[fxxfxyfyxfyy]\begin{bmatrix} f_{xx} & f_{xy} \\ f_{yx} & f_{yy} \end{bmatrix}

该矩阵称为 Hessian matrix 黑塞矩阵,该矩阵是一个对称矩阵,由于 fxy=fyxf_{xy}=f_{yx}

当该矩阵是一个正定矩阵时,则它的行列式是正数,那么这些二阶导就满足 fxxfyy>fxy2f_{xx}f_{yy}>f_{xy}^{2},这对应于函数具有极小值的形式(从微积分的角度) ❓

对于高维度 n×nn \times n 的矩阵也是一样的,当函数 f(x1,x2,x3,,xn)f(x_{1}, x_{2}, x_{3}, \dots, x_{n}) 具有极小值时,则它所对应的 Hessian matrix 黑塞矩阵是一个正定矩阵

但实际上所求出的极值还需要谨慎地判断它是否为最值,此时可以结合函数的图像来进一步判断,这样也矩阵与几何相关联

对于以下 2×22 \times 2 矩阵

[2667]\begin{bmatrix} 2 & 6 \\ 6 & 7 \end{bmatrix}

其二次形式为 f(x,y)=2x2+12xy+7y2f(x, y)=2x^{2}+12xy+7y^{2} 将其配方 f(x,y)=2x2+12xy+7y2=2(x+3y)211y2f(x, y)=2x^{2}+12xy+7y^{2}=2(x+3y)^{2}-11y^{2},并不是对于任意 (x,y)(x, y) 函数值都是正数,例如当 x=3,y=1x=-3, y=1 时,函数值为负数 f(3,1)=11f(-3, 1)=-11

该函数的几何图像如下

函数图像
函数图像

该函数呈马鞍形,在 (0,0)(0, 0) 处存在极小值,该点称为鞍点。如果令 f(x,y)=kf(x, y)=k,则函数表示在 z=kz=k 用一个平面对函数图像进行截断所得到的图像,该截面图是双曲线

观察以上的图像可知,函数有部分的图像位于 x0y 平面的下方(即位于 z 轴的负轴),对应的函数值为负数,所以原矩阵 AA 不是正定矩阵

提示

也可以使用其他方式对矩阵的正定性进行判定

例如沿着左对角线的矩阵行列式依次为 222×762=22<02 \times 7-6^{2}=-22<0 原矩阵的行列式为负数,所以该矩阵不是正定矩阵

对于以下 2×22 \times 2 矩阵

[26620]\begin{bmatrix} 2 & 6 \\ 6 & 20 \end{bmatrix}

其二次形式为 f(x,y)=2x2+12xy+20y2f(x, y)=2x^{2}+12xy+20y^{2} 将其配方 f(x,y)=2x2+12xy+20y2=2(x+3y)2+2y2f(x, y)=2x^{2}+12xy+20y^{2}=2(x+3y)^{2}+2y^{2} 观察函数的结构,可知该函数的值都是大于 00(除了 (0,0)(0, 0) 处函数值为 00),所以原矩阵是正定矩阵

提示

也可以使用其他方式对矩阵的正定性进行判定

例如沿着左对角线的矩阵行列式依次为 222×2062=4>02 \times 20-6^{2}=4>0 都是正数,所以原矩阵是正定矩阵

该函数的几何图像如下

函数图像
函数图像

该函数呈碗形,在 (0,0)(0, 0) 处存在极小值,该点也是最小值。如果令 f(x,y)=kf(x, y)=k,则函数表示的截面图是椭圆

说明

其实矩阵的二次形式的配方公式中,「外层」系数和「内层」系数和矩阵是有关联

配方形式是 f(x,y)==2(x+3y)2+2y2f(x, y)=={\color{Red} 2}(x+{\color{Green} 3}y)^{2}+{\color{Blue} 2}y^{2}

这些系数出现在(使用消元法)求主元的步骤中

[26620]E[2602]\begin{bmatrix} 2 & 6 \\ 6 & 20 \end{bmatrix} \xrightarrow{\text{E}} \begin{bmatrix} 2 & 6 \\ 0 & 2 \end{bmatrix}

消元所得到的阶梯形式的矩阵是 U=[2602]U=\begin{bmatrix} {\color{Red} 2} & 6 \\ 0 & {\color{Blue} 2} \end{bmatrix}

将消元矩阵(相乘)结合起来所得的下三角矩阵是 L=[1031]L=\begin{bmatrix} 1 & 0 \\ {\color{Green} 3} & 1 \end{bmatrix}

以上通过颜色标记配方中的系数与矩阵元素的对应关系,矩阵的主元作为「外层」(平方项)的系数,消元时所称上的系数作为「内层」的系数

应用

对于以下的 3×33 \times 3 矩阵,可以使用不同的方法判断其正定性

A=[210121012]A= \begin{bmatrix} 2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2 \end{bmatrix}
  • 从行列式的角度:沿着左对角线的矩阵行列式依次为 det[2]=2det\begin{bmatrix}2\end{bmatrix}=2det[2112]=5det\begin{bmatrix} 2 & -1 \\ -1 & 2 \end{bmatrix}=5detA=4detA=4 它们都是正数,所以原矩阵是正定矩阵
  • 从主元的角度:该矩阵的主元为 2,3/2,4/32, 3/2, 4/3 都是正数,所以矩阵是正定矩阵
  • 从特征值的角度:该矩阵的特征值为 22,2,2+22-\sqrt{2}, 2, 2+\sqrt{2} 都是正数,所以矩阵是正定矩阵

该矩阵的二次形式为 f(x)=xTAx=2x12+2x22+2x322x1x22x2x3f(x)=x^{T}Ax=2x_{1}^{2}+2x_{2}^{2}+2x_{3}^{2}-2x_{1}x_{2}-2x_{2}x_{3} 从前面的分析可知原矩阵是正定矩阵,所以除了在 x=0x=0 处函数值为零以外,其他函数值都是大于零的。当在 f(x)=1f(x)=1 对函数进行截断,所得导的是一个(三维的)橄榄球形状的截图(与 2×22 \times 2 正定矩阵相对应,截面是一个椭圆)


Copyright © 2024 Ben

Theme BlogiNote

Icons from Icônes