6.3 奇异值分解
6.3.1
$\\$
略。$\\$
6.3.2 $\quad$ 矩阵$A$的 QR 分解$A=QR$,且$R$有奇异值分解$R=U\varSigma V^\mathrm{T}$,求$A$的奇异值分解。
$\\$
解:$\\$
显然矩阵$QU$也是正交矩阵,于是$A$的奇异值分解是$A=QU\varSigma V^\mathrm{T}.\\$
6.3.3 $\quad$ 设$A$的奇异值分解为$A=U\varSigma V^\mathrm{T}$,求矩阵$\begin{bmatrix}
O&A^\mathrm{T}\\
A&O
\end{bmatrix}$的谱分解。
$\\$
解:$\\$
注意$A$不一定是方阵且可能不满秩。 $\\$
设$\operatorname{rank}(A)=r$,则$U=\begin{bmatrix}
\bm{u}_1&\cdots&\bm{u}_r&\bm{u}_{r+1}&\cdots&\bm{u}_{n}
\end{bmatrix},V=\begin{bmatrix}
\bm{v}_1&\cdots&\bm{v}_r&\bm{v}_{r+1}&\cdots&\bm{v}_{n}
\end{bmatrix}$。
$A$的简化奇异值分解为$A=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}+\cdots+\sigma_r\bm{u}_r\bm{v}_r^{\mathrm{T}}$,其中$\bm{u}_1\cdots\bm{u}_r$正交,$\bm{v}_1\cdots\bm{v}_r$正交。$\\$
先考虑$1\leq i \leq r$的情况,此时$A\bm{v}_i=\sigma_i\bm{u}_i, A^{\mathrm{T}}\bm{u}_i=\sigma_i\bm{v}_i$,于是$$
\begin{bmatrix}
O&A^{\mathrm{T}}\\
A&O
\end{bmatrix}
\begin{bmatrix}
\bm{v}_i\\
\bm{u}_i
\end{bmatrix}
=
\begin{bmatrix}
A^{\mathrm{T}}\bm{u}_i\\
A\bm{v}_i
\end{bmatrix}
=
\sigma_i\begin{bmatrix}
\bm{v}_i\\
\bm{u}_i
\end{bmatrix}
$$
$$
\begin{bmatrix}
O&A^{\mathrm{T}}\\
A&O
\end{bmatrix}
\begin{bmatrix}
\bm{v}_i\\
-\bm{u}_i
\end{bmatrix}
=
\begin{bmatrix}
-A^{\mathrm{T}}\bm{u}_i\\
A\bm{v}_i
\end{bmatrix}
=
-\sigma_i\begin{bmatrix}
\bm{v}_i\\
-\bm{u}_i
\end{bmatrix}
$$
所以$\sigma_i$是特征值,对应的特征向量是$\begin{bmatrix}
\bm{v}_i\\
\bm{u}_i
\end{bmatrix}$,$-\sigma_i$也是特征值,对应的特征向量是$\begin{bmatrix}
\bm{v}_i\\
-\bm{u}_i
\end{bmatrix}$。这里有$2r$个特征值。$\\$
再考虑$r \lt i \leq n$,显然此时$A\bm{v}_i=A^{\mathrm{T}}\bm{u}_i=\bm{0}$,于是$$
\begin{bmatrix}
O&A^{\mathrm{T}}\\
A&O
\end{bmatrix}
\begin{bmatrix}
\bm{0}\\
\bm{u}_i
\end{bmatrix}
=
\begin{bmatrix}
A^{\mathrm{T}}\bm{u}_i\\
\bm{0}
\end{bmatrix}
=
\bm{0}
$$
$$
\begin{bmatrix}
O&A^{\mathrm{T}}\\
A&O
\end{bmatrix}
\begin{bmatrix}
\bm{v}_i\\
\bm{0}
\end{bmatrix}
=
\begin{bmatrix}
\bm{0}\\
A\bm{v}_i
\end{bmatrix}
=
\bm{0}
$$
所以$0$是特征值,对应的特征向量是$\begin{bmatrix}
\bm{0}\\
\bm{u}_i
\end{bmatrix}$和$\begin{bmatrix}
\bm{v}_i\\
\bm{0}
\end{bmatrix}$。这里有$2(n-r)$个特征值。$\\$
设$U_1=\begin{bmatrix}
\bm{u}_1&\cdots&\bm{u}_r
\end{bmatrix},U_2=\begin{bmatrix}
\bm{u}_{r+1}&\cdots&\bm{u}_n
\end{bmatrix},V_1=\begin{bmatrix}
\bm{v}_1&\cdots&\bm{v}_r
\end{bmatrix},V_2=\begin{bmatrix}
\bm{v}_{r+1}&\cdots&\bm{v}_n
\end{bmatrix}$,则$U=\begin{bmatrix}
U_1&U_2
\end{bmatrix},V=\begin{bmatrix}
V_1&V_2
\end{bmatrix}$,所以谱分解为$$
\begin{bmatrix}
O&A^{\mathrm{T}}\\
A&O
\end{bmatrix}
=
\begin{bmatrix}
V_1&V_1&O&V_2\\
U_1&-U_1&U_2&O
\end{bmatrix}
\begin{bmatrix}
\sigma_1\\
&\ddots\\
&&\sigma_r\\
&&&-\sigma_1\\
&&&&\ddots\\
&&&&&-\sigma_r\\
&&&&&&0\\
&&&&&&&\ddots\\
&&&&&&&&0
\end{bmatrix}
\begin{bmatrix}
V_1^{\mathrm{T}}&U_1^{\mathrm{T}}\\
V_1^{\mathrm{T}}&-U_1^{\mathrm{T}}\\
O&U_2^{\mathrm{T}}\\
V_2^{\mathrm{T}}&O\\
\end{bmatrix}
$$
6.3.4 $\quad$ 设矩阵$A=\begin{bmatrix}1&0\\-1&1\end{bmatrix}$,考虑单位圆$C=\set{\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}$及其在$A$对应的线性变换$\bm{A}$下的像$A(C)=\set{A\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}.\\$
1.设$\bm{w}\in A(C)$,证明$\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=1.\\$
证明:$\\$
设$\bm{w}=A\bm{v},\Vert \bm{v} \Vert = 1$,则$\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=\bm{v}^\mathrm{T}A^{\mathrm{T}}A^{-\mathrm{T}}A^{-1}A\bm{v}=\bm{v}^{\mathrm{T}}\bm{v}=1.\\$
2.求$A$的奇异值分解$A=U\varSigma V^\mathrm{T}.\\$
解:$\\$
$$A=\begin{bmatrix}
\cfrac{1-\sqrt{5}}{\sqrt{10-2\sqrt{5}}}&\cfrac{1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}\\
\cfrac{2}{\sqrt{10-2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}}
\end{bmatrix}
\begin{bmatrix}
\cfrac{\sqrt{5}+1}{2}&\\
&\cfrac{\sqrt{5}-1}{2}\\
\end{bmatrix}
\begin{bmatrix}
\cfrac{-1-\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}}\\
\cfrac{-1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10-2\sqrt{5}}}\\
\end{bmatrix}$$
3. 注意$V,U$ 为二阶正交矩阵,对应的线性变换是旋转或反射,而 $\varSigma$ 是对角矩阵,对应伸缩变换。从几何上看,曲线$V^{\mathrm{T}}(C),\varSigma V^{\mathrm{T}}(C),U\varSigma V^{\mathrm{T}}(C)$ 分别是什么形状? $\\$
解:$\\$
圆,椭圆,椭圆。$\\$
6.3.5 $\quad$ 设矩阵$A$的奇异值分解是$A=U\varSigma V^\mathrm{T}.\\$
1. 证明$AA^\mathrm{T}=U(\varSigma\varSigma^\mathrm{T})U^\mathrm{T},A^\mathrm{T}A=V(\varSigma^\mathrm{T}\varSigma)V^\mathrm{T}$分别是这两个对称矩阵的谱分解,并得到$AA^\mathrm{T}$和$A^TA$的非零特征值相同。$\\$
2. 对任意$A$的奇异值$\sigma\neq0$,设$\bm{v}$和$\bm{w}$分别是$A^\mathrm{T}A$和$AA^\mathrm{T}$的属于$\sigma^2$的特征向量,证明$A\bm{v}$
和$A^\mathrm{T}\bm{w}$分别是$AA^\mathrm{T}$和$A^\mathrm{T}A$的属于$\sigma^2$的特征向量. $\\$
1.$\\$
略。$\\$
2. 证明:$\\$
$A^{\mathrm{T}}A\bm{v}=\sigma^2\bm{v} \implies AA^{\mathrm{T}}A\bm{v}=\sigma^2A\bm{v} \implies A\bm{v}$是$AA^{\mathrm{T}}$属于$\sigma^2$的特征向量。$\\$
$AA^{\mathrm{T}}\bm{w}=\sigma^2\bm{w} \implies A^{\mathrm{T}}AA^{\mathrm{T}}\bm{w}=\sigma^2A^{\mathrm{T}}\bm{w} \implies A^{\mathrm{T}}\bm{w}$是$A^{\mathrm{T}}A$属于$\sigma^2$的特征向量。$\\$
6.3.6 (极分解) $\quad$ 对$n$阶方阵$A$,存在正交矩阵$Q$和对称半正定矩阵$S$,使得$A=QS.\\$
分解式$A=QS$称为$A$的极分解. 容易看到,$A=S_1Q_1$,即方阵分解为对称半正定矩阵和正交
矩阵的乘积,也存在。$\\$
证明:$\\$
$A=U\varSigma V^{\mathrm{T}}=UV^{\mathrm{T}}V \varSigma V^{\mathrm{T}}$。显然$Q=UV^{\mathrm{T}}$是正交矩阵,$S=V \varSigma V^{\mathrm{T}}$是半正定的对称矩阵,所以$A$存在极分解$A=QS$。同理,$A=U\varSigma V^{\mathrm{T}}=U \varSigma U^{\mathrm{T}}UV^{\mathrm{T}}$,其中$S_1=U \varSigma U^{\mathrm{T}}$是对称半正定矩阵,$Q_1=UV^{\mathrm{T}}$是正交矩阵,所以分解$A=S_1Q_1$也存在。$\\$
6.3.7 $\quad$ 证明矩阵的广义逆唯一。
$\\$
证明:$\\$
由广义逆的性质,有$AA^{+}A=A,A^{+}AA^{+}=A^{+}$,$AA^{+}$和$A^{+}A$均为对称矩阵。设$A$有两个不同的广义逆$X_1,X_2$,则
$$
\begin{align*}
X_1&=X_1AX_1=X_1AX_2AX_1=(X_1A)^{\mathrm{T}}(X_2A)^{\mathrm{T}}X_1=(X_2AX_1A)^{\mathrm{T}}X_1=(X_2A)^{\mathrm{T}}X_1\\
&=X_2AX_1=X_2AX_2AX_1=X_2(AX_2)^{\mathrm{T}}(AX_1)^{\mathrm{T}}=X_2(AX_1AX_2)^{\mathrm{T}}=X_2(AX_2)^{\mathrm{T}}\\
&=X_2AX_2\\
&=X_2
\end{align*}
$$
即$X_1=X_2$,于是矩阵的广义逆唯一。$\\$
6.3.8 (谱范数的性质)$\quad$ 证明命题 6.3.7. 矩阵的谱范数满足:$\\$
1. $\Vert A \Vert \geq 0$,且$\Vert A \Vert=0$当且仅当$A=O;\\$
2. $\Vert kA \Vert = \vert k \vert \Vert A \Vert ;\\$
3. $\Vert A+B \Vert \leq \Vert A \Vert + \Vert B \Vert ;\\$
4. $\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert ;\\$
5. 如果$U,V$是正交矩阵,则$\Vert UAV^{\mathrm{T}} \Vert = \Vert A \Vert.$
$\\$
1.证明:$\\$
$\Vert A \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \geq 0$,而$\Vert A \Vert = 0 \iff \forall\bm{x}\neq 0,\quad \Vert A\bm{x} \Vert=0 \iff \mathcal{N}(A)=\mathbb{R}^n \iff A=O. \\$
2.证明:$\\$
$\Vert kA \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert kA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \vert k \vert \Vert A \Vert. \\$
3.证明:$\\$
由谱范数定义,
$$
\begin{align*}
\Vert A+B \Vert&=\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x}+B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert+\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(由三角不等式)}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\bm{x}}+\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\bm{x}}\quad\text{(因为最大值不一定同时取到)}\\ &=\Vert A \Vert+\Vert B \Vert.
\end{align*}
$$
即$\Vert A+B \Vert \leq \Vert A \Vert+\Vert B \Vert.\\$
4.证明:$\\$
由谱范数定义,
$$
\begin{align*}
\Vert AB \Vert &= \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &=\displaystyle\max_{B\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert B\bm{x} \Vert}\cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{y}\in\mathcal{R}(B),\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为最大值不一定同时取到)}\\ &\leq \displaystyle\max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为$\bm{y}$的取值范围变大了)}\\ &=\Vert A \Vert \Vert B \Vert.
\end{align*}
$$
即$\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert.\\$
5. 证明:$\\$
正交矩阵不改变向量的长度,于是
$$
\Vert UA \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert UA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} = \Vert A \Vert
$$
$$
\Vert AV^{\mathrm{T}} \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert V^{\mathrm{T}}\bm{x} \Vert} = \max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert} = \Vert A \Vert
$$
所以$\Vert UAV^{\mathrm{T}} \Vert=\Vert AV^{\mathrm{T}} \Vert=\Vert UA \Vert=\Vert A \Vert.\\$
6.3.9 $\quad$ 证明矩阵任意特征值的绝对值不大于其最大的奇异值。
$\\$
证明:$\\$
$\sigma_{max}=\displaystyle\max_{\bm{x}\neq\bm{0}}\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert}$,而对任意特征值$\lambda$都有$\Vert A\bm{v} \Vert=\Vert \lambda\bm{v} \Vert=\vert\lambda\vert\Vert \bm{v} \Vert \implies \vert\lambda\vert=\cfrac{\Vert A\bm{v} \Vert}{\Vert \bm{v} \Vert}$,其中$\bm{v}$是是对应的特征向量。即$\vert\lambda\vert \leq \sigma_{max}.\\$
6.3.10$\quad$证明或者举出反例。$\\$
1. $n$阶方阵$A$为正交矩阵当且仅当它的$n$个奇异值都是1。$\\$
2. $n$阶方阵的$n$个奇异值的乘积等于所有特征值的乘积。$\\$
3.设$n$阶方阵$A$和$A+I_n$的奇异值分解分别为$A=U\varSigma V^{\mathrm{T}},A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}.$证明$A$是对称矩阵。$\\$
4. 如果$n$阶方阵$A$的$n$个奇异值就是它的$n$个特征值,则$A$是对称矩阵。$\\$
1.证明:$\\$
$A$为正交矩阵$\iff A^{\mathrm{T}}A=AA^{\mathrm{T}}=I_n\iff n$个奇异值都是1。$\\$
2.$\\$
显然不正确,奇异值乘积不小于0,而特征值的乘积可以为任意实数。$\\$
3.证明:$\\$
$A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}=U\varSigma V^{\mathrm{T}}+UV^{\mathrm{T}} \implies UV^{\mathrm{T}}=I_n \implies U=V \implies A=U\varSigma U^{\mathrm{T}} \implies A$是对称矩阵。$\\$
4.证明:$\\$
要证$A$是对称矩阵,只需要证$A-A^{\mathrm{T}}=O$。由Frobenius范数性质可得$\operatorname{trace}(A^{\mathrm{T}}A)=O \iff A=O.$所以
$$
\begin{align*}
\operatorname{trace}((A-A^{\mathrm{T}})^{\mathrm{T}}(A-A^{\mathrm{T}}))&=\operatorname{trace}(AA^{\mathrm{T}}+A^{\mathrm{T}}A-A^2-(A^{\mathrm{T}})^2)\\
&=
\operatorname{trace}(AA^{\mathrm{T}})+\operatorname{trace}(A^{\mathrm{T}}A)-\operatorname{trace}(A^2)-\operatorname{trace}((A^{\mathrm{T}})^2)\\
&=2\operatorname{trace}(A^{\mathrm{T}}A)-2\operatorname{trace}(A^2)\\
&=2\sum_{i=1}^n \sigma_i^2 - 2\sum_{i=1}^n \lambda_i^2\\
&=0
\end{align*}
$$
于是$A-A^{\mathrm{T}}=O \implies A$是对称矩阵。$\\$
6.3.11 (Frobenius范数的性质) $\quad$ 证明命题 6.3.15. $\quad$ 矩阵的Frobenius范数满足:$\\$
1. $\Vert A \Vert_{\mathrm{F}} \geq 0$,且$\Vert A \Vert_{\mathrm{F}}=0$当且仅当$A=O;\\$
2. $\Vert kA \Vert_{\mathrm{F}} = \vert k \vert \Vert A \Vert_{\mathrm{F}} ;\\$
3. $\Vert A+B \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}} ;\\$
4. $\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}},\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert ;\\$
5. 如果$U,V$是正交矩阵,则$\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}} = \Vert A \Vert_{\mathrm{F}}.\\$
1. 证明:$\\$
由Frobenius范数定义$\Vert A \Vert_{\mathrm{F}}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij} \vert^2}$立得。$\\$
2. 证明:$\\$
$\Vert kA \Vert_{\mathrm{F}}=\sqrt{k^2\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \Vert A \Vert_{\mathrm{F}}.\\$
3. 证明:$\\$
由三角不等式,$\Vert A+B \Vert_{\mathrm{F}}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij}+b_{ij} \vert^2} \leq \sqrt{\displaystyle\sum_{i=1}^{m}\vert a_{ij} \vert^2}+\sqrt{\displaystyle\sum_{j=1}^{n}\vert b_{ij} \vert^2}=\Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}}.\\$
4. 证明:$\\$
$\Vert A \Vert = \max\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A \Vert \geq \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A\bm{x} \Vert \leq \Vert A \Vert \Vert \bm{x} \Vert.\\$
设$B=\begin{bmatrix}
\bm{b}_1&\bm{b}_2&\cdots&\bm{b}_n
\end{bmatrix}$,则$AB=\begin{bmatrix}
A\bm{b}_1&A\bm{b}_2&\cdots&A\bm{b}_n
\end{bmatrix}$,由Frobenius范数定义有$\Vert AB \Vert_{\mathrm{F}}^2=\displaystyle\sum_{i=1}^n \Vert A\bm{b}_i \Vert^2 \leq \Vert A \Vert^2 \displaystyle\sum_{i=1}^n \Vert \bm{b}_i \Vert^2 = \Vert A \Vert^2 \Vert B \Vert_{\mathrm{F}}^2.$即$\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}}.\\$
同理,设$A=\begin{bmatrix}
\bm{a}_1^{\mathrm{T}}\\
\bm{a}_2^{\mathrm{T}}\\
\vdots\\
\bm{a}_n^{\mathrm{T}}
\end{bmatrix}$可得$\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert.\\$
5. 证明:$\\$
$$\Vert UA \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(A^{\mathrm{T}}U^{\mathrm{T}}UA)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}}$$
$$\Vert AV^{\mathrm{T}} \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(VA^{\mathrm{T}}AV^{\mathrm{T}})}=\sqrt{\operatorname{trace}(V^{\mathrm{T}}VA^{\mathrm{T}}A)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}}$$
于是$\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}}=\Vert UA \Vert_{\mathrm{F}}=\Vert A \Vert_{\mathrm{F}}.\\$
6.3.12 $\quad$ 证明命题 6.3.16. $\quad$对任意矩阵$A$,其Frobenius范数平方$\Vert A \Vert_{\mathrm{F}}^2$等于$A$所有奇异值的平方和。因此$\Vert A \Vert_{\mathrm{F}} \geq \Vert A \Vert$
$\\$
证明:$\\$
$$\Vert A \Vert_{\mathrm{F}}^2=\operatorname{trace}(A^{\mathrm{T}}A)=\sum_{i=1}^n \sigma_i^2 \geq \sigma_{\max}^2=\Vert A \Vert^2.$$
6.3.13 (樊畿迹定理) $\quad$ 对任意$n$阶对称矩阵$A\in\mathbb{R}^{n\times n}$ ,假设特征值为$\lambda_1\geqslant\lambda_2\geqslant...\geqslant\lambda_n$,对应特征向量为$\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_n$,则${\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i$,且$Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}$时取得最大值。
$\\$
证明:$\\$
设$Q=\begin{bmatrix}
\bm{q}_1&\bm{q}_2&\cdots&\bm{q}_m
\end{bmatrix}$,且列向量两两正交。则$\operatorname{trace}(Q^{\mathrm{T}}AQ)=\bm{q}_1^{\mathrm{T}}A\bm{q}_1+\bm{q}_2^{\mathrm{T}}A\bm{q}_2+\cdots+\bm{q}_m^{\mathrm{T}}A\bm{q}_m.$ $\\$
注意到$\bm{q}_i^{\mathrm{T}}A\bm{q}_i=\cfrac{\bm{q}_i^{\mathrm{T}}A\bm{q}_i}{\bm{q}_i^{\mathrm{T}}\bm{q}_i}$是$\bm{q}_i$关于$A$的Rayleigh商。于是$\displaystyle\max_{\bm{q}_i^{\mathrm{T}}\bm{q}_i=1} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_1, \displaystyle\max_{k\leq i \leq m} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_k$,当且仅当$\bm{q}_i$为对应特征值时取得最大值。$\\$
所以${\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i$,当且仅当$Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}$时取得最大值。$\\$
6.3.14
$\\$
略。唯一需要注意的是不要浪费时间去算第四问$B$的最佳秩1逼近。这里直接给出$B$的奇异值分解,供读者观摩。$\\$
显然$B=\begin{bmatrix}
-2 & -1 & 1 & 2 \\
-9 & -1 & -1 & 11
\end{bmatrix}$,于是$B$的奇异值分解为
$$
\begin{bmatrix}
-2 & -1 & 1 & 2 \\
-9 & -1 & -1 & 11
\end{bmatrix}
=U\varSigma V^{\mathrm{T}}
$$
其中
$$
U=
\begin{bmatrix}
\sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & -\sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \\
\sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}}
\end{bmatrix}
$$
$$
\varSigma=
\begin{bmatrix}
\sqrt{\sqrt{11009}+107} & 0 & 0 & 0 \\
0 & \sqrt{-\sqrt{11009}+107} & 0 & 0
\end{bmatrix}
$$
$$
V^{\mathrm{T}}=
\begin{bmatrix}
-0.633 & 0.148 & \frac{-\sqrt{174}}{87} & \frac{103\sqrt{4785}}{9570} \\
-0.081 & 0.546 & \frac{11\sqrt{174}}{174} & \frac{-\sqrt{4785}}{9570} \\
-0.054 & -0.816 & \frac{7\sqrt{174}}{174} & \frac{31\sqrt{4785}}{9570} \\
\sqrt{\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & \sqrt{-\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & 0 & \frac{\sqrt{4785}}{110}
\end{bmatrix}^{\mathrm{T}}
$$
用numpy进行奇异值分解后计算秩一逼近
$$B_1=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}=
\begin{bmatrix}
-1.7910 & -0.2283 & -0.1528 & 2.1722 \\
-9.0413 & -1.1528 & -0.7716 & 10.9658
\end{bmatrix}$$
可以看到秩一逼近已经很接近真实值了。
$\\$
6.3.15 $\quad$ 考虑子空间$\mathcal{M},\mathcal{N}$,其对应的正交投影矩阵为$P,Q.$我们想要研究矩阵
$$
H=P\left(P+Q\right)^{+}Q+Q\left(P+Q\right)^{+}P.
$$
$\\$
1.计算$(P+Q)(P+Q)^{+}$的列空间和零空间,该矩阵是否为一个正交投影矩阵?$\\$
2.计算$\left(P+Q\right)^{+}\left(P+Q\right)$的列空间和零空间,该矩阵是否为一个正交投影矩阵?和前一矩阵有何关联?$\\$
3.证明$Q(P+Q)^{+}(P+Q)=Q,(P+Q)(P+Q)^{+}Q=Q.$ $\\$
4.证明$H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.$ $\\$
5.假设$T$是 $\mathcal{M}\cap\mathcal{N}$上的正交投影矩阵,证明$HP=HQ=HT=H.$ $\\$
6.证明$HT=T.$ $\\$
于是$H=T$,由此即得$\mathcal{M}\cap\mathcal{N}$的正交投影矩阵的表达式。$\\$
1.解:$\\$
设$P+Q=A$,由广义逆性质可知$AA^{+}=U_rU_r^{\mathrm{T}}$,其中$U_r$是$\mathcal{R}(A)$的一组标准正交基,于是$\mathcal{R}(AA^{+})=\mathcal{R}(A)=\mathcal{R}(P+Q)$。同理可得$\mathcal{N}(AA^+)=\mathcal{N}(P+Q)$。$\\$
接下来我们将证明,$\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}$。$\\$
对$\forall \bm{x}\in \mathcal{N}(P+Q), (P+Q)\bm{x}=\bm{0} \implies P\bm{x}+Q\bm{x}=\bm{0} \implies P\bm{x}=-Q\bm{x}$。而$P$是$\mathcal{M}$的正交投影矩阵,$Q$是$\mathcal{N}$的正交投影矩阵,$ P\bm{x}\in \mathcal{M}, Q\bm{x}\in \mathcal{N}$,这说明$\forall \bm{x} \in \mathcal{N}(P+Q), P\bm{x}\in \mathcal{M}\cap\mathcal{N}, Q\bm{x}\in \mathcal{M}\cap\mathcal{N}$。$\\$
设$\mathcal{M}\cap\mathcal{N}$的正交投影矩阵是$T$,则$$PT=QT=T=T^{\mathrm{T}}=(PT)^{\mathrm{T}}=(QT)^{\mathrm{T}}=TP=TQ$$于是
$$
\begin{align*}
P\bm{x}=-Q\bm{x}&\implies TP\bm{x}=-TQ\bm{x}\\
&\implies T\bm{x}=-T\bm{x}\\
&\implies T\bm{x}=\bm{0}\\
&\implies TP\bm{x}=TQ\bm{x}=\bm{0}
\end{align*}
$$
又因为$P\bm{x}\in\mathcal{M}\cap\mathcal{N},Q\bm{x}\in\mathcal{M}\cap\mathcal{N}$,且$T$是$\mathcal{M}\cap\mathcal{N}$的正交投影矩阵,所以$TP\bm{x}=P\bm{x}=\bm{0}, TQ\bm{x}=Q\bm{x}=\bm{0} \implies \mathcal{N}(P+Q)\subseteq\mathcal{N}(P)\cap\mathcal{N}(Q)$。显然$\mathcal{N}(P)\cap\mathcal{N}(Q)\subseteq\mathcal{N}(P+Q)$也成立,于是$\mathcal{N}(P+Q)=\mathcal{N}(P)\cap\mathcal{N}(Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp. \\$
由De Morgan定律 (见练习3.3.8),$\mathcal{M}^\perp \cap \mathcal{N}^\perp = (\mathcal{M}+\mathcal{N})^\perp$,即$\mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp =(\mathcal{M}+\mathcal{N})^{\perp}$。由正交补的性质可得,$\mathcal{R}(AA^{+})=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}.\\$
$(AA^{+})^2=(AA^{+})^{\mathrm{T}}=AA^{+}$,所以$AA^{+}$是正交投影矩阵。$\\$
2.解:$\\$
设$P+Q=A$,由于$A$是对称矩阵,由广义逆性质和前面讨论可知$AA^{+}$和$A^{+}A$有相同的零空间和列空间。即$\mathcal{R}(A^{+}A)=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}. \\$
$(A^{+}A)^2=(A^{+}A)^{\mathrm{T}}=A^{+}A$,所以$AA^{+}$是正交投影矩阵,且$A^{+}A=AA^{+}.\\$
3.证明:$\\$
由前面讨论可知,$AA^{+}=A^{+}A$是$\mathcal{M}+\mathcal{N}$上的正交投影矩阵,而$\mathcal{R}(Q)\subseteq\mathcal{M}+\mathcal{N}$,所以$AA^{+}Q=Q$,等号两侧取转置立得$QA^{+}A=Q.\\$
4.证明:$\\$
由第(3)小问结论
$$
Q=Q(P+Q)^{+}(P+Q)=Q(P+Q)^{+}P+Q(P+Q)^{+}Q
$$
$$
Q=(P+Q)(P+Q)^{+}Q=P(P+Q)^{+}Q+Q(P+Q)^{+}Q
$$
于是$Q(P+Q)^{+}P=P(P+Q)^{+}Q\implies H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.\\$
5.证明:$\\$
$$HP=2Q(P+Q)^{+}P^2=2Q(P+Q)^{+}P=H.$$
$$HQ=2P(P+Q)^{+}Q^2=2P(P+Q)^{+}Q=H.$$
由De Morgan定律 (见练习3.3.8),$(\mathcal{M}\cap\mathcal{N})^{\perp}=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}$。设$P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}$表示$(\mathcal{M}\cap\mathcal{N})^\perp$上的正交投影矩阵,$P_{\mathcal{M}^{\perp}},P_{\mathcal{N}^{\perp}}$分别表示$\mathcal{M}^{\perp},\mathcal{N}^{\perp}$上的正交投影矩阵,则$$T=P_{\mathcal{M}\cap\mathcal{N}}=I-P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}=I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp}$$
设$B=P_{\mathcal{M}^{\perp}}+P_{\mathcal{N}^{\perp}}=I-P+I-Q=2I-P-Q$。由第(2)问结论可得$P_{\mathcal{M}^\perp+\mathcal{N}^\perp}=BB^{+}$,即$BB^{+}$是$\mathcal{R}(B)=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}$上的正交投影矩阵。因此
$$\begin{align*}
HT&=H(I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp})\\
&=H(I-BB^{+})\\
&=H-HBB^{+}\\
&=H-H(2I-P-Q)B^{+}\\
&=H-(2H-H-H)B^{+}\\
&=H
\end{align*}$$
6.证明:$\\$
考虑矩阵$HT-T$的零空间。设$\bm{x}\in\mathbb{R}^n$,分两种情况讨论:$\\$
(a)若$\bm{x}\in (\mathcal{M}\cap\mathcal{N})^{\perp}$,$\\$
$(HT-T)\bm{x}=HT\bm{x}-T\bm{x}=\bm{0}-\bm{0}=\bm{0}$。所以$(\mathcal{M}\cap\mathcal{N})^{\perp} \subseteq \mathcal{N}(HT-T)$。$\\$
(b)若$\bm{x}\in(\mathcal{M}\cap\mathcal{N})$,$\\$
则
$$
\begin{align*}
(HT-T)\bm{x}&=H\bm{x}-\bm{x}\\
&=P\left(P+Q\right)^{+}Q\bm{x}+Q\left(P+Q\right)^{+}P\bm{x}-\bm{x}\\
&=P\left(P+Q\right)^{+}\bm{x}+Q\left(P+Q\right)^{+}\bm{x}-\bm{x}\\
&=(P+Q)\left(P+Q\right)^{+}\bm{x}-\bm{x}\\
&=AA^{+}\bm{x}-\bm{x}
\end{align*}
$$
注意到$AA^{+}$是$\mathcal{M}+\mathcal{N}$上的正交投影矩阵,而$\bm{x}\in(\mathcal{M}\cap\mathcal{N})\subseteq (\mathcal{M}+\mathcal{N})$,于是$AA^{+}\bm{x}-\bm{x}=\bm{x}-\bm{x}=\bm{0}$。即$(\mathcal{M}\cap\mathcal{N}) \subseteq \mathcal{N}(HT-T)$。$\\$
这表明$\mathcal{N}(HT-T)=\mathbb{R}^n \iff HT-T=O \iff HT=T.$