当前位置:HOME - 线性代数入门答案 - 6.3 奇异值分解

6.3 奇异值分解

6.3.1
$\\$ 略。$\\$
6.3.2 $\quad$ 矩阵$A$的 QR 分解$A=QR$,且$R$有奇异值分解$R=U\varSigma V^\mathrm{T}$,求$A$的奇异值分解。
$\\$ 解:$\\$ 显然矩阵$QU$也是正交矩阵,于是$A$的奇异值分解是$A=QU\varSigma V^\mathrm{T}.\\$
6.3.3 $\quad$ 设$A$的奇异值分解为$A=U\varSigma V^\mathrm{T}$,求矩阵$\begin{bmatrix} O&A^\mathrm{T}\\ A&O \end{bmatrix}$的谱分解。
$\\$ 解:$\\$ 注意$A$不一定是方阵且可能不满秩。 $\\$ 设$\operatorname{rank}(A)=r$,则$U=\begin{bmatrix} \bm{u}_1&\cdots&\bm{u}_r&\bm{u}_{r+1}&\cdots&\bm{u}_{n} \end{bmatrix},V=\begin{bmatrix} \bm{v}_1&\cdots&\bm{v}_r&\bm{v}_{r+1}&\cdots&\bm{v}_{n} \end{bmatrix}$。 $A$的简化奇异值分解为$A=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}+\cdots+\sigma_r\bm{u}_r\bm{v}_r^{\mathrm{T}}$,其中$\bm{u}_1\cdots\bm{u}_r$正交,$\bm{v}_1\cdots\bm{v}_r$正交。$\\$ 先考虑$1\leq i \leq r$的情况,此时$A\bm{v}_i=\sigma_i\bm{u}_i, A^{\mathrm{T}}\bm{u}_i=\sigma_i\bm{v}_i$,于是$$ \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix} = \begin{bmatrix} A^{\mathrm{T}}\bm{u}_i\\ A\bm{v}_i \end{bmatrix} = \sigma_i\begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix} $$ $$ \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix} = \begin{bmatrix} -A^{\mathrm{T}}\bm{u}_i\\ A\bm{v}_i \end{bmatrix} = -\sigma_i\begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix} $$ 所以$\sigma_i$是特征值,对应的特征向量是$\begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix}$,$-\sigma_i$也是特征值,对应的特征向量是$\begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix}$。这里有$2r$个特征值。$\\$ 再考虑$r \lt i \leq n$,显然此时$A\bm{v}_i=A^{\mathrm{T}}\bm{u}_i=\bm{0}$,于是$$ \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{0}\\ \bm{u}_i \end{bmatrix} = \begin{bmatrix} A^{\mathrm{T}}\bm{u}_i\\ \bm{0} \end{bmatrix} = \bm{0} $$ $$ \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ \bm{0} \end{bmatrix} = \begin{bmatrix} \bm{0}\\ A\bm{v}_i \end{bmatrix} = \bm{0} $$ 所以$0$是特征值,对应的特征向量是$\begin{bmatrix} \bm{0}\\ \bm{u}_i \end{bmatrix}$和$\begin{bmatrix} \bm{v}_i\\ \bm{0} \end{bmatrix}$。这里有$2(n-r)$个特征值。$\\$ 设$U_1=\begin{bmatrix} \bm{u}_1&\cdots&\bm{u}_r \end{bmatrix},U_2=\begin{bmatrix} \bm{u}_{r+1}&\cdots&\bm{u}_n \end{bmatrix},V_1=\begin{bmatrix} \bm{v}_1&\cdots&\bm{v}_r \end{bmatrix},V_2=\begin{bmatrix} \bm{v}_{r+1}&\cdots&\bm{v}_n \end{bmatrix}$,则$U=\begin{bmatrix} U_1&U_2 \end{bmatrix},V=\begin{bmatrix} V_1&V_2 \end{bmatrix}$,所以谱分解为$$ \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} = \begin{bmatrix} V_1&V_1&O&V_2\\ U_1&-U_1&U_2&O \end{bmatrix} \begin{bmatrix} \sigma_1\\ &\ddots\\ &&\sigma_r\\ &&&-\sigma_1\\ &&&&\ddots\\ &&&&&-\sigma_r\\ &&&&&&0\\ &&&&&&&\ddots\\ &&&&&&&&0 \end{bmatrix} \begin{bmatrix} V_1^{\mathrm{T}}&U_1^{\mathrm{T}}\\ V_1^{\mathrm{T}}&-U_1^{\mathrm{T}}\\ O&U_2^{\mathrm{T}}\\ V_2^{\mathrm{T}}&O\\ \end{bmatrix} $$
6.3.4 $\quad$ 设矩阵$A=\begin{bmatrix}1&0\\-1&1\end{bmatrix}$,考虑单位圆$C=\set{\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}$及其在$A$对应的线性变换$\bm{A}$下的像$A(C)=\set{A\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}.\\$
1.设$\bm{w}\in A(C)$,证明$\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=1.\\$ 证明:$\\$ 设$\bm{w}=A\bm{v},\Vert \bm{v} \Vert = 1$,则$\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=\bm{v}^\mathrm{T}A^{\mathrm{T}}A^{-\mathrm{T}}A^{-1}A\bm{v}=\bm{v}^{\mathrm{T}}\bm{v}=1.\\$ 2.求$A$的奇异值分解$A=U\varSigma V^\mathrm{T}.\\$ 解:$\\$ $$A=\begin{bmatrix} \cfrac{1-\sqrt{5}}{\sqrt{10-2\sqrt{5}}}&\cfrac{1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}\\ \cfrac{2}{\sqrt{10-2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}} \end{bmatrix} \begin{bmatrix} \cfrac{\sqrt{5}+1}{2}&\\ &\cfrac{\sqrt{5}-1}{2}\\ \end{bmatrix} \begin{bmatrix} \cfrac{-1-\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}}\\ \cfrac{-1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10-2\sqrt{5}}}\\ \end{bmatrix}$$ 3. 注意$V,U$ 为二阶正交矩阵,对应的线性变换是旋转或反射,而 $\varSigma$ 是对角矩阵,对应伸缩变换。从几何上看,曲线$V^{\mathrm{T}}(C),\varSigma V^{\mathrm{T}}(C),U\varSigma V^{\mathrm{T}}(C)$ 分别是什么形状? $\\$ 解:$\\$ 圆,椭圆,椭圆。$\\$
6.3.5 $\quad$ 设矩阵$A$的奇异值分解是$A=U\varSigma V^\mathrm{T}.\\$ 1. 证明$AA^\mathrm{T}=U(\varSigma\varSigma^\mathrm{T})U^\mathrm{T},A^\mathrm{T}A=V(\varSigma^\mathrm{T}\varSigma)V^\mathrm{T}$分别是这两个对称矩阵的谱分解,并得到$AA^\mathrm{T}$和$A^TA$的非零特征值相同。$\\$ 2. 对任意$A$的奇异值$\sigma\neq0$,设$\bm{v}$和$\bm{w}$分别是$A^\mathrm{T}A$和$AA^\mathrm{T}$的属于$\sigma^2$的特征向量,证明$A\bm{v}$ 和$A^\mathrm{T}\bm{w}$分别是$AA^\mathrm{T}$和$A^\mathrm{T}A$的属于$\sigma^2$的特征向量. $\\$
1.$\\$ 略。$\\$ 2. 证明:$\\$ $A^{\mathrm{T}}A\bm{v}=\sigma^2\bm{v} \implies AA^{\mathrm{T}}A\bm{v}=\sigma^2A\bm{v} \implies A\bm{v}$是$AA^{\mathrm{T}}$属于$\sigma^2$的特征向量。$\\$ $AA^{\mathrm{T}}\bm{w}=\sigma^2\bm{w} \implies A^{\mathrm{T}}AA^{\mathrm{T}}\bm{w}=\sigma^2A^{\mathrm{T}}\bm{w} \implies A^{\mathrm{T}}\bm{w}$是$A^{\mathrm{T}}A$属于$\sigma^2$的特征向量。$\\$
6.3.6 (极分解) $\quad$ 对$n$阶方阵$A$,存在正交矩阵$Q$和对称半正定矩阵$S$,使得$A=QS.\\$
分解式$A=QS$称为$A$的极分解. 容易看到,$A=S_1Q_1$,即方阵分解为对称半正定矩阵和正交 矩阵的乘积,也存在。$\\$ 证明:$\\$ $A=U\varSigma V^{\mathrm{T}}=UV^{\mathrm{T}}V \varSigma V^{\mathrm{T}}$。显然$Q=UV^{\mathrm{T}}$是正交矩阵,$S=V \varSigma V^{\mathrm{T}}$是半正定的对称矩阵,所以$A$存在极分解$A=QS$。同理,$A=U\varSigma V^{\mathrm{T}}=U \varSigma U^{\mathrm{T}}UV^{\mathrm{T}}$,其中$S_1=U \varSigma U^{\mathrm{T}}$是对称半正定矩阵,$Q_1=UV^{\mathrm{T}}$是正交矩阵,所以分解$A=S_1Q_1$也存在。$\\$
6.3.7 $\quad$ 证明矩阵的广义逆唯一。
$\\$ 证明:$\\$ 由广义逆的性质,有$AA^{+}A=A,A^{+}AA^{+}=A^{+}$,$AA^{+}$和$A^{+}A$均为对称矩阵。设$A$有两个不同的广义逆$X_1,X_2$,则 $$ \begin{align*} X_1&=X_1AX_1=X_1AX_2AX_1=(X_1A)^{\mathrm{T}}(X_2A)^{\mathrm{T}}X_1=(X_2AX_1A)^{\mathrm{T}}X_1=(X_2A)^{\mathrm{T}}X_1\\ &=X_2AX_1=X_2AX_2AX_1=X_2(AX_2)^{\mathrm{T}}(AX_1)^{\mathrm{T}}=X_2(AX_1AX_2)^{\mathrm{T}}=X_2(AX_2)^{\mathrm{T}}\\ &=X_2AX_2\\ &=X_2 \end{align*} $$ 即$X_1=X_2$,于是矩阵的广义逆唯一。$\\$
6.3.8 (谱范数的性质)$\quad$ 证明命题 6.3.7. 矩阵的谱范数满足:$\\$ 1. $\Vert A \Vert \geq 0$,且$\Vert A \Vert=0$当且仅当$A=O;\\$ 2. $\Vert kA \Vert = \vert k \vert \Vert A \Vert ;\\$ 3. $\Vert A+B \Vert \leq \Vert A \Vert + \Vert B \Vert ;\\$ 4. $\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert ;\\$ 5. 如果$U,V$是正交矩阵,则$\Vert UAV^{\mathrm{T}} \Vert = \Vert A \Vert.$
$\\$ 1.证明:$\\$ $\Vert A \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \geq 0$,而$\Vert A \Vert = 0 \iff \forall\bm{x}\neq 0,\quad \Vert A\bm{x} \Vert=0 \iff \mathcal{N}(A)=\mathbb{R}^n \iff A=O. \\$ 2.证明:$\\$ $\Vert kA \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert kA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \vert k \vert \Vert A \Vert. \\$ 3.证明:$\\$ 由谱范数定义, $$ \begin{align*} \Vert A+B \Vert&=\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x}+B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert+\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(由三角不等式)}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\bm{x}}+\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\bm{x}}\quad\text{(因为最大值不一定同时取到)}\\ &=\Vert A \Vert+\Vert B \Vert. \end{align*} $$ 即$\Vert A+B \Vert \leq \Vert A \Vert+\Vert B \Vert.\\$ 4.证明:$\\$ 由谱范数定义, $$ \begin{align*} \Vert AB \Vert &= \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &=\displaystyle\max_{B\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert B\bm{x} \Vert}\cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{y}\in\mathcal{R}(B),\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为最大值不一定同时取到)}\\ &\leq \displaystyle\max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为$\bm{y}$的取值范围变大了)}\\ &=\Vert A \Vert \Vert B \Vert. \end{align*} $$ 即$\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert.\\$ 5. 证明:$\\$ 正交矩阵不改变向量的长度,于是 $$ \Vert UA \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert UA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} = \Vert A \Vert $$ $$ \Vert AV^{\mathrm{T}} \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert V^{\mathrm{T}}\bm{x} \Vert} = \max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert} = \Vert A \Vert $$ 所以$\Vert UAV^{\mathrm{T}} \Vert=\Vert AV^{\mathrm{T}} \Vert=\Vert UA \Vert=\Vert A \Vert.\\$
6.3.9 $\quad$ 证明矩阵任意特征值的绝对值不大于其最大的奇异值。
$\\$ 证明:$\\$ $\sigma_{max}=\displaystyle\max_{\bm{x}\neq\bm{0}}\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert}$,而对任意特征值$\lambda$都有$\Vert A\bm{v} \Vert=\Vert \lambda\bm{v} \Vert=\vert\lambda\vert\Vert \bm{v} \Vert \implies \vert\lambda\vert=\cfrac{\Vert A\bm{v} \Vert}{\Vert \bm{v} \Vert}$,其中$\bm{v}$是是对应的特征向量。即$\vert\lambda\vert \leq \sigma_{max}.\\$
6.3.10$\quad$证明或者举出反例。$\\$ 1. $n$阶方阵$A$为正交矩阵当且仅当它的$n$个奇异值都是1。$\\$ 2. $n$阶方阵的$n$个奇异值的乘积等于所有特征值的乘积。$\\$ 3.设$n$阶方阵$A$和$A+I_n$的奇异值分解分别为$A=U\varSigma V^{\mathrm{T}},A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}.$证明$A$是对称矩阵。$\\$ 4. 如果$n$阶方阵$A$的$n$个奇异值就是它的$n$个特征值,则$A$是对称矩阵。$\\$
1.证明:$\\$ $A$为正交矩阵$\iff A^{\mathrm{T}}A=AA^{\mathrm{T}}=I_n\iff n$个奇异值都是1。$\\$ 2.$\\$ 显然不正确,奇异值乘积不小于0,而特征值的乘积可以为任意实数。$\\$ 3.证明:$\\$ $A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}=U\varSigma V^{\mathrm{T}}+UV^{\mathrm{T}} \implies UV^{\mathrm{T}}=I_n \implies U=V \implies A=U\varSigma U^{\mathrm{T}} \implies A$是对称矩阵。$\\$ 4.证明:$\\$ 要证$A$是对称矩阵,只需要证$A-A^{\mathrm{T}}=O$。由Frobenius范数性质可得$\operatorname{trace}(A^{\mathrm{T}}A)=O \iff A=O.$所以 $$ \begin{align*} \operatorname{trace}((A-A^{\mathrm{T}})^{\mathrm{T}}(A-A^{\mathrm{T}}))&=\operatorname{trace}(AA^{\mathrm{T}}+A^{\mathrm{T}}A-A^2-(A^{\mathrm{T}})^2)\\ &= \operatorname{trace}(AA^{\mathrm{T}})+\operatorname{trace}(A^{\mathrm{T}}A)-\operatorname{trace}(A^2)-\operatorname{trace}((A^{\mathrm{T}})^2)\\ &=2\operatorname{trace}(A^{\mathrm{T}}A)-2\operatorname{trace}(A^2)\\ &=2\sum_{i=1}^n \sigma_i^2 - 2\sum_{i=1}^n \lambda_i^2\\ &=0 \end{align*} $$ 于是$A-A^{\mathrm{T}}=O \implies A$是对称矩阵。$\\$
6.3.11 (Frobenius范数的性质) $\quad$ 证明命题 6.3.15. $\quad$ 矩阵的Frobenius范数满足:$\\$ 1. $\Vert A \Vert_{\mathrm{F}} \geq 0$,且$\Vert A \Vert_{\mathrm{F}}=0$当且仅当$A=O;\\$ 2. $\Vert kA \Vert_{\mathrm{F}} = \vert k \vert \Vert A \Vert_{\mathrm{F}} ;\\$ 3. $\Vert A+B \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}} ;\\$ 4. $\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}},\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert ;\\$ 5. 如果$U,V$是正交矩阵,则$\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}} = \Vert A \Vert_{\mathrm{F}}.\\$
1. 证明:$\\$ 由Frobenius范数定义$\Vert A \Vert_{\mathrm{F}}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij} \vert^2}$立得。$\\$ 2. 证明:$\\$ $\Vert kA \Vert_{\mathrm{F}}=\sqrt{k^2\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \Vert A \Vert_{\mathrm{F}}.\\$ 3. 证明:$\\$ 由三角不等式,$\Vert A+B \Vert_{\mathrm{F}}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij}+b_{ij} \vert^2} \leq \sqrt{\displaystyle\sum_{i=1}^{m}\vert a_{ij} \vert^2}+\sqrt{\displaystyle\sum_{j=1}^{n}\vert b_{ij} \vert^2}=\Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}}.\\$ 4. 证明:$\\$ $\Vert A \Vert = \max\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A \Vert \geq \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A\bm{x} \Vert \leq \Vert A \Vert \Vert \bm{x} \Vert.\\$ 设$B=\begin{bmatrix} \bm{b}_1&\bm{b}_2&\cdots&\bm{b}_n \end{bmatrix}$,则$AB=\begin{bmatrix} A\bm{b}_1&A\bm{b}_2&\cdots&A\bm{b}_n \end{bmatrix}$,由Frobenius范数定义有$\Vert AB \Vert_{\mathrm{F}}^2=\displaystyle\sum_{i=1}^n \Vert A\bm{b}_i \Vert^2 \leq \Vert A \Vert^2 \displaystyle\sum_{i=1}^n \Vert \bm{b}_i \Vert^2 = \Vert A \Vert^2 \Vert B \Vert_{\mathrm{F}}^2.$即$\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}}.\\$ 同理,设$A=\begin{bmatrix} \bm{a}_1^{\mathrm{T}}\\ \bm{a}_2^{\mathrm{T}}\\ \vdots\\ \bm{a}_n^{\mathrm{T}} \end{bmatrix}$可得$\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert.\\$ 5. 证明:$\\$ $$\Vert UA \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(A^{\mathrm{T}}U^{\mathrm{T}}UA)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}}$$ $$\Vert AV^{\mathrm{T}} \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(VA^{\mathrm{T}}AV^{\mathrm{T}})}=\sqrt{\operatorname{trace}(V^{\mathrm{T}}VA^{\mathrm{T}}A)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}}$$ 于是$\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}}=\Vert UA \Vert_{\mathrm{F}}=\Vert A \Vert_{\mathrm{F}}.\\$
6.3.12 $\quad$ 证明命题 6.3.16. $\quad$对任意矩阵$A$,其Frobenius范数平方$\Vert A \Vert_{\mathrm{F}}^2$等于$A$所有奇异值的平方和。因此$\Vert A \Vert_{\mathrm{F}} \geq \Vert A \Vert$
$\\$ 证明:$\\$ $$\Vert A \Vert_{\mathrm{F}}^2=\operatorname{trace}(A^{\mathrm{T}}A)=\sum_{i=1}^n \sigma_i^2 \geq \sigma_{\max}^2=\Vert A \Vert^2.$$
6.3.13 (樊畿迹定理) $\quad$ 对任意$n$阶对称矩阵$A\in\mathbb{R}^{n\times n}$ ,假设特征值为$\lambda_1\geqslant\lambda_2\geqslant...\geqslant\lambda_n$,对应特征向量为$\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_n$,则${\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i$,且$Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}$时取得最大值。
$\\$ 证明:$\\$ 设$Q=\begin{bmatrix} \bm{q}_1&\bm{q}_2&\cdots&\bm{q}_m \end{bmatrix}$,且列向量两两正交。则$\operatorname{trace}(Q^{\mathrm{T}}AQ)=\bm{q}_1^{\mathrm{T}}A\bm{q}_1+\bm{q}_2^{\mathrm{T}}A\bm{q}_2+\cdots+\bm{q}_m^{\mathrm{T}}A\bm{q}_m.$ $\\$ 注意到$\bm{q}_i^{\mathrm{T}}A\bm{q}_i=\cfrac{\bm{q}_i^{\mathrm{T}}A\bm{q}_i}{\bm{q}_i^{\mathrm{T}}\bm{q}_i}$是$\bm{q}_i$关于$A$的Rayleigh商。于是$\displaystyle\max_{\bm{q}_i^{\mathrm{T}}\bm{q}_i=1} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_1, \displaystyle\max_{k\leq i \leq m} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_k$,当且仅当$\bm{q}_i$为对应特征值时取得最大值。$\\$ 所以${\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i$,当且仅当$Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}$时取得最大值。$\\$
6.3.14
$\\$ 略。唯一需要注意的是不要浪费时间去算第四问$B$的最佳秩1逼近。这里直接给出$B$的奇异值分解,供读者观摩。$\\$ 显然$B=\begin{bmatrix} -2 & -1 & 1 & 2 \\ -9 & -1 & -1 & 11 \end{bmatrix}$,于是$B$的奇异值分解为 $$ \begin{bmatrix} -2 & -1 & 1 & 2 \\ -9 & -1 & -1 & 11 \end{bmatrix} =U\varSigma V^{\mathrm{T}} $$ 其中 $$ U= \begin{bmatrix} \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & -\sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \\ \sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \end{bmatrix} $$ $$ \varSigma= \begin{bmatrix} \sqrt{\sqrt{11009}+107} & 0 & 0 & 0 \\ 0 & \sqrt{-\sqrt{11009}+107} & 0 & 0 \end{bmatrix} $$ $$ V^{\mathrm{T}}= \begin{bmatrix} -0.633 & 0.148 & \frac{-\sqrt{174}}{87} & \frac{103\sqrt{4785}}{9570} \\ -0.081 & 0.546 & \frac{11\sqrt{174}}{174} & \frac{-\sqrt{4785}}{9570} \\ -0.054 & -0.816 & \frac{7\sqrt{174}}{174} & \frac{31\sqrt{4785}}{9570} \\ \sqrt{\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & \sqrt{-\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & 0 & \frac{\sqrt{4785}}{110} \end{bmatrix}^{\mathrm{T}} $$ 用numpy进行奇异值分解后计算秩一逼近 $$B_1=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}= \begin{bmatrix} -1.7910 & -0.2283 & -0.1528 & 2.1722 \\ -9.0413 & -1.1528 & -0.7716 & 10.9658 \end{bmatrix}$$ 可以看到秩一逼近已经很接近真实值了。 $\\$
6.3.15 $\quad$ 考虑子空间$\mathcal{M},\mathcal{N}$,其对应的正交投影矩阵为$P,Q.$我们想要研究矩阵 $$ H=P\left(P+Q\right)^{+}Q+Q\left(P+Q\right)^{+}P. $$ $\\$ 1.计算$(P+Q)(P+Q)^{+}$的列空间和零空间,该矩阵是否为一个正交投影矩阵?$\\$ 2.计算$\left(P+Q\right)^{+}\left(P+Q\right)$的列空间和零空间,该矩阵是否为一个正交投影矩阵?和前一矩阵有何关联?$\\$ 3.证明$Q(P+Q)^{+}(P+Q)=Q,(P+Q)(P+Q)^{+}Q=Q.$ $\\$ 4.证明$H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.$ $\\$ 5.假设$T$是 $\mathcal{M}\cap\mathcal{N}$上的正交投影矩阵,证明$HP=HQ=HT=H.$ $\\$ 6.证明$HT=T.$ $\\$ 于是$H=T$,由此即得$\mathcal{M}\cap\mathcal{N}$的正交投影矩阵的表达式。$\\$
1.解:$\\$ 设$P+Q=A$,由广义逆性质可知$AA^{+}=U_rU_r^{\mathrm{T}}$,其中$U_r$是$\mathcal{R}(A)$的一组标准正交基,于是$\mathcal{R}(AA^{+})=\mathcal{R}(A)=\mathcal{R}(P+Q)$。同理可得$\mathcal{N}(AA^+)=\mathcal{N}(P+Q)$。$\\$ 接下来我们将证明,$\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}$。$\\$ 对$\forall \bm{x}\in \mathcal{N}(P+Q), (P+Q)\bm{x}=\bm{0} \implies P\bm{x}+Q\bm{x}=\bm{0} \implies P\bm{x}=-Q\bm{x}$。而$P$是$\mathcal{M}$的正交投影矩阵,$Q$是$\mathcal{N}$的正交投影矩阵,$ P\bm{x}\in \mathcal{M}, Q\bm{x}\in \mathcal{N}$,这说明$\forall \bm{x} \in \mathcal{N}(P+Q), P\bm{x}\in \mathcal{M}\cap\mathcal{N}, Q\bm{x}\in \mathcal{M}\cap\mathcal{N}$。$\\$ 设$\mathcal{M}\cap\mathcal{N}$的正交投影矩阵是$T$,则$$PT=QT=T=T^{\mathrm{T}}=(PT)^{\mathrm{T}}=(QT)^{\mathrm{T}}=TP=TQ$$于是 $$ \begin{align*} P\bm{x}=-Q\bm{x}&\implies TP\bm{x}=-TQ\bm{x}\\ &\implies T\bm{x}=-T\bm{x}\\ &\implies T\bm{x}=\bm{0}\\ &\implies TP\bm{x}=TQ\bm{x}=\bm{0} \end{align*} $$ 又因为$P\bm{x}\in\mathcal{M}\cap\mathcal{N},Q\bm{x}\in\mathcal{M}\cap\mathcal{N}$,且$T$是$\mathcal{M}\cap\mathcal{N}$的正交投影矩阵,所以$TP\bm{x}=P\bm{x}=\bm{0}, TQ\bm{x}=Q\bm{x}=\bm{0} \implies \mathcal{N}(P+Q)\subseteq\mathcal{N}(P)\cap\mathcal{N}(Q)$。显然$\mathcal{N}(P)\cap\mathcal{N}(Q)\subseteq\mathcal{N}(P+Q)$也成立,于是$\mathcal{N}(P+Q)=\mathcal{N}(P)\cap\mathcal{N}(Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp. \\$ 由De Morgan定律 (见练习3.3.8),$\mathcal{M}^\perp \cap \mathcal{N}^\perp = (\mathcal{M}+\mathcal{N})^\perp$,即$\mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp =(\mathcal{M}+\mathcal{N})^{\perp}$。由正交补的性质可得,$\mathcal{R}(AA^{+})=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}.\\$ $(AA^{+})^2=(AA^{+})^{\mathrm{T}}=AA^{+}$,所以$AA^{+}$是正交投影矩阵。$\\$ 2.解:$\\$ 设$P+Q=A$,由于$A$是对称矩阵,由广义逆性质和前面讨论可知$AA^{+}$和$A^{+}A$有相同的零空间和列空间。即$\mathcal{R}(A^{+}A)=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}. \\$ $(A^{+}A)^2=(A^{+}A)^{\mathrm{T}}=A^{+}A$,所以$AA^{+}$是正交投影矩阵,且$A^{+}A=AA^{+}.\\$ 3.证明:$\\$ 由前面讨论可知,$AA^{+}=A^{+}A$是$\mathcal{M}+\mathcal{N}$上的正交投影矩阵,而$\mathcal{R}(Q)\subseteq\mathcal{M}+\mathcal{N}$,所以$AA^{+}Q=Q$,等号两侧取转置立得$QA^{+}A=Q.\\$ 4.证明:$\\$ 由第(3)小问结论 $$ Q=Q(P+Q)^{+}(P+Q)=Q(P+Q)^{+}P+Q(P+Q)^{+}Q $$ $$ Q=(P+Q)(P+Q)^{+}Q=P(P+Q)^{+}Q+Q(P+Q)^{+}Q $$ 于是$Q(P+Q)^{+}P=P(P+Q)^{+}Q\implies H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.\\$ 5.证明:$\\$ $$HP=2Q(P+Q)^{+}P^2=2Q(P+Q)^{+}P=H.$$ $$HQ=2P(P+Q)^{+}Q^2=2P(P+Q)^{+}Q=H.$$ 由De Morgan定律 (见练习3.3.8),$(\mathcal{M}\cap\mathcal{N})^{\perp}=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}$。设$P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}$表示$(\mathcal{M}\cap\mathcal{N})^\perp$上的正交投影矩阵,$P_{\mathcal{M}^{\perp}},P_{\mathcal{N}^{\perp}}$分别表示$\mathcal{M}^{\perp},\mathcal{N}^{\perp}$上的正交投影矩阵,则$$T=P_{\mathcal{M}\cap\mathcal{N}}=I-P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}=I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp}$$ 设$B=P_{\mathcal{M}^{\perp}}+P_{\mathcal{N}^{\perp}}=I-P+I-Q=2I-P-Q$。由第(2)问结论可得$P_{\mathcal{M}^\perp+\mathcal{N}^\perp}=BB^{+}$,即$BB^{+}$是$\mathcal{R}(B)=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}$上的正交投影矩阵。因此 $$\begin{align*} HT&=H(I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp})\\ &=H(I-BB^{+})\\ &=H-HBB^{+}\\ &=H-H(2I-P-Q)B^{+}\\ &=H-(2H-H-H)B^{+}\\ &=H \end{align*}$$ 6.证明:$\\$ 考虑矩阵$HT-T$的零空间。设$\bm{x}\in\mathbb{R}^n$,分两种情况讨论:$\\$ (a)若$\bm{x}\in (\mathcal{M}\cap\mathcal{N})^{\perp}$,$\\$ $(HT-T)\bm{x}=HT\bm{x}-T\bm{x}=\bm{0}-\bm{0}=\bm{0}$。所以$(\mathcal{M}\cap\mathcal{N})^{\perp} \subseteq \mathcal{N}(HT-T)$。$\\$ (b)若$\bm{x}\in(\mathcal{M}\cap\mathcal{N})$,$\\$ 则 $$ \begin{align*} (HT-T)\bm{x}&=H\bm{x}-\bm{x}\\ &=P\left(P+Q\right)^{+}Q\bm{x}+Q\left(P+Q\right)^{+}P\bm{x}-\bm{x}\\ &=P\left(P+Q\right)^{+}\bm{x}+Q\left(P+Q\right)^{+}\bm{x}-\bm{x}\\ &=(P+Q)\left(P+Q\right)^{+}\bm{x}-\bm{x}\\ &=AA^{+}\bm{x}-\bm{x} \end{align*} $$ 注意到$AA^{+}$是$\mathcal{M}+\mathcal{N}$上的正交投影矩阵,而$\bm{x}\in(\mathcal{M}\cap\mathcal{N})\subseteq (\mathcal{M}+\mathcal{N})$,于是$AA^{+}\bm{x}-\bm{x}=\bm{x}-\bm{x}=\bm{0}$。即$(\mathcal{M}\cap\mathcal{N}) \subseteq \mathcal{N}(HT-T)$。$\\$ 这表明$\mathcal{N}(HT-T)=\mathbb{R}^n \iff HT-T=O \iff HT=T.$