6.3 奇异值分解

6.3.1

\\

略。

\\

6.3.2 $\quad$ 矩阵 $A$ 的 QR 分解 $A=QR$ ,且 $R$ 有奇异值分解 $R=U\varSigma V^\mathrm{T}$ ，求 $A$ 的奇异值分解。

\\

解：

\\

显然矩阵

QU

也是正交矩阵，于是

A

的奇异值分解是

A=QU\varSigma V^\mathrm{T}.\\

6.3.3 $\quad$ 设 $A$ 的奇异值分解为 $A=U\varSigma V^\mathrm{T}$ ,求矩阵 $\begin{bmatrix} O&A^\mathrm{T}\\ A&O \end{bmatrix}$ 的谱分解。

\\

解：

\\

注意

A

不一定是方阵且可能不满秩。

\\

设

\operatorname{rank}(A)=r

，则

U=\begin{bmatrix} \bm{u}_1&\cdots&\bm{u}_r&\bm{u}_{r+1}&\cdots&\bm{u}_{n} \end{bmatrix},V=\begin{bmatrix} \bm{v}_1&\cdots&\bm{v}_r&\bm{v}_{r+1}&\cdots&\bm{v}_{n} \end{bmatrix}

。

A

的简化奇异值分解为

A=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}+\cdots+\sigma_r\bm{u}_r\bm{v}_r^{\mathrm{T}}

，其中

\bm{u}_1\cdots\bm{u}_r

正交，

\bm{v}_1\cdots\bm{v}_r

正交。

\\

先考虑

1\leq i \leq r

的情况，此时

A\bm{v}_i=\sigma_i\bm{u}_i, A^{\mathrm{T}}\bm{u}_i=\sigma_i\bm{v}_i

，于是

\begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix} = \begin{bmatrix} A^{\mathrm{T}}\bm{u}_i\\ A\bm{v}_i \end{bmatrix} = \sigma_i\begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix}

\begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix} = \begin{bmatrix} -A^{\mathrm{T}}\bm{u}_i\\ A\bm{v}_i \end{bmatrix} = -\sigma_i\begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix}

所以

\sigma_i

是特征值，对应的特征向量是

\begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix}

，

-\sigma_i

也是特征值，对应的特征向量是

\begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix}

。这里有

2r

个特征值。

\\

再考虑

r \lt i \leq n

，显然此时

A\bm{v}_i=A^{\mathrm{T}}\bm{u}_i=\bm{0}

，于是

\begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{0}\\ \bm{u}_i \end{bmatrix} = \begin{bmatrix} A^{\mathrm{T}}\bm{u}_i\\ \bm{0} \end{bmatrix} = \bm{0}

\begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ \bm{0} \end{bmatrix} = \begin{bmatrix} \bm{0}\\ A\bm{v}_i \end{bmatrix} = \bm{0}

所以

0

是特征值，对应的特征向量是

\begin{bmatrix} \bm{0}\\ \bm{u}_i \end{bmatrix}

和

\begin{bmatrix} \bm{v}_i\\ \bm{0} \end{bmatrix}

。这里有

2(n-r)

个特征值。

\\

设

U_1=\begin{bmatrix} \bm{u}_1&\cdots&\bm{u}_r \end{bmatrix},U_2=\begin{bmatrix} \bm{u}_{r+1}&\cdots&\bm{u}_n \end{bmatrix},V_1=\begin{bmatrix} \bm{v}_1&\cdots&\bm{v}_r \end{bmatrix},V_2=\begin{bmatrix} \bm{v}_{r+1}&\cdots&\bm{v}_n \end{bmatrix}

，则

U=\begin{bmatrix} U_1&U_2 \end{bmatrix},V=\begin{bmatrix} V_1&V_2 \end{bmatrix}

，所以谱分解为

\begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} = \begin{bmatrix} V_1&V_1&O&V_2\\ U_1&-U_1&U_2&O \end{bmatrix} \begin{bmatrix} \sigma_1\\ &\ddots\\ &&\sigma_r\\ &&&-\sigma_1\\ &&&&\ddots\\ &&&&&-\sigma_r\\ &&&&&&0\\ &&&&&&&\ddots\\ &&&&&&&&0 \end{bmatrix} \begin{bmatrix} V_1^{\mathrm{T}}&U_1^{\mathrm{T}}\\ V_1^{\mathrm{T}}&-U_1^{\mathrm{T}}\\ O&U_2^{\mathrm{T}}\\ V_2^{\mathrm{T}}&O\\ \end{bmatrix}

6.3.4 $\quad$ 设矩阵 $A=\begin{bmatrix}1&0\\-1&1\end{bmatrix}$ ，考虑单位圆 $C=\set{\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}$ 及其在 $A$ 对应的线性变换 $\bm{A}$ 下的像 $A(C)=\set{A\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}.\\$

1.设

\bm{w}\in A(C)

,证明

\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=1.\\

证明：

\\

设

\bm{w}=A\bm{v},\Vert \bm{v} \Vert = 1

，则

\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=\bm{v}^\mathrm{T}A^{\mathrm{T}}A^{-\mathrm{T}}A^{-1}A\bm{v}=\bm{v}^{\mathrm{T}}\bm{v}=1.\\

2.求

A

的奇异值分解

A=U\varSigma V^\mathrm{T}.\\

解：

\\

A=\begin{bmatrix} \cfrac{1-\sqrt{5}}{\sqrt{10-2\sqrt{5}}}&\cfrac{1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}\\ \cfrac{2}{\sqrt{10-2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}} \end{bmatrix} \begin{bmatrix} \cfrac{\sqrt{5}+1}{2}&\\ &\cfrac{\sqrt{5}-1}{2}\\ \end{bmatrix} \begin{bmatrix} \cfrac{-1-\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}}\\ \cfrac{-1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10-2\sqrt{5}}}\\ \end{bmatrix}

3. 注意

V,U

为二阶正交矩阵，对应的线性变换是旋转或反射，而

\varSigma

是对角矩阵，对应伸缩变换。从几何上看，曲线

V^{\mathrm{T}}(C),\varSigma V^{\mathrm{T}}(C),U\varSigma V^{\mathrm{T}}(C)

分别是什么形状？

\\

解：

\\

圆，椭圆，椭圆。

\\

6.3.5 $\quad$ 设矩阵 $A$ 的奇异值分解是 $A=U\varSigma V^\mathrm{T}.\\$ 1. 证明 $AA^\mathrm{T}=U(\varSigma\varSigma^\mathrm{T})U^\mathrm{T},A^\mathrm{T}A=V(\varSigma^\mathrm{T}\varSigma)V^\mathrm{T}$ 分别是这两个对称矩阵的谱分解，并得到 $AA^\mathrm{T}$ 和 $A^TA$ 的非零特征值相同。 $\\$ 2. 对任意 $A$ 的奇异值 $\sigma\neq0$ ,设 $\bm{v}$ 和 $\bm{w}$ 分别是 $A^\mathrm{T}A$ 和 $AA^\mathrm{T}$ 的属于 $\sigma^2$ 的特征向量，证明 $A\bm{v}$ 和 $A^\mathrm{T}\bm{w}$ 分别是 $AA^\mathrm{T}$ 和 $A^\mathrm{T}A$ 的属于 $\sigma^2$ 的特征向量. $\\$

\\

略。

\\

2. 证明：

\\

A^{\mathrm{T}}A\bm{v}=\sigma^2\bm{v} \implies AA^{\mathrm{T}}A\bm{v}=\sigma^2A\bm{v} \implies A\bm{v}

是

AA^{\mathrm{T}}

属于

\sigma^2

的特征向量。

\\

AA^{\mathrm{T}}\bm{w}=\sigma^2\bm{w} \implies A^{\mathrm{T}}AA^{\mathrm{T}}\bm{w}=\sigma^2A^{\mathrm{T}}\bm{w} \implies A^{\mathrm{T}}\bm{w}

是

A^{\mathrm{T}}A

属于

\sigma^2

的特征向量。

\\

6.3.6 (极分解) $\quad$ 对 $n$ 阶方阵 $A$ ,存在正交矩阵 $Q$ 和对称半正定矩阵 $S$ ,使得 $A=QS.\\$

分解式

A=QS

称为

A

的极分解. 容易看到，

A=S_1Q_1

，即方阵分解为对称半正定矩阵和正交矩阵的乘积，也存在。

\\

证明：

\\

A=U\varSigma V^{\mathrm{T}}=UV^{\mathrm{T}}V \varSigma V^{\mathrm{T}}

。显然

Q=UV^{\mathrm{T}}

是正交矩阵，

S=V \varSigma V^{\mathrm{T}}

是半正定的对称矩阵，所以

A

存在极分解

A=QS

。同理，

A=U\varSigma V^{\mathrm{T}}=U \varSigma U^{\mathrm{T}}UV^{\mathrm{T}}

，其中

S_1=U \varSigma U^{\mathrm{T}}

是对称半正定矩阵，

Q_1=UV^{\mathrm{T}}

是正交矩阵，所以分解

A=S_1Q_1

也存在。

\\

6.3.7 $\quad$ 证明矩阵的广义逆唯一。

\\

证明：

\\

由广义逆的性质，有

AA^{+}A=A,A^{+}AA^{+}=A^{+}

，

AA^{+}

和

A^{+}A

均为对称矩阵。设

A

有两个不同的广义逆

X_1,X_2

，则

\begin{align*} X_1&=X_1AX_1=X_1AX_2AX_1=(X_1A)^{\mathrm{T}}(X_2A)^{\mathrm{T}}X_1=(X_2AX_1A)^{\mathrm{T}}X_1=(X_2A)^{\mathrm{T}}X_1\\ &=X_2AX_1=X_2AX_2AX_1=X_2(AX_2)^{\mathrm{T}}(AX_1)^{\mathrm{T}}=X_2(AX_1AX_2)^{\mathrm{T}}=X_2(AX_2)^{\mathrm{T}}\\ &=X_2AX_2\\ &=X_2 \end{align*}

即

X_1=X_2

，于是矩阵的广义逆唯一。

\\

6.3.8 (谱范数的性质) $\quad$ 证明命题 6.3.7. 矩阵的谱范数满足： $\\$ 1. $\Vert A \Vert \geq 0$ ，且 $\Vert A \Vert=0$ 当且仅当 $A=O;\\$ 2. $\Vert kA \Vert = \vert k \vert \Vert A \Vert ;\\$ 3. $\Vert A+B \Vert \leq \Vert A \Vert + \Vert B \Vert ;\\$ 4. $\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert ;\\$ 5. 如果 $U,V$ 是正交矩阵，则 $\Vert UAV^{\mathrm{T}} \Vert = \Vert A \Vert.$

\\

1.证明：

\\

\Vert A \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \geq 0

，而

\Vert A \Vert = 0 \iff \forall\bm{x}\neq 0,\quad \Vert A\bm{x} \Vert=0 \iff \mathcal{N}(A)=\mathbb{R}^n \iff A=O. \\

2.证明：

\\

\Vert kA \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert kA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \vert k \vert \Vert A \Vert. \\

3.证明：

\\

由谱范数定义，

\begin{align*} \Vert A+B \Vert&=\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x}+B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert+\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(由三角不等式)}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\bm{x}}+\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\bm{x}}\quad\text{(因为最大值不一定同时取到)}\\ &=\Vert A \Vert+\Vert B \Vert. \end{align*}

即

\Vert A+B \Vert \leq \Vert A \Vert+\Vert B \Vert.\\

4.证明：

\\

由谱范数定义，

\begin{align*} \Vert AB \Vert &= \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &=\displaystyle\max_{B\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert B\bm{x} \Vert}\cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{y}\in\mathcal{R}(B),\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为最大值不一定同时取到)}\\ &\leq \displaystyle\max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为$\bm{y}$的取值范围变大了)}\\ &=\Vert A \Vert \Vert B \Vert. \end{align*}

即

\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert.\\

5. 证明：

\\

正交矩阵不改变向量的长度，于是

\Vert UA \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert UA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} = \Vert A \Vert

\Vert AV^{\mathrm{T}} \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert V^{\mathrm{T}}\bm{x} \Vert} = \max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert} = \Vert A \Vert

所以

\Vert UAV^{\mathrm{T}} \Vert=\Vert AV^{\mathrm{T}} \Vert=\Vert UA \Vert=\Vert A \Vert.\\

6.3.9 $\quad$ 证明矩阵任意特征值的绝对值不大于其最大的奇异值。

\\

证明：

\\

\sigma_{max}=\displaystyle\max_{\bm{x}\neq\bm{0}}\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert}

，而对任意特征值

\lambda

都有

\Vert A\bm{v} \Vert=\Vert \lambda\bm{v} \Vert=\vert\lambda\vert\Vert \bm{v} \Vert \implies \vert\lambda\vert=\cfrac{\Vert A\bm{v} \Vert}{\Vert \bm{v} \Vert}

，其中

\bm{v}

是是对应的特征向量。即

\vert\lambda\vert \leq \sigma_{max}.\\

6.3.10 $\quad$ 证明或者举出反例。 $\\$ 1. $n$ 阶方阵 $A$ 为正交矩阵当且仅当它的 $n$ 个奇异值都是1。 $\\$ 2. $n$ 阶方阵的 $n$ 个奇异值的乘积等于所有特征值的乘积。 $\\$ 3.设 $n$ 阶方阵 $A$ 和 $A+I_n$ 的奇异值分解分别为 $A=U\varSigma V^{\mathrm{T}},A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}.$ 证明 $A$ 是对称矩阵。 $\\$ 4. 如果 $n$ 阶方阵 $A$ 的 $n$ 个奇异值就是它的 $n$ 个特征值，则 $A$ 是对称矩阵。 $\\$

1.证明:

\\

A

为正交矩阵

\iff A^{\mathrm{T}}A=AA^{\mathrm{T}}=I_n\iff n

个奇异值都是1。

\\

\\

显然不正确，奇异值乘积不小于0，而特征值的乘积可以为任意实数。

\\

3.证明:

\\

A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}=U\varSigma V^{\mathrm{T}}+UV^{\mathrm{T}} \implies UV^{\mathrm{T}}=I_n \implies U=V \implies A=U\varSigma U^{\mathrm{T}} \implies A

是对称矩阵。

\\

4.证明:

\\

要证

A

是对称矩阵，只需要证

A-A^{\mathrm{T}}=O

。由Frobenius范数性质可得

\operatorname{trace}(A^{\mathrm{T}}A)=O \iff A=O.

所以

\begin{align*} \operatorname{trace}((A-A^{\mathrm{T}})^{\mathrm{T}}(A-A^{\mathrm{T}}))&=\operatorname{trace}(AA^{\mathrm{T}}+A^{\mathrm{T}}A-A^2-(A^{\mathrm{T}})^2)\\ &= \operatorname{trace}(AA^{\mathrm{T}})+\operatorname{trace}(A^{\mathrm{T}}A)-\operatorname{trace}(A^2)-\operatorname{trace}((A^{\mathrm{T}})^2)\\ &=2\operatorname{trace}(A^{\mathrm{T}}A)-2\operatorname{trace}(A^2)\\ &=2\sum_{i=1}^n \sigma_i^2 - 2\sum_{i=1}^n \lambda_i^2\\ &=0 \end{align*}

于是

A-A^{\mathrm{T}}=O \implies A

是对称矩阵。

\\

6.3.11 (Frobenius范数的性质) $\quad$ 证明命题 6.3.15. $\quad$ 矩阵的Frobenius范数满足： $\\$ 1. $\Vert A \Vert_{\mathrm{F}} \geq 0$ ，且 $\Vert A \Vert_{\mathrm{F}}=0$ 当且仅当 $A=O;\\$ 2. $\Vert kA \Vert_{\mathrm{F}} = \vert k \vert \Vert A \Vert_{\mathrm{F}} ;\\$ 3. $\Vert A+B \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}} ;\\$ 4. $\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}},\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert ;\\$ 5. 如果 $U,V$ 是正交矩阵，则 $\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}} = \Vert A \Vert_{\mathrm{F}}.\\$

1. 证明：

\\

由Frobenius范数定义

\Vert A \Vert_{\mathrm{F}}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij} \vert^2}

立得。

\\

2. 证明：

\\

\Vert kA \Vert_{\mathrm{F}}=\sqrt{k^2\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \Vert A \Vert_{\mathrm{F}}.\\

3. 证明：

\\

由三角不等式，

\Vert A+B \Vert_{\mathrm{F}}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij}+b_{ij} \vert^2} \leq \sqrt{\displaystyle\sum_{i=1}^{m}\vert a_{ij} \vert^2}+\sqrt{\displaystyle\sum_{j=1}^{n}\vert b_{ij} \vert^2}=\Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}}.\\

4. 证明：

\\

\Vert A \Vert = \max\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A \Vert \geq \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A\bm{x} \Vert \leq \Vert A \Vert \Vert \bm{x} \Vert.\\

设

B=\begin{bmatrix} \bm{b}_1&\bm{b}_2&\cdots&\bm{b}_n \end{bmatrix}

，则

AB=\begin{bmatrix} A\bm{b}_1&A\bm{b}_2&\cdots&A\bm{b}_n \end{bmatrix}

，由Frobenius范数定义有

\Vert AB \Vert_{\mathrm{F}}^2=\displaystyle\sum_{i=1}^n \Vert A\bm{b}_i \Vert^2 \leq \Vert A \Vert^2 \displaystyle\sum_{i=1}^n \Vert \bm{b}_i \Vert^2 = \Vert A \Vert^2 \Vert B \Vert_{\mathrm{F}}^2.

即

\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}}.\\

同理，设

A=\begin{bmatrix} \bm{a}_1^{\mathrm{T}}\\ \bm{a}_2^{\mathrm{T}}\\ \vdots\\ \bm{a}_n^{\mathrm{T}} \end{bmatrix}

可得

\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert.\\

5. 证明：

\\

\Vert UA \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(A^{\mathrm{T}}U^{\mathrm{T}}UA)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}}

\Vert AV^{\mathrm{T}} \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(VA^{\mathrm{T}}AV^{\mathrm{T}})}=\sqrt{\operatorname{trace}(V^{\mathrm{T}}VA^{\mathrm{T}}A)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}}

于是

\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}}=\Vert UA \Vert_{\mathrm{F}}=\Vert A \Vert_{\mathrm{F}}.\\

6.3.12 $\quad$ 证明命题 6.3.16. $\quad$ 对任意矩阵 $A$ ，其Frobenius范数平方 $\Vert A \Vert_{\mathrm{F}}^2$ 等于 $A$ 所有奇异值的平方和。因此 $\Vert A \Vert_{\mathrm{F}} \geq \Vert A \Vert$

\\

证明：

\\

\Vert A \Vert_{\mathrm{F}}^2=\operatorname{trace}(A^{\mathrm{T}}A)=\sum_{i=1}^n \sigma_i^2 \geq \sigma_{\max}^2=\Vert A \Vert^2.

6.3.13 (樊畿迹定理) $\quad$ 对任意 $n$ 阶对称矩阵 $A\in\mathbb{R}^{n\times n}$ ，假设特征值为 $\lambda_1\geqslant\lambda_2\geqslant...\geqslant\lambda_n$ ，对应特征向量为 $\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_n$ ，则 ${\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i$ ，且 $Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}$ 时取得最大值。

\\

证明：

\\

设

Q=\begin{bmatrix} \bm{q}_1&\bm{q}_2&\cdots&\bm{q}_m \end{bmatrix}

，且列向量两两正交。则

\operatorname{trace}(Q^{\mathrm{T}}AQ)=\bm{q}_1^{\mathrm{T}}A\bm{q}_1+\bm{q}_2^{\mathrm{T}}A\bm{q}_2+\cdots+\bm{q}_m^{\mathrm{T}}A\bm{q}_m.

\\

注意到

\bm{q}_i^{\mathrm{T}}A\bm{q}_i=\cfrac{\bm{q}_i^{\mathrm{T}}A\bm{q}_i}{\bm{q}_i^{\mathrm{T}}\bm{q}_i}

是

\bm{q}_i

关于

A

的Rayleigh商。于是

\displaystyle\max_{\bm{q}_i^{\mathrm{T}}\bm{q}_i=1} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_1, \displaystyle\max_{k\leq i \leq m} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_k

，当且仅当

\bm{q}_i

为对应特征值时取得最大值。

\\

所以

{\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i

，当且仅当

Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}

时取得最大值。

\\

6.3.14

\\

略。唯一需要注意的是不要浪费时间去算第四问

B

的最佳秩1逼近。这里直接给出

B

的奇异值分解，供读者观摩。

\\

显然

B=\begin{bmatrix} -2 & -1 & 1 & 2 \\ -9 & -1 & -1 & 11 \end{bmatrix}

，于是

B

的奇异值分解为

\begin{bmatrix} -2 & -1 & 1 & 2 \\ -9 & -1 & -1 & 11 \end{bmatrix} =U\varSigma V^{\mathrm{T}}

其中

U= \begin{bmatrix} \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & -\sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \\ \sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \end{bmatrix}

\varSigma= \begin{bmatrix} \sqrt{\sqrt{11009}+107} & 0 & 0 & 0 \\ 0 & \sqrt{-\sqrt{11009}+107} & 0 & 0 \end{bmatrix}

V^{\mathrm{T}}= \begin{bmatrix} -0.633 & 0.148 & \frac{-\sqrt{174}}{87} & \frac{103\sqrt{4785}}{9570} \\ -0.081 & 0.546 & \frac{11\sqrt{174}}{174} & \frac{-\sqrt{4785}}{9570} \\ -0.054 & -0.816 & \frac{7\sqrt{174}}{174} & \frac{31\sqrt{4785}}{9570} \\ \sqrt{\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & \sqrt{-\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & 0 & \frac{\sqrt{4785}}{110} \end{bmatrix}^{\mathrm{T}}

用numpy进行奇异值分解后计算秩一逼近

B_1=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}= \begin{bmatrix} -1.7910 & -0.2283 & -0.1528 & 2.1722 \\ -9.0413 & -1.1528 & -0.7716 & 10.9658 \end{bmatrix}

可以看到秩一逼近已经很接近真实值了。

\\

6.3.15 $\quad$ 考虑子空间 $\mathcal{M},\mathcal{N}$ ,其对应的正交投影矩阵为 $P,Q.$ 我们想要研究矩阵 $H=P\left(P+Q\right)^{+}Q+Q\left(P+Q\right)^{+}P.$ $\\$ 1.计算 $(P+Q)(P+Q)^{+}$ 的列空间和零空间，该矩阵是否为一个正交投影矩阵？ $\\$ 2.计算 $\left(P+Q\right)^{+}\left(P+Q\right)$ 的列空间和零空间，该矩阵是否为一个正交投影矩阵？和前一矩阵有何关联？ $\\$ 3.证明 $Q(P+Q)^{+}(P+Q)=Q,(P+Q)(P+Q)^{+}Q=Q.$ $\\$ 4.证明 $H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.$ $\\$ 5.假设 $T$ 是 $\mathcal{M}\cap\mathcal{N}$ 上的正交投影矩阵，证明 $HP=HQ=HT=H.$ $\\$ 6.证明 $HT=T.$ $\\$ 于是 $H=T$ ,由此即得 $\mathcal{M}\cap\mathcal{N}$ 的正交投影矩阵的表达式。 $\\$

1.解：

\\

设

P+Q=A

，由广义逆性质可知

AA^{+}=U_rU_r^{\mathrm{T}}

，其中

U_r

是

\mathcal{R}(A)

的一组标准正交基，于是

\mathcal{R}(AA^{+})=\mathcal{R}(A)=\mathcal{R}(P+Q)

。同理可得

\mathcal{N}(AA^+)=\mathcal{N}(P+Q)

。

\\

接下来我们将证明，

\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}

。

\\

对

\forall \bm{x}\in \mathcal{N}(P+Q), (P+Q)\bm{x}=\bm{0} \implies P\bm{x}+Q\bm{x}=\bm{0} \implies P\bm{x}=-Q\bm{x}

。而

P

是

\mathcal{M}

的正交投影矩阵，

Q

是

\mathcal{N}

的正交投影矩阵，

P\bm{x}\in \mathcal{M}, Q\bm{x}\in \mathcal{N}

，这说明

\forall \bm{x} \in \mathcal{N}(P+Q), P\bm{x}\in \mathcal{M}\cap\mathcal{N}, Q\bm{x}\in \mathcal{M}\cap\mathcal{N}

。

\\

设

\mathcal{M}\cap\mathcal{N}

的正交投影矩阵是

T

，则

PT=QT=T=T^{\mathrm{T}}=(PT)^{\mathrm{T}}=(QT)^{\mathrm{T}}=TP=TQ

于是

\begin{align*} P\bm{x}=-Q\bm{x}&\implies TP\bm{x}=-TQ\bm{x}\\ &\implies T\bm{x}=-T\bm{x}\\ &\implies T\bm{x}=\bm{0}\\ &\implies TP\bm{x}=TQ\bm{x}=\bm{0} \end{align*}

又因为

P\bm{x}\in\mathcal{M}\cap\mathcal{N},Q\bm{x}\in\mathcal{M}\cap\mathcal{N}

，且

T

是

\mathcal{M}\cap\mathcal{N}

的正交投影矩阵，所以

TP\bm{x}=P\bm{x}=\bm{0}, TQ\bm{x}=Q\bm{x}=\bm{0} \implies \mathcal{N}(P+Q)\subseteq\mathcal{N}(P)\cap\mathcal{N}(Q)

。显然

\mathcal{N}(P)\cap\mathcal{N}(Q)\subseteq\mathcal{N}(P+Q)

也成立，于是

\mathcal{N}(P+Q)=\mathcal{N}(P)\cap\mathcal{N}(Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp. \\

由De Morgan定律 (见练习3.3.8)，

\mathcal{M}^\perp \cap \mathcal{N}^\perp = (\mathcal{M}+\mathcal{N})^\perp

，即

\mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp =(\mathcal{M}+\mathcal{N})^{\perp}

。由正交补的性质可得，

\mathcal{R}(AA^{+})=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}.\\

(AA^{+})^2=(AA^{+})^{\mathrm{T}}=AA^{+}

，所以

AA^{+}

是正交投影矩阵。

\\

2.解：

\\

设

P+Q=A

，由于

A

是对称矩阵，由广义逆性质和前面讨论可知

AA^{+}

和

A^{+}A

有相同的零空间和列空间。即

\mathcal{R}(A^{+}A)=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}. \\

(A^{+}A)^2=(A^{+}A)^{\mathrm{T}}=A^{+}A

，所以

AA^{+}

是正交投影矩阵，且

A^{+}A=AA^{+}.\\

3.证明：

\\

由前面讨论可知，

AA^{+}=A^{+}A

是

\mathcal{M}+\mathcal{N}

上的正交投影矩阵，而

\mathcal{R}(Q)\subseteq\mathcal{M}+\mathcal{N}

，所以

AA^{+}Q=Q

，等号两侧取转置立得

QA^{+}A=Q.\\

4.证明：

\\

由第(3)小问结论

Q=Q(P+Q)^{+}(P+Q)=Q(P+Q)^{+}P+Q(P+Q)^{+}Q

Q=(P+Q)(P+Q)^{+}Q=P(P+Q)^{+}Q+Q(P+Q)^{+}Q

于是

Q(P+Q)^{+}P=P(P+Q)^{+}Q\implies H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.\\

5.证明：

\\

HP=2Q(P+Q)^{+}P^2=2Q(P+Q)^{+}P=H.

HQ=2P(P+Q)^{+}Q^2=2P(P+Q)^{+}Q=H.

由De Morgan定律 (见练习3.3.8)，

(\mathcal{M}\cap\mathcal{N})^{\perp}=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}

。设

P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}

表示

(\mathcal{M}\cap\mathcal{N})^\perp

上的正交投影矩阵，

P_{\mathcal{M}^{\perp}},P_{\mathcal{N}^{\perp}}

分别表示

\mathcal{M}^{\perp},\mathcal{N}^{\perp}

上的正交投影矩阵，则

T=P_{\mathcal{M}\cap\mathcal{N}}=I-P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}=I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp}

设

B=P_{\mathcal{M}^{\perp}}+P_{\mathcal{N}^{\perp}}=I-P+I-Q=2I-P-Q

。由第(2)问结论可得

P_{\mathcal{M}^\perp+\mathcal{N}^\perp}=BB^{+}

，即

BB^{+}

是

\mathcal{R}(B)=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}

上的正交投影矩阵。因此

\begin{align*} HT&=H(I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp})\\ &=H(I-BB^{+})\\ &=H-HBB^{+}\\ &=H-H(2I-P-Q)B^{+}\\ &=H-(2H-H-H)B^{+}\\ &=H \end{align*}

6.证明：

\\

考虑矩阵

HT-T

的零空间。设

\bm{x}\in\mathbb{R}^n

，分两种情况讨论：

\\

(a)若

\bm{x}\in (\mathcal{M}\cap\mathcal{N})^{\perp}

，

\\

(HT-T)\bm{x}=HT\bm{x}-T\bm{x}=\bm{0}-\bm{0}=\bm{0}

。所以

(\mathcal{M}\cap\mathcal{N})^{\perp} \subseteq \mathcal{N}(HT-T)

。

\\

(b)若

\bm{x}\in(\mathcal{M}\cap\mathcal{N})

，

\\

则

\begin{align*} (HT-T)\bm{x}&=H\bm{x}-\bm{x}\\ &=P\left(P+Q\right)^{+}Q\bm{x}+Q\left(P+Q\right)^{+}P\bm{x}-\bm{x}\\ &=P\left(P+Q\right)^{+}\bm{x}+Q\left(P+Q\right)^{+}\bm{x}-\bm{x}\\ &=(P+Q)\left(P+Q\right)^{+}\bm{x}-\bm{x}\\ &=AA^{+}\bm{x}-\bm{x} \end{align*}

注意到

AA^{+}

是

\mathcal{M}+\mathcal{N}

上的正交投影矩阵，而

\bm{x}\in(\mathcal{M}\cap\mathcal{N})\subseteq (\mathcal{M}+\mathcal{N})

，于是

AA^{+}\bm{x}-\bm{x}=\bm{x}-\bm{x}=\bm{0}

。即

(\mathcal{M}\cap\mathcal{N}) \subseteq \mathcal{N}(HT-T)

。

\\

这表明

\mathcal{N}(HT-T)=\mathbb{R}^n \iff HT-T=O \iff HT=T.