当前位置:HOME - 线性代数入门答案 - 6.3 奇异值分解

6.3 奇异值分解

6.3.1
\\ 略。\\
6.3.2 \quad 矩阵AA的 QR 分解A=QRA=QR,且RR有奇异值分解R=UΣVTR=U\varSigma V^\mathrm{T},求AA的奇异值分解。
\\ 解:\\ 显然矩阵QUQU也是正交矩阵,于是AA的奇异值分解是A=QUΣVT.A=QU\varSigma V^\mathrm{T}.\\
6.3.3 \quadAA的奇异值分解为A=UΣVTA=U\varSigma V^\mathrm{T},求矩阵[OATAO]\begin{bmatrix} O&A^\mathrm{T}\\ A&O \end{bmatrix}的谱分解。
\\ 解:\\ 注意AA不一定是方阵且可能不满秩。 \\rank(A)=r\operatorname{rank}(A)=r,则U=[u1urur+1un],V=[v1vrvr+1vn]U=\begin{bmatrix} \bm{u}_1&\cdots&\bm{u}_r&\bm{u}_{r+1}&\cdots&\bm{u}_{n} \end{bmatrix},V=\begin{bmatrix} \bm{v}_1&\cdots&\bm{v}_r&\bm{v}_{r+1}&\cdots&\bm{v}_{n} \end{bmatrix}AA的简化奇异值分解为A=σ1u1v1T++σrurvrTA=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}+\cdots+\sigma_r\bm{u}_r\bm{v}_r^{\mathrm{T}},其中u1ur\bm{u}_1\cdots\bm{u}_r正交,v1vr\bm{v}_1\cdots\bm{v}_r正交。\\ 先考虑1ir1\leq i \leq r的情况,此时Avi=σiui,ATui=σiviA\bm{v}_i=\sigma_i\bm{u}_i, A^{\mathrm{T}}\bm{u}_i=\sigma_i\bm{v}_i,于是[OATAO][viui]=[ATuiAvi]=σi[viui] \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix} = \begin{bmatrix} A^{\mathrm{T}}\bm{u}_i\\ A\bm{v}_i \end{bmatrix} = \sigma_i\begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix} [OATAO][viui]=[ATuiAvi]=σi[viui] \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix} = \begin{bmatrix} -A^{\mathrm{T}}\bm{u}_i\\ A\bm{v}_i \end{bmatrix} = -\sigma_i\begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix} 所以σi\sigma_i是特征值,对应的特征向量是[viui]\begin{bmatrix} \bm{v}_i\\ \bm{u}_i \end{bmatrix}σi-\sigma_i也是特征值,对应的特征向量是[viui]\begin{bmatrix} \bm{v}_i\\ -\bm{u}_i \end{bmatrix}。这里有2r2r个特征值。\\ 再考虑r<inr \lt i \leq n,显然此时Avi=ATui=0A\bm{v}_i=A^{\mathrm{T}}\bm{u}_i=\bm{0},于是[OATAO][0ui]=[ATui0]=0 \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{0}\\ \bm{u}_i \end{bmatrix} = \begin{bmatrix} A^{\mathrm{T}}\bm{u}_i\\ \bm{0} \end{bmatrix} = \bm{0} [OATAO][vi0]=[0Avi]=0 \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} \begin{bmatrix} \bm{v}_i\\ \bm{0} \end{bmatrix} = \begin{bmatrix} \bm{0}\\ A\bm{v}_i \end{bmatrix} = \bm{0} 所以00是特征值,对应的特征向量是[0ui]\begin{bmatrix} \bm{0}\\ \bm{u}_i \end{bmatrix}[vi0]\begin{bmatrix} \bm{v}_i\\ \bm{0} \end{bmatrix}。这里有2(nr)2(n-r)个特征值。\\U1=[u1ur],U2=[ur+1un],V1=[v1vr],V2=[vr+1vn]U_1=\begin{bmatrix} \bm{u}_1&\cdots&\bm{u}_r \end{bmatrix},U_2=\begin{bmatrix} \bm{u}_{r+1}&\cdots&\bm{u}_n \end{bmatrix},V_1=\begin{bmatrix} \bm{v}_1&\cdots&\bm{v}_r \end{bmatrix},V_2=\begin{bmatrix} \bm{v}_{r+1}&\cdots&\bm{v}_n \end{bmatrix},则U=[U1U2],V=[V1V2]U=\begin{bmatrix} U_1&U_2 \end{bmatrix},V=\begin{bmatrix} V_1&V_2 \end{bmatrix},所以谱分解为[OATAO]=[V1V1OV2U1U1U2O][σ1σrσ1σr00][V1TU1TV1TU1TOU2TV2TO] \begin{bmatrix} O&A^{\mathrm{T}}\\ A&O \end{bmatrix} = \begin{bmatrix} V_1&V_1&O&V_2\\ U_1&-U_1&U_2&O \end{bmatrix} \begin{bmatrix} \sigma_1\\ &\ddots\\ &&\sigma_r\\ &&&-\sigma_1\\ &&&&\ddots\\ &&&&&-\sigma_r\\ &&&&&&0\\ &&&&&&&\ddots\\ &&&&&&&&0 \end{bmatrix} \begin{bmatrix} V_1^{\mathrm{T}}&U_1^{\mathrm{T}}\\ V_1^{\mathrm{T}}&-U_1^{\mathrm{T}}\\ O&U_2^{\mathrm{T}}\\ V_2^{\mathrm{T}}&O\\ \end{bmatrix}
6.3.4 \quad 设矩阵A=[1011]A=\begin{bmatrix}1&0\\-1&1\end{bmatrix},考虑单位圆C={vR2v=1}C=\set{\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}及其在AA对应的线性变换A\bm{A}下的像A(C)={AvR2v=1}.A(C)=\set{A\bm{v}\in\mathbb{R}^2 \vert \Vert \bm{v} \Vert=1}.\\
1.设wA(C)\bm{w}\in A(C),证明wT(AAT)1w=1.\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=1.\\ 证明:\\w=Av,v=1\bm{w}=A\bm{v},\Vert \bm{v} \Vert = 1,则wT(AAT)1w=vTATATA1Av=vTv=1.\bm{w}^\mathrm{T}(AA^\mathrm{T})^{-1}\bm{w}=\bm{v}^\mathrm{T}A^{\mathrm{T}}A^{-\mathrm{T}}A^{-1}A\bm{v}=\bm{v}^{\mathrm{T}}\bm{v}=1.\\ 2.求AA的奇异值分解A=UΣVT.A=U\varSigma V^\mathrm{T}.\\ 解:\\ A=[1510251+510+2521025210+25][5+12512][1510+25210+251+510+2521025]A=\begin{bmatrix} \cfrac{1-\sqrt{5}}{\sqrt{10-2\sqrt{5}}}&\cfrac{1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}\\ \cfrac{2}{\sqrt{10-2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}} \end{bmatrix} \begin{bmatrix} \cfrac{\sqrt{5}+1}{2}&\\ &\cfrac{\sqrt{5}-1}{2}\\ \end{bmatrix} \begin{bmatrix} \cfrac{-1-\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10+2\sqrt{5}}}\\ \cfrac{-1+\sqrt{5}}{\sqrt{10+2\sqrt{5}}}&\cfrac{2}{\sqrt{10-2\sqrt{5}}}\\ \end{bmatrix} 3. 注意V,UV,U 为二阶正交矩阵,对应的线性变换是旋转或反射,而 Σ\varSigma 是对角矩阵,对应伸缩变换。从几何上看,曲线VT(C),ΣVT(C),UΣVT(C)V^{\mathrm{T}}(C),\varSigma V^{\mathrm{T}}(C),U\varSigma V^{\mathrm{T}}(C) 分别是什么形状? \\ 解:\\ 圆,椭圆,椭圆。\\
6.3.5 \quad 设矩阵AA的奇异值分解是A=UΣVT.A=U\varSigma V^\mathrm{T}.\\ 1. 证明AAT=U(ΣΣT)UT,ATA=V(ΣTΣ)VTAA^\mathrm{T}=U(\varSigma\varSigma^\mathrm{T})U^\mathrm{T},A^\mathrm{T}A=V(\varSigma^\mathrm{T}\varSigma)V^\mathrm{T}分别是这两个对称矩阵的谱分解,并得到AATAA^\mathrm{T}ATAA^TA的非零特征值相同。\\ 2. 对任意AA的奇异值σ0\sigma\neq0,设v\bm{v}w\bm{w}分别是ATAA^\mathrm{T}AAATAA^\mathrm{T}的属于σ2\sigma^2的特征向量,证明AvA\bm{v}ATwA^\mathrm{T}\bm{w}分别是AATAA^\mathrm{T}ATAA^\mathrm{T}A的属于σ2\sigma^2的特征向量. \\
1.\\ 略。\\ 2. 证明:\\ ATAv=σ2v    AATAv=σ2Av    AvA^{\mathrm{T}}A\bm{v}=\sigma^2\bm{v} \implies AA^{\mathrm{T}}A\bm{v}=\sigma^2A\bm{v} \implies A\bm{v}AATAA^{\mathrm{T}}属于σ2\sigma^2的特征向量。\\ AATw=σ2w    ATAATw=σ2ATw    ATwAA^{\mathrm{T}}\bm{w}=\sigma^2\bm{w} \implies A^{\mathrm{T}}AA^{\mathrm{T}}\bm{w}=\sigma^2A^{\mathrm{T}}\bm{w} \implies A^{\mathrm{T}}\bm{w}ATAA^{\mathrm{T}}A属于σ2\sigma^2的特征向量。\\
6.3.6 (极分解) \quadnn阶方阵AA,存在正交矩阵QQ和对称半正定矩阵SS,使得A=QS.A=QS.\\
分解式A=QSA=QS称为AA的极分解. 容易看到,A=S1Q1A=S_1Q_1,即方阵分解为对称半正定矩阵和正交 矩阵的乘积,也存在。\\ 证明:\\ A=UΣVT=UVTVΣVTA=U\varSigma V^{\mathrm{T}}=UV^{\mathrm{T}}V \varSigma V^{\mathrm{T}}。显然Q=UVTQ=UV^{\mathrm{T}}是正交矩阵,S=VΣVTS=V \varSigma V^{\mathrm{T}}是半正定的对称矩阵,所以AA存在极分解A=QSA=QS。同理,A=UΣVT=UΣUTUVTA=U\varSigma V^{\mathrm{T}}=U \varSigma U^{\mathrm{T}}UV^{\mathrm{T}},其中S1=UΣUTS_1=U \varSigma U^{\mathrm{T}}是对称半正定矩阵,Q1=UVTQ_1=UV^{\mathrm{T}}是正交矩阵,所以分解A=S1Q1A=S_1Q_1也存在。\\
6.3.7 \quad 证明矩阵的广义逆唯一。
\\ 证明:\\ 由广义逆的性质,有AA+A=A,A+AA+=A+AA^{+}A=A,A^{+}AA^{+}=A^{+}AA+AA^{+}A+AA^{+}A均为对称矩阵。设AA有两个不同的广义逆X1,X2X_1,X_2,则 X1=X1AX1=X1AX2AX1=(X1A)T(X2A)TX1=(X2AX1A)TX1=(X2A)TX1=X2AX1=X2AX2AX1=X2(AX2)T(AX1)T=X2(AX1AX2)T=X2(AX2)T=X2AX2=X2 \begin{align*} X_1&=X_1AX_1=X_1AX_2AX_1=(X_1A)^{\mathrm{T}}(X_2A)^{\mathrm{T}}X_1=(X_2AX_1A)^{\mathrm{T}}X_1=(X_2A)^{\mathrm{T}}X_1\\ &=X_2AX_1=X_2AX_2AX_1=X_2(AX_2)^{\mathrm{T}}(AX_1)^{\mathrm{T}}=X_2(AX_1AX_2)^{\mathrm{T}}=X_2(AX_2)^{\mathrm{T}}\\ &=X_2AX_2\\ &=X_2 \end{align*} X1=X2X_1=X_2,于是矩阵的广义逆唯一。\\
6.3.8 (谱范数的性质)\quad 证明命题 6.3.7. 矩阵的谱范数满足:\\ 1. A0\Vert A \Vert \geq 0,且A=0\Vert A \Vert=0当且仅当A=O;A=O;\\ 2. kA=kA;\Vert kA \Vert = \vert k \vert \Vert A \Vert ;\\ 3. A+BA+B;\Vert A+B \Vert \leq \Vert A \Vert + \Vert B \Vert ;\\ 4. ABAB;\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert ;\\ 5. 如果U,VU,V是正交矩阵,则UAVT=A.\Vert UAV^{\mathrm{T}} \Vert = \Vert A \Vert.
\\ 1.证明:\\ A=maxx0Axx0\Vert A \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \geq 0,而A=0    x0,Ax=0    N(A)=Rn    A=O.\Vert A \Vert = 0 \iff \forall\bm{x}\neq 0,\quad \Vert A\bm{x} \Vert=0 \iff \mathcal{N}(A)=\mathbb{R}^n \iff A=O. \\ 2.证明:\\ kA=maxx0kAxx=kA.\Vert kA \Vert = \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert kA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \vert k \vert \Vert A \Vert. \\ 3.证明:\\ 由谱范数定义, A+B=maxx0Ax+Bxxmaxx0Ax+Bxx(由三角不等式)maxx0Axx+maxx0Bxx(因为最大值不一定同时取到)=A+B. \begin{align*} \Vert A+B \Vert&=\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x}+B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert+\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(由三角不等式)}\\ &\leq \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\bm{x}}+\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\bm{x}}\quad\text{(因为最大值不一定同时取到)}\\ &=\Vert A \Vert+\Vert B \Vert. \end{align*} A+BA+B.\Vert A+B \Vert \leq \Vert A \Vert+\Vert B \Vert.\\ 4.证明:\\ 由谱范数定义, AB=maxx0ABxx=maxBx0ABxBxBxxmaxyR(B),y0Ayymaxx0Bxx(因为最大值不一定同时取到)maxy0Ayymaxx0Bxx(因为y的取值范围变大了)=AB. \begin{align*} \Vert AB \Vert &= \displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &=\displaystyle\max_{B\bm{x}\neq\bm{0}} \cfrac{\Vert AB\bm{x} \Vert}{\Vert B\bm{x} \Vert}\cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\\ &\leq \displaystyle\max_{\bm{y}\in\mathcal{R}(B),\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为最大值不一定同时取到)}\\ &\leq \displaystyle\max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert}\displaystyle\max_{\bm{x}\neq\bm{0}} \cfrac{\Vert B\bm{x} \Vert}{\Vert \bm{x} \Vert}\quad\text{(因为$\bm{y}$的取值范围变大了)}\\ &=\Vert A \Vert \Vert B \Vert. \end{align*} ABAB.\Vert AB \Vert \leq \Vert A \Vert \Vert B \Vert.\\ 5. 证明:\\ 正交矩阵不改变向量的长度,于是 UA=maxx0UAxx=maxx0Axx=A \Vert UA \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert UA\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} = \Vert A \Vert AVT=maxx0AVTxx=maxx0AVTxVTx=maxy0Ayy=A \Vert AV^{\mathrm{T}} \Vert = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert \bm{x} \Vert} = \max_{\bm{x}\neq\bm{0}} \cfrac{\Vert AV^{\mathrm{T}}\bm{x} \Vert}{\Vert V^{\mathrm{T}}\bm{x} \Vert} = \max_{\bm{y}\neq\bm{0}} \cfrac{\Vert A\bm{y} \Vert}{\Vert \bm{y} \Vert} = \Vert A \Vert 所以UAVT=AVT=UA=A.\Vert UAV^{\mathrm{T}} \Vert=\Vert AV^{\mathrm{T}} \Vert=\Vert UA \Vert=\Vert A \Vert.\\
6.3.9 \quad 证明矩阵任意特征值的绝对值不大于其最大的奇异值。
\\ 证明:\\ σmax=maxx0Axx\sigma_{max}=\displaystyle\max_{\bm{x}\neq\bm{0}}\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert},而对任意特征值λ\lambda都有Av=λv=λv    λ=Avv\Vert A\bm{v} \Vert=\Vert \lambda\bm{v} \Vert=\vert\lambda\vert\Vert \bm{v} \Vert \implies \vert\lambda\vert=\cfrac{\Vert A\bm{v} \Vert}{\Vert \bm{v} \Vert},其中v\bm{v}是是对应的特征向量。即λσmax.\vert\lambda\vert \leq \sigma_{max}.\\
6.3.10\quad证明或者举出反例。\\ 1. nn阶方阵AA为正交矩阵当且仅当它的nn个奇异值都是1。\\ 2. nn阶方阵的nn个奇异值的乘积等于所有特征值的乘积。\\ 3.设nn阶方阵AAA+InA+I_n的奇异值分解分别为A=UΣVT,A+In=U(Σ+In)VT.A=U\varSigma V^{\mathrm{T}},A+I_n=U(\varSigma+I_n)V^{\mathrm{T}}.证明AA是对称矩阵。\\ 4. 如果nn阶方阵AAnn个奇异值就是它的nn个特征值,则AA是对称矩阵。\\
1.证明:\\ AA为正交矩阵    ATA=AAT=In    n\iff A^{\mathrm{T}}A=AA^{\mathrm{T}}=I_n\iff n个奇异值都是1。\\ 2.\\ 显然不正确,奇异值乘积不小于0,而特征值的乘积可以为任意实数。\\ 3.证明:\\ A+In=U(Σ+In)VT=UΣVT+UVT    UVT=In    U=V    A=UΣUT    AA+I_n=U(\varSigma+I_n)V^{\mathrm{T}}=U\varSigma V^{\mathrm{T}}+UV^{\mathrm{T}} \implies UV^{\mathrm{T}}=I_n \implies U=V \implies A=U\varSigma U^{\mathrm{T}} \implies A是对称矩阵。\\ 4.证明:\\ 要证AA是对称矩阵,只需要证AAT=OA-A^{\mathrm{T}}=O。由Frobenius范数性质可得trace(ATA)=O    A=O.\operatorname{trace}(A^{\mathrm{T}}A)=O \iff A=O.所以 trace((AAT)T(AAT))=trace(AAT+ATAA2(AT)2)=trace(AAT)+trace(ATA)trace(A2)trace((AT)2)=2trace(ATA)2trace(A2)=2i=1nσi22i=1nλi2=0 \begin{align*} \operatorname{trace}((A-A^{\mathrm{T}})^{\mathrm{T}}(A-A^{\mathrm{T}}))&=\operatorname{trace}(AA^{\mathrm{T}}+A^{\mathrm{T}}A-A^2-(A^{\mathrm{T}})^2)\\ &= \operatorname{trace}(AA^{\mathrm{T}})+\operatorname{trace}(A^{\mathrm{T}}A)-\operatorname{trace}(A^2)-\operatorname{trace}((A^{\mathrm{T}})^2)\\ &=2\operatorname{trace}(A^{\mathrm{T}}A)-2\operatorname{trace}(A^2)\\ &=2\sum_{i=1}^n \sigma_i^2 - 2\sum_{i=1}^n \lambda_i^2\\ &=0 \end{align*} 于是AAT=O    AA-A^{\mathrm{T}}=O \implies A是对称矩阵。\\
6.3.11 (Frobenius范数的性质) \quad 证明命题 6.3.15. \quad 矩阵的Frobenius范数满足:\\ 1. AF0\Vert A \Vert_{\mathrm{F}} \geq 0,且AF=0\Vert A \Vert_{\mathrm{F}}=0当且仅当A=O;A=O;\\ 2. kAF=kAF;\Vert kA \Vert_{\mathrm{F}} = \vert k \vert \Vert A \Vert_{\mathrm{F}} ;\\ 3. A+BFAF+BF;\Vert A+B \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}} ;\\ 4. ABFABF,ABFAFB;\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}},\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert ;\\ 5. 如果U,VU,V是正交矩阵,则UAVTF=AF.\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}} = \Vert A \Vert_{\mathrm{F}}.\\
1. 证明:\\ 由Frobenius范数定义AF=trace(ATA)=i=1mj=1naij2\Vert A \Vert_{\mathrm{F}}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij} \vert^2}立得。\\ 2. 证明:\\ kAF=k2trace(ATA)=ktrace(ATA)=kAF.\Vert kA \Vert_{\mathrm{F}}=\sqrt{k^2\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\vert k \vert \Vert A \Vert_{\mathrm{F}}.\\ 3. 证明:\\ 由三角不等式,A+BF=i=1mj=1naij+bij2i=1maij2+j=1nbij2=AF+BF.\Vert A+B \Vert_{\mathrm{F}}=\sqrt{\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{j=1}^{n}\vert a_{ij}+b_{ij} \vert^2} \leq \sqrt{\displaystyle\sum_{i=1}^{m}\vert a_{ij} \vert^2}+\sqrt{\displaystyle\sum_{j=1}^{n}\vert b_{ij} \vert^2}=\Vert A \Vert_{\mathrm{F}} + \Vert B \Vert_{\mathrm{F}}.\\ 4. 证明:\\ A=maxAxx    AAxx    AxAx.\Vert A \Vert = \max\cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A \Vert \geq \cfrac{\Vert A\bm{x} \Vert}{\Vert \bm{x} \Vert} \implies \Vert A\bm{x} \Vert \leq \Vert A \Vert \Vert \bm{x} \Vert.\\B=[b1b2bn]B=\begin{bmatrix} \bm{b}_1&\bm{b}_2&\cdots&\bm{b}_n \end{bmatrix},则AB=[Ab1Ab2Abn]AB=\begin{bmatrix} A\bm{b}_1&A\bm{b}_2&\cdots&A\bm{b}_n \end{bmatrix},由Frobenius范数定义有ABF2=i=1nAbi2A2i=1nbi2=A2BF2.\Vert AB \Vert_{\mathrm{F}}^2=\displaystyle\sum_{i=1}^n \Vert A\bm{b}_i \Vert^2 \leq \Vert A \Vert^2 \displaystyle\sum_{i=1}^n \Vert \bm{b}_i \Vert^2 = \Vert A \Vert^2 \Vert B \Vert_{\mathrm{F}}^2.ABFABF.\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert \Vert B \Vert_{\mathrm{F}}.\\ 同理,设A=[a1Ta2TanT]A=\begin{bmatrix} \bm{a}_1^{\mathrm{T}}\\ \bm{a}_2^{\mathrm{T}}\\ \vdots\\ \bm{a}_n^{\mathrm{T}} \end{bmatrix}可得ABFAFB.\Vert AB \Vert_{\mathrm{F}} \leq \Vert A \Vert_{\mathrm{F}} \Vert B \Vert.\\ 5. 证明:\\ UAF=trace(ATUTUA)=trace(ATA)=AF\Vert UA \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(A^{\mathrm{T}}U^{\mathrm{T}}UA)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}} AVTF=trace(VATAVT)=trace(VTVATA)=trace(ATA)=AF\Vert AV^{\mathrm{T}} \Vert_{\mathrm{F}} = \sqrt{\operatorname{trace}(VA^{\mathrm{T}}AV^{\mathrm{T}})}=\sqrt{\operatorname{trace}(V^{\mathrm{T}}VA^{\mathrm{T}}A)}=\sqrt{\operatorname{trace}(A^{\mathrm{T}}A)}=\Vert A \Vert_{\mathrm{F}} 于是UAVTF=UAF=AF.\Vert UAV^{\mathrm{T}} \Vert_{\mathrm{F}}=\Vert UA \Vert_{\mathrm{F}}=\Vert A \Vert_{\mathrm{F}}.\\
6.3.12 \quad 证明命题 6.3.16. \quad对任意矩阵AA,其Frobenius范数平方AF2\Vert A \Vert_{\mathrm{F}}^2等于AA所有奇异值的平方和。因此AFA\Vert A \Vert_{\mathrm{F}} \geq \Vert A \Vert
\\ 证明:\\ AF2=trace(ATA)=i=1nσi2σmax2=A2.\Vert A \Vert_{\mathrm{F}}^2=\operatorname{trace}(A^{\mathrm{T}}A)=\sum_{i=1}^n \sigma_i^2 \geq \sigma_{\max}^2=\Vert A \Vert^2.
6.3.13 (樊畿迹定理) \quad 对任意nn阶对称矩阵ARn×nA\in\mathbb{R}^{n\times n} ,假设特征值为λ1λ2...λn\lambda_1\geqslant\lambda_2\geqslant...\geqslant\lambda_n,对应特征向量为u1,u2,,un\bm{u}_1,\bm{u}_2,\cdots,\bm{u}_n,则maxn×m矩阵Q:QTQ=Itrace(QTAQ)=i=1mλi{\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i,且Q=[u1u2um]Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}时取得最大值。
\\ 证明:\\Q=[q1q2qm]Q=\begin{bmatrix} \bm{q}_1&\bm{q}_2&\cdots&\bm{q}_m \end{bmatrix},且列向量两两正交。则trace(QTAQ)=q1TAq1+q2TAq2++qmTAqm.\operatorname{trace}(Q^{\mathrm{T}}AQ)=\bm{q}_1^{\mathrm{T}}A\bm{q}_1+\bm{q}_2^{\mathrm{T}}A\bm{q}_2+\cdots+\bm{q}_m^{\mathrm{T}}A\bm{q}_m. \\ 注意到qiTAqi=qiTAqiqiTqi\bm{q}_i^{\mathrm{T}}A\bm{q}_i=\cfrac{\bm{q}_i^{\mathrm{T}}A\bm{q}_i}{\bm{q}_i^{\mathrm{T}}\bm{q}_i}qi\bm{q}_i关于AA的Rayleigh商。于是maxqiTqi=1qiTAqi=λ1,maxkimqiTAqi=λk\displaystyle\max_{\bm{q}_i^{\mathrm{T}}\bm{q}_i=1} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_1, \displaystyle\max_{k\leq i \leq m} \bm{q}_i^{\mathrm{T}}A\bm{q}_i=\lambda_k,当且仅当qi\bm{q}_i为对应特征值时取得最大值。\\ 所以maxn×m矩阵Q:QTQ=Itrace(QTAQ)=i=1mλi{\displaystyle\max_{\substack{n\times m \text{矩阵} Q:\\Q^{\mathrm{T}}Q=I}}}\operatorname{trace}(Q^{\mathrm{T}}AQ)=\displaystyle\sum_{i=1}^{m}\lambda_i,当且仅当Q=[u1u2um]Q=\begin{bmatrix}\bm{u}_1&\bm{u}_2&\cdots&\bm{u}_m\end{bmatrix}时取得最大值。\\
6.3.14
\\ 略。唯一需要注意的是不要浪费时间去算第四问BB的最佳秩1逼近。这里直接给出BB的奇异值分解,供读者观摩。\\ 显然B=[211291111]B=\begin{bmatrix} -2 & -1 & 1 & 2 \\ -9 & -1 & -1 & 11 \end{bmatrix},于是BB的奇异值分解为 [211291111]=UΣVT \begin{bmatrix} -2 & -1 & 1 & 2 \\ -9 & -1 & -1 & 11 \end{bmatrix} =U\varSigma V^{\mathrm{T}} 其中 U=[940944036+12940944036+12940944036+12940944036+12] U= \begin{bmatrix} \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & -\sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \\ \sqrt{\sqrt{\frac{9409}{44036}}+\frac{1}{2}} & \sqrt{-\sqrt{\frac{9409}{44036}}+\frac{1}{2}} \end{bmatrix} Σ=[11009+107000011009+10700] \varSigma= \begin{bmatrix} \sqrt{\sqrt{11009}+107} & 0 & 0 & 0 \\ 0 & \sqrt{-\sqrt{11009}+107} & 0 & 0 \end{bmatrix} VT=[0.6330.14817487103478595700.0810.54611174174478595700.0540.816717417431478595701760663612131342400+1334401760663612131342400+13344004785110]T V^{\mathrm{T}}= \begin{bmatrix} -0.633 & 0.148 & \frac{-\sqrt{174}}{87} & \frac{103\sqrt{4785}}{9570} \\ -0.081 & 0.546 & \frac{11\sqrt{174}}{174} & \frac{-\sqrt{4785}}{9570} \\ -0.054 & -0.816 & \frac{7\sqrt{174}}{174} & \frac{31\sqrt{4785}}{9570} \\ \sqrt{\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & \sqrt{-\sqrt{\frac{176066361}{2131342400}}+\frac{133}{440}} & 0 & \frac{\sqrt{4785}}{110} \end{bmatrix}^{\mathrm{T}} 用numpy进行奇异值分解后计算秩一逼近 B1=σ1u1v1T=[1.79100.22830.15282.17229.04131.15280.771610.9658]B_1=\sigma_1\bm{u}_1\bm{v}_1^{\mathrm{T}}= \begin{bmatrix} -1.7910 & -0.2283 & -0.1528 & 2.1722 \\ -9.0413 & -1.1528 & -0.7716 & 10.9658 \end{bmatrix} 可以看到秩一逼近已经很接近真实值了。 \\
6.3.15 \quad 考虑子空间M,N\mathcal{M},\mathcal{N},其对应的正交投影矩阵为P,Q.P,Q.我们想要研究矩阵 H=P(P+Q)+Q+Q(P+Q)+P. H=P\left(P+Q\right)^{+}Q+Q\left(P+Q\right)^{+}P. \\ 1.计算(P+Q)(P+Q)+(P+Q)(P+Q)^{+}的列空间和零空间,该矩阵是否为一个正交投影矩阵?\\ 2.计算(P+Q)+(P+Q)\left(P+Q\right)^{+}\left(P+Q\right)的列空间和零空间,该矩阵是否为一个正交投影矩阵?和前一矩阵有何关联?\\ 3.证明Q(P+Q)+(P+Q)=Q,(P+Q)(P+Q)+Q=Q.Q(P+Q)^{+}(P+Q)=Q,(P+Q)(P+Q)^{+}Q=Q. \\ 4.证明H=2P(P+Q)+Q=2Q(P+Q)+P.H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P. \\ 5.假设TTMN\mathcal{M}\cap\mathcal{N}上的正交投影矩阵,证明HP=HQ=HT=H.HP=HQ=HT=H. \\ 6.证明HT=T.HT=T. \\ 于是H=TH=T,由此即得MN\mathcal{M}\cap\mathcal{N}的正交投影矩阵的表达式。\\
1.解:\\P+Q=AP+Q=A,由广义逆性质可知AA+=UrUrTAA^{+}=U_rU_r^{\mathrm{T}},其中UrU_rR(A)\mathcal{R}(A)的一组标准正交基,于是R(AA+)=R(A)=R(P+Q)\mathcal{R}(AA^{+})=\mathcal{R}(A)=\mathcal{R}(P+Q)。同理可得N(AA+)=N(P+Q)\mathcal{N}(AA^+)=\mathcal{N}(P+Q)\\ 接下来我们将证明,R(P+Q)=M+N,N(P+Q)=(M+N)\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}\\xN(P+Q),(P+Q)x=0    Px+Qx=0    Px=Qx\forall \bm{x}\in \mathcal{N}(P+Q), (P+Q)\bm{x}=\bm{0} \implies P\bm{x}+Q\bm{x}=\bm{0} \implies P\bm{x}=-Q\bm{x}。而PPM\mathcal{M}的正交投影矩阵,QQN\mathcal{N}的正交投影矩阵,PxM,QxN P\bm{x}\in \mathcal{M}, Q\bm{x}\in \mathcal{N},这说明xN(P+Q),PxMN,QxMN\forall \bm{x} \in \mathcal{N}(P+Q), P\bm{x}\in \mathcal{M}\cap\mathcal{N}, Q\bm{x}\in \mathcal{M}\cap\mathcal{N}\\MN\mathcal{M}\cap\mathcal{N}的正交投影矩阵是TT,则PT=QT=T=TT=(PT)T=(QT)T=TP=TQPT=QT=T=T^{\mathrm{T}}=(PT)^{\mathrm{T}}=(QT)^{\mathrm{T}}=TP=TQ于是 Px=Qx    TPx=TQx    Tx=Tx    Tx=0    TPx=TQx=0 \begin{align*} P\bm{x}=-Q\bm{x}&\implies TP\bm{x}=-TQ\bm{x}\\ &\implies T\bm{x}=-T\bm{x}\\ &\implies T\bm{x}=\bm{0}\\ &\implies TP\bm{x}=TQ\bm{x}=\bm{0} \end{align*} 又因为PxMN,QxMNP\bm{x}\in\mathcal{M}\cap\mathcal{N},Q\bm{x}\in\mathcal{M}\cap\mathcal{N},且TTMN\mathcal{M}\cap\mathcal{N}的正交投影矩阵,所以TPx=Px=0,TQx=Qx=0    N(P+Q)N(P)N(Q)TP\bm{x}=P\bm{x}=\bm{0}, TQ\bm{x}=Q\bm{x}=\bm{0} \implies \mathcal{N}(P+Q)\subseteq\mathcal{N}(P)\cap\mathcal{N}(Q)。显然N(P)N(Q)N(P+Q)\mathcal{N}(P)\cap\mathcal{N}(Q)\subseteq\mathcal{N}(P+Q)也成立,于是N(P+Q)=N(P)N(Q)=MN.\mathcal{N}(P+Q)=\mathcal{N}(P)\cap\mathcal{N}(Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp. \\ 由De Morgan定律 (见练习3.3.8),MN=(M+N)\mathcal{M}^\perp \cap \mathcal{N}^\perp = (\mathcal{M}+\mathcal{N})^\perp,即N(AA+)=N(P+Q)=MN=(M+N)\mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=\mathcal{M}^\perp \cap \mathcal{N}^\perp =(\mathcal{M}+\mathcal{N})^{\perp}。由正交补的性质可得,R(AA+)=R(P+Q)=M+N.\mathcal{R}(AA^{+})=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}.\\ (AA+)2=(AA+)T=AA+(AA^{+})^2=(AA^{+})^{\mathrm{T}}=AA^{+},所以AA+AA^{+}是正交投影矩阵。\\ 2.解:\\P+Q=AP+Q=A,由于AA是对称矩阵,由广义逆性质和前面讨论可知AA+AA^{+}A+AA^{+}A有相同的零空间和列空间。即R(A+A)=R(P+Q)=M+N,N(AA+)=N(P+Q)=(M+N).\mathcal{R}(A^{+}A)=\mathcal{R}(P+Q)=\mathcal{M}+\mathcal{N}, \mathcal{N}(AA^{+})=\mathcal{N}(P+Q)=(\mathcal{M}+\mathcal{N})^{\perp}. \\ (A+A)2=(A+A)T=A+A(A^{+}A)^2=(A^{+}A)^{\mathrm{T}}=A^{+}A,所以AA+AA^{+}是正交投影矩阵,且A+A=AA+.A^{+}A=AA^{+}.\\ 3.证明:\\ 由前面讨论可知,AA+=A+AAA^{+}=A^{+}AM+N\mathcal{M}+\mathcal{N}上的正交投影矩阵,而R(Q)M+N\mathcal{R}(Q)\subseteq\mathcal{M}+\mathcal{N},所以AA+Q=QAA^{+}Q=Q,等号两侧取转置立得QA+A=Q.QA^{+}A=Q.\\ 4.证明:\\ 由第(3)小问结论 Q=Q(P+Q)+(P+Q)=Q(P+Q)+P+Q(P+Q)+Q Q=Q(P+Q)^{+}(P+Q)=Q(P+Q)^{+}P+Q(P+Q)^{+}Q Q=(P+Q)(P+Q)+Q=P(P+Q)+Q+Q(P+Q)+Q Q=(P+Q)(P+Q)^{+}Q=P(P+Q)^{+}Q+Q(P+Q)^{+}Q 于是Q(P+Q)+P=P(P+Q)+Q    H=2P(P+Q)+Q=2Q(P+Q)+P.Q(P+Q)^{+}P=P(P+Q)^{+}Q\implies H=2P(P+Q)^{+}Q=2Q(P+Q)^{+}P.\\ 5.证明:\\ HP=2Q(P+Q)+P2=2Q(P+Q)+P=H.HP=2Q(P+Q)^{+}P^2=2Q(P+Q)^{+}P=H. HQ=2P(P+Q)+Q2=2P(P+Q)+Q=H.HQ=2P(P+Q)^{+}Q^2=2P(P+Q)^{+}Q=H. 由De Morgan定律 (见练习3.3.8),(MN)=M+N(\mathcal{M}\cap\mathcal{N})^{\perp}=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}。设P(MN)P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}表示(MN)(\mathcal{M}\cap\mathcal{N})^\perp上的正交投影矩阵,PM,PNP_{\mathcal{M}^{\perp}},P_{\mathcal{N}^{\perp}}分别表示M,N\mathcal{M}^{\perp},\mathcal{N}^{\perp}上的正交投影矩阵,则T=PMN=IP(MN)=IPM+NT=P_{\mathcal{M}\cap\mathcal{N}}=I-P_{(\mathcal{M}\cap\mathcal{N})^{\perp}}=I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp}B=PM+PN=IP+IQ=2IPQB=P_{\mathcal{M}^{\perp}}+P_{\mathcal{N}^{\perp}}=I-P+I-Q=2I-P-Q。由第(2)问结论可得PM+N=BB+P_{\mathcal{M}^\perp+\mathcal{N}^\perp}=BB^{+},即BB+BB^{+}R(B)=M+N\mathcal{R}(B)=\mathcal{M}^{\perp}+\mathcal{N}^{\perp}上的正交投影矩阵。因此 HT=H(IPM+N)=H(IBB+)=HHBB+=HH(2IPQ)B+=H(2HHH)B+=H\begin{align*} HT&=H(I-P_{\mathcal{M}^\perp+\mathcal{N}^\perp})\\ &=H(I-BB^{+})\\ &=H-HBB^{+}\\ &=H-H(2I-P-Q)B^{+}\\ &=H-(2H-H-H)B^{+}\\ &=H \end{align*} 6.证明:\\ 考虑矩阵HTTHT-T的零空间。设xRn\bm{x}\in\mathbb{R}^n,分两种情况讨论:\\ (a)若x(MN)\bm{x}\in (\mathcal{M}\cap\mathcal{N})^{\perp}\\ (HTT)x=HTxTx=00=0(HT-T)\bm{x}=HT\bm{x}-T\bm{x}=\bm{0}-\bm{0}=\bm{0}。所以(MN)N(HTT)(\mathcal{M}\cap\mathcal{N})^{\perp} \subseteq \mathcal{N}(HT-T)\\ (b)若x(MN)\bm{x}\in(\mathcal{M}\cap\mathcal{N})\\(HTT)x=Hxx=P(P+Q)+Qx+Q(P+Q)+Pxx=P(P+Q)+x+Q(P+Q)+xx=(P+Q)(P+Q)+xx=AA+xx \begin{align*} (HT-T)\bm{x}&=H\bm{x}-\bm{x}\\ &=P\left(P+Q\right)^{+}Q\bm{x}+Q\left(P+Q\right)^{+}P\bm{x}-\bm{x}\\ &=P\left(P+Q\right)^{+}\bm{x}+Q\left(P+Q\right)^{+}\bm{x}-\bm{x}\\ &=(P+Q)\left(P+Q\right)^{+}\bm{x}-\bm{x}\\ &=AA^{+}\bm{x}-\bm{x} \end{align*} 注意到AA+AA^{+}M+N\mathcal{M}+\mathcal{N}上的正交投影矩阵,而x(MN)(M+N)\bm{x}\in(\mathcal{M}\cap\mathcal{N})\subseteq (\mathcal{M}+\mathcal{N}),于是AA+xx=xx=0AA^{+}\bm{x}-\bm{x}=\bm{x}-\bm{x}=\bm{0}。即(MN)N(HTT)(\mathcal{M}\cap\mathcal{N}) \subseteq \mathcal{N}(HT-T)\\ 这表明N(HTT)=Rn    HTT=O    HT=T.\mathcal{N}(HT-T)=\mathbb{R}^n \iff HT-T=O \iff HT=T.