7.4.1 矩阵低秩近似、矩阵范数
矩陣低秩近似、矩陣范數
根據奇異值分解,秩為 rrr 的任意矩陣 AAA 可分解為 rrr 個簡單矩陣(秩為 111) σiuiviT\sigma_i\mathbf{u}_i\mathbf{v}^T_iσi?ui?viT? 之和,且 σ1≥σ2≥?σr>0\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0σ1?≥σ2?≥?σr?>0,按重要性排序,即 A=UΣVT=σ1u1v1T+?+σrurvrTA = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA=UΣVT=σ1?u1?v1T?+?+σr?ur?vrT? 。如果我們用秩為 k<rk < rk<r 的矩陣 BBB 來最優近似矩陣 AAA ,則 BBB 為多少呢?大家猜測應該是 Bk=σ1u1v1T+?+σkukvkTB_k = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_k\mathbf{u}_k\mathbf{v}^T_kBk?=σ1?u1?v1T?+?+σk?uk?vkT? 即取 AAA 前 kkk 個主成分近似 AAA ,這個就是 Eckart-Young-Mirsky 定理,稱為矩陣低秩近似定理。
這里面有個問題是,矩陣 BBB 最優近似矩陣 AAA,那如何度量兩個矩陣相似度?我們度量向量相似度是利用向量范數,即 ∥a?b∥\|\mathbf{a} - \mathbf{b} \|∥a?b∥ 越小則向量越相似。矩陣是一種變換,矩陣越相似則變換也越相似,即同一向量變換后的向量應該越相似,利用這個性質可以定義矩陣相似度。令 xA=Ax\mathbf{x}_A = A\mathbf{x}xA?=Ax ,xB=Bx\mathbf{x}_B = B\mathbf{x}xB?=Bx ,記 ∥A?B∥\|A-B\|∥A?B∥ 為矩陣相似度度量,為實數,值越小矩陣越相似,稱為矩陣 A?BA-BA?B 范數,則
∥A?B∥=∥xA?xB∥=∥Ax?Bx∥=∥(A?B)x∥\|A-B\| = \| \mathbf{x}_A - \mathbf{x}_B \| = \|A\mathbf{x}-B\mathbf{x}\|= \|(A-B)\mathbf{x}\| ∥A?B∥=∥xA??xB?∥=∥Ax?Bx∥=∥(A?B)x∥
當 x=0\mathbf{x}=\mathbf{0}x=0 是零向量時,∥A?B∥\|A-B\|∥A?B∥ 等于 000 ,即任意矩陣都完全相似,這顯然不符合常識,故需對向量 x\mathbf{x}x 進行限定。不失一般性,令 ∥x∥=1\|\mathbf{x}\|=1∥x∥=1 即 x\mathbf{x}x 限定為單位向量。
向量 (A?B)x(A-B)\mathbf{x}(A?B)x 的范數隨單位向量 x\mathbf{x}x 改變而改變,故應該采用 (A?B)x(A-B)\mathbf{x}(A?B)x 最大范數來度量矩陣范數 ∥A?B∥\|A-B\|∥A?B∥ 。
矩陣之差范數 ∥A?B∥=maxx∥(A?B)x∥\|A-B\| = max_\mathbf{x} \|(A-B)\mathbf{x}\|∥A?B∥=maxx?∥(A?B)x∥, x\mathbf{x}x 為單位向量。
根據矩陣 A?B=UΣVTA-B = U\Sigma V^TA?B=UΣVT 奇異值分解,得
(A?B)x=(UΣVT)x=(σ1u1v1T+?+σrurvrT)x=σ1u1v1Tx+?+σrurvrTx=(σ1v1Tx)u1+?+(σrvrTx)ur(A-B)\mathbf{x} = (U\Sigma V^T)\mathbf{x} \\ = (\sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r)\mathbf{x} \\ = \sigma_1\mathbf{u}_1\mathbf{v}^T_1\mathbf{x} +\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r\mathbf{x} \\ = (\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r (A?B)x=(UΣVT)x=(σ1?u1?v1T?+?+σr?ur?vrT?)x=σ1?u1?v1T?x+?+σr?ur?vrT?x=(σ1?v1T?x)u1?+?+(σr?vrT?x)ur?
由于 ui\mathbf{u}_iui? 正交,故
∥(A?B)x∥=∥(σ1v1Tx)u1+?+(σrvrTx)ur∥=(σ1v1Tx)2+?+(σrvrTx)2≤(σ1v1Tx)2+?+(σ1vrTx)2=σ1(v1Tx)2+?+(vrTx)2≤σ1(v1Tx)2+?+(vrTx)2+?+(vnTx)2=σ1∥x∥=σ1\|(A-B)\mathbf{x}\| = \|(\sigma_1\mathbf{v}^T_1\mathbf{x})\mathbf{u}_1 +\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})\mathbf{u}_r\| \\ = \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_r\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sqrt{(\sigma_1\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\sigma_1\mathbf{v}^T_r\mathbf{x})^2} \\ = \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2} \\ \le \sigma_1 \sqrt{(\mathbf{v}^T_1\mathbf{x})^2+\cdots+(\mathbf{v}^T_r\mathbf{x})^2+\cdots+(\mathbf{v}^T_n\mathbf{x})^2} \\ = \sigma_1 \|\mathbf{x}\| \\ = \sigma_1 ∥(A?B)x∥=∥(σ1?v1T?x)u1?+?+(σr?vrT?x)ur?∥=(σ1?v1T?x)2+?+(σr?vrT?x)2?≤(σ1?v1T?x)2+?+(σ1?vrT?x)2?=σ1?(v1T?x)2+?+(vrT?x)2?≤σ1?(v1T?x)2+?+(vrT?x)2+?+(vnT?x)2?=σ1?∥x∥=σ1?
所以矩陣之差范數 ∥A?B∥=σ1\|A-B\| =\sigma_1∥A?B∥=σ1?,即矩陣 A?BA-BA?B 最大奇異值。
根據矩陣低秩近似定理,A?Bk=σk+1uk+1vk+1T+?+σrurvrTA-B_k = \sigma_{k+1}\mathbf{u}_{k+1}\mathbf{v}^T_{k+1}+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_rA?Bk?=σk+1?uk+1?vk+1T?+?+σr?ur?vrT? ,故 ∥A?Bk∥=σk+1\|A-B_k\| = \sigma_{k+1}∥A?Bk?∥=σk+1? 即最優近似矩陣 BkB_kBk? 與矩陣 AAA 之差范數為 σk+1\sigma_{k+1}σk+1? ,對其它任意秩為 kkk 的矩陣 BBB 均有 ∥A?B∥≥∥A?Bk∥\|A-B\| \ge \|A-B_k\|∥A?B∥≥∥A?Bk?∥ 。
根據矩陣之差范數 ∥A?B∥=σ1\|A-B\| = \sigma_1∥A?B∥=σ1?,令矩陣 B=OB=\mathbf{O}B=O 為零矩陣,得矩陣范數 ∥A∥=σ1\|A\| =\sigma_1∥A∥=σ1?,即矩陣 AAA 最大奇異值。 根據范數定義,對任意單位向量 v\mathbf{v}v 有 ∥Av∥≤∥A∥=σ1\|A\mathbf{v}\| \le \|A\| = \sigma_1∥Av∥≤∥A∥=σ1? 成立,所以矩陣范數就是變換單位向量的最大長度, v=v1\mathbf{v} = \mathbf{v}_1v=v1? 時等號成立。
根據范數定義,范數具有如下性質:
齊次性:對任意實數 kkk,∥kA∥=∣k∣∥A∥\|kA\| = |k|\|A\|∥kA∥=∣k∣∥A∥;
范數相融性:對任意向量 x\mathbf{x}x,有 ∥Ax∥≤∥A∥∥x∥\|A\mathbf{x}\| \le \|A\|\|\mathbf{x}\|∥Ax∥≤∥A∥∥x∥ 成立。
三角不等式:∥A+B∥≤∥A∥+∥B∥\|A+B\| \le \|A\| + \|B\|∥A+B∥≤∥A∥+∥B∥ 。
證:根據向量范數三角不等式,對任意單位向量 x\mathbf{x}x ,∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥\|(A+B)\mathbf{x}\| = \|A\mathbf{x}+B\mathbf{x}\| \le \|A\mathbf{x}\| + \|B\mathbf{x}\|∥(A+B)x∥=∥Ax+Bx∥≤∥Ax∥+∥Bx∥ ,兩邊取范數得證。
矩陣乘積不等式:∥AB∥≤∥A∥∥B∥\|AB\| \le \|A\|\|B\|∥AB∥≤∥A∥∥B∥ 。
證:根據范數相融性,對任意單位向量 x\mathbf{x}x ,∥ABx∥≤∥A∥∥Bx∥\|AB\mathbf{x}\| \le \|A\|\|B\mathbf{x}\|∥ABx∥≤∥A∥∥Bx∥ ,兩邊取范數得證。
范數還具有如下性質:∥AT∥=∥A∥;∥ATA∥=∥AAT∥=∥A∥2\|A^T\| = \|A\|;\|A^TA\| = \|AA^T\| = \|A\|^2∥AT∥=∥A∥;∥ATA∥=∥AAT∥=∥A∥2,∥AA+∥=∥A+A∥=1\|AA^{+}\|=\|A^{+}A\| = 1∥AA+∥=∥A+A∥=1。
任意正交矩陣 U,VU,VU,V,有 ∥U∥=1;∥A∥=∥UA∥=∥AV∥=∥UAV∥\|U\| = 1;\|A\|=\|UA\|=\|AV\|=\|UAV\|∥U∥=1;∥A∥=∥UA∥=∥AV∥=∥UAV∥ 。
任意可逆矩陣 AAA,有 ∥A?1∥=1/σn\|A^{-1}\|=1/\sigma_n∥A?1∥=1/σn? ,故 ∥A∥∥A?1∥=σ1/σn≥1\|A\|\|A^{-1}\|=\sigma_1/\sigma_n \ge 1∥A∥∥A?1∥=σ1?/σn?≥1 ,∥AA?1∥=1\|AA^{-1}\| = 1∥AA?1∥=1。
根據 σ1=∥A∥≥∥Av∥\sigma_1 = \|A\| \ge \|A\mathbf{v}\|σ1?=∥A∥≥∥Av∥ 可知最大奇異值或矩陣范數很大,大于矩陣任意列向量的長度和任意元素,取 v=ei\mathbf{v} = \mathbf{e}_iv=ei? 得 σ1=∥A∥≥∥Aei∥=∥ai∥≥∣aji∣\sigma_1 = \|A\| \ge \|A\mathbf{e}_i\| = \|\mathbf{a}_i\| \ge |a_{ji}|σ1?=∥A∥≥∥Aei?∥=∥ai?∥≥∣aji?∣ 。由于 ∥AT∥=∥A∥\|A^T\| = \|A\|∥AT∥=∥A∥ 故最大奇異值或矩陣范數大于矩陣任意行向量的長度。
奇異值有個重要且有趣的結論:任意矩陣 AAA 有 σ12+?+σr2=∑ijaij2\sigma^2_1+\cdots+\sigma^2_r = \sum_{ij} a^2_{ij}σ12?+?+σr2?=∑ij?aij2? 即奇異值平方和等于所有元素平方和,這個相當于能量守恒定律,矩陣能量是為所有元素平方和(類似動能為速度平方),奇異值能量為奇異值平方和。因為 r?mnr \ll mnr?mn 可知奇異值很大。
證:根據 ATA=VΣ2VTA^TA = V\Sigma^2 V^TATA=VΣ2VT 證明。
ATA=[a1Ta1a1Ta2?,a1Tan?anTa1anTa2?,anTan]A^TA= \left[ \begin{matrix} \mathbf{a^T_{1}}\mathbf{a_1} & \mathbf{a^T_{1}}\mathbf{a_2} \cdots, \mathbf{a^T_{1}}\mathbf{a_n}\\ \vdots \\ \mathbf{a^T_{n}}\mathbf{a_1} & \mathbf{a^T_{n}}\mathbf{a_2} \cdots, \mathbf{a^T_{n}}\mathbf{a_n} \end{matrix} \right] ATA=????a1T?a1??anT?a1??a1T?a2??,a1T?an?anT?a2??,anT?an??????
矩陣 ATAA^TAATA 對角元素之和為 a1Ta1+?+anTan=∑ijaij2\mathbf{a^T_{1}}\mathbf{a_1} + \cdots + \mathbf{a^T_{n}}\mathbf{a_n} = \sum_{ij} a^2_{ij}a1T?a1?+?+anT?an?=∑ij?aij2? 為所有元素平方和。由于矩陣對角元素之和很重要,為此定義矩陣的跡。
矩陣跡 方陣對角元素之和,記為 trA=∑iaiitr A = \sum_i a_{ii}trA=∑i?aii? 。
矩陣跡重要性質:對同型方陣 A,BA,BA,B,有 trAB=trBAtr AB = tr BAtrAB=trBA 成立,這表明矩陣跡滿足矩陣乘法交換律。
則 tr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑iσi2tr (V\Sigma^2 V^T) = tr (V^TV\Sigma^2) = tr (\Sigma^2) = \sum_i \sigma^2_itr(VΣ2VT)=tr(VTVΣ2)=tr(Σ2)=∑i?σi2? ,故 ∑ijaij2=∑iσi2\sum_{ij} a^2_{ij} = \sum_i \sigma^2_i∑ij?aij2?=∑i?σi2? 得證。
現證 trAB=trBAtr AB = tr BAtrAB=trBA 。
trAB=ar1Tb1+?+arnTbn=∑ijaijbjitr AB = \mathbf{a^T_{r1}}\mathbf{b_1} + \cdots + \mathbf{a^T_{rn}}\mathbf{b_n} = \sum_{ij} a_{ij}b_{ji} trAB=ar1T?b1?+?+arnT?bn?=ij∑?aij?bji?
trBA=br1Ta1+?+brnTan=∑ijbijaji=∑ijaijbji=trABtr BA = \mathbf{b^T_{r1}}\mathbf{a_1} + \cdots + \mathbf{b^T_{rn}}\mathbf{a_n} = \sum_{ij} b_{ij}a_{ji} = \sum_{ij} a_{ij}b_{ji} = tr AB trBA=br1T?a1?+?+brnT?an?=ij∑?bij?aji?=ij∑?aij?bji?=trAB
根據對稱矩陣譜分解定理 S=QΛQTS=Q \Lambda Q^TS=QΛQT,可得矩陣跡另一重要性質,trS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑iλitr S = tr (Q\Lambda Q^T) = tr (Q^TQ\Lambda) = tr \Lambda = \sum_i \lambda_itrS=tr(QΛQT)=tr(QTQΛ)=trΛ=∑i?λi? 即對稱矩陣的跡等于特征值之和。
總結
以上是生活随笔為你收集整理的7.4.1 矩阵低秩近似、矩阵范数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ## 7.3 奇异值分解的几何意义
- 下一篇: 7.4.3 矩阵极分解和平方根分解