UA MATH567 高维统计 专题1 Supervised PCA Regression概述
UA MATH567 高維統(tǒng)計(jì) 專(zhuān)題1 Supervised PCA Regression概述
- 相關(guān)結(jié)果
- Supervised PCA Regression
相關(guān)結(jié)果
考慮經(jīng)典的回歸問(wèn)題y=Xβ+?,X∈Rp,?~N(0,σ2In)y=X\beta+\epsilon,X \in \mathbb{R}^p,\epsilon \sim N(0,\sigma^2I_n)y=Xβ+?,X∈Rp,?~N(0,σ2In?),根據(jù)Gauss-Markov定理,在滿(mǎn)足定理的假設(shè)時(shí),OLS估計(jì)量具有非常好的漸近性質(zhì),但是當(dāng)ppp與nnn非常接近或者模型存在比較強(qiáng)的多重共線性時(shí),OLS是nonstable估計(jì)。
PCA Regression是一種改進(jìn)OLS不穩(wěn)定性的模型,它分為下面幾個(gè)步驟:
PCA方法使得PC互相正交,這樣新的OLS就沒(méi)有多重共線性的;OLS的另一種不穩(wěn)定性主要來(lái)自(XTX)?1(X^TX)^{-1}(XTX)?1的計(jì)算,但因?yàn)檎恍?#xff0c;PC的這一步計(jì)算只需要計(jì)算對(duì)角陣的逆,所以從計(jì)算上講PCA Regression更穩(wěn)定。PCA Regression的缺陷是PCA是非監(jiān)督學(xué)習(xí),是對(duì)特征XXX進(jìn)行降維的;而我們最終目標(biāo)是要用XXX對(duì)YYY回歸,這是一種監(jiān)督學(xué)習(xí),直接把這兩步串起來(lái)我們沒(méi)有辦法確保特征XXX的PC與YYY之間的dependence與XXX與YYY之間的dependence仍然是完全一致的。
另一種改進(jìn)多重共線性的方法是Penalized Regression,比如Ridge Regression:
arg?min?β1n∑i=1n(yi?xiTβ)2+λ∥β∥22\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|^2_2βargmin?n1?i=1∑n?(yi??xiT?β)2+λ∥β∥22?
這個(gè)方法的優(yōu)點(diǎn)是我們能拿到嶺回歸估計(jì)量的表達(dá)式,
β^ridge=(XTX/n+λI)?1XTy\hat \beta_{ridge}=(X^TX/n+\lambda I)^{-1}X^Tyβ^?ridge?=(XTX/n+λI)?1XTy
即使ppp與nnn接近,因?yàn)?span id="vt6mr5x" class="katex--inline">λI\lambda IλI的存在,計(jì)算矩陣的逆時(shí)也不會(huì)不穩(wěn)定(不會(huì)是non-singular矩陣);需要注意的是嶺回歸是有偏的,它只能做proportional shrinkage,不能處理sparsity的問(wèn)題。作為另一種常用的shrinkage estimation,LASSO可以把一些系數(shù)shrink到0,因此它能處理sparsity。
arg?min?β1n∑i=1n(yi?xiTβ)2+λ∥β∥1\argmin_{\beta} \frac{1}{n}\sum_{i=1}^n (y_i-x_i^T\beta)^2+\lambda \left\| \beta\right\|_1βargmin?n1?i=1∑n?(yi??xiT?β)2+λ∥β∥1?
它在計(jì)算上比嶺回歸更復(fù)雜,但這二十年來(lái),統(tǒng)計(jì)學(xué)家開(kāi)發(fā)了許多用來(lái)計(jì)算LASSO,所以現(xiàn)在已經(jīng)不是個(gè)問(wèn)題了。關(guān)于sparsity,通常用的假設(shè)是∣{j:βj≠0}∣<<p|\{j:\beta_j \ne 0\}|<<p∣{j:βj??=0}∣<<p,但是如果p>np>np>n,并且沒(méi)有sparsity,那就沒(méi)有能處理的方法了。
Supervised PCA Regression
綜合PCA Regression與Penalized Regression的特點(diǎn),我們可以設(shè)計(jì)Supervised PCA Regression,假設(shè)XXX是centered design matrix,引入Σ^=XTX/n\hat \Sigma = X^TX/nΣ^=XTX/n,δ^=XTy/n\hat \delta = X^Ty/nδ^=XTy/n,定義
Σ^ρ=Σ^+ρδ^δ^T\hat \Sigma_{\rho}=\hat \Sigma + \rho \hat \delta \hat \delta ^TΣ^ρ?=Σ^+ρδ^δ^T
這個(gè)值形式上與樣本協(xié)方差類(lèi)似,但他包含了feature與label共同的信息,我們提取它的主成分,然后用來(lái)做PCA,這就是Supervised PCA Regression。如果ρ→0\rho \to 0ρ→0,這就是一個(gè)PCA regression,如果ρ→∞\rho \to \inftyρ→∞,這就是一個(gè)marginal regression。Marginal Regression的含義是分別對(duì)每一個(gè)feature做一元回歸:
y1=x1β1+?1y2=x2β2+?2?yp=xpβp+?py_1 = x_1\beta_1+\epsilon_1 \\ y_2 = x_2 \beta_2 + \epsilon_2 \\ \cdots \\ y_p=x_p\beta_p+\epsilon_py1?=x1?β1?+?1?y2?=x2?β2?+?2??yp?=xp?βp?+?p?
這種模型在variable screening中有一些應(yīng)用,并且在需要初值的迭代算法中可以作為系數(shù)的初始值。
下面我們?cè)俳榻B一些Supervised PCA Regression的特點(diǎn)。假設(shè)
Σ=EXTX,δ=EXTy\Sigma=EX^TX,\delta = EX^TyΣ=EXTX,δ=EXTy
則
β=Σ?1δ\beta = \Sigma^{-1}\deltaβ=Σ?1δ
如果Σ\SigmaΣ的特征值為λ1≥?≥λk>λk+1=?=λd\lambda_1 \ge \cdots \ge \lambda_k > \lambda_{k+1}=\cdots = \lambda_dλ1?≥?≥λk?>λk+1?=?=λd?,那么做譜分解
Σ=∑i=1k(λi?λd)ξiξiT+λdId\Sigma = \sum_{i=1}^k(\lambda_i - \lambda_d)\xi_i\xi_i^T+\lambda_d I_dΣ=i=1∑k?(λi??λd?)ξi?ξiT?+λd?Id?
根據(jù)Σ?1Σ=Id\Sigma^{-1}\Sigma=I_dΣ?1Σ=Id?,我們可以得到?ai,a0\exists a_i,a_0?ai?,a0?,
Σ?1=∑i=1kaiξiξiT+a0Id\Sigma^{-1} = \sum_{i=1}^k a_i \xi_i\xi_i^T+a_0I_dΣ?1=i=1∑k?ai?ξi?ξiT?+a0?Id?
于是
β=Σ?1δ=∑i=1kai(ξiTδ)ξi+λdδ∈span(ξ1,?,ξk,δ)\beta = \Sigma^{-1}\delta=\sum_{i=1}^ka_i(\xi_i^T\delta)\xi_i+\lambda_d \delta \in span(\xi_1,\cdots,\xi_k,\delta)β=Σ?1δ=i=1∑k?ai?(ξiT?δ)ξi?+λd?δ∈span(ξ1?,?,ξk?,δ)
而Σρ=Σ+ρδδT\Sigma_{\rho}=\Sigma+\rho \delta \delta^TΣρ?=Σ+ρδδT的前k+1k+1k+1個(gè)主成分張成的子空間就是span(ξ1,?,ξk,δ)span(\xi_1,\cdots,\xi_k,\delta)span(ξ1?,?,ξk?,δ),這說(shuō)明用Σρ\Sigma_{\rho}Σρ?的前k+1k+1k+1個(gè)主成分對(duì)特征空間進(jìn)行降維是不存在信息損失的。而Davis-Kahan定理又能保證Σ^ρ\hat \Sigma_{\rho}Σ^ρ?與Σρ\Sigma_{\rho}Σρ?是足夠接近的,所以在以上的理論分析支撐下,我們可以認(rèn)可Supervised PCA Regression。但關(guān)于這個(gè)模型的統(tǒng)計(jì)理論還有一些問(wèn)題需要解決:
總結(jié)
以上是生活随笔為你收集整理的UA MATH567 高维统计 专题1 Supervised PCA Regression概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: R语言数据可视化 ggplot2基础2
- 下一篇: UA MATH567 高维统计 专题0