UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计
UA STAT687 線性模型II 最小二乘理論2 約束最小二乘估計
- 約束最小二乘估計的求解
- 數值計算的思路
- 系數估計量的解析式
- 約束最小二乘估計的統計性質
約束最小二乘估計的求解
在線性模型y=Xβ+?y = X\beta+\epsilony=Xβ+?中,我們考慮的約束也是線性的。假設系數β\betaβ滿足
Hβ=d,H∈Rk×p,rank(H)=kH\beta = d, H \in \mathbb{R}^{k \times p},\ rank(H)=kHβ=d,H∈Rk×p,?rank(H)=k
并且ddd屬于HHH的列空間(或者稱為像空間),d∈C(H)d\in C(H)d∈C(H),也就是說這個約束方程有界。假設C(H′)?C(X′)C(H') \subset C(X')C(H′)?C(X′),即HβH\betaHβ是kkk個線性無關的可估函數。
下面我們嘗試用Lagrange乘子法求解帶約束的最小二乘:
min?βQ=∥e∥2=(y?Xβ)′(y?Xβ)=y′y?2y′Xβ+β′X′Xβs.t.Hβ=d\min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\beta \\ s.t.\ \ H\beta = dβmin???Q=∥e∥2=(y?Xβ)′(y?Xβ)=y′y?2y′Xβ+β′X′Xβs.t.??Hβ=d
用LLL表示Lagrange函數,2λ∈Rk2\lambda \in \mathbb{R}^k2λ∈Rk表示Lagrange乘子,則
L(β,λ)=y′y?2y′Xβ+β′X′Xβ+2λ′(Hβ?d)L(\beta,\lambda) = y'y-2y'X\beta+\beta'X'X\beta+2\lambda'(H\beta-d)L(β,λ)=y′y?2y′Xβ+β′X′Xβ+2λ′(Hβ?d)
這里用2λ2\lambda2λ只是為了約掉2這個數值,讓下面的正則方程形式上美觀一點。計算Lagrange函數關于β\betaβ的梯度可以得到正則方程:
?βL=2X′Xβ?2(X′y?H′λ)=0?X′Xβ=X′y?H′λ\nabla_{\beta} L = 2X'X\beta - 2(X'y-H'\lambda)=0 \\ \Rightarrow X'X\beta = X'y-H'\lambda?β?L=2X′Xβ?2(X′y?H′λ)=0?X′Xβ=X′y?H′λ
數值計算的思路
記θ=[β′,λ′]′\theta = [\beta',\ \lambda']'θ=[β′,?λ′]′, 約束方程可以寫成
[H0]θ=d\left[ \begin{matrix} H & 0 \end{matrix} \right]\theta = d[H?0?]θ=d
正則方程可以寫成
[X′XH′]θ=X′y\left[ \begin{matrix} X'X & H' \end{matrix} \right]\theta = X'y[X′X?H′?]θ=X′y
合并起來就是
[X′XH′H0]θ=[X′yd]\left[ \begin{matrix} X'X & H' \\ H & 0\end{matrix} \right]\theta = \left[ \begin{matrix} X'y \\ d \end{matrix} \right][X′XH?H′0?]θ=[X′yd?]
求解θ\thetaθ可以得到β\betaβ與λ\lambdaλ的估計值,
θ^=[X′XH′H0]?1[X′yd]\hat{\theta} = \left[ \begin{matrix} X'X & H' \\ H & 0\end{matrix} \right]^{-1}\left[ \begin{matrix} X'y \\ d \end{matrix} \right]θ^=[X′XH?H′0?]?1[X′yd?]
系數估計量的解析式
數值上這樣計算非常方便,但是我們想得到β\betaβ估計量的解析式。考慮正則方程,
β^=(X′X)?1(X′y?H′λ^)=β^OLS?(X′X)?1H′λ^\hat\beta = (X'X)^{-1}(X'y-H'\hat\lambda) = \hat\beta_{OLS}-(X'X)^{-1}H'\hat\lambdaβ^?=(X′X)?1(X′y?H′λ^)=β^?OLS??(X′X)?1H′λ^
將這個結果代入約束方程中,
Hβ^=Hβ^OLS?H(X′X)?1H′λ^=d?λ^=[H(X′X)?1H′]?1(Hβ^OLS?d)H\hat\beta = H\hat\beta_{OLS}-H(X'X)^{-1}H'\hat\lambda=d \\ \Rightarrow \hat\lambda = [H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d)Hβ^?=Hβ^?OLS??H(X′X)?1H′λ^=d?λ^=[H(X′X)?1H′]?1(Hβ^?OLS??d)
前面我們假設了C(H′)?C(X′)C(H')\subset C(X')C(H′)?C(X′),并且rank(H)=krank(H)=krank(H)=k,因此H(X′X)?1H′H(X'X)^{-1}H'H(X′X)?1H′的逆與廣義逆選取無關,這保證λ^\hat{\lambda}λ^形式的唯一性。由此我們得到系數的估計量為
β^=β^OLS?(X′X)?1H′[H(X′X)?1H′]?1(Hβ^OLS?d)\hat\beta = \hat\beta_{OLS}-(X'X)^{-1}H'[H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d)β^?=β^?OLS??(X′X)?1H′[H(X′X)?1H′]?1(Hβ^?OLS??d)
約束最小二乘估計的統計性質
在約束參數空間{(β,σ2):Hβ=d}\{(\beta,\sigma^2):H\beta=d\}{(β,σ2):Hβ=d}中,σ^2\hat{\sigma}^2σ^2是σ\sigmaσ的無偏估計,其中
σ^2=e^′e^n?rank(X)+rank(H),e^=y?Xβ^\hat{\sigma}^2 = \frac{\hat{e}'\hat{e}}{n-rank(X)+rank(H)},\ \hat{e}=y-X\hat{\beta}σ^2=n?rank(X)+rank(H)e^′e^?,?e^=y?Xβ^?
與普通最小二乘法不同的是,約束最小二乘法的殘差有更多自由度。普通最小二乘法總自由度為n?1n-1n?1,回歸自由度(系數的自由度)為rank(X)?1rank(X)-1rank(X)?1;約束最小二乘法總自由度為n+rank(H)?1n+rank(H)-1n+rank(H)?1,回歸自由度與普通最小二乘一樣,所以多出來的自由度屬于殘差。
證明
考慮e^′e^=∥y?Xβ^∥2=e^′e^=∥y?X(β^OLS+β^?β^OLS)∥2\hat{e}'\hat{e} = \left\| y-X\hat{\beta}\right\|^2 = \hat{e}'\hat{e} = \left\| y-X(\hat{\beta}_{OLS}+\hat\beta-\hat{\beta}_{OLS})\right\|^2e^′e^=∥∥∥?y?Xβ^?∥∥∥?2=e^′e^=∥∥∥?y?X(β^?OLS?+β^??β^?OLS?)∥∥∥?2,進一步化簡得到
∥(y?Xβ^OLS)+X(β^?β^OLS)∥2\left\| (y-X\hat{\beta}_{OLS})+X(\hat\beta-\hat{\beta}_{OLS})\right\|^2∥∥∥?(y?Xβ^?OLS?)+X(β^??β^?OLS?)∥∥∥?2
注意到y?Xβ^OLSy-X\hat{\beta}_{OLS}y?Xβ^?OLS?與C(X′)C(X')C(X′)正交,因此上式等于
∥y?Xβ^OLS∥2+∥X(β^?β^OLS)∥2\left\| y-X\hat{\beta}_{OLS}\right\|^2+\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2∥∥∥?y?Xβ^?OLS?∥∥∥?2+∥∥∥?X(β^??β^?OLS?)∥∥∥?2
上一講證明了
E∥y?Xβ^OLS∥2=(n?rank(X))σ2E\left\| y-X\hat{\beta}_{OLS}\right\|^2=(n-rank(X))\sigma^2E∥∥∥?y?Xβ^?OLS?∥∥∥?2=(n?rank(X))σ2
并且證明了一個恒等式:如果EX=μ,Cov(X)=ΣEX=\mu,Cov(X)=\SigmaEX=μ,Cov(X)=Σ,則
E[X′AX]=μ′Aμ+tr(AΣ)E[X'AX]=\mu'A\mu+tr(A\Sigma)E[X′AX]=μ′Aμ+tr(AΣ)
接下來我們基于這個恒等式計算E∥X(β^?β^OLS)∥2E\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2E∥∥∥?X(β^??β^?OLS?)∥∥∥?2,
E∥X(β^?β^OLS)∥2=E(Hβ^OLS?d)′[H(X′X)?1H′]?1(Hβ^OLS?d)=(Hβ?d)′[H(X′X)?1H′]?1(Hβ?d)+tr[[H(X′X)?1H′]?1Cov(Hβ^OLS)]E\left\| X(\hat\beta-\hat{\beta}_{OLS})\right\|^2\\=E(H\hat\beta_{OLS}-d)'[H(X'X)^{-1}H']^{-1}(H\hat\beta_{OLS}-d) \\ = (H\beta-d)'[H(X'X)^{-1}H']^{-1}(H\beta-d) \\+tr[[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})]E∥∥∥?X(β^??β^?OLS?)∥∥∥?2=E(Hβ^?OLS??d)′[H(X′X)?1H′]?1(Hβ^?OLS??d)=(Hβ?d)′[H(X′X)?1H′]?1(Hβ?d)+tr[[H(X′X)?1H′]?1Cov(Hβ^?OLS?)]
在參數空間{(β,σ2):Hβ=d}\{(\beta,\sigma^2):H\beta=d\}{(β,σ2):Hβ=d}中,第一項(Hβ?d)′[H(X′X)?1H′]?1(Hβ?d)=0(H\beta-d)'[H(X'X)^{-1}H']^{-1}(H\beta-d)=0 (Hβ?d)′[H(X′X)?1H′]?1(Hβ?d)=0
計算第二項,根據上一講的最后一個定理,
Cov(Hβ^OLS)=σ2H′(X′X)?1HCov(H\hat\beta_{OLS})=\sigma^2H'(X'X)^{-1}HCov(Hβ^?OLS?)=σ2H′(X′X)?1H
因此
[H(X′X)?1H′]?1Cov(Hβ^OLS)=σ2Ik?tr[[H(X′X)?1H′]?1Cov(Hβ^OLS)]=tr(σ2Ik)=kσ2[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})=\sigma^2I_k \\ \Rightarrow tr[[H(X'X)^{-1}H']^{-1}Cov(H\hat\beta_{OLS})] = tr(\sigma^2I_k)=k\sigma^2[H(X′X)?1H′]?1Cov(Hβ^?OLS?)=σ2Ik??tr[[H(X′X)?1H′]?1Cov(Hβ^?OLS?)]=tr(σ2Ik?)=kσ2
這里k=rank(H)k=rank(H)k=rank(H),所以
E∥y?Xβ^∥2=(n?rank(X)+rank(H))σ2E \left\| y-X\hat{\beta}\right\|^2 = (n-rank(X)+rank(H))\sigma^2E∥∥∥?y?Xβ^?∥∥∥?2=(n?rank(X)+rank(H))σ2
證畢
總結
以上是生活随笔為你收集整理的UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH567 高维统计I 概率不
- 下一篇: UA MATH523A 实分析2 测度论