为什么L1稀疏,L2平滑?
問題
為什么L1正則化較容易產(chǎn)生稀疏解,而L2正則化較平緩穩(wěn)定?
介紹L1和L2
??L1和L2正則常被用來解決過擬合問題。而L1正則也常被用來進(jìn)行特征選擇,主要原因在于L1正則化會使得較多的參數(shù)為0,從而產(chǎn)生稀疏解。我們可以將0對應(yīng)的特征遺棄,進(jìn)而用來選擇特征。
角度一 ——從代價函數(shù)上來看
但為什么L1正則會產(chǎn)生稀疏解呢?這里利用公式進(jìn)行解釋。
假設(shè)只有一個參數(shù)為w,損失函數(shù)為L(w),分別加上L1正則項(xiàng)和L2正則項(xiàng)后有:
假設(shè)L(w)在0處的倒數(shù)為d0,即
則可以推導(dǎo)使用L1正則和L2正則時的導(dǎo)數(shù)。
引入L2正則項(xiàng),在0處的導(dǎo)數(shù)
引入L1正則項(xiàng),在0處的導(dǎo)數(shù)
可見,引入L2正則時,代價函數(shù)在0處的導(dǎo)數(shù)仍是d0,無變化。而引入L1正則后,代價函數(shù)在0處的導(dǎo)數(shù)有一個突變。從d0+λ到d0?λ,若d0+λ和d0?λ異號,則在0處會是一個極小值點(diǎn)。因此,優(yōu)化時,很可能優(yōu)化到該極小值點(diǎn)上,即w=0處。
這里只解釋了有一個參數(shù)的情況,如果有更多的參數(shù),也是類似的。因此,用L1正則更容易產(chǎn)生稀疏解。
角度二 ——L1正則化本身的導(dǎo)數(shù)性質(zhì)
這個角度從權(quán)值的更新公式來看權(quán)值的收斂結(jié)果。
首先來看看L1和L2的梯度(導(dǎo)數(shù)的反方向):
所以(不失一般性,我們假定:wi等于不為0的某個正的浮點(diǎn)數(shù),學(xué)習(xí)速率η 為0.5):
L1的權(quán)值更新公式為wi = wi - η * 1 = wi - 0.5 * 1,也就是說權(quán)值每次更新都固定減少一個特定的值(比如0.5),那么經(jīng)過若干次迭代之后,權(quán)值就有可能減少到0。
L2的權(quán)值更新公式為wi = wi - η * wi = wi - 0.5 * wi,也就是說權(quán)值每次都等于上一次的1/2,那么,雖然權(quán)值不斷變小,但是因?yàn)槊看味嫉扔谏弦淮蔚囊话?#xff0c;所以很快會收斂到較小的值但不為0。
下面的圖很直觀的說明了這個變化趨勢:
L1能產(chǎn)生等于0的權(quán)值,即能夠剔除某些特征在模型中的作用(特征選擇),即產(chǎn)生稀疏的效果。
L2可以得迅速得到比較小的權(quán)值,但是難以收斂到0,所以產(chǎn)生的不是稀疏而是平滑的效果。
角度三 ——幾何空間
這個角度從幾何位置關(guān)系來看權(quán)值的取值情況。
直接來看下面這張圖
高維我們無法想象,簡化到2維的情形,如上圖所示。其中,左邊是L1圖示,右邊是L2圖示,左邊的方形線上是L1中w1/w2取值區(qū)間,右邊得圓形線上是L2中w1/w2的取值區(qū)間,綠色的圓圈表示w1/w2取不同值時整個正則化項(xiàng)的值的等高線(凸函數(shù)),從等高線和w1/w2取值區(qū)間的交點(diǎn)可以看到,L1中兩個權(quán)值傾向于一個較大另一個為0,L2中兩個權(quán)值傾向于均為非零的較小數(shù)。這也就是L1稀疏,L2平滑的效果。
參考
https://vimsky.com/article/969.html
https://blog.csdn.net/b876144622/article/details/81276818
https://blog.csdn.net/liangdong2014/article/details/79517638
總結(jié)
以上是生活随笔為你收集整理的为什么L1稀疏,L2平滑?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: shape的各种获取、更改以及设置方式辨
- 下一篇: L2正则化方法