吴恩达机器学习笔记(三) —— Regularization正则化
?
主要內容:
一.欠擬合和過擬合(over-fitting)
二.解決過擬合的兩種方法
三.正則化線性回歸
四.正則化logistic回歸
五.正則化的原理
?
?
一.欠擬合和過擬合(over-fitting)
1.所謂欠擬合,就是曲線沒能很好地擬合數據集,一般是由于所選的模型不適合或者說特征不夠多所引起的。
2.所謂過擬合,就是曲線非常好地擬合了數據集(甚至達到完全擬合地態度),這貌似是一件很好的事情,但是,曲線千方百計地去“迎合”數據集,就導致了其對其他數據的預測性或者說通用性不高。這就好像,期末考試前,老師指明了考試內容,同學千方百計地去復習這些內容,于是就就很容易拿到高分,這就可以理解為過擬合,但當以后要用到這一門科目的其他知識的時候,之前的復習的用處就大打折扣了,因為基本沒有觸及到其他知識,即期末考試前的“復習”只迎合了期末考試,但對以后的幫助不大,通用性不高。
?
?
二.解決過擬合的兩種方法
1.減少特征數(feature):可知,當特征x1、x2……xn的數量n越多時,就越容易擬合數據集(特征越多,曲線越彎曲,伸縮性越大)。所以為了防止過擬合,可以手工地去掉一些特征或者利用一些算法自動篩選出特征。比如,預測房子價格時,有大小和房間數兩個特征,這時可以去掉房間數這個特征以避免過擬合。
2.正則化:正則化可以保留下所有的特征,但是需要對參數做一些“懲罰”,這個“懲罰”就是降低參數的數量級,事實證明(別人說的,人云亦云的我):當參數的值處以一個較小的范圍內時,曲線相對平滑,也就可以避免過擬合了。至于如何“懲罰”,請看下文。
?
?
三.正則化線性回歸
我們在損失函數的后面加多一項:
?
向量化后:
?
這一項就叫做“正則項”,起到了懲罰參數的作用。注意j是1開始到n,即不懲罰θ0,具體原因現在還不清楚。
其中λ調節著正常項與正則項在損失函數中所占的比重,當λ過大時,正則項所占的比重就會很大,導致參數的數量級很小,甚至接近于0,出現欠擬合的現象。
?
正則化后的梯度下降為:
對于上式θj(1<=j<=n),將其進一步化簡,得:
其中是一個小于1的正數(具體原因現在還不清楚)。在每次迭代的時候,θj都是先乘以一個小于1的倍數再去減那一堆東西,所以相比沒有正則化,正則化后的就更容易變小了(模模糊糊的)。
向量化后:
(注意:正則項的Θ0應該改為0,表明不懲罰Θ0)
?
而對于最小二乘法,就變為了:
?
?
四.正則化logistic回歸
加入正則項后:
向量化后:
?
梯度下降就變為:
向量化后:
?
?
五.正則化的原理
在損失函數里加多一個λθ^2,就可以對參數θ進行懲罰,降低θ的數量級,這是為什么呢?有什么數學的解釋?
答:自己想到一個。當θ越靠近0時,θ^2越小;當θ越遠離0時,θ^2越大。所以在最小化損失函數的過程中,λθ^2這一項有拉低θ的數量級的作用(使得θ往0的方向靠近),從而對參數θ進行懲罰。
?
轉載于:https://www.cnblogs.com/DOLFAMINGO/p/9307472.html
總結
以上是生活随笔為你收集整理的吴恩达机器学习笔记(三) —— Regularization正则化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: bootstrap3中模态框的数据编辑使
- 下一篇: 北京认真国际教育学习军队文职怎么样?