Blending and Bagging
生活随笔
收集整理的這篇文章主要介紹了
Blending and Bagging
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Blending and Bagging
目錄(?)[+]
第七講:Blending and Bagging
1、Motivation of Aggregation(融合的動機)
恰當的融合可以得到更好的表現
2、Uniform Blending(平均融合)
分類回歸
理論分析: ? ??所有誤差g的平均 ?>= ?平均的誤差G ? ??但是最好的誤差g是否比平均的誤差G不知道。
演算法的平均表現 = 個別與共識的差距(variance) + 共識的表現(bias) 平均的過程:消除個別與共識的差距,從而得到更穩定的表現
3、Linear Blending(線性融合)
線性融合 ?= 線性模型 + g當作轉換 +條件(a>=0)條件(a>=0)這一項可以去除,當a<=0時表示這一項起反效果。
Linear Blending在Selection時候: 應該通過?Eval而不是Ein; 相應的在Dval上驗證的模型應該是g-而不是g。(若是選擇g,因為這些model在Ddata上訓練,Ddata=Dtrain+Dval,所以相當于見過Dval,可能會過擬合)
linear Blending 和?any Blending?OR Stacking(non-linear): 通過在Dtrain上訓練一批模型g-,然后在Dval上驗證找出最好的alpha,但是最后返回的模型是alpha和g。
例舉了臺大在2011 KDDCup通過Blending拿到冠軍的故事,說明Blending確實很有效如果不惜計算量的話。
4、Bagging(Bootstrap Aggregation)
blending:在得到g后融合。 learning:一邊學到g一邊融合起來 g是如何得到的呢? 模型的不同、參數的不同、算法隨機性的不同、數據隨機性的不同
很多g的共識比單一g好,但是手上沒有大量的數據產生不同的g。 boostrapping的思想:從手上有限的數據模擬出不同的數據。
boostrapping:從N個數據中有放回隨機采樣N(或少于N)次,每次采樣1個樣本。意味著同一個數據可能被采樣多次。
boostrap aggregation(BAGging):建立在base算法上的meta算法。
例子:由25條Bagging?Pocket產生的線融合得到的一個效果還可以的分類線。 如果base算法對數據隨機性敏感的話,Bagging 會得到不錯的效果。
練習:boostrap過程有NN情形產生,里面有N!種會是原來數據的排列組合
總結
以上是生活随笔為你收集整理的Blending and Bagging的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XGBoost Plotting API
- 下一篇: 机器学习竞赛技巧