决策树随机森林GBDT
決策樹算法
這篇文章:?https://zhuanlan.zhihu.com/p/26703300? 對決策樹算法說的非常深入淺出
決策樹模型核心是下面幾個(gè)部分:
(1) 結(jié)點(diǎn)和有向邊組成
(2) 結(jié)點(diǎn)有內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)2種類型
(3) 內(nèi)部結(jié)點(diǎn)表示一個(gè)特征,葉節(jié)點(diǎn)表示一個(gè)類
決策樹的關(guān)鍵步驟是分裂屬性:
所謂分裂屬性就是在某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支,其目標(biāo)是讓各個(gè)分裂子集盡可能地“純”。盡可能“純”就是盡量讓一個(gè)分裂子集中待分類項(xiàng)屬于同一類別。對應(yīng)不同的節(jié)點(diǎn)劃分方法,有不同的算法,分別是:ID3,C4.5算法以及CART算法:
ID3算法: 由于信息增益準(zhǔn)確是對可取值數(shù)目較多的屬性有所偏好,比如如果把編號放進(jìn)去,則編號的劃分純度非常高,但不具有泛化能力。
決策樹學(xué)習(xí)的關(guān)鍵其實(shí)就是選擇最優(yōu)劃分屬性,希望劃分后,分支結(jié)點(diǎn)的“純度”越來越高。那么“純度”的度量方法不同,也就導(dǎo)致了學(xué)習(xí)算法的不同。
我們既然希望劃分之后結(jié)點(diǎn)的“純度”越來越高,那么如何度量純度呢?
“信息熵”是度量樣本集合不確定度(純度)的最常用的指標(biāo)。
在我們的ID3算法中,我們采取信息增益這個(gè)量來作為純度的度量。我們選取使得信息增益最大的特征進(jìn)行分裂!那么信息增益又是什么概念呢?
https://zhuanlan.zhihu.com/p/26760551?這篇文章對ID3算和C4.5算法講的很好。
?
https://zhuanlan.zhihu.com/p/21359565?這篇文章對隨機(jī)森林講的不錯(cuò)。
那隨機(jī)森林具體如何構(gòu)建呢?有兩個(gè)方面:數(shù)據(jù)的隨機(jī)性選取,以及待選特征的隨機(jī)選取。
1. ?數(shù)據(jù)的隨機(jī)選取
首先,從原始的數(shù)據(jù)集中采取有放回的抽樣,構(gòu)造子數(shù)據(jù)集,子數(shù)據(jù)集的數(shù)據(jù)量是和原始數(shù)據(jù)集相同的。不同子數(shù)據(jù)集的元素可以重復(fù),同一個(gè)子數(shù)據(jù)集中的元素也可以重復(fù)。第二,利用子數(shù)據(jù)集來構(gòu)建子決策樹,將這個(gè)數(shù)據(jù)放到每個(gè)子決策樹中,每個(gè)子決策樹輸出一個(gè)結(jié)果。最后,如果有了新的數(shù)據(jù)需要通過隨機(jī)森林得到分類結(jié)果,就可以通過對子決策樹的判斷結(jié)果的投票,得到隨機(jī)森林的輸出結(jié)果了。如下圖,假設(shè)隨機(jī)森林中有3棵子決策樹,2棵子樹的分類結(jié)果是A類,1棵子樹的分類結(jié)果是B類,那么隨機(jī)森林的分類結(jié)果就是A類。
?
2. 待選特征的隨機(jī)選取:
與數(shù)據(jù)集的隨機(jī)選取類似,隨機(jī)森林中的子樹的每一個(gè)分裂過程并未用到所有的待選特征,而是從所有的待選特征中隨機(jī)選取一定的特征,之后再在隨機(jī)選取的特征中選取最優(yōu)的特征。這樣能夠使得隨機(jī)森林中的決策樹都能夠彼此不同,提升系統(tǒng)的多樣性,從而提升分類性能。
?
GBDT:梯度提升決策樹,主要用來做回歸,調(diào)整后也可以用來搞分類?http://www.jianshu.com/p/005a4e6ac775
http://www.jianshu.com/u/103933f0bbf0?這篇文章對gbdt的代碼進(jìn)行了優(yōu)化
GBDT的思想使其具有天然優(yōu)勢可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合。業(yè)界中,Facebook使用其來自動(dòng)發(fā)現(xiàn)有效的特征、特征組合,來作為LR模型中的特征,以提高 CTR預(yù)估(Click-Through Rate Prediction)的準(zhǔn)確性(詳見參考文獻(xiàn)5、6);GBDT在淘寶的搜索及預(yù)測業(yè)務(wù)上也發(fā)揮了重要作用(詳見參考文獻(xiàn)7)。轉(zhuǎn)載于:https://www.cnblogs.com/raul313/p/7751729.html
總結(jié)
以上是生活随笔為你收集整理的决策树随机森林GBDT的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实验报告三
- 下一篇: STL 容器 与 数据结构