集成学习之sklearn中的xgboost基本用法 (转载)
轉(zhuǎn)載自:https://blog.csdn.net/qq_30868235/article/details/80370060
1.數(shù)據(jù)集
????? 數(shù)據(jù)集使用sklearn自帶的手寫數(shù)字識(shí)別數(shù)據(jù)集mnist,通過(guò)函數(shù)datasets導(dǎo)入。mnist共1797個(gè)樣本,8*8個(gè)特征,標(biāo)簽為0~9十個(gè)數(shù)字。
### 載入數(shù)據(jù)
from sklearn import datasets # 載入數(shù)據(jù)集
digits = datasets.load_digits() # 載入mnist數(shù)據(jù)集
print(digits.data.shape) # 打印輸入空間維度
print(digits.target.shape) # 打印輸出空間維度
?
"""
(1797, 64)
(1797,)
"""
2.數(shù)據(jù)集分割
????? sklearn.model_selection中train_test_split函數(shù)劃分?jǐn)?shù)據(jù)集,其中參數(shù)test_size為測(cè)試集所占的比例,random_state為隨機(jī)種子(為了能夠復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果而設(shè)定)。
### 數(shù)據(jù)分割
from sklearn.model_selection import train_test_split # 載入數(shù)據(jù)分割函數(shù)train_test_split
x_train,x_test,y_train,y_test = train_test_split(digits.data, # 特征空間
digits.target, # 輸出空間
test_size = 0.3, # 測(cè)試集占30%
random_state = 33) # 為了復(fù)現(xiàn)實(shí)驗(yàn),設(shè)置一個(gè)隨機(jī)數(shù)
?
3.模型相關(guān)(載入模型--訓(xùn)練模型--模型預(yù)測(cè))
????? XGBClassifier.fit()函數(shù)用于訓(xùn)練模型,XGBClassifier.predict()函數(shù)為使用模型做預(yù)測(cè)。
### 模型相關(guān)
from xgboost import XGBClassifier
model = XGBClassifier() # 載入模型(模型命名為model)
model.fit(x_train,y_train) # 訓(xùn)練模型(訓(xùn)練集)
y_pred = model.predict(x_test) # 模型預(yù)測(cè)(測(cè)試集),y_pred為預(yù)測(cè)結(jié)果
4.性能評(píng)估
????? sklearn.metrics中accuracy_score函數(shù)用來(lái)判斷模型預(yù)測(cè)的準(zhǔn)確度。
### 性能度量
from sklearn.metrics import accuracy_score # 準(zhǔn)確率
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))
5.特征重要性
??????xgboost分析了特征的重要程度,通過(guò)函數(shù)plot_importance繪制圖片。
### 特征重要性
import matplotlib.pyplot as plt
from xgboost import plot_importance
fig,ax = plt.subplots(figsize=(10,15))
plot_importance(model,height=0.5,max_num_features=64,ax=ax)
plt.show()
6.完整代碼
### load module
from sklearn import datasets
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
### load datasets
digits = datasets.load_digits()
### data analysis
print(digits.data.shape) # 輸入空間維度
print(digits.target.shape) # 輸出空間維度
### data split
x_train,x_test,y_train,y_test = train_test_split(digits.data,
digits.target,
test_size = 0.3,
random_state = 33)
### fit model for train data
model = XGBClassifier()
model.fit(x_train,y_train)
### make prediction for test data
y_pred = model.predict(x_test)
### model evaluate
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))
"""
95.0%
"""
轉(zhuǎn)載于:https://www.cnblogs.com/xitingxie/p/11323114.html
總結(jié)
以上是生活随笔為你收集整理的集成学习之sklearn中的xgboost基本用法 (转载)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Spark 系列(一)—— Spark简
- 下一篇: JSP中的日期问题