Python3入门机器学习之2.8scikit-learn中的Scaler
Python3入門機器學習
2.8 scikit-learn中的Scaler
1.對測試數據如何歸一化?
對于我們的原始數據集我們要將它拆分成訓練數據集和測試數據集,如果我們要用歸一化后的數據來訓練我們的模型的話,顯然我們首先要對訓練數據集進行歸一化處理。比如說我們進行均值標準差歸一化這樣的方法,我們相應就要求出來我們訓練數據集對應的均值mean_train,以及訓練數據集對應的標準差std_train。當我們這樣歸一化之后,我們將這樣的訓練數據集用于訓練模型,最終我們要使用獲得的這個模型來預測數據,那么對于測試數據集相應的也要進行歸一化處理。那么現在問題來了,對于測試數據集我們如何進行歸一化處理呢?可能有人就會說,把整個測試數據集求一下它的均值mean_test和標準差std_test,用這兩個值對測試數據集進行歸一化,然后再講這個測試數據送給我們訓練出的這個模型進行預測,不是就可以了嗎?這樣做是不可以的。
我們正確的做法應該是將我們的測試數據集使用訓練數據集得到的mean_train和std_train相應的進行歸一化。換句話說,我們應該用我們的測試數據集x_test去減去mean_train,然后再去除以std_train,即(x_test - mean_train) / std_train來得到均值標準差歸一化的結果。為什么這樣做呢?有以下幾個原因:
首先最主要的原因在于,我們在這里劃分出了一部分原始數據作為測試數據集,對于這個測試集我們確實很容易得到它的均值和標準差。但是不要忘記,我們訓練出這個模型是為了讓它使用在真實的環境中,可是很多時候在真實的環境中我們是無法得到所有的測試數據相應的均值和標準差。另外一個原因,其實將我們的數據歸一化也是我們算法本身的一部分,換句話說,我們可以理解成我們的算法就包括(x_test - mean_train) / std_train,針對后面來的數據我們也應該使用同樣的方式進行處理,然后來測試它的準確度,得到的才是真正的我們自己做的這個算法它對應的準確度。
所以我們需要保存訓練數據集得到的均值和標準差,為了方便這一步的操作,在scikit-learn中對數據的歸一化專門封裝了一個類,這個類叫做Scaler。scikit-learn的封裝里面想辦法讓這個Scaler這個類和我們的機器學習算法這個類整體的使用流程是一致的,如下圖就是scikit-learn中封裝的Scaler類的使用流程:
其中,fit就是求出訓練數據集對應的一些統計指標,比如說對于均值標準差歸一化來說,fit后就求出了訓練數據集相應的均值和標準差。
2.實際操作:
(1).首先準備好數據集,仍然使用鳶尾花的數據集:
以下為使用scikit-learn中的StandardScaler對數據進行歸一化處理:
(2).引入scikit-learn中的StandardScaler,調用fit()函數,根據訓練數據集獲得數據的均值和方差:
(3).將數據根據這個StandardScaler進行均值標準差歸一化處理:
(4).最終預測分類準確度:
3.嘗試自己封裝StandardScaler這個類:
總結
以上是生活随笔為你收集整理的Python3入门机器学习之2.8scikit-learn中的Scaler的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年个人成长总结
- 下一篇: SLAM入坑之一:用realsense