二值化_处理连续型特征:二值化与分段
preprocessing.Binarizer
? ? ? ?根據閾值將數據二值化(將特征值設置為0或1),用于處理連續型變量。大于閾值的值映射為1,而小于或等于閾值的值映射為0。默認閾值為0時,特征中所有的正值都映射到1。
? ? ? 二值化是對文本計數數據的常見操作,分析人員可以決定僅考慮某種現象的存在與否。它還可以用作考慮布爾隨機變量的估計器的預處理步驟(例如,使用貝葉斯設置中的伯努利分布建模)。
#將年齡二值化data_2?=?data.copy()
from?sklearn.preprocessing?import?Binarizer
X?=?data_2.iloc[:,0].values.reshape(-1,1)?#類為特征專用,所以不能使用一維數組
transformer?=?Binarizer(threshold=30).fit_transform(X)
transformer
preprocessing.KBinsDiscretizer
? ? ? ?這是將連續型變量劃分為分類變量的類,能夠將連續型變量排序后按順序分箱后編碼。
? ? ? ?總共包含三個重要參數:
n_bins:每個特征中分箱的個數,默認5,一次會被運用到所有導入的特征。
encode:
編碼的方式,默認“onehot”
"onehot":做啞變量,之后返回一個稀疏矩陣,每一列是一個特征中的一個類別,含有該類別的樣本表示為1,不含的表示為0
“ordinal”:每個特征的每個箱都被編碼為一個整數,返回每一列是一個特征,每個特征下含
有不同整數編碼的箱的矩陣
"onehot-dense":做啞變量,之后返回一個密集數組。
strategy:
用來定義箱寬的方式,默認"quantile"
“quantile":表示等位分箱,即每個特征中的每個箱內的樣本數量都相同;
(特征.max() - 特征.min())/(n_bins);
"kmeans":表示按聚類分箱,每個箱中的值到最近的一維k均值聚類的簇心得距離都相同;from?sklearn.preprocessing?歡迎轉發分享、點贊評論
總結
以上是生活随笔為你收集整理的二值化_处理连续型特征:二值化与分段的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: n条直线相交最多有几个邻补角_【东升二中
- 下一篇: 处理增删改_这10个批量处理的PPT技巧