不均衡数据的处理方法
關于不均衡數據的處理方法,主要有以下幾個方面:
1. 采樣的方法
? ?1.1 過采樣,采集類標少的樣本,達到平衡樣本的目的。
? ? ? ? ?方法一,簡單的復制類標少的樣本
? ? ? ? 方法二,生成人工樣本(SMOTE方法),MATLAB代碼?SMOTE (Synthetic Minority Over-Sampling Technique) - File Exchange - MATLAB Central
? ?1.2 下采樣,將大樣本隨機分成N類,結合類標少的樣本進行訓練N個模型,最后結果是N個模型的加權平均來刻畫。
2. 基于名義變量的方法,也就是代價敏感函數方法。
? ? ? cost-sensitive learning, penalized-SVM
3.?RUSBoostcan be implemented in Matlab using the 'fitensemble' technique.?
? ??Using classifiers which can handle the imbalance problem such as the RUSBoost technique
Matlab代碼可見?
RUSBoost
以上方法的所有細節可參看下面的博文
(1)Class Imbalance Problem
(2)不平衡數據下的機器學習方法簡介
(3)8大策略讓你對抗機器學習數據集里的不均衡數據
(4)Quora上面的解答:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set
翻譯見:http://blog.csdn.net/heyongluoyao8/article/details/49408131
(5)在分類中如何處理訓練集中不平衡問題
?
?(6)知乎上的討論?https://www.zhihu.com/question/36514847
? ? ? ? ? ? ? ? ? ? ?https://www.zhihu.com/question/30492527
總結
以上是生活随笔為你收集整理的不均衡数据的处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广州银行美团信用卡可以取现吗?这两个事项
- 下一篇: 广州银行美团信用卡额度多少?怎么提额?