【待继续研究】建模-听说你的坏样本不太够
今天的話題我們分為兩部分,一部分是在建模前提如何處理壞樣本過少的問題,第二部分是說模型建立之后,驗證你這模型的效果的方法。
?
首先樣本過少分成兩種過少的情況。一種是的的確確就是沒啥壞樣本,就是幾十個,一百來個。另外一種就是相對于好樣本,比較少,例如你有一百萬的好樣本,只有一萬的壞樣本,第二種就是屬于樣本不均衡的話題,這個網上的文獻也都有好多,我這里就不展開了。
?
樣本過少之我只有幾十個壞樣本。這種情況多數發生在產品剛上線的時候,沒啥數據,但是又覺得規則撐不住,所以還是想做模型來和規則一起來維穩,這時候你可以把這種情況當做冷啟動來處理,我之前講冷啟動的時候,提到一點點,這邊我們來細化一下可以有哪些方法。
?
放棄這僅有的樣本,重新尋找近似的壞樣本。為什么我說要放棄這僅有的樣本,如果是產品上線的初期,首先這時候你的風控不敢放松,容忍度較低,那么通過率相對較低,這是壞樣本少的一個方面,另外一個方面就是,本身產品剛上線的話,可能壞樣本就是近一個月進來產生的壞樣本,指不定就是逾期了3天,你就覺得他是壞客戶,這有些說不過去,所以這里有兩個點希望你放棄這批壞樣本:1、夠不夠壞,如果夠壞,那是不是剩十幾個了。2、壞樣本的覆蓋面不全,這個月進來的壞樣本的特征不能覆蓋到基本的壞樣本的特征,盡管可以擬合出來的模型在當下有用,但是后續還是有很大的可能會不穩定。
?
在第一點中我說希望你放棄壞樣本的理由,如果你的壞樣本不滿足第一天的條件,你可以不放棄的,我不想勸你。那么補充壞樣本可以有以下幾種方式:
?
1.其他數據的標準定義壞樣本。你們公司接了什么第三方數據我不知道,但是一般一般呢,不是粗暴放款的,至少都接了簡版征信,簡版征信中有好幾個逾期標準,舉個例子哈,五年內超過90天逾期的次數,點到為止,你自己在這份數據中衍生其他逾期標準。這思路就跟你找犯人的時候,把之前有前科的人抓出來掃一遍一樣。
?
2.使用其他數據閾值切分壞樣本。我又要拿我喜歡拿出來舉例子的數據----多頭數據,這個方法跟警察抓嫌疑犯一樣,雖然我沒看到你明顯犯罪了,但是我覺得你有動機。可以使用多頭的數據中,你們不能容忍的超過幾次的閾值,例如近一個月超過20次,那么等于大于20次的客戶就是壞客戶。
?
3.物以類聚法或者專家評分卡。根據你的經(感)驗(覺)找出幾個跟客戶逾不逾期的強相關變量,最好是數值型的變量,這時候可以把那之前提到的那幾十個壞樣本,使用聚類(建議knn)找出,哪一類的壞樣本的占比最高的,把這個類的樣本就當做壞樣本。后者使用專家評分卡,找出專家評分卡下分數比較低的那5%-10%。
?
4.使用人工標準。那么我們在審批環節中(假設你們還是有人工介入的),這時候可以概括兩種拒絕的人:1、系統拒絕,2、人工拒絕。那么系統拒絕的客戶,你可以定義為,他一出來,你一眼就知道他是壞人,人工拒絕的客戶,你可以理解為,這貨一路偽裝了好多東西,但是最后被你們公司高端的審批高超的話術征服了,道出了他想犯罪的想法,然后你叫他滾,然后他犯罪不遂,但是沒有你們高端的審批,這個人就可能變成你們公司的壞客戶。那么這里說一個問題,就是公司做模型是為了什么,為的節省人力,最理想的狀態就是風控的各個環節可以讓90%的客戶完成審核審批,10%人工核驗,你們要是有種100%風控系統全自動審批,我也不攔你。所以你這時候,你就發現,你頂著風控建模師的職稱,你的工作就變成把這本應人工拒絕的客戶變成你的模型能拒絕的,所以人工拒絕的客戶就變成你的壞客戶了,這些思路順著下去,你可以分析出更多適合你的模型的壞客戶。
?
5.無監督建模。這個方法是區別于以上四個方法,以上都是在說怎么找出壞樣本,因為我們要做監督模型,那么要是你有種一點,你跟領導說,我覺得我做無監督的效果也可以做的很牛逼,這我也不攔你的,畢竟建模的思維本來就是擴散,這個就有個問題就是說,如果是無監督的話,那么可能部署到系統上是個問題。
總結
以上是生活随笔為你收集整理的【待继续研究】建模-听说你的坏样本不太够的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【采用】信用风险评分卡系列之数据处理
- 下一篇: python评分卡建模-实现WOE编码及