《Credit Risk Scorecard》第四章:Data Review and Project Parameters
第四章:Scorecard Development Process, Stage 2: Data Review and Project Parameters
一: data avaliablity and quality
數據獲取,數量和質量,可靠和干凈的數據是需要的。
數據數量需要滿足多樣性,統計顯著和隨機。
具體數量大小,目前不是關鍵,依賴壞樣本定義。
對于申請評分卡(application scorecard),俗稱A卡,需要包含拒絕的樣本。通過拒絕推斷(reject inference)技術去推斷拒絕樣本中好樣本和壞樣本。
數據源的獲取:內部數據和外部數據,高質量內部數據需要處理,外部數據需要評估,量化和定義。重要一點是,個人建議: 數據源穩定性要監控,模型開發要考慮到源數據延時和缺失的情況。
二: Data Gathering for Definition?of Project Parameters
?對于申請評分卡來說,需要收集之前2到5年的樣本數據,或者大量足夠的樣本。相關字段(包括但不局限):
?(1)身份id; (2)申請日期; (3)賬號拖欠和索賠歷史數據; (4)接受/拒絕 標記; (5)產品/通道,或者其他標識符; (6)當前賬號狀態(e.g., 不活躍,關閉,丟失,被盜,欺詐等)
對于行為評分卡(behavior scorecard)來說,俗稱B卡,賬戶選擇是在一個時間點上,對他們的行為分析,通常以6到12個月為周期。
三: ?Definition of Project Parameters
3.1 ?Exclusions
?????評分卡模型有時候需要過濾掉一些特定賬號樣本。開發涉及的賬號樣本是應該是應用到潛在用戶,日常貸款針對的人群。對一些異常表現群體,如欺詐群體。還有員工,vip,國外,盜卡,未成年這些群體,是不能加入開發模型,需要采用一些特殊規則進行處理。
對于一些金融公司如果之前客戶涉及比較多,比如一家汽車貸款公司,之前貸款業務包括個人汽車業務,駕駛技術業務等,如果現在業務聚焦到個人汽車貸款業務,那他評分卡開發涉及的樣本則需要改變,只能包含個人汽車貸款用戶樣本。
?????對于exclusion的另外一個理解,這些exclusions可以看成一種sample bias 案例。比如你開發評分卡模型只針對城市人口,那你開發樣本中則不能包含任何非城市人口。總體來說,如果一個群體或者申請類型,在未來應用上是不會被評分的,那這些樣本是不應該加入模型開發中的。
3.2 ?Performance and Sample Windows and “Bad” Definition?(表現窗口,樣本窗口,以及壞樣本定義)
?????評分卡模型是基于這樣一個假設“未來的表現將反映過去的表現" 。
?????所以,我們在收集樣本時候,需要考慮一個具體時間點開戶的賬戶,同時監控他們另外一個具體時間段表現,來確定這些樣本是好的還是壞的。開發樣本數據包含了樣本變量和樣本目標標簽。
???“perfomance window”(表現窗口)定義:為了確定賬戶分類(好的還是壞的)而監控賬戶行為的時間窗口。
?????“sample window”(樣本窗口)定義:選取已經確定好壞分類標簽的開發樣本的時間點。
?????表現窗口在樣本窗口之后。
???????
?????
如何確定樣本窗口和表現窗口,常見的方法是vintage analysis。
通過觀察不同表現窗口,觀察不良率曲線是否達到穩定。一般選取達到穩定期的時間窗。
“ever bad”define:對于表現窗口期內任何時間點達到預先定義好的不良狀態,則賬戶分類為壞樣本。
“current”define:只考慮最近最后一個月的不良狀態。
下面是一個賬號24個月的不良歷史行為記錄,delq行代表逾期月數。
如果采用“ever bad”define方法,這個賬戶分類為3個月不良狀態,如果采用“current”define方法,這個賬號被分類為無不良狀態。
3.3 Effects of Seasonality
樣本選擇時候需要考慮季節性影響。我們的開發樣本不應該包含異常時間段樣本, 我們開發樣本應該和正常商業時間段保持一致。這樣能保證之前的假設“未來和過去是相似的”,也能確保模型的預測準確性和魯棒性。
如何過濾異常時間段樣本? 一種常見的方法,通過比較用戶特征平均屬性和樣本窗口開發樣本特征屬性。
舉個例子: ?一個公司期望他們的信用卡申請者主要是成年的男士和女士,但是他們發現樣本窗口中有一個月樣本主要年輕人。這種情況是那個月有一個汽車展。針對這種情況,需要擴大樣本窗口,來平滑特征時間段的影響。
還有一種處理方式,就是過濾異常時間段樣本。比如一個公司確定他未來針對的客戶不會包括年輕女性,那么開發樣本中就可以過濾掉年輕女性樣本。
季節性影響,也可以通過采取多樣本窗口,固定表現窗口的的方法來處理。
3.4 Definition of “Bad”
如何定義賬戶表現是否是壞樣本? ?破產,欺詐行為是一種相對直接的壞賬戶定義方式,但不是唯一方式。如果按照不良率方式定義的話,這里會涉及到根據不同不良等級的多種選擇。
對于壞賬戶的定義,會有如下的考慮:
?(1)需要和公司目標保持一致;
(2)需要和產品或者評分卡針對的目標保持一致;
(3)如果是設置相對嚴謹的定義,比如120+天不良率,準確率會相對較高,但是樣本量會減少;
(4)如果設置相對寬松的定義,比如30天不良率,樣本會很多,但是準確率會降低,好壞樣本的區分度不夠強,評分卡模型會變弱;
(5)定義必須好解釋和追蹤;
(6) 針對同一公司,不同場景的評分卡,使用相對統一定義,是相對有益,這樣方便管理。
(7) 有時需要遵守一些國家規定或者官方組織約定的定義方式;
常見的確定定義,采用滾動率分析(Roll Rate Analysis)和 當前和歷史最壞比較分析(Current versus Worst Delinquency Comparison)
"Roll Rate Analysis" : ?滾動率分析主要分析比如30天不良行為賬戶中有多少比率轉化成60天不良行為賬戶,60天不良行為賬戶多少比率轉化為90天不良行為賬戶等等。比如下面中可以發現,對于30天不良行為賬戶有13%率轉化成更長時間不良行為賬戶。通過滾動率分析,主要確定多長時間不良行為的賬戶大多數會成為最終的壞賬戶。通過最短的表現窗口來捕獲絕大多數壞賬戶樣本。
Current versus Worst Delinquency Comparison: 其實和滾動率分析很相似,但是相對容易執行。分析賬戶歷史最壞不良狀態和最近不良狀態,進行比較。從下面圖可以,看到歷史30天不良行為賬戶,84%最近都沒有不良行為,相反90天歷史不良賬戶60%最近都保持90天不良行為或者更長時間不良行為。和滾動分析類似,這種方法,也是為了確定多長時間不良行為的賬戶大多數會成為最終的壞賬戶。
3.5 “Good” and “Indeterminate”
好樣本定義和中間不確定樣本定義。
Good 好樣本特性可能:(1)無不良行為或者不良行為前向滾動率低于10%(前向滾動率: 比如30天不良行為向60天不良行為轉化率)。(2)盈利的,正向NPV;
?(3)無索賠; (4)無破產;(5)無欺詐;
Indeterminate: 指那些沒有落入bad和good類目中的賬戶樣本。這樣賬戶沒有足夠多的表現歷史或者有不良行為但是滾動率比較低(比如有30天不良行為,但是沒有進一步向更高風險轉化)。
常見特性可能如下:(1)命中30天或者60天不良行為,但是沒有進一步前向滾動; (2)不活躍用戶或者自動取消用戶; (3)不經常使用賬戶;?
(4)索賠金額低于某個閾值的保險賬戶; (5)NPV=0的賬戶;
一般Indeterminate賬戶不超過10%-15%比率,如果過高,是需要核查相關原因。
真實評分卡開發時候,只會包含好壞樣本。
4 Segmentation
相對采用統一的評分卡,分場景切割樣本,按不同場景構建不同評分卡模型可能更有效。
常見的場景劃分方法:(1)專家經驗和領域知識,再加以統計分析;(2)統計方法,如聚類和決策樹等;
?4.1 專家經驗
劃分的方式:(1)人口統計學規則:根據地理位置,年齡等。(2)產品類型:金卡或者普通卡,保險類型等 (3)獲客來源:客戶來源來源于店面, 互聯網,經銷商,電話等 ?(4) 數據來源;(5)申請類型: 新用戶還是老用戶;?
4.2 統計方法(略)
4.3 comparing the improvement
什么樣的劃分是合理的?相對不劃分是否有提升? 這里主要參考c-stat,ks統計或者商業上的提升。具體可以參考下面兩幅圖。
4.4 chose segments
至于選擇什么劃分方式,需要綜合考慮開發代價,實現代價,監控策略等。
?
總結
以上是生活随笔為你收集整理的《Credit Risk Scorecard》第四章:Data Review and Project Parameters的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Credit Risk Scoreca
- 下一篇: 信用评分如何应用在风控策略中(二)