评分卡开发方法论scorecard
學習評分卡對于我這種非科班出身來說是比較難的一件事情(我是搞程序員出身,科班軟件工程的),在過去查閱和學習了很多資料后,發現了一個評分卡的開發方法論:SCORECARD,感覺比較符合軟件工程思想,而且也容易讓人記住,所以推薦此方法論來學習評分卡開發,下面介紹一下這個方法論的內容。
?
這九個字母分別是九個英文單詞的首寫字母,代表評分卡開發工作順序,它們的含義分別是:
S = Sampling數據選取與抽樣
C = Cleansing數據檢測、數據清洗、數據鏈接與合并
O = Optimization數據優化處理,包括客戶分群(Segmentation)、變量分析與加工、粗分組等
R = Regression利用統計學回歸技術構建模型
E = Equalization將模型轉化為評分卡形式
C = Confirmation?評分卡評估與確認
A = Administration評分卡實施上線與管理,包括指定管理人,記錄評分卡使用情況等
R = Review評分卡跟蹤驗證
D = Documentation整理記錄,完成項目技術文檔
下面按照字母順序,詳細描述SCORECARD方法論的關鍵內容:
S = Sampling,數據選取與抽樣(建議雙盲隨機抽取)
開發評分卡,我們希望能夠使用所有可以獲得的數據,對數據的存在性、獲得的難易程度、未來使用的可能性、時效性、以及數據質量進行評估,去除不能用來開發評分卡的數據,通過取舍過程確定開發數據集,這個過程就是數據選取。
首先、我們需要確定評分卡的開發目標,也就是評分卡要解決的問題,即要衡量和預測什么;
其次、是選擇數據的觀察區間和表現區間,觀察區間是獲得評分卡自變量的數據采集時間段,表現區間則是評分卡因變量的數據采集時間段,表現區間采集的客戶表現數據,用來確定“好”、“壞”客戶。
絕大多數情況下,在開發評分卡的業務中,可以把賬戶按照日常運營操作的實際情況分為“好”賬戶、“壞”賬戶。所謂的“好”賬戶,就是日常愿意保留的賬戶,而“壞”賬戶是產生日常不希望看到的情況的那些賬戶。這里的定義往往在每次開發評分卡的時候都需要仔細討論。相對于“壞”賬戶的數量來說,往往存在有大量的“好”賬戶,而且數目可能很大。開發統計學評分卡,通常不需要將所有的“好”賬戶都納入開發數據集,而是從“好”賬戶中選取有代表性的樣本數據,這個過程稱為數據抽樣。常用的抽樣方法有:簡單隨機抽樣、系統抽樣、整群抽樣和分層抽樣,將根據實際情況確定抽樣方法。
C = Cleansing, 數據檢測、數據清洗、數據鏈接與合并(數據集市的那套建設方法)
選定樣本數據后,可能會提供多個來源、甚至多種類型的數據集。我們需要首先將這些數據集進行整理,成為同一類數據,例如SAS數據,或者TXT形式的數據。數據整理的復雜程度取決于日常的數據存儲方式、評分卡建立需要使用的數據源數量、及數據維護方式。數據整理過程包括下面三個步驟:
1、數據檢測。原始數據通常會存在各種各樣的問題,如:不同時期的數據格式不一致,存在錯誤值、缺失值、異常值等。數據檢測是通過對變量進行分步檢測工作,發現數據中存在的問題。
2、數據清洗。根據數據檢測的結果,對數據中存在的錯誤和問題進行針對性處理,剔除不合理記錄、去掉重復記錄、及對缺失數據項進行處理,將“不干凈數據”清洗成“干凈數據”。比較常見的缺失數據處理方法有:直接刪除法、特殊值填充法、平均數填充法、眾數填充法等。考慮到在未來將評分卡應用到零售日常業務過程中會遇到的復雜情況,通常會根據實際數據情況采用某一種簡單但是有效的處理方法。
3、數據鏈接與合并。這些數據集之間應當有必要的匹配鍵,例如:申請編號、賬號等等。按照相應的匹配鍵將整理好的數據集進行鏈接與合并,形成一個扁平文件。
O = Optimization,數據優化處理,包括客戶分群(Segmentation)、變量分析與加工、粗分組等
數據的詳細分析與加工,在開發評分卡的流程中,占有絕對重要的地位,也是花費時間最多的一項工作。在數據質量相同的前提下,只有這一步工作進行得細致周到,才有可能開發出高質量的評分卡。歷史經驗表明,如果對數據進行同樣深度的加工,無論將來采用哪種評分卡開發方法,結果的差異性不會很大,反之,如果數據分析加工工作做得不夠深入,無論用什么方法,都不可能得到高質量的評分卡。
按順序對工作步驟介紹如下:
1、客戶分群(Segmentation)。客戶分群是對這些開發數據進行詳細分析,將風險成因特征相似的客戶聚在一起,將風險成因特征差異較大的人分為不同的群體,使得分別開發的評分卡都更具有針對性。分群首先要基于業務用途,其次是結合數據進行調整。
2、中間變量(Attributes)。根據評分卡開發經驗對建模數據進行加工,產生中間變量,也就是衍生變量。中間變量的產生是評分卡開發的一個重要環節,沒有合理的中間變量集,就不可能建立高質量的評分卡。產生中間變量時,要考慮變量的預測能力、變量的類別、變量的穩定性等因素,盡量覆蓋到影響評分卡預測目標的所有角度。在這個環節中,需要對連續型數值變量進行離散化處理。
3、粗分組(Coarse Classing)。在將連續型數值變量進行離散化處理之后,所有有可能進入模型的變量都需要逐一進行粗分組運算。對變量進行粗分組處理,既可以避免模型出現過渡擬合,影響將來評分卡的穩定性,也可以解決模型對變量的單調性和線性要求。粗分組的一般原則是在預測未來表現時,將模式相近的相鄰變量屬性進行組合,同時確保分組中有足夠的樣本以彰顯統計意義。粗分組工作的結果,是將所有可能進入評分卡的變量都劃分成有限個屬性區間或組別的形式,從而可以以啞變量或者證據權重的形式進入建模型階段。
最后,將開發數據全部整理到一個數據集內,我們將得到一個數據表,采用以每條記錄為一行的數據羅列方式。
R = Regression, 利用統計學回歸技術建模型
世界上流行的評分模型開發方法主要分三類:非線性規劃算法、統計學回歸算法、神經網絡算法(目前還流行隨機森林、機器學習鄧算法應有盡有,我自己比較喜歡用L+SVM的方式)。在對數據進行了充分的分析與加工之后,三者之間的差異性通常不是很大(根據工作中某博士自己做的不同類型的方法出來的評分卡差異性在13%左右,也說明任何一種方法都不會完美解決一個問題)。主要采取的是統計學回歸算法(FICO評分只用L模型,迭代了超過七各版本)。對于預測的二元(或多元)因變量情況,廣義線性模型中的Logistic回歸可以滿足要求。從單個變量來看,可能很多變量都有預測能力,但是由于變量之間有一定的相關性,因此高度相關的變量可能不需要同時進入模型,增加系統運算壓力。有些變量的預測能力遠遠不足以幫助模型提高預測能力,盡管自身具有一定的預測意義,也不一定會被選中。最后被選擇進入模型的,是那些綜合在一起可以帶來最高預測能力的變量組合。
在模型構建時要將數據集劃分成開發集和測試集,基于開發集進行模型建立,通過考察測試集的模型效果來校驗模型。
E = Equalization,將模型轉化為評分卡形式
模型建立以后,需要將模型的系數轉化為評分。通常我們希望看到的評分卡分數,均為正整數,這是為了保證在使用上的方便性。會建議日常對評分卡選定一個恰當的分數區間。另外,對于一套多張評分卡的情形,經過這樣的轉化,可以使得無論出自哪一張評分卡,同樣的分數都對應同樣的“好”“壞”比例,便于制定和執行信貸決策。
C = Confirmation,評分卡評估與確認
開發完成的評分卡要滿足一定的質量標準。首先,評分卡要具備合理性。對評分卡中變量的分值及趨勢,需要與業務經驗吻合,不存在矛盾或者不合理的情況。其次,評分卡要具備一定的穩定性。評分卡在開發集和測試集、及跨時區校驗集上的預測能力指標要穩定,評分卡的預測能力不應該隨個別變量的變動而發生顯著改變;最后,評分卡必須對目標變量有比較好的預測能力。采用的評分卡預測能力評估指標有:分離度(Divergence)、洛倫茲曲線(Lorenzo Curve)、K-S檢驗(Kolmogorov-Smirnov)等。
此外,由于評分卡的開發周期往往歷時數周,甚至數月,在開發過程中,業務經營上不可避免的會發生一些變化,因此在完成開發以后,需要再次與評分卡使用人員溝通,了解是否有數據定義變動、數據流程變動等,這樣可以對評分卡進行相應的調整,得到最終確認。
A = Administration,評分卡實施上線與管理,包括指定管理人,記錄評分卡使用情況等
評分卡確認后,在上線使用的時候,需要三個方面的配合:IT系統、風控政策、業務流程。可以在這三個方面提供相應的輔導,比如在系統中實現評分卡計算的時候,提供評分卡安裝指引,確保評分卡被正確的安裝到決策引擎軟件當中;在政策方面,可以輔導日常的評分卡管理人員制定人工修正評分卡的規定和管理辦法,比如允許在何種情況下,根據哪些原因批準一個未達到界限分數的申請人,以及如何對這樣的案例進行評估;在流程方面,客戶使用了評分卡進行信貸審批和賬戶管理之后,可以提供參考意見,建議優化調整某些工作步驟。
評分卡投入使用后,評分卡管理人員需要記錄與評分卡有關的業務變化,例如大型營銷活動、政策調整、信用卡資產并購等等,這些記錄往往可以解釋評分卡跟蹤中發現的異常現象。
R = Review,評分卡跟蹤驗證
每一張評分卡都會有有效期,以往的經驗顯示這個有效期通常只有一兩年,極端情況下幾個月甚至更少,如果經濟環境變化比較大,日常信貸政策有重大調整,或者日常的客戶管理模式發生變化,都會直接導致評分卡有效期的縮短。相反,如果信貸環境沒有明顯變化,日常的風險管理原則變化不大,則評分卡的有效期會比較長。一個評分卡隨時間而失效,不說明評分卡質量差,而是說明需要重新開發評分卡的時候到了。
日常需要持續性的對評分卡進行跟蹤驗證,首先需要檢查評分卡的適用性,即確保應用評分卡的人群和評分卡開發樣本之間沒有重大差異;其次,日常需要確保評分卡的有效性,即評分卡依然可以有排序功能。
評分卡開發完成以后,即使是在評分卡上線之前,也可以馬上進行評分卡的跟蹤工作,了解評分卡應用人群的整體偏移情況,考察其適用性;評分卡開發完成一段時間后,可以驗證評分卡的有效性。前者稱為前端跟蹤,后者稱為后端跟蹤。
在完成評分卡開發工作后,會提供評分卡的前端和后端跟蹤報表模板,供評分卡管理人員使用。如果日常需要,也會提供解讀報表的咨詢服務。
D = Documentation,整理記錄,完成項目技術文檔
作為風險管理的公司,清晰完整的項目文檔是必不可少的,它記錄完整的項開發過程,使開發過程可以經受住無論來自于監管當局,還是內部審計部門的挑戰,同時也方便評分卡管理人員了解項目情況,便于對評分卡進行跟蹤驗證。
另外,用敏捷項目管理來對評分卡的落地實現是非常好的一種方式,推薦大家使用。
消費金融風控聯盟一如既往的專注于消費金融下的多場景風控方案設計、策略落地實施及相關風控知識分享,為廣大消金及風控從業人員提供滿意的服務。
總結
以上是生活随笔為你收集整理的评分卡开发方法论scorecard的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【待继续研究】解析信用评分模型的开发流程
- 下一篇: 风控大咖教你四步开发风控模型