反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片(2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型分类: 风控 文章来源:网络(经整合梳理
反欺詐技術揭秘-設備指紋VS關系網絡模型
? (2017-05-12 10:23:52) 轉載▼ 標簽:? 設備指紋?關系網絡?反欺詐?神經網絡模型 | 分類:?風控 |
?????
?????從互聯網金融誕生之日起,騙貸者便如影隨形。
坊間傳說,2016年,至少有3家互聯網金融領域的創業公司,被騙貸者“擼”垮。
小平臺深受其害,大平臺同樣也躲不過。作為一家已經在美國上市的P2P公司,宜人貸在2016年三季報坦誠,由于旗下產品遭遇“有組織的欺詐事件”,公司損失了8130萬元的風險準備金。
那么問題來了,作為一個騙貸者,他究竟是如何騙到錢的呢?
??????線上招收學員
?????????由于互聯網金融行業的無序發展,大多數平臺的風控能力相對薄弱,騙貸者便利用“口子”(平臺的風控漏洞),設法把錢騙到手。
????????一般來說,要想成為騙貸者,必須先找到人教,弄清楚平臺的漏洞究竟是什么。
????????在這一過程中,互聯網成了最為便利的工具。只要你每天在騙貸者聚集的論壇或貼吧發帖,就會引起中介的注意。
????????發帖的內容頗有講究,騙貸者一定要注明是兼職的需求,只有這樣,中介才會在收取一筆費用后,將騙貸者介紹進入他們的體系。
???????當然,中介也會核查騙貸者的身份,確保不是記者或金融機構的人。核查方法很簡單,查看騙貸者的朋友圈——如果朋友圈里都是些吃吃喝喝的內容,更容易獲得中介的信任。
???????在取得中介信任后,騙貸者就有可能獲得各互聯網平臺的規則漏洞,以及騙貸攻略,并據此開始騙貸。
???????上述過程中,找到一個靠譜的中介至關重要,騙貸者被中介“黑吃黑”,損失數百元中介費的情況,極為常見。
線下購買身份
???????如果說線上的騙貸者,更多是單打獨斗的話,線下的騙貸者,組織更為嚴密。
???????有的騙貸組織,會專門去偏遠農村,去購買大批留守老人的身份信息——酬勞往往非常廉價,可能是一籃子雞蛋,也可能是100元錢。
???????拿到真實的身份信息后,這些組織要么立即去攻破一些風控極為簡陋的平臺,每個身份騙一筆小錢;要么花時間精力把信用記錄養起來,然后再去騙貸,騙更多的錢。
???????此前還有媒體報道過這樣一種線下騙貸手法:騙貸組織先在某社區租一個商鋪,簡單裝修后謊稱是茶莊生意,然后再將某偏遠村的村民都接過來,統一教村民各種應對互金風控人員的話術。
??????準備工作完成后,騙貸組織讓村民們分別去向數十家信貸機構申請貸款,一輪下來,一個人能獲利數百萬元。騙貸組織在付給村民一定酬勞后,將村民送回老家,自己也拿著錢人去樓空。
與平臺“斗法”
?????????????對于騙貸者的存在,各互聯網金融平臺也心知肚明,并開始與騙貸者“斗法”。
????????各互聯網金融平臺的措施各不相同,為了防范騙貸者,大家也都不愿細說。
???????一般來說,平臺的反制措施,一是通過輿情監測機器人進行檢測預警,二是人工核驗身份,三是利用大數據進行識別。
???????值得一提的是,雖然目前已經有第三方公司提供行業黑名單,但各平臺卻并不將其作為主要的防范手段,因為一般情況下,如果一個人的身份信息能被黑名單查到,往往意味著行騙的過程已經結束了。
????????????對于平臺來說,最令他們感到頭疼的是,對于騙貸者的懲罰實在是太過輕微。騙貸者在網絡借貸中發生的逾期或騙貸行為,目前是無法納入央行的個人征信系統的。
??????正因如此,騙貸者才能有底氣喊出這樣一句話:“憑自己本事騙來的錢,為什么要還?”
????????????整治騙貸者究竟有何妙藥?目前比較有效的方式有兩種:一是設備指紋,二是關系網絡模型。聽起來都好高大上的樣子。
????????????先來說說設備指紋,故名思議,就是給每臺設備頒發一個類似人類指紋一樣的唯一身份證。
????????????移動互聯網時代,隨著cookie的逐漸失效,新一代設備識別方法—設備指紋,近兩年可以說是大紅大紫。
相對于cookie,設備指紋具備不受瀏覽器兼容性限制、用戶無法修改、不會被瀏覽器清除、可跨應用追蹤等諸多優點,可謂集美貌與智慧于一身,在網絡營銷、反欺詐等領域應用廣泛,也難怪眾多企業為它爭得頭破血流。
設備指紋也有門派之分,其中主動式發展最早、技術門檻相對較低,因而目前應用比被動式和混合式兩種更為廣泛。
但即便如此,主動式設備指紋的應用也十分復雜,需要收集諸多信息才能保證設備識別的準確性,如MAC地址、設備IMEI號、廣告跟蹤ID、設備唯一序列號、地理位置等等。
此外,還要突破瀏覽器兼容性、千變萬化的設備型號、代理、軟件篡改設備信息等重重難關。
傳說中的主動式設備指紋技術究竟怎么用。
Step 1:請準備好已聯網的電腦一臺
Step 2:打開以下網站https://github.com/Valve/fingerprintjs2
Step 3:加載fingerprintjs2
(點擊可查看大圖)
Step 4:接著在頁面中加入以下代碼就可以輕松獲得設備指紋啦
(點擊可查看大圖)
Step 5:沒有了
No,小編是認真的。
???????????這種主動式設備指紋技術有其特有的優點和適用場景,但其缺陷也相當突出。
?
???????????首先,存在明顯的用戶隱私侵犯,并因此可能導致被Google和蘋果Apple Store下架。?舉個例子,金融、支付行業中有很多業務場景對于用戶隱私的保護要求很高,就無法使用主動式設備指紋做設備識別。?????????
????????????其次,主動式指紋不能實現App和mobile web間,不同瀏覽器間的設備識別。主動式設備指紋對于需要跨網頁/應用追蹤用戶行為的場景,比如追蹤App安裝究竟來自哪個廣告渠道,就無能為力。
???????????另外,主動式設備指紋所取特征均暴露于客戶端,欺詐者可輕易通過一些一鍵新機等工具篡改相應特征信息,從而使指紋無效。
這些場景就需要相對技術門檻更高的被動式設備指紋技術來解決了。
???????????最新的被動式設備指紋技術,從數據包的OSI七層協議中,提取出這臺設備的操作系統、協議棧和網絡狀態相關的特征,并結合機器學習算法以標識和跟蹤具體的移動設備。相比于主動式設備指紋技術,被動式設備指紋技術在適用范圍和靈活性上,有著不可比擬的優勢:
1)更大的適用范圍,由于被動式設備指紋技術完全工作在服務器側,一些無法植入SDK或JS的場景也可使用;
2)跨Web/App,跨瀏覽器的識別;
3)完全不侵犯用戶隱私,避免了被AppStore下架的風險。
??????????接下來,重點說說牛逼哄哄的關系網絡反欺詐技術。內容有點燒腦,燒死腦細胞后果自負~~~~下面就來看看在大數據角度怎么利用關系網絡,通過無監督學習算法,挖掘詐騙團伙的特征,從而識別詐騙團伙的反欺詐技術。
從常見的兩種反欺詐模型說起
金融欺詐,一般是指采用虛構事實或者隱瞞事實真相的方法,騙取公私財物或者金融機構信用的犯罪形式。幾乎所有涉及金錢和服務的商業模式都會受到欺詐的攻擊。通信、保險、貸款和信用卡申請是一些最容易出現金融欺詐的領域。
目前并沒有一個通用的反欺詐框架可以識別并防范所有形式的欺詐。在每一個領域,金融欺詐都有不同的形式和特征,比如,一個應用于信用卡申請的反欺詐模型并不能直接應用于保險領域,亦無法直接應用于信貸領域。
一種最常用的反欺詐模型,是通過建立一個規則引擎或者機器學習模型來描述欺詐行為的特征,從而將欺詐行為從正常操作中區別開來。在反欺詐規則引擎中,這些甄別欺詐行為的規則依賴于從大量歷史案例中總結出來的“專家知識”。例如,如果一個人申請貸款所用的手機號與其常用的手機號不一致,則這筆申請的欺詐風險就被認定稍高一些。
另一種則是反欺詐機器學習模型,它指的是采用數據挖掘方法,基于歷史數據(即,已知的欺詐申請和正常申請的數據)而建立的分類模型。這類模型的訓練往往需要大量數據。
兩者有何區別?上面提到的規則引擎可以看作是一種特殊的最簡單的機器學習模型:決策樹模型。決策樹模型具有極好的可解釋性,因而,即使數據量不足,也可以通過專家知識來補全規則集。而廣義上的反欺詐機器學習模型往往指的是采用更復雜的算法建立的模型(如隨即森林、深度學習等)。這些模型的訓練需要大量的歷史數據并且其結果通常很難解讀。
不論是規則引擎還是機器學習模型,都是從歷史案例中發現金融欺詐時重復出現的個體行為模式。這個方法在很多領域被證明為有效(例如,用于審核個人還款能力意愿的信用評分模型),然而在解決金融欺詐問題時表現一般,?原因有兩個:
其一,金融欺詐的模式隨時間不斷演化和發展,而不僅僅是重復出現在歷史案例中的個體行為模式;
其二,隨著反欺詐技術的進步,金融欺詐越來越難以由個體完成,而是需要通過團伙有組織的進行。
關系網絡提供了全新的反欺詐分析角度
基于上述金融欺詐發生的兩個特點,采用關系網絡進行反欺詐檢測變得越來越重要。關系網據指的是一種基于圖的數據結構,由節點和邊組成,如下圖1所示。每個節點代表一個個體,每條邊為個體與個體之間的關系。關系網絡把不同的個體按照其關系連接在一起,從而提供了從“關系”的角度分析問題的能力。這更有利于從正常行為中識別出到異常的團伙欺詐行為。
圖1
關系網絡的結構取決于如何定義個體與個體之間的關系。如果人與人存在“關系”指的是彼此認識,那么最終的網絡結構將是一個無標度網絡,其典型特征是在網絡中的大部分節點只和很少節點連接,而有極少的節點與非常多的節點連接。如果將“關系”定義為親屬關系,則最終的網絡結構將是一個個非連通的子圖,每個子圖代表一個家族。
在解決實際問題的時候,關系的定義需要依據業務需求并且常常極為復雜。例如,某市公安局為了摸清犯罪嫌疑人的團伙,定義了24種人與人之間的關系。在反欺詐領域,如何定義“關系”更是需要保密,這是為了避免欺詐團伙采取針對性地防范策略,本文對這部分內容就不做過多的說明了。
圖2展示了由從某一線城市抽樣的20,000余條貸款申請數據所構成的關系網絡。因為所定義的“關系”均為強關系,所以圖的結構不是一個連通的無標度網絡,而是由一個個孤立的“團”組成的網絡。其中,大部分的“團”由兩個個體組成,他們之間通過某種關系相連。個別的“團”是由幾十甚至上百個體組成的具有復雜結構的網絡。
圖2
網絡分析在反欺詐中的獨道運用
接下來,我們來討論關系網絡在反欺詐中的應用場景,主要分為監督模型和無監督模型兩種情況。所謂的監督模型,指的是在已知“好”和“壞”標簽的前提下,嘗試從歷史數據中,挖掘出欺詐團伙的典型特征和行為模式,從而能夠有效的識別出金融欺詐團伙。監督模型雖然在預測準確性上有不錯的表現,但是,實際情況中,“好”和“壞”的標簽往往很難得到。因此,在沒有標簽信息時,無監督模型分析也變得尤為重要。當然,本文提到的分析方法只是關系網絡在反欺詐場景中的冰山一角,更多的算法模型需要結合實際業務需求進行設計和開發。
典型運用一:異常檢測
異常檢測是在無監督模型學習中比較有代表性的方法,即在數據中找出具有異常性質的點或團體。在檢測欺詐團體的情況下,異常檢測被認為是比較有效果的。以貸款申請為例,許多團伙會選擇共享一些申請信息,如提供同一個皮包公司的地址作為公司信息,或者聯系人電話重合程度高。因此,在關系網絡中,大多數的正常的個體應該是獨立的節點,或者與另一個節點組成規模為二的團體(在這種情況下,多數可能為家人或親友關系)。若出現三個點以上甚至十幾個點關系密切時,則這些團體可被歸為異常。上文中的20,000筆貸款申請組成的關系網絡中含有300多個團體,團體規模分布由下圖所示,其中大部分團體的規模較小,當團體規模超過某一閾值時,其可被認為異常。
圖3
我們對團體規模大小和欺詐度的相關性進行了分析。其中,欺詐度的定義為:欺詐度=團體中欺詐申請者的數目/團體中申請者總數。我們通過行業內的網貸黑名單數據來判定某一個體是否為欺詐申請者。相關性結果如下圖所示,其中,橫坐標表示團體規模大小,縱坐標表示欺詐度。可以看出,當團伙只有兩個人時,欺詐度的中位數是0,而當規模變大時,欺詐度陡然增加。當團體規模大小為三人時,欺詐度最高,達到30%,其次為規模超過六人的團體。
圖4
異常檢測并不能夠明確的給出一個團體是否欺詐,但是可以通過這種方法排查出可疑的團伙,從而進行調查。該算法并不是基于歷史數據挖掘隱藏的欺詐模式,因而常常能夠有效地識別出新出現的未曾記錄的欺詐行為。
典型運用二:團體分群
分群是一種常常被用于客戶精準營銷的無監督聚類算法,根據客戶各個維度的信息,將其歸并于某一特定群組,并對不同群組的客戶采取差異化的營銷策略。除了用于精準營銷,分群算法還可以用于離群行為的檢測,即,檢測哪些客戶的行為與同一群體的其他客戶不同。這些離群行為或是預示著這些客戶處于某些特殊事件情境中,或是預示著欺詐行為。這一部分主要和前文提到的異常檢測相關,這里不再贅述。
與客戶分群不同,團體分群不僅依賴于團體中每個個體的特征,還依賴于整個團體作為一個整體的特征。這一方面使得團體分群擁有足夠豐富的數據維度,另一方面也增加了問題的復雜性。一般來說,團體的特征可以分為?(1)和網絡結構相關的團伙拓撲特征以及(2)和個體信息相關的團伙實體特征這兩個大的維度。其中,團體的拓撲特征包括團的節點的數量、平均自由度、團體中節點間最長的最短路徑等;團的實體特征包括團中男女比例、最大年齡差,平均年齡、團體總資產、團體總負債等。
團體分群即是對給定網絡中的團體依據以上特征進行區分,從而挖掘有潛在欺詐風險的團體的方法。舉一個簡單的例子,以團體中的男性占比和年齡差者兩個特征來對網絡中的團體進行分群。作為以家人關系而形成的團體,一般由三人形成,多為兩男一女或兩女一男,男性占比33%或67%,并且年齡差一般為20-30歲。具有這種性質的團體一般為家庭團體,因而風險性較小。但對于人數較多,男性占比高,而且年齡差較小的團體,則有可能是欺詐團伙,需要進一步調查。
實際問題中,描述一個團伙的數據維度非常豐富,有時可多達數十個,這就對分群造成了困難(在高維空間中,尋找點的集群并不是一件容易的事,俗稱“維度災難”)。一個常用的解決方法是先對高維數據進行降維,然后再在低維空間中進行聚類。圖5是對一組數據中由貸款申請構成的300多個團體進行分群的結果。在這個分析中,我們用男女比例、最大年齡差、有車個體占比、有房個體占比、有貸款個體占比和買理財產品個體占比這六個維度對團伙進行描述。我們采用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法對高維數據進行降維和DBSCAN聚類算法對低維數據進行分群。由圖5可見,在低維空間中,確實存在明顯分隔的集群,這說明團體分群在實際操作中的可行性。
圖5
(每一個點代表一個團體,上述數據可以分為八個集群)
我們對圖5中每一個集群進行分析。集群1中的團體男女比例1:1,年齡相差0-5歲,集群中無人有貸款或買理財產品。這個集群很可能描述了由年輕情侶構成的團體。對于集群2中的團伙,男女比例2:1,年齡相差15-30歲,每個團伙中平均有一人有車和房,并且背有貸款,這個集群很可能描述了由父母子女構成的“團伙”。按照同樣的方法可以對圖5每一個集群進行分析,這里不一一贅述。盡管我們沒有“好”、“壞”標簽,無法得知哪個集群含有大量欺詐團伙,但是我們可以依據經驗和專家知識篩選出可疑的集群,為進一步調查做好準備。例如集群6中全部由男性“團伙”構成,年齡相差0-10歲,團伙中大量個體都背有貸款。這個集群的欺詐嫌疑就比其他集群要高一些,下一步就可以繼續對其進行進一步的調查。
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片(2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型分类: 风控 文章来源:网络(经整合梳理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: https://wenku.baidu.
- 下一篇: 某银行信用卡中心——大数据反欺诈应用案例