版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)在反欺詐中應(yīng)用
當(dāng)前機(jī)器學(xué)習(xí)在金融行業(yè)已經(jīng)運(yùn)用非常廣泛,尤其在金融業(yè)的信貸領(lǐng)域。在實(shí)踐中,欺詐與
信貸業(yè)務(wù)強(qiáng)相關(guān),所以,反款詐變成機(jī)器學(xué)習(xí)在信貸領(lǐng)域的一大應(yīng)用。反欺詐T蛉用至肺I器學(xué)
習(xí)、深度學(xué)習(xí)以及圖譜關(guān)系,其中,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)多是針對(duì)個(gè)人欺詐風(fēng)險(xiǎn),而圖譜關(guān)系則
多用T團(tuán)伙欺解喻幃“因此,極分享I釧微鋼儂弼點(diǎn)U圾機(jī)器學(xué)】深度學(xué)習(xí)和圖能E
一、關(guān)于反欺詐
(-)欺詐風(fēng)險(xiǎn)簡(jiǎn)介
在信貸領(lǐng)域有兩類(lèi)風(fēng)險(xiǎn),一類(lèi)是信用風(fēng)險(xiǎn),一類(lèi)是欺詐風(fēng)險(xiǎn)。信用風(fēng)險(xiǎn)主要是對(duì)借款人還款能
力和還款意愿進(jìn)行評(píng)估,而反欺詐則是對(duì)借款人的目的是否正當(dāng)進(jìn)行判斷。
借款人出現(xiàn)信用風(fēng)險(xiǎn),金融機(jī)構(gòu)可通過(guò)風(fēng)險(xiǎn)定價(jià)和自有各付金進(jìn)行防范,風(fēng)險(xiǎn)可控性較尢
而當(dāng)借款人在借款時(shí)便以騙貸鰥錢(qián)為目的,目金融機(jī)構(gòu)未能及時(shí)識(shí)別欺詐,則會(huì)出現(xiàn)未能通過(guò)
儡須聊利息,反而被騙走本金的情況,尤其無(wú)卻捌邸嫩詐時(shí),會(huì)在短0炯內(nèi)遭受非常?1a的
后果,金醐購(gòu)面對(duì)止僂風(fēng)險(xiǎn)的可控性噲嘴小,所以欺i鋼臉是金融機(jī)構(gòu)零容忍的。
(二)反欺詐生命周期簡(jiǎn)介
信貸反欺詐要從防御開(kāi)始ffl起,所服從戶(hù)申請(qǐng)放款整任命周期的各個(gè)階段特點(diǎn)進(jìn)行分析,
針對(duì)各個(gè)階段采取具有針對(duì)性的反欺詐措施。其生命周期可參見(jiàn)下圖:
Da
反欺詐的幾個(gè)方面
設(shè)備與網(wǎng)絡(luò)層用戶(hù)行為層業(yè)務(wù)頻次層業(yè)務(wù)事件異常層欺詐團(tuán)伙圖譜
代理檢測(cè)
注冊(cè)行為注冊(cè)領(lǐng)次注冊(cè)異常度羊毛黨發(fā)現(xiàn)
IDC檢測(cè)
登陸行為鐺陸頻次登陸異常度代理池發(fā)現(xiàn)
根擬網(wǎng)/虛擬機(jī)槍海
交易行為交易波次交易異常度羊毛黨設(shè)備發(fā)現(xiàn)
木口檜洲
事件序列地域頻次地域異常度肉瑪網(wǎng)絡(luò)發(fā)現(xiàn)
時(shí)間間隔異常時(shí)間間隰頻次時(shí)間段異常度跨應(yīng)用欺詐團(tuán)伙
如上圖,設(shè)備與網(wǎng)絡(luò)防御是反欺詐的第〃,可通過(guò)設(shè)備和網(wǎng)絡(luò)層面的檢測(cè),防止用戶(hù)利用設(shè)備
對(duì)金融機(jī)構(gòu)進(jìn)行欺詐;在第一層進(jìn)行防御了部分欺詐用戶(hù)后,再?gòu)挠脩?hù)行為層、業(yè)務(wù)頻次層及業(yè)務(wù)
郭據(jù)^層理哪是s獺涓亍為;庭函醒加還^朝磁翎a伙欺健行i冊(cè)」。
二、機(jī)器學(xué)習(xí)應(yīng)用
(一)反欺詐規(guī)則的缺點(diǎn)
反欺詐一般通過(guò)兩種方式,一種是設(shè)定規(guī)則,另一種是通過(guò)算法。
規(guī)則在反欺詐實(shí)踐中應(yīng)用也較多,但是缺點(diǎn)也明顯,主要表現(xiàn)為:
1.策略性較強(qiáng),命中直接拒絕,而且黑名單本身的誤傷性也較強(qiáng);
2.無(wú)法給出用戶(hù)的欺詐風(fēng)險(xiǎn)有多大;
3.未考慮用戶(hù)從信用風(fēng)險(xiǎn)向欺詐風(fēng)險(xiǎn)的轉(zhuǎn)移,尤其是在行業(yè)不景氣時(shí)。
以上缺點(diǎn)機(jī)器學(xué)習(xí)可以進(jìn)行有效的避免,如可計(jì)算用戶(hù)的欺詐概率有多大,從而采取一定的措
施爭(zhēng)取客戶(hù),而不是直接拒絕,同時(shí)也可以通過(guò)模S計(jì)算用戶(hù)從信用風(fēng)險(xiǎn)轉(zhuǎn)移為欺詐風(fēng)險(xiǎn)的嶙,
從而金融機(jī)構(gòu)可及時(shí)進(jìn)行風(fēng)掰舞后準(zhǔn)備。
(二)機(jī)器學(xué)習(xí)有監(jiān)督模型
評(píng)分卡一般運(yùn)用在信用風(fēng)險(xiǎn)評(píng)估,如:A卡(申請(qǐng)?jiān)u分卡)和B卡(行為評(píng)分卡)等,反
欺詐也會(huì)運(yùn)用有監(jiān)督學(xué)習(xí),如評(píng)分卡(F卡),具體如不:
一般有監(jiān)督機(jī)器學(xué)習(xí)問(wèn)題:
假設(shè)訓(xùn)練數(shù)據(jù)
X={xl,x2..…,xn),n個(gè)樣本
Y={yl,y2...,ynD
損失函數(shù)(lossfunction)
L(F兇,Y)
目標(biāo),尋找一個(gè)F
F*=argminpL(Y,F(x))
做模型的過(guò)程中,特征很重要,特征決定模型的效果。反欺詐模型需要從欺詐的角度來(lái)做特征,
要注意與信用特征區(qū)分開(kāi),以免與A卡和B卡的耦合度過(guò)高。模型算出的多是概率,一般
會(huì)將用模型算出的概率映射到分?jǐn)?shù),具體如下圖:
評(píng)分卡分?jǐn)?shù)的計(jì)筲
評(píng)分卡儂的最終產(chǎn)出是分?jǐn)?shù),且與違約瞬負(fù)相關(guān)
score=BasePoint?(-y)
Ln(2)
P
其中,y-logit(p)=log()
BasePoint星準(zhǔn)分,無(wú)實(shí)際意義
PDOPoint-toDoubleOdds,好壞比每升高T臺(tái).
分?jǐn)?shù)升高PDO個(gè)單位
(三)部分常規(guī)機(jī)器學(xué)習(xí)在反欺詐中應(yīng)用
在反欺詐中用到的機(jī)器學(xué)習(xí)主要有下圖幾種。其中,iforest通常用來(lái)做數(shù)據(jù)離群點(diǎn)的異常
檢測(cè),在應(yīng)用方面,金融公司可根據(jù)自身的規(guī)則和算法,將檢測(cè)出的離群點(diǎn)在評(píng)分卡入模的數(shù)據(jù)
方面,進(jìn)行加權(quán)或算法調(diào)整。svm通常也用來(lái)做異常檢測(cè);arima則用來(lái)作時(shí)間序列預(yù)測(cè)
分析;根據(jù)現(xiàn)在信貸數(shù)據(jù)壞樣本較少的特點(diǎn),knn和kmean可以用來(lái)蟾類(lèi);隨機(jī)森林則
是在做異常檢測(cè)時(shí)進(jìn)行分類(lèi),以上機(jī)器學(xué)習(xí)可通過(guò)博客進(jìn)行更多了解,此處不進(jìn)行深入講解。
三、深度學(xué)習(xí)應(yīng)用
此部分對(duì)人工神經(jīng)網(wǎng)絡(luò)(ANN)和時(shí)間序列進(jìn)行簡(jiǎn)單介紹。
神經(jīng)網(wǎng)絡(luò)通常需要大量彼此連接的神經(jīng)元,每個(gè)神經(jīng)元通過(guò)持定的輸出函數(shù),計(jì)算處理來(lái)自其
砌向鈴神經(jīng)元的加權(quán)輸入值c神經(jīng)元質(zhì)檢的信息傳遞強(qiáng)度,fflH加權(quán)值定義,算法會(huì)不斷自我學(xué)
習(xí),調(diào)整加權(quán)值。神經(jīng)網(wǎng)絡(luò)算法的核心是:計(jì)算、連接、評(píng)估、糾窗口瘋狂培訓(xùn)。
時(shí)間序列部分介紹RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM(長(zhǎng)短記憶循環(huán)神經(jīng)網(wǎng)絡(luò))兩種算法。
LSTM是RNN的優(yōu)化版,在特征較多時(shí),RNN計(jì)算量會(huì)呈指數(shù)式增長(zhǎng),其計(jì)算復(fù)雜度也
會(huì)增加,如下圖:
時(shí)間序列預(yù)測(cè)分析就是利用過(guò)去一段時(shí)間內(nèi)某審件時(shí)間的特征來(lái)預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)該事件的特征
X為輸入層,。為輸出層,S為隱含
層,而t指第幾次的計(jì)符;V,W,U為
權(quán)重,其中計(jì)算第t次的隱含層狀態(tài)
時(shí)為St=f(U*Xt+W*St-l)
特點(diǎn):磷事件先后發(fā)生的順序缺陷:計(jì)算量會(huì)翱數(shù)式增長(zhǎng),計(jì)算復(fù)雜度增加
St=f(U*Xt+Wl*St-l+W2*St-2*...+Wn-st-n)
LSTM則是在RNN的結(jié)構(gòu)以外加入遺忘閥門(mén)(forgetgate)、輸入閥門(mén)(inputgate)和
輸出閥門(mén)(forgetgate),其通過(guò)這些閥門(mén)節(jié)點(diǎn)實(shí)現(xiàn)記憶功能,改善了RNN在計(jì)算過(guò)程
中會(huì)出現(xiàn)的問(wèn)題,如下圖:
?T0
1oT當(dāng)閥門(mén)打開(kāi)的時(shí)候,前面橫型的訓(xùn)練結(jié)果就會(huì)關(guān)
0^-聯(lián)^當(dāng)前的橫型計(jì)管,而當(dāng)閥門(mén)關(guān)閉的時(shí)候之前
^0的計(jì)苜結(jié)果就不再膨響當(dāng)前的計(jì)筲,因此,通過(guò)
-.O
1lI崎15面聯(lián)程琳燃可以實(shí)孵期序列對(duì)最終
0oO結(jié)果的影喻.而當(dāng)你不不希望之前結(jié)果對(duì)之后產(chǎn)
生影響,比如自然語(yǔ)言處理中的開(kāi)始分析新段落
..,或新章節(jié),月除把閥門(mén)溝卓即可.
時(shí)間序列在信貸中有兩個(gè)t匕較重要應(yīng)用場(chǎng)景,一是B卡(行為評(píng)分卡),一是異常檢測(cè)。
我們著重介紹LSTM在這兩個(gè)場(chǎng)景中的應(yīng)用。在行為評(píng)分卡的應(yīng)用中,當(dāng)用戶(hù)在金融機(jī)構(gòu)
進(jìn)行多次借款時(shí),可以將其以往的借款行為通過(guò)統(tǒng)計(jì)方法或其他相關(guān)方法生成embedding
進(jìn)行LSTM計(jì)算。異常檢測(cè)的應(yīng)用可參考下圖:
用LSTM時(shí)間序列數(shù)據(jù)做異常檢測(cè)
at.一箜行為比比如上次■場(chǎng)
另外在使用LSTM時(shí)需注意4點(diǎn):
1.應(yīng)限制每個(gè)口寸間序列embedding的K度;
2.對(duì)缺失數(shù)據(jù)做補(bǔ)0操作;
3.針對(duì)離散變量的embedding盡量不要做onehot處理;
4.樣本量少時(shí),應(yīng)通過(guò)仿真模型進(jìn)行異常檢測(cè)評(píng)估,仿真模型能夠有效解決信用風(fēng)險(xiǎn)轉(zhuǎn)欺
詐風(fēng)險(xiǎn)的導(dǎo)致模型失效的問(wèn)題。
四、圖譜相關(guān)應(yīng)用
圖譜主要用來(lái)防止團(tuán)伙欺詐,也可以根據(jù)用戶(hù)的周邊關(guān)系判斷用戶(hù)的好壞概率。此次介紹三種
圖譜關(guān)系在反欺詐中的應(yīng)用。
圖譜關(guān)系在反欺詐中應(yīng)用
常嫌統(tǒng)計(jì),社分割,弗謹(jǐn)通R法
通過(guò)樸子用戶(hù)位版,fcustfankM
法
關(guān)癡血ddmg做聚為,分類(lèi)
某家銀行借貨客戶(hù)透視圖
其中,常規(guī)統(tǒng)計(jì)TS不會(huì)直接用規(guī)則,而是將規(guī)則做成特征,再帶入模型進(jìn)行統(tǒng)計(jì)。比如一度
聯(lián)系人中有多少黑中介,一度聯(lián)系人中的逾期人數(shù)有多少,此類(lèi)特征的KS較高且有效。常規(guī)
統(tǒng)計(jì)一般會(huì)用到社群分割和強(qiáng)連通算法。而種子傳播層面則需要用到trustrank,關(guān)系
embedding則可以通過(guò)衍生變量將關(guān)系向量化,將向量化的關(guān)系帶入模型進(jìn)行進(jìn)■告^析
和計(jì)。
(-)常規(guī)統(tǒng)計(jì)
因?yàn)橘Y源限制或提高投資西艮率的原因,黑產(chǎn)一般會(huì)最大程度的利用已有資源,比如,重復(fù)的
使用現(xiàn)有設(shè)備和信息進(jìn)行多次貸款申請(qǐng),這樣就會(huì)出現(xiàn)同一手機(jī)號(hào)碼、登錄IP或硬件設(shè)備
出現(xiàn)在多個(gè)申請(qǐng)信息中,形成關(guān)聯(lián)網(wǎng)絡(luò)。常規(guī)統(tǒng)計(jì)的運(yùn)用,是通過(guò)繳居進(jìn)行關(guān)聯(lián),形成
關(guān)系網(wǎng)絡(luò)圖,然后使用社會(huì)關(guān)系網(wǎng)絡(luò)分析工具,分析關(guān)系網(wǎng)絡(luò)圖中是否有大量共用設(shè)備等拓?fù)浣Y(jié)
構(gòu)。
(二)復(fù)雜網(wǎng)絡(luò)embedding算法
有時(shí)候機(jī)器無(wú)法識(shí)別信息,需要將信息向量化(embedding),將信息向量化后才可以做
后續(xù)的算法操作。embedding的方法有很多,此次僅介紹node2vec一種。node2vec的
原理>前端為隨機(jī)游走(,后端為則采樣,將
randomwalk)word2vecorandomwalk
概率最大的關(guān)系采樣出來(lái)并生成類(lèi)似文本的序列數(shù)據(jù),這類(lèi)序列數(shù)據(jù)相當(dāng)于詞的共現(xiàn)性,對(duì)
詞的共線(xiàn)性可以做word2vec,這瞌]word2vec與NLP的word2vecEmbedding
后會(huì)生成50維到128維的向量,之后進(jìn)行聚類(lèi)和分類(lèi)的操作,具體如下:
復(fù)雜網(wǎng)絡(luò)embedding算法
word2vec其實(shí)是根據(jù)詞的共現(xiàn)關(guān)系,算詞和詞之間的概率,將詞映射到低緯度向量,
并語(yǔ)料中的信息.
DeepWalk算法其實(shí)和word2vec算法很約以,應(yīng)該是借鑒word2vec算法吧或者是照搬
word2ve串法,對(duì)圖從一個(gè)節(jié)點(diǎn)開(kāi)始用randomwalk來(lái)生成類(lèi)似文本的序列數(shù)據(jù),然
后將id做為一竹詞,始用skipgram訓(xùn)練得到向雖.
node2vec
node2vc在deepwalk算法的基礎(chǔ)上,定義了一個(gè)biasrandomwalk的策略生成序列,
算是改進(jìn)了一下算法,后面還是走的skipgram去訓(xùn)練
(三)trustrank算;去
Trustrank是pagerank的升級(jí)版,當(dāng)前我司用的trustrank并不是傳統(tǒng)的trustrank,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 后勤衛(wèi)生區(qū)域制度
- 衛(wèi)生監(jiān)督與協(xié)管管理制度
- 火車(chē)站安全衛(wèi)生管理制度
- 衛(wèi)生間防疫密封管理制度
- 基層衛(wèi)生院各項(xiàng)管理制度
- 一級(jí)衛(wèi)生院繼教制度
- 衛(wèi)生所常見(jiàn)藥品管理制度
- 美發(fā)宿舍衛(wèi)生制度
- 衛(wèi)生院科研獎(jiǎng)勵(lì)制度
- 衛(wèi)生部三方核查制度
- 村衛(wèi)生室藥品管理規(guī)范
- 鑄件清理工上崗證考試題庫(kù)及答案
- GB/T 32223-2025建筑門(mén)窗五金件通用要求
- 非煤礦山行業(yè)企業(yè)班組長(zhǎng)(含車(chē)間主任)工傷預(yù)防能力提升培訓(xùn)大綱
- 2021金屬非金屬礦山在用架空乘人裝置安全檢驗(yàn)規(guī)范
- 道路工程施工組織設(shè)計(jì)1
- 《特種設(shè)備使用單位落實(shí)使用安全主體責(zé)任監(jiān)督管理規(guī)定》知識(shí)培訓(xùn)
- 醫(yī)院培訓(xùn)課件:《臨床輸血過(guò)程管理》
- 制粒崗位年終總結(jié)
- 《中國(guó)心力衰竭診斷和治療指南2024》解讀(總)
- 《MSA測(cè)量系統(tǒng)分析》考核試題
評(píng)論
0/150
提交評(píng)論