版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
PAGEPAGE261互聯(lián)網(wǎng)金融信用風(fēng)險實證分析案例目錄TOC\o"1-3"\h\u5795互聯(lián)網(wǎng)金融信用風(fēng)險實證分析案例 1298971.1數(shù)值模擬 194001.2網(wǎng)絡(luò)借貸風(fēng)險信用研究 5264891.2.1數(shù)據(jù)清洗和規(guī)范化處理 6211161.2.2RF-logistic模型和Lasso-logistic模型的實證結(jié)果 9140331.2.3基于兩步子抽樣算法的RF-logistic模型預(yù)測結(jié)果 1772061.3信用卡欺詐風(fēng)險實證研究 25兩步子抽樣算法常被應(yīng)用于大數(shù)據(jù)處理,抽取的樣本具有良好的性質(zhì)。本章首先從兩步子抽樣算法的精度和時間成本出發(fā),以數(shù)值模擬的方式,將兩步子抽樣算法和全樣本、簡單隨機抽樣方法進行比較;其次將兩步子抽樣算法應(yīng)用于網(wǎng)絡(luò)借貸數(shù)據(jù),并對其預(yù)測效果進行分析。在建立模型的過程中,由于網(wǎng)絡(luò)借貸數(shù)據(jù)自變量數(shù)較多,因此分別采用隨機森林算法和Lasso篩選重要變量后建立logistic模型;最后將兩步子抽樣算法應(yīng)用于信用卡欺詐風(fēng)險的研究,該數(shù)據(jù)集的變量較少,不需要進行變量選擇,直接采用logistic回歸模型對是否發(fā)生信用卡欺詐進行預(yù)測。卓麗洪(2020)[43]指出互聯(lián)網(wǎng)金融領(lǐng)域最具有代表性的是網(wǎng)絡(luò)借貸行業(yè),盡管中國網(wǎng)絡(luò)借貸平臺正式清零,但是作為一種新型的借貸平臺,對此展開研究能夠為今后針對新興互聯(lián)網(wǎng)金融業(yè)態(tài)的風(fēng)險監(jiān)管提供較為深入的實證依據(jù)。近年來,國內(nèi)對互聯(lián)網(wǎng)金融信用風(fēng)險管控越來越嚴格,許多互聯(lián)網(wǎng)金融平臺個數(shù)顯著減少,其存儲的借貸數(shù)據(jù)量越來越少,數(shù)據(jù)質(zhì)量較差,因此本文以美國LendingClub網(wǎng)絡(luò)借貸數(shù)據(jù)和信用卡欺詐數(shù)據(jù)作為研究基礎(chǔ),研究將兩步子抽樣方法應(yīng)用到互聯(lián)網(wǎng)金融信用風(fēng)險識別的具體情形。1.1數(shù)值模擬為了將兩步子抽樣算法引入互聯(lián)網(wǎng)金融風(fēng)險的預(yù)測中,本文首先對模擬產(chǎn)生四種分布的數(shù)據(jù),將該算法與簡單隨機抽樣算法對比,檢驗該算法的精度和時間成本。為了保證結(jié)果的可靠性,程序均在Windows10,i5處理器,4G內(nèi)存的筆記本電腦設(shè)備上運行。假定模型中的因變量有兩個取值,分別為0和1;為自變量,是一個3維變量;的真值為;本文針對的不同分布,模擬的數(shù)據(jù)集,其中表示產(chǎn)生的數(shù)據(jù)量。具體地說,本文考慮以下情況:(1)令表示正態(tài)分布的數(shù)據(jù)集,假定,其中為3階單位陣,所有樣本的因變量中,0和1的比例約為1:1;(2)令表示t分布的數(shù)據(jù)集,假定,所有樣本的因變量中,0和1的比例約為1:1;(3)令表示指數(shù)分布的數(shù)據(jù)集,假定,所有樣本的因變量中,0和1的比例約為1:3.7;(4)令表示正態(tài)分布的數(shù)據(jù)集,假定,所有樣本的因變量中,0和1的比例約為1:1。為了評估第二次抽樣的樣本量對兩步子抽樣算法的影響,本文固定第一次抽樣的樣本量,改變第二次抽樣的樣本量,重復(fù)執(zhí)行次。由于資源有限,無法利用現(xiàn)有的計算機得到1000次的預(yù)測結(jié)果,因此以模型參數(shù)的平均均方誤差表示模型的精度,總CPU運行時間表示算法的時間成本,對分布(1)、(2)、(3)、(4)采用不同的抽樣方法建立logistic回歸模型,并進行比較。平均均方誤差在一定程度上反映了抽樣后求解的參數(shù)與全樣本下參數(shù)的差別,總CPU運行時間是指該程序運行1000次的所占用的時間,在一定程度上代表了該程序的運行效率。具體結(jié)果如圖1.1所示。圖例中uniform表示簡單隨機抽樣,mMSE表示第二步入樣概率為的兩步子抽樣算法,mVC表示第二步入樣概率為的兩步子抽樣算法。正態(tài)分布t分布指數(shù)分布混合正態(tài)分布圖1.1不同分布下各抽樣算法的平均均方誤差和總CPU運行時間圖1.1中(a)~(d)分別表示在(1)~(4)中提出的正態(tài)分布、t分布、指數(shù)分布和混合正態(tài)分布下,固定第一次抽樣的樣本量改變第二次抽樣的樣本量時,的平均均方誤差和總CPU運行時間。由圖1.1可知,對于這四個分布,總體上隨著第二次抽樣的樣本量的增加,平均均方誤差呈下降趨勢,CPU運行時間呈上升趨勢。兩步子抽樣算法在(1)~(4)的四種分布中,的均方誤差都小于簡單隨機抽樣,這說明,兩步子抽樣算法與簡單隨機抽樣方法相比更接近全樣本的精度;在CPU運行時間上,利用分布(1)~(4)產(chǎn)生的所有數(shù)據(jù)建立logistic回歸模型并估計參數(shù)的時間分別為678.11秒、736.44秒、719.19秒、607.53秒,兩步子抽樣算法的CPU運行時間均小于利用所有數(shù)據(jù)的CPU運行時間,這充分體現(xiàn)了兩步子抽樣算法在時間成本上的優(yōu)點。服從不同分布的數(shù)據(jù)結(jié)果具有相似性。第一,兩種兩步子抽樣算法的均方誤差相差較小;第二,與全樣本相比,兩步子抽樣算法節(jié)約了運行時間。對每個分布具體分析,可以得出結(jié)論:當(dāng)數(shù)據(jù)服從正態(tài)分布時,由圖(a)可知,第二次入樣概率為的兩步子抽樣算法得到的平均均方誤差小于簡單隨機抽樣方法得到的平均均方誤差,與全樣本相比,時間最多節(jié)約460.63秒;第二次入樣概率為的兩步子抽樣算法與簡單隨機抽樣方法相比,前者的均方誤差更小,與全樣本相比最多節(jié)約的CPU運行時間為490.29秒。當(dāng)數(shù)據(jù)服從(2)、(3)、(4)三種分布時,從圖1.1的(b)、(c)和(d)可以看出,結(jié)論大體與正態(tài)分布的結(jié)論一致。通過模擬數(shù)據(jù)發(fā)現(xiàn),與簡單隨機抽樣方法相比,兩步子抽樣算法參數(shù)的平均均方誤差更小,說明經(jīng)兩步子抽樣算法抽取的樣本信息更接近全樣本信息;與全樣本相比,兩步子抽樣算法節(jié)約了較多的時間。以上結(jié)果表明,兩步子抽樣算法在保持較高精度的前提下,節(jié)約了時間成本。1.2網(wǎng)絡(luò)借貸風(fēng)險信用研究網(wǎng)絡(luò)借貸風(fēng)險信用數(shù)據(jù)來源于LendingClub公司官網(wǎng)()公開的脫敏數(shù)據(jù),LendingClub已經(jīng)成為世界上總貸款量最多的網(wǎng)絡(luò)借貸平臺,因此本文選擇LendingClub平臺作為研究對象。本文選取2018年01月至2020年06月的數(shù)據(jù)進行實證分析。數(shù)據(jù)集中共有1131667個樣本,151個變量,包括個人的基本信息、信用信息等。由于自變量的個數(shù)過多,完整的變量名稱見附錄1.1。其中因變量是還款狀態(tài)(LoanStatus),表示借款人是否按時償還債務(wù),其余150個變量為自變量。本文的研究對象是貸款完成的樣本,因此根據(jù)還款狀態(tài)(LoanStatus)這一變量,剔除未完成的狀態(tài),作為初始的數(shù)據(jù)集。有效的還款狀態(tài)共有七種,其中FullyPaid表示審核通過,定義為非違約用戶,記為0,ChargeOff表示壞賬,Default表示違約,定義為違約用戶,記為1,Current表示在還款期、InGracePeriod表示在寬限期、Late(16-30days)表示延期16-30天、Late(31-120days)表示延期31-120天,這些還款狀態(tài)由于并沒有到期,所以不能確定最終是否違約,故刪除該部分數(shù)據(jù),其余數(shù)據(jù)作為初始數(shù)據(jù)集。初始數(shù)據(jù)集共270855個樣本,其中違約人數(shù)為57960,占比約為21.40%,非違約共計212895人,占比約78.60%。初始數(shù)據(jù)集共有151個變量,還款狀態(tài)(LoanStatus)為因變量,其余150個變量為自變量。由于數(shù)據(jù)集變量過多,需要進行變量篩選,常見的變量篩選方法有Lasso和隨機森林算法,因此本文選擇Lasso-logistic模型和RF-logistic模型對互聯(lián)網(wǎng)金融信用風(fēng)險進行預(yù)測,其中RF-logistic模型表示利用隨機森林算法篩選的重要變量,建立logistic回歸模型。1.2.1數(shù)據(jù)清洗和規(guī)范化處理(1)缺失值和異常值的處理LendingClub的數(shù)據(jù)集變量多達一百多個,并且缺失值較多,部分變量甚至完全缺失,因此本文在進行數(shù)據(jù)清洗時,首先對缺失值進行處理。缺失值的處理主要分為兩步:第一步是刪除缺失率超過50%的變量。這些變量缺失值過多,如果予以保留,會造成較大的誤差,使模型更加偏離實際情況。通過對數(shù)據(jù)集缺失率的計算,刪除缺失率超過50%的43個變量,包括會員編碼、上一次拖欠距離現(xiàn)在的月份數(shù)、自上次公開以來的月數(shù)等變量。第二步,處理缺失率在0~50%之間的變量,共19個。根據(jù)數(shù)據(jù)的特點,通過簡單的眾數(shù)插補和均值插補對數(shù)據(jù)進行填補。變量的具體插補方式如表1.1所示。表1.1變量缺失值的插補方式變量名稱缺失率均值插補債務(wù)收入比0.02%周轉(zhuǎn)率0.12%所有賬戶的總余額/信用限額13.53%所有交易均衡信貸限額0.02%所有賬戶的平均當(dāng)前余額0.01%銀行卡上能夠用于周轉(zhuǎn)購買的總金額1.16%所有銀行卡余額/信用限額1.21%從不拖欠的交易比例0.0002%余額大于限額的75%的銀行卡比例1.16%眾數(shù)插補自最近開戶的銀行卡以來的月份數(shù)1.09%最早開立銀行分期付款賬戶以來的月份數(shù)2.72%自最近開戶的銀行卡以來的月份數(shù)1.09%自最近查詢以來的月份數(shù)11.53%當(dāng)前120天到期的賬戶數(shù)量1.81%職業(yè)1.95%上個月還款日0.13%下一個還款日26.20%最近信貸發(fā)生日期0.0007%借款人是否處于困難2.77%對債務(wù)收入比、周轉(zhuǎn)率和所有賬戶的總余額/信用限額等連續(xù)型數(shù)值變量進行均值插補,對自最近開戶的銀行卡以來的月份數(shù)和職業(yè)等離散型隨機變量和分類型變量,采用眾數(shù)插補的方法。為了保證數(shù)據(jù)的質(zhì)量,需要刪除異常樣本。經(jīng)過對數(shù)據(jù)集的初步描述,發(fā)現(xiàn)某些樣本異常,比如一些樣本的工作年限為,還款狀態(tài)為,并且沒有文件解釋這種異常情況,因此本文將這些樣本按照異常數(shù)據(jù)予以刪除,共刪除異常樣本數(shù)據(jù)98354條。(2)無關(guān)變量的處理在剔除缺失率較高的43個變量后,數(shù)據(jù)集還有108個變量,其中有些變量與本文的研究無關(guān),因此需要剔除。用戶的唯一標(biāo)識碼等信息的作用是對客戶登記,對用戶是否違約沒有影響,所以刪除用戶編碼;申報信用卡的初始年月、貸款發(fā)生月、最近信貸發(fā)生日期、上個月還款日和網(wǎng)址等信息對于預(yù)測是否發(fā)生信貸違約難以利用,并且刪除后對模型幾乎沒有影響,因此將這6個變量劃分為無關(guān)變量,予以刪除。貸款數(shù)據(jù)的變量按照貸款發(fā)生的時間,可以分為貸前變量和貸后變量,在本文的研究中,主要針對是否借款給申請人,也就是發(fā)生在貸款前,因此對需要刪除貸后變量:包括借款所產(chǎn)生的月供、貸款利率、信用等級、子信用等級、至今收到的投資金額、至今收到的委托金額、至今收到的利息、上一次還款的數(shù)量、截至目前收到的放貸金額、至今收到的本金等10個變量。(3)重復(fù)信息變量的處理數(shù)據(jù)集中的某些變量雖然名稱不同,但是傳遞的信息相同,這將會使得變量之間的相關(guān)性過高,所以刪除部分變量,保留其中一個變量即可。數(shù)據(jù)集中的貸款金額、涉及金額和投資金額的數(shù)據(jù)完全相同,本文選擇保留了貸款金額這一變量,剔除另外兩個重復(fù)變量;貸款目的和貸款目的標(biāo)題這兩個變量包含的信息是重復(fù)的,本文選擇保留貸款目的,剔除貸款目的標(biāo)題;郵政編碼和戶口所在地均表示個人的住址,二者在一定程度上屬于重合的信息,并且由于郵政編碼的數(shù)據(jù)缺失值較多,因此本文選擇保留變量戶口所在地。在處理重復(fù)信息變量的過程中,本文一共刪除了4個變量。(4)低信息變量的處理低信息變量是指該變量在所有的樣本中沒有明顯的差異,也就是說這個變量中,無法提取對互聯(lián)網(wǎng)金融信用風(fēng)險預(yù)測有用的信息。在分類變量中,低信息變量表現(xiàn)為該變量大部分為某個特定的取值,更有甚者,所有樣本均為同一取值,此時該變量對模型而言毫無意義,因此需要刪除。利用R語言查看分類型變量的取值,從中篩選出集中度大于90%的變量,予以刪除。包括貸款申請類型、貸款產(chǎn)品編碼、還款計劃、標(biāo)志著借款人是否處于困難計劃中、借款人是否與債務(wù)公司清算等6個變量。對于數(shù)值型變量,處理方法類似,當(dāng)某個數(shù)值的集中度超過90%時,則刪除這個變量,共刪除了現(xiàn)在拖欠的賬戶數(shù)量、一年內(nèi)注銷的賬戶數(shù)、手續(xù)費、12個月以來的醫(yī)療記錄數(shù)、曾經(jīng)逾期現(xiàn)在依舊發(fā)生拖欠的賬戶數(shù)、當(dāng)前120天到期的賬戶數(shù)量(過去2個月更新)、逾期30天的賬戶數(shù)量(過去2個月更新)、過去2年內(nèi)逾期90天或以上的賬戶數(shù)量、未償還本金數(shù)、未償還本金中投資者的部分、已回收金額、稅收留置權(quán)數(shù)量、至今收到的滯納金等13個變量。(5)其他變量的處理部分變量記錄的形式不同,因此在數(shù)據(jù)處理時需要轉(zhuǎn)變數(shù)據(jù)的形式,有些分類變量類別過多,并且難以進行合并,需要剔除該變量。比如在原始數(shù)據(jù)集中,職業(yè)共有236563種,并且書寫不規(guī)范,因此將職業(yè)這一變量刪除;戶口所在地有52個水平,且難以處理,因此將這一變量刪除。通過以上步驟的數(shù)據(jù)清洗,共剔除了84個變量,保留了67個變量,其中LoanStatus為因變量,表示當(dāng)前借款人的還款狀態(tài),自變量中有6個分類型變量,60個數(shù)值型變量。(6)數(shù)據(jù)的規(guī)范化處理該數(shù)據(jù)集變量之間的差異較大,不同的數(shù)值型變量之間量綱相差很大,若直接使用原始數(shù)據(jù)建立模型,會導(dǎo)致量綱大的變量對模型的影響較高,從而忽視了量綱較小的變量對模型的影響,為了使得模型更加全面、準(zhǔn)確,本文將數(shù)值型變量進行標(biāo)準(zhǔn)化,以消除量綱的影響。經(jīng)過處理后的數(shù)據(jù)型變量,均值為0,標(biāo)準(zhǔn)差為1,標(biāo)準(zhǔn)化公式如4-(1)所示。4-(1)其中表示需要轉(zhuǎn)換的變量,表示標(biāo)準(zhǔn)化后的變量,表示均值,表示標(biāo)準(zhǔn)差。1.2.2RF-logistic模型和Lasso-logistic模型的實證結(jié)果(1)RF-logistic模型的實證結(jié)果RF-logistic模型首先需要利用隨機森林算法選擇重要變量,然后才能建立logistic回歸模型。隨機抽取數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為測試集,利用隨機森林算法進行重要變量的篩選。經(jīng)過初步的數(shù)據(jù)清洗以后,數(shù)據(jù)集仍有較多的變量,如果利用所有的變量直接建立模型,不但會浪費不必要的時間,而且可能會產(chǎn)生共線性,造成模型的不準(zhǔn)確。根據(jù)奧卡姆剃刀原理,模型并不是變量越多越好,而是在同等條件下,變量越少模型越簡單越好。因此不能直接將所有自變量都用于建立模型,而應(yīng)該先對變量降維,利用降維以后的數(shù)據(jù)建立模型。隨機森林算法能夠?qū)ψ兞窟M行重要性排序,主要有兩個指標(biāo),一種是基于平均不純度減少(MeanDecreaseGini),另一種是基于平均精確率減少(MeanDecreaseAccuracy)。利用基于平均不純度減少對重要性進行排序,有一些明顯的缺點:第一,該方法更適用于具有更多屬性分類的特征,對于二分類問題會存在一定的偏向問題,因此在二分類時經(jīng)常采用基于平均精確率減少對變量進行重要性排序。第二,當(dāng)特征具有相關(guān)性時,特征之間會相互影響,特征的得分會比實際得分低,導(dǎo)致重要性得分不能準(zhǔn)確反映自變量對因變量的重要程度。利用基于平均精確率減少的隨機森林算法對變量進行重要性排序能夠有效地避免基于平均不純度減少的兩大缺點,因此本文在變量篩選時選擇了基于平均精確率減少的隨機森林算法進行變量重要性排序,得分越高說明這個變量對因變量的影響越大,越應(yīng)該選擇該變量建立模型。通過隨機森林算法的計算,得到每個變量的重要性得分,在保證全面性的基礎(chǔ)上,篩選出重要性得分超過40的自變量作為重要性變量,共23個自變量。均為數(shù)值型變量,重要性變量的得分如表1.2所示。表1.2變量的重要性得分變量名稱重要性得分債務(wù)收入比78.2118上次獲得FICO貸款的上限63.0588所有周轉(zhuǎn)賬戶的最大當(dāng)前余額62.7631借款人在最后借款時的FICO下限61.6666銀行卡賬戶數(shù)量60.4526自最近開戶的銀行卡以來的月份數(shù)59.7835所有分期付款賬戶的當(dāng)前總余額52.8607循環(huán)賬戶數(shù)量51.3560總循環(huán)高信用/信用額度51.2203目前信用檔案中信用記錄總數(shù)49.7179所有交易均衡信貸限額47.0776總分期付款高額信貸/信貸額度47.0165過去兩年的開放交易數(shù)46.5218自最早的循環(huán)賬戶開始以來的月份46.0903周轉(zhuǎn)率41.6093貸款總額不包括抵押貸款41.2875所有賬戶的總余額/信用限額41.2382所有銀行卡余額/信用限額43.2867分期付款賬戶數(shù)量42.8516借款人在貸款發(fā)起時的FICO的下限42.1820銀行卡上能夠用于周轉(zhuǎn)購買的總金額41.2385所有賬戶總余額40.7665債務(wù)收入比40.1590表1.2中貸款金額的重要性得分最高,這說明違約風(fēng)險與貸款金額息息相關(guān);債務(wù)收入比重要性得分也較高,說明借款人債務(wù)收入的情況對個人是否違約有很大的影響;FICO全稱是FinanceControlling,F(xiàn)ICO信用分是由美國個人消費信用評估公司開發(fā)出的一種個人信用評級法,表1.2中FICO的上限和下限的重要性得分超過60,這說明FICO對借款人的違約風(fēng)險有較高的影響。計算數(shù)值型變量之間的相關(guān)性,找出相關(guān)性系數(shù)大于0.7的變量,刪除重要性靠后的變量。logistic回歸模型本質(zhì)上是屬于線性回歸模型,因此需要考慮變量之間的相關(guān)性。當(dāng)變量之間存在較強的相關(guān)性時,模型的性能會受到影響,使得變量的回歸系數(shù)方差增大,導(dǎo)致模型預(yù)測能力下降,因此需要剔除部分相關(guān)性較高的變量。計算23個數(shù)值型變量的相關(guān)系數(shù),當(dāng)變量之間的相關(guān)系數(shù)大于0.7時,根據(jù)變量的重要性排序的結(jié)果,刪除重要性得分小的變量,保留重要性得分靠前的變量。經(jīng)過此步驟以后,剔除了6個變量,保留了17個數(shù)值型自變量。利用這17個自變量建立logistic模型,所有周轉(zhuǎn)賬戶的最大當(dāng)前余額、所有交易均衡信貸限額、所有賬戶的總余額/信用限額和分期付款賬戶數(shù)量等4個變量的回歸系數(shù)不顯著,因此予以剔除。通過對數(shù)據(jù)進行清洗、轉(zhuǎn)換以及篩選以后,數(shù)據(jù)集共保留了14個變量,其中包括因變量還款狀態(tài)和13個數(shù)值型的自變量。保留的自變量標(biāo)準(zhǔn)化前的基本描述如表1.3所示。表1.3變量標(biāo)準(zhǔn)化前的基本描述變量符號最小值1/4分位數(shù)中位數(shù)平均值3/4分位數(shù)最大值貸款金額(美元)1000800013000155472100040000債務(wù)收入比011.1217.318.9321.48999上次獲得FICO貸款的上限0654704687.6744850銀行卡賬戶數(shù)量(個)0467.287989自最近開戶的銀行卡以來的月份數(shù)(個)061423.4128569所有分期付款賬戶的當(dāng)前總余額(美元)0103542581038891504821466398總循環(huán)高信用/信用額度0166002930039216496001763900目前信用檔案中信用記錄總數(shù)(個)1506061.3471141過去兩年的開放交易數(shù)(個)0341.941739自最早的循環(huán)賬戶開始以來的月份(個)298151165.9213909周轉(zhuǎn)率00.210.3870.41220.5951.563續(xù)表1.3變量符號最小值1/4分位數(shù)中位數(shù)平均值3/4分位數(shù)最大值借款人在貸款發(fā)起時的FICO的下限660680700707.3730845所有賬戶總余額(美元)030624905081562762374864535114通過對變量的描述性分析可以發(fā)現(xiàn),樣本的差異性較大,例如貸款金額從1000美元到40000美元,最大值與最小值相差39000美元,這說明了兩個問題。第一,標(biāo)準(zhǔn)化的必要性。變量之間的量綱相差較大,可能會導(dǎo)致量綱大的變量變化極小就會對因變量產(chǎn)生較大的影響,而量綱小的變量即使變化很大對因變量的影響也很小,最終導(dǎo)致模型的不準(zhǔn)確。第二,預(yù)測違約風(fēng)險的必要性。借款人之間差異較大,有的借款人信用較好,有的借款人本身沒有還款能力,如果不對借款人進行風(fēng)險評估,直接貸款給借款人,無法還款的借款人會造成銀行等金融機構(gòu)的損失。基于處理過的數(shù)據(jù)集建立logistic回歸模型,由訓(xùn)練集得到的估計結(jié)果、顯著性、標(biāo)準(zhǔn)誤和p值如表1.4所示。表1.4基于訓(xùn)練集的RF-logisitic模型參數(shù)估計變量系數(shù)標(biāo)準(zhǔn)誤z值p值常數(shù)項-2.9298***0.0159-183.999<2E-16貸款金額0.5188***0.011843.825<2E-16債務(wù)收入比0.0754***0.00809.406<2E-16上次獲得FICO貸款的上限-3.6425***0.0189-192.897<2E-16銀行卡賬戶數(shù)量-0.0416**0.0145-2.8750.0040自最近開戶的銀行卡以來的月份數(shù)0.0398**0.01223.2630.0011所有分期付款賬戶的當(dāng)前總余額0.0558***0.01211.6333.60E-06總循環(huán)高信用/信用額度0.0517***0.01473.5240.0004目前信用檔案中信用記錄總數(shù)-0.0304*0.0118-2.5630.0104過去兩年的開放交易數(shù)-0.0265*0.0129-2.0610.0393自最早的循環(huán)賬戶開始以來的月份0.2290***0.012118.972<2E-16周轉(zhuǎn)率-0.0948***0.0138-6.8805.97E-12借款人在貸款發(fā)起時的FICO的下限0.4481***0.0158-28.278<2E-16所有賬戶總余額-0.2171***0.0142-15.242<2E-16注a:*、**和***分別表示在10%、5%和1%水平上顯著。如表1.4所示,所有變量系數(shù)的標(biāo)準(zhǔn)誤和p值均小于0.05,說明篩選的變量均是顯著的,這同時也說明數(shù)據(jù)的預(yù)處理是有效的。一般來說,在logistic回歸模型中,當(dāng)自變量的系數(shù)為正時,該自變量和因變量是同向變動的,當(dāng)自變量的系數(shù)為負時,該自變量與因變量是反向變動的。通過上表可知:貸款金額的系數(shù)為0.5188,并且在1%的水平上顯著,這說明借款人的貸款金額越高,違約概率越大;上次獲得FICO貸款上限的系數(shù)為負數(shù),且絕對值最大,這說明上次獲得FICO貸款的上限越低,越容易違約,這與事實相符。對模型預(yù)測效果進行分析時,將樣本分為訓(xùn)練集和測試集,分別計算訓(xùn)練集和測試集的混淆矩陣,如表1.5所示。表1.5RF-logistic回歸模型訓(xùn)練集混淆矩陣預(yù)測違約預(yù)測履約總計實際違約349345801=SUM(LEFT)40735實際履約3439145424=SUM(left)148863總計=SUM(ABOVE)38373=SUM(ABOVE)151225=SUM(ABOVE)189598通過表1.5可知,在訓(xùn)練集中,共有=SUM(ABOVE)189598條數(shù)據(jù),其中,實際違約的數(shù)據(jù)有=SUM(LEFT)40735條,實際履約的數(shù)據(jù)有148863條。利用RF-logistic回歸模型對訓(xùn)練集進行預(yù)測,在預(yù)測為違約的38373條樣本中,有34934條實際違約,3439條實際是履約的;在預(yù)測為履約的151225條樣本中,實際履約的樣本有145424條,實際違約的樣本有5801條。利用建立的RF-logistic回歸模型對測試集數(shù)據(jù)進行預(yù)測,得到的結(jié)果如表1.6所示。表1.6RF-logistic回歸模型測試集混淆矩陣預(yù)測違約預(yù)測履約總計實際違約148412384=SUM(LEFT)17225實際履約145562577=SUM(LEFT)64032總計=SUM(ABOVE)=SUM(ABOVE)16296=SUM(ABOVE)64961=SUM(ABOVE)81257在測試集中,共有=SUM(ABOVE)81257條數(shù)據(jù),其中,實際違約的數(shù)據(jù)有17225條,實際履約的數(shù)據(jù)有64032=SUM(LEFT)條?;赗F-logistic回歸模型對測試集數(shù)據(jù)進行預(yù)測時,在預(yù)測為違約的16296條樣本中,實際違約的有14841條,其余1455條是實際履約的樣本;在預(yù)測為履約的64961條樣本中,有62577條樣本實際履約,2384條實際違約。(2)Lasso-logistic模型的實證結(jié)果在建立Lasso-logistic模型之前,需要將分類型變量轉(zhuǎn)換成虛擬變量,為了避免共線性,采取的方法。例如貸款的還款間隔時間分為36個月和60個月,轉(zhuǎn)化為1個虛擬變量;住房情況分為抵押住房、自有住房、租賃住房和其他住房四種,因此轉(zhuǎn)換為三個虛擬變量。經(jīng)過該步驟,數(shù)據(jù)集由67個變量增加為81個變量,其中還款狀態(tài)為因變量,20個虛擬自變量,60個數(shù)值型自變量。按照RF-logistic模型對數(shù)據(jù)集的劃分方式,將數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為測試集,利用訓(xùn)練集的數(shù)據(jù)建立Lasso-logistic模型,以AUC值作為篩選變量的標(biāo)準(zhǔn),得到的結(jié)果如圖1.2所示。圖1.2Lasso-logistic模型最優(yōu)變量數(shù)選擇針對Lasso-logistic模型選擇變量的標(biāo)準(zhǔn)有AUC值、偏差(Deviance)、均方誤差(MSE)、平均絕對誤差(MAE)、分類的錯誤率等,對于分類問題,AUC值是比較重要的評估指標(biāo),因此本文采用AUC值作為篩選變量的評價標(biāo)準(zhǔn)。當(dāng)選擇AUC值最大時的,Lasso-logistic選擇的變量個數(shù)為77個,自變量個數(shù)較多,因此本文選擇性能最優(yōu)良的值,即選擇圖4-2中對應(yīng)11個變量的。Lasso-logistic模型的參數(shù)估計結(jié)果如表4-7所示。表1.7基于訓(xùn)練集的Lasso-logisitic模型參數(shù)估計變量參數(shù)估計值標(biāo)準(zhǔn)誤z值p值常數(shù)項-2.8004***0.0160-183.660<2e-16上次獲得FICO貸款的上限-3.3730***0.0182-192.345<2e-16所有賬戶總余額-0.0847***0.0123-15.267<2e-16周轉(zhuǎn)率-0.0091***0.0131-3.7350.0002借款人在貸款發(fā)起時的FICO的上限0.0024***2.0756.583<2e-16破產(chǎn)的記錄數(shù)0.0178***0.01068.249<2e-16債務(wù)收入比0.0344***0.00089.347<2e-16自最早的循環(huán)賬戶開始以來的月份0.1309***0.011419.345<2e-16續(xù)表1.7變量參數(shù)估計值標(biāo)準(zhǔn)誤z值p值貸款的還款間隔時間0.1517***0.011417.151<2e-16貸款金額(美元)0.3657***0.012436.177<2e-16借款人在貸款發(fā)起時的FICO的下限0.3755***2.075-6.5585.45e-11注b:*、**和***分別表示在10%、5%和1%水平上顯著。通過Lasso-logistic模型篩選的11個變量中,有9個變量與RF-logistic模型選擇的變量相同,并且相同變量的回歸系數(shù)符號相同。破產(chǎn)的記錄數(shù)和貸款的還款間隔時間是Lasso-logistic模型與RF-logistic模型不同的兩個新增變量,且系數(shù)均為正數(shù),這說明破產(chǎn)記錄次數(shù)越多,還款間隔時間越長越容易違約。對模型預(yù)測效果進行分析時,將樣本分為訓(xùn)練集和測試集,分別計算訓(xùn)練集和測試集的混淆矩陣,如表1.8所示。表1.8Lasso-logistic回歸模型訓(xùn)練集混淆矩陣預(yù)測違約預(yù)測履約總計實際違約347585977=SUM(LEFT)=SUM(LEFT)40735實際履約3298145565=SUM(left)148863總計=SUM(ABOVE)38056=SUM(ABOVE)151542=SUM(left)189598表1.8表明在訓(xùn)練集中,共有=SUM(ABOVE)189598條數(shù)據(jù),其中,實際違約的數(shù)據(jù)有=SUM(LEFT)40735條,實際履約的數(shù)據(jù)有148863條。利用Lasso-logistic回歸模型對訓(xùn)練集進行預(yù)測,在預(yù)測為違約的38056條樣本中,有34758條實際違約,3298條實際履約;在預(yù)測為履約的151542條樣本中,實際履約的樣本有145565條,實際違約的樣本有5977條。利用建立的RF-logistic回歸模型對測試集數(shù)據(jù)進行預(yù)測,得到的結(jié)果如表1.9所示。表1.9Lasso-logistic回歸模型測試集混淆矩陣預(yù)測違約預(yù)測履約總計實際違約147112454=SUM(LEFT)17225實際履約140662626=SUM(left)64032總計=SUM(ABOVE)16117=SUM(ABOVE)65080=SUM(ABOVE)81257在測試集中,共有=SUM(ABOVE)81257條數(shù)據(jù),其中,實際違約的數(shù)據(jù)有17225條,實際履約的數(shù)據(jù)有64032=SUM(LEFT)條?;贚asso-logistic模型進行預(yù)測時,在預(yù)測為違約的16117條樣本中,實際違約的有14711條,其余1406條是實際履約的樣本;在預(yù)測為履約的65080條樣本中,有62626條樣本實際履約,2454條實際違約。(3)RF-logistic模型和Lasso-logistic模型對比在實證分析過程中,得到了RF-logistic模型和Lasso-logistic模型的混淆矩陣,現(xiàn)利用混淆矩陣計算各模型對網(wǎng)絡(luò)借貸信用風(fēng)險預(yù)測的準(zhǔn)確率、精確率、召回率和F1值,并將結(jié)果進行匯總,比較模型的優(yōu)劣。表1.10訓(xùn)練集各模型的評價指標(biāo)模型準(zhǔn)確率精確率召回率F1值RF-logistic95.13%91.10%85.76%0.8832Lasso-logistic95.11%91.33%85.33%0.8830通過表1.10可知,在訓(xùn)練集上RF-logistic模型的準(zhǔn)確率、召回率和F1值較高,其準(zhǔn)確率、召回率和F1值分別比Lasso-logistic模型高0.02%、0.43%和0.0002。RF-logistic模型的精確率在訓(xùn)練集上比Lasso-logistic模型的精確率高0.23%。綜合來看,在訓(xùn)練集上兩種模型對網(wǎng)絡(luò)借貸信用風(fēng)險的預(yù)測效果相近。測試集的作用是驗證模型是否存在過擬合的現(xiàn)象,因此模型對測試集的預(yù)測效果也十分重要,對比三種模型在測試集中的表現(xiàn),得到表1.11。表1.11測試集各模型的評價指標(biāo)模型準(zhǔn)確率精確率召回率F1值RF-logistic95.28%91.07%86.16%0.8854Lasso-logistic95.17%91.28%85.40%0.8824通過表1.11可以看出在測試集上RF-logistic模型的準(zhǔn)確率、召回率和F1值較高,其準(zhǔn)確率、召回率和F1值分別比Lasso-logistic模型高0.11%、0.76%和0.0030。RF-logistic模型的精確率在訓(xùn)練集上比Lasso-logistic模型的精確率高0.21%。綜合來看,在測試集上,兩種模型對網(wǎng)絡(luò)借貸信用風(fēng)險的預(yù)測效果也相近。ROC曲線能夠直觀地展示模型的分類性能,具體如圖1.3所示。圖1.3RF-logistic模型和Lasso-logistic模型ROC曲線RF-logistic模型的AUC值為0.9726,Lasso-logistic模型的AUC值為0.9724。兩種模型的ROC曲線幾乎是重合的,說明RF-logistic模型和Lasso-logistic模型的分類性能都比較好,并且分類效果近似。通過對相關(guān)評價指標(biāo)的對比分析可以看出,RF-logistic模型和Lasso-logistic模型的預(yù)測效果近似,各指標(biāo)的差值均不超過1%。在訓(xùn)練集中,模型的AUC值為ROC曲線下方所覆蓋的區(qū)域面積,AUC值越大,分類器分類效果越好。兩種模型的AUC值相差甚微,可以忽略不計,這說明兩種模型都能夠很好地對本文中的網(wǎng)絡(luò)借貸信用風(fēng)險進行預(yù)測。1.2.3基于兩步子抽樣算法的RF-logistic模型預(yù)測結(jié)果通過對比發(fā)現(xiàn),RF-logistic模型和Lasso-logistic模型對本文中網(wǎng)絡(luò)借貸信用風(fēng)險在各評價體系下的預(yù)測效果相近。本文現(xiàn)以RF-logistic模型為例,研究將兩步子抽樣算法應(yīng)用于該模型后,對互聯(lián)網(wǎng)金融信用風(fēng)險的預(yù)測效果。兩步子抽樣算法是Wang等(2018)[37]提出的方法,并被廣泛應(yīng)用于各個模型和實際應(yīng)用中。為了比較抽樣的優(yōu)劣,本文將從參數(shù)的平均均方誤差、模型準(zhǔn)確率、精確率、召回率、F1值、CPU運行時間等幾個方面進行比較,從中選擇更適用于預(yù)測大數(shù)據(jù)背景下互聯(lián)網(wǎng)金融信用風(fēng)險的抽樣算法。經(jīng)過數(shù)據(jù)處理后得到的訓(xùn)練集,利用R語言通過不同的抽樣方法抽取部分樣本量,并且利用抽取的樣本建立logistic回歸模型,具體操作如下:固定第一次抽樣的樣本量,改變第二次抽樣的樣本量,使得,每組樣本運行次,圖1.4為改變第二次抽樣的樣本量以后每個抽樣方法得到的平均均方誤差。一般而言,均方誤差越小,表明這個模型越接近利用所有數(shù)據(jù)建立的模型,即抽樣方法越好。圖例中uniform表示簡單隨機抽樣,mMSE表示第二步入樣概率為的兩步子抽樣算法,mVC表示第二步入樣概率為的兩步子抽樣算法。圖1.4不同樣本量下各抽樣算法訓(xùn)練集的平均均方誤差由圖1.4可知,隨著樣本量的增加,三種抽樣方法的1000次平均均方誤差都呈下降趨勢。其中簡單隨機抽樣方法的均方誤差最大,這種方法均方誤差的最大值為0.141,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法,最大值為0.0321。這兩種兩步子抽樣算法的平均均方誤差比簡單隨機抽樣算法的平均均方誤差更小,這說明兩步子抽樣算法建立的模型更加精確,與全樣本建立的模型更加接近。為了進一步評估兩步子抽樣算法對互聯(lián)網(wǎng)金融信用風(fēng)險的預(yù)測能力,本文固定第一次抽樣的樣本量,改變第二次抽樣的樣本量,使得,每組樣本運行次,計算1000次運行結(jié)果的平均值,計算的指標(biāo)有訓(xùn)練集的AUC值以及訓(xùn)練集和測試集的準(zhǔn)確率、精確率、召回率、綜合指標(biāo)F1的值,多方面比較不同抽樣算法之間的差異。圖1.5為不同樣本量下各抽樣算法訓(xùn)練集的平均AUC值。圖1.5不同樣本量下各抽樣算法訓(xùn)練集的平均AUC值圖1.5表明隨著樣本量的增加,三種抽樣方法的平均AUC值都在增加,說明樣本量越大,模型擬合效果越好。具體分析每種抽樣方法的平均AUC值,可以發(fā)現(xiàn)簡單隨機抽樣算法的平均AUC值最大值為0.9619,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均AUC值最大值分別為0.9741和0.9740,與簡單隨機抽樣算法相比,兩步子抽樣算法的AUC值更大,模型擬合效果更好,與全樣本相比,兩步子抽樣算法通過平衡樣本獲得了更高的分類性能。訓(xùn)練集的準(zhǔn)確率在一定程度上反映了模型的預(yù)測效果,具體結(jié)果如圖1.6所示。圖1.6不同樣本量下各抽樣算法訓(xùn)練集的準(zhǔn)確率圖1.6表明隨著樣本量的增加,三種抽樣方法的平均準(zhǔn)確率都呈上升趨勢,說明樣本量越大,模型預(yù)測效果越好。具體分析每種抽樣方法的平均準(zhǔn)確率,可以發(fā)現(xiàn)簡單隨機抽樣算法的平均準(zhǔn)確率最大值為93.49%,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均準(zhǔn)確率最大值分別為91.62%和91.60%,與簡單隨機抽樣算法相比,兩步子抽樣算法對模型的預(yù)測更加準(zhǔn)確,與全樣本相比,兩步子抽樣算法的準(zhǔn)確率最多低0.51%。當(dāng)數(shù)據(jù)分類不平衡時,只用準(zhǔn)確率這一個指標(biāo)評估模型的預(yù)測效果是不合理的,通常還會計算模型的精確率、召回率和F1值,多方面對模型進行評估。具體結(jié)果如圖1.7所示。(a)精確率(b)召回率(c)F1值圖1.7不同樣本量下各抽樣算法訓(xùn)練集的精確率、召回率和F1值圖1.7中(a)、(b)、(c)分別表示不同樣本量下各抽樣算法運行1000次訓(xùn)練集的精確率、召回率和F1值。圖(a)表明隨著樣本量的增加,三種抽樣方法的平均精確率均在上升,其中簡單隨機抽樣算法的平均精確率最大值為88.61%,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均準(zhǔn)確率的最大值分別為90.21%和90.23%。與簡單隨機抽樣算法相比,兩步子抽樣算法對模型的預(yù)測更加準(zhǔn)確,與全樣本相比,兩步子抽樣算法的準(zhǔn)確率最多低0.89%。圖(b)表明隨著樣本量的增加,三種抽樣方法的平均召回率呈上升趨勢,其中簡單隨機抽樣算法的平均召回率最大值為81.76%,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均準(zhǔn)確率最大值分別為86.16%和86.07%。與簡單隨機抽樣算法相比,兩步子抽樣算法更能夠正確判別違約樣本,預(yù)測更加準(zhǔn)確。精確率與召回率是一對矛盾的評價指標(biāo),通常提高模型的精確率就會犧牲模型的召回率,F(xiàn)1值將精確率和召回率結(jié)合,是一個綜合指標(biāo),圖(c)表明隨著樣本量的增加,三種抽樣方法的平均F1值也在上升,其中簡單隨機抽樣算法的平均精確率最大值為0.8674,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均準(zhǔn)確率最大值分別為0.8813和0.8815,與簡單隨機抽樣算法相比,利用兩步子抽樣算法抽取的樣本建立模型對互聯(lián)網(wǎng)金融信用風(fēng)險進行預(yù)測,F(xiàn)1值更高,這說明綜合來看兩步子抽樣算法更加準(zhǔn)確。總CPU運行時間代表運行1000次算法的總時間,具體結(jié)果如圖1.8所示。圖1.8不同樣本量下各抽樣算法訓(xùn)練集的總CPU運行時間圖1.8中mMSE表示第二步入樣概率為的兩步子抽樣算法,mVC表示第二步入樣概率為的兩步子抽樣算法,full表示利用所有數(shù)據(jù)建立模型的結(jié)果。由圖1.8可知,全樣本運行1000次所需CPU運行時間為1160秒,相比之下,兩步子抽樣算法節(jié)約了大量的運行時間。其中,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法運行1000次的CPU時間最長為186.27秒和72.5秒。通過對訓(xùn)練集的各個模型評價預(yù)測效果指標(biāo)的分析,可以得出結(jié)論:在訓(xùn)練集上,兩步子抽樣算法模型預(yù)測效果優(yōu)于簡單隨機抽樣算法;第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的預(yù)測效果在AUC值、準(zhǔn)確率、精確率、召回率和F1值等方面的差值不超過0.005;與全樣本相比,兩步子抽樣算法在保持較高精度的同時,大幅度地節(jié)約了CPU運行時間,最多節(jié)約了1093.02秒。測試集能夠進一步評估模型的預(yù)測能力,因此需要重視測試集的評價指標(biāo),表1.18至表1.21為在測試集上各個抽樣算法的結(jié)果。表格中表示第二次抽取的樣本量,uniform表示簡單隨機抽樣,mMSE表示第二步入樣概率為的兩步子抽樣算法,mVC表示第二步入樣概率為的兩步子抽樣算法。表1.12不同樣本量下各抽樣算法測試集的準(zhǔn)確率runiformmMSEmVC50091.58%95.80%95.74%60091.63%95.81%95.83%70091.67%95.82%95.84%80091.70%95.83%95.84%90091.72%95.86%95.85%100091.74%95.87%95.86%通過表1.12可以看出在測試集中,隨著樣本量的增加,三種抽樣方法的平均準(zhǔn)確率都呈上升趨勢,說明樣本量越大,模型預(yù)測效果越好。具體分析每種抽樣方法在測試集上的平均準(zhǔn)確率,可以發(fā)現(xiàn)簡單隨機抽樣算法的平均準(zhǔn)確率最大值為91.74%,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均準(zhǔn)確率最大值分別為95.87%和95.86%,與簡單隨機抽樣算法相比,兩步子抽樣算法對模型的預(yù)測更加準(zhǔn)確。同樣地,當(dāng)測試集的數(shù)據(jù)不平衡時,利用準(zhǔn)確率這一個指標(biāo)評估模型的預(yù)測效果是不合理的,通常還會計算模型的精確率、召回率和F1值,多方面對模型進行評估。具體結(jié)果如表1.13至表1.15所示。表1.13不同樣本量下各抽樣算法測試集的精確率runiformmMSEmVC50091.86%93.77%91.02%60092.00%93.87%93.83%70092.15%93.93%93.93%80092.25%93.93%93.98%90092.38%93.98%93.98%100092.41%93.98%91.00%表1.19結(jié)果表明隨著樣本量的增加,測試集的平均精確率呈上升趨勢,其中簡單隨機抽樣算法的平均精確率最大值為92.41%,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均精確率最大值分別為93.98%和91.00%,與簡單隨機抽樣算法相比,兩步子抽樣算法對模型的預(yù)測更加準(zhǔn)確。表1.14不同樣本量下各抽樣算法測試集的召回率runiformmMSEmVC50079.92%81.31%81.25%60079.98%81.23%81.25%70080.05%81.25%81.36%80080.14%81.38%81.25%90080.25%81.41%81.26%100080.27%81.51%81.31%表1.14表明隨著樣本量的增加,平均召回率呈上升趨勢,其中簡單隨機抽樣算法的平均召回率最大值為82.27%,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均召回率最大值分別為81.51%和81.31%,與簡單隨機抽樣算法相比,兩步子抽樣算法更能夠正確判別違約樣本,預(yù)測更加準(zhǔn)確。表1.15不同樣本量下各抽樣算法測試集的F1值runiformmMSEmVC5000.85480.87100.87176000.85570.87090.87097000.85670.87130.87198000.85770.87210.87159000.85890.87240.871610000.86140.87300.8720在測試集中,精確率與召回率仍是一對矛盾的評價指標(biāo),通常提高模型測試集的精確率就會犧牲模型測試集的召回率。在測試集中,F(xiàn)1值將精確率和召回率結(jié)合,是一個綜合指標(biāo)。表1.15表明隨著樣本量的增加,模型的平均F1值也在上升,其中簡單隨機抽樣算法的平均F1值最大值為0.8614,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均F1值最大值分別為0.8730和0.8720,與簡單隨機抽樣算法相比,利用兩步子抽樣算法抽取的樣本建立模型對互聯(lián)網(wǎng)金融信用風(fēng)險進行預(yù)測,F(xiàn)1值更高,這說明綜合來看兩步子抽樣算法更加準(zhǔn)確。為了更加清楚地展示利用不同的抽樣方法抽取樣本后建立的logistic回歸模型對互聯(lián)網(wǎng)金融信用風(fēng)險的預(yù)測效果,本文以固定每種抽樣方法第一次抽取的樣本量為,固定第二次抽取的樣本量為為例(第二次抽取的樣本量為見附錄1.2-附錄1.6),進行K=1000次抽樣,利用各抽樣方法抽取的樣本,建立模型得到的參數(shù)估計值如表1.16所示,其中uniform表示簡單隨機抽樣,mMSE表示第二步入樣概率為的兩步子抽樣算法,mVC表示第二步入樣概率為的兩步子抽樣算法。表1.16各抽樣算法的評價指標(biāo)指標(biāo)uniformmMSEmVC訓(xùn)練集AUC值0.96200.97400.9740準(zhǔn)確率93.49%91.62%91.60%精確率88.69%90.21%90.23%召回率81.88%86.16%86.16%F1值0.86740.88140.8815測試集準(zhǔn)確率91.74%95.87%95.86%精確率92.41%93.98%91.00%召回率80.27%81.51%81.31%F1值0.86140.87300.8720由表1.16可知,在訓(xùn)練集上,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的AUC值相等,的準(zhǔn)確率比的準(zhǔn)確率高0.02%,的精確率比的精確率低0.02%,的召回率比的召回率值相等,的F1值比的F1值低0.0001。綜合各項指標(biāo),兩種兩步子抽樣算法對互聯(lián)網(wǎng)金融信用風(fēng)險的預(yù)測效果近似。這說明第二步入樣概率為的兩步子抽樣算法在無需計算矩陣的逆的基礎(chǔ)上,預(yù)測的精度沒有明顯下降。與簡單隨機抽樣方法相比,兩步子抽樣算法的預(yù)測精度更高。其中兩步子抽樣算法的AUC值與簡單隨機抽樣的AUC值相比高0.12,準(zhǔn)確率、精確率、召回率和F1值最高精確1.52%。測試集的結(jié)論與訓(xùn)練集的結(jié)論一致。通過以上比較分析,說明兩步子抽樣算法能夠較好地用于大數(shù)據(jù)背景下的互聯(lián)網(wǎng)金融信用風(fēng)險預(yù)測。1.3信用卡欺詐風(fēng)險實證研究為了進一步評估兩步子抽樣算法的性能,本文將該方法應(yīng)用于機器學(xué)習(xí)存儲庫中的信用卡客戶數(shù)據(jù)集(/ml/datasets/default+of+credit+card+clients),預(yù)測任務(wù)是確定持卡人是否存在信用卡欺詐行為。數(shù)據(jù)集共有30000條數(shù)據(jù),其中違約有6636人,因變量為,取值為0,1,其中1表示持卡人存在信用卡欺詐行為,0表示持卡人不存在信用卡欺詐行為。選擇的自變量的共有6個:表示信用額度(新臺幣);表示性別(1表示男性;2表示女性);表示教育程度(1表示研究生;2表示大學(xué);3表示高中;4表示其他)。表示婚姻狀況(1表示已婚;2表示單身;3表示其他),表示年齡(年),表示付款記錄(-1代表正常支付;1代表付款延遲一個月;2代表付款延遲兩個月;……;8代表付款延遲八個月;9代表付款延遲9個月及以上)。表示變量的系數(shù),,表示常數(shù)項的系數(shù)。將數(shù)據(jù)集的前70%作為訓(xùn)練集,其余30%作為測試集,利用所有訓(xùn)練集數(shù)據(jù)建立logistic回歸模型,得到的回歸結(jié)果如表1.17所示。表1.17基于訓(xùn)練集的logisitic回歸模型結(jié)果變量名符號系數(shù)標(biāo)準(zhǔn)誤z值p值常數(shù)-1.443***0.0191-75.399<2.00e-16信用額度(新臺幣)-0.2775***0.0212-13.097<2.00e-16性別-0.0481**0.0178-2.7040.00685教育程度-0.0963***0.0195-1.9288.29e-07婚姻狀況0.0963***0.0196-3.9338.04e-05年齡(年)0.0869***0.01941.4727.75e-06付款記錄0.7678***0.019639.275<2.00e-16注b:***和***分別表示在10%、5%和1%水平上顯著。表1.17表明所有變量的p值都小于0.05,說明每個變量都顯著;變量的系數(shù)為正,說明該變量的值越大,越容易違約,反之,當(dāng)變量的系數(shù)為負,說明變量的值越大,越不容易違約。從表1.17可以看出,信用額度越小、男性、教育程度越高、婚姻狀況為未結(jié)婚、年齡越大、付款延遲時間越長越容易違約。ROC曲線在一定程度上表示模型的分類情況,圖1.9為全樣本下logistic回歸模型的ROC曲線。圖1.9logistic回歸模型的ROC曲線本文在基于logistic回歸模型對信用卡欺詐風(fēng)險進行預(yù)測時,在訓(xùn)練集中,模型的AUC值為ROC曲線下方所覆蓋的區(qū)域面積,AUC值越大,分類器分類效果越好。利用logistic回歸模型對信用卡欺詐風(fēng)險進行預(yù)測的AUC值是0.7149,訓(xùn)練集的準(zhǔn)確率為81.01%,測試集的準(zhǔn)確率為80.71%。為了評估兩步子抽樣算法對信用卡欺詐風(fēng)險的預(yù)測能力,本文固定第一次抽樣的樣本量,改變第二次抽樣的樣本量,并對其參數(shù)的平均均方誤差進行比較,如圖1.10所示。圖例中uniform表示簡單隨機抽樣方法,mMSE表示第二步入樣概率為的兩步子抽樣算法,mVC表示第二步入樣概率為的兩步子抽樣算法。圖1.10不同樣本量下各抽樣算法訓(xùn)練集的平均均方誤差由圖1.10可知,隨著樣本量的增加,三種抽樣方法的1000次平均均方誤差呈下降趨勢,其中簡單隨機抽樣方法的平均均方誤差最大,最大值為0.1443,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均均方誤差都不超過0.04,最大值為0.0322,比簡單隨機抽樣算法最大精確0.1176。兩種兩步子抽樣算法的平均均方誤差比簡單隨機抽樣算法的平均均方誤差更小,這說明兩步子抽樣算法建立的模型更加精確,與全樣本建立的模型更加接近。通過不同的指標(biāo)進一步評估不同抽樣算法對信用卡信用風(fēng)險的預(yù)測效果,計算的指標(biāo)有訓(xùn)練集的AUC值、訓(xùn)練集準(zhǔn)確率和總CPU運行時間。圖1.11為不同樣本量下各抽樣算法訓(xùn)練集的平均AUC值。圖1.11不同樣本量下各抽樣算法訓(xùn)練集的平均AUC值圖1.11表明隨著樣本量的增加,三種抽樣方法的平均AUC值都在增加,說明樣本量越大,模型擬合效果越好。具體分析每種抽樣方法的平均AUC值:簡單隨機抽樣算法的平均AUC值最大值為0.7021,第二步入樣概率為的兩步子抽樣算法和第二步入樣概率為的兩步子抽樣算法的平均AUC值最大值分別為0.7139和0.7131。與簡單隨機抽樣算法相比,兩步子抽樣算法的AUC值更大,模型分類效果更好。訓(xùn)練集的準(zhǔn)確率在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- XX校區(qū)2025-2026學(xué)年第一學(xué)期最美教師評選材料
- 檐口裝飾施工方案(3篇)
- 江西假山施工方案(3篇)
- 波形護欄-施工方案(3篇)
- 海南綠色施工方案(3篇)
- 溫泉策劃施工方案(3篇)
- 煙管美化施工方案(3篇)
- 登革熱預(yù)防施工方案(3篇)
- 端午賣貨活動策劃方案(3篇)
- 聚會活動游戲策劃方案(3篇)
- DB65-T 4828-2024 和田玉(子料)鑒定
- 小學(xué)數(shù)學(xué)解題研究(小學(xué)教育專業(yè))全套教學(xué)課件
- 直播場景搭建與布局設(shè)計
- 數(shù)據(jù)生命周期管理與安全保障
- 早期胃癌出院報告
- 吊頂轉(zhuǎn)換層設(shè)計圖集
- 優(yōu)勝教育機構(gòu)員工手冊范本規(guī)章制度
- 120MPa輕質(zhì)高強混凝土的配制技術(shù)
- 山地造林施工設(shè)計方案經(jīng)典
- NPI新產(chǎn)品導(dǎo)入管理程序
- 初中語文文摘文苑四季頌歌
評論
0/150
提交評論