基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)集成的個人信用評價模型_第1頁
基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)集成的個人信用評價模型_第2頁
基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)集成的個人信用評價模型_第3頁
基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)集成的個人信用評價模型_第4頁
基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)集成的個人信用評價模型_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)集成的個人信用評價模型第1頁/共23頁2目錄13引言RS和GA-NN集成模型2實(shí)證分析第2頁/共23頁31.引言個人信用評價問題

商業(yè)銀行零售信貸業(yè)務(wù)的不斷發(fā)展,使得個人信用評價的重要性日益加強(qiáng)。個人信用評價是指商業(yè)銀行根據(jù)個人的信用信息給出每個貸款申請者能夠償還貸款的可能性(Chen,Huang,2003)[1]。面對客戶提出的貸款申請,銀行需要根據(jù)客戶提出的基本信息和以往的資信記錄,包括姓名、年齡、家庭住址、職業(yè)、每月收入、信用卡消費(fèi)紀(jì)錄、以往貸款還貸紀(jì)錄等,采用科學(xué)的方法對客戶的信用進(jìn)行評估,以決定是否向該客人戶發(fā)放貸款(Lee等人,2003)[2]。第3頁/共23頁41.引言文獻(xiàn)綜述

隨著人工智能技術(shù)的發(fā)展,包括人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)、支持向量機(jī)(SupportVectorMachine,SVM)、遺傳算法(GeneticAlgorithm,GA)、粗糙集(RoughSet,RS)以及各種方法相互結(jié)合的組合模型逐步應(yīng)用到個人信用評價中來。Huang等人(2006)[3]將這些模型分為以功能為基礎(chǔ)的方法(如GA、ANN等)和以歸納為基礎(chǔ)的方法(如Apriori算法、決策樹、RS等)。同時,各種各樣的研究著重于集成一些以功能為基礎(chǔ)的模型,來提高分類精度。第4頁/共23頁51.引言文獻(xiàn)綜述

朱興德等人(2003)[4]提出了一種基于GA的神經(jīng)網(wǎng)絡(luò)個人信用評估模型,利用標(biāo)準(zhǔn)GA和Solis&Wets算法的混合算法同時優(yōu)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和權(quán)重閾值系數(shù)。姜明輝等人(

2008)[5]將GA與SVM進(jìn)行結(jié)合,構(gòu)建了個人信用評估GA-SVM模型,用GA來選擇SVM參數(shù),并通過GA適應(yīng)度函數(shù)的設(shè)置,來控制給商業(yè)銀行造成較大損失的“取偽”誤判的發(fā)生。第5頁/共23頁61.引言文獻(xiàn)綜述

對以歸納為主的算法,其主要的優(yōu)點(diǎn)在于這些算法可以向決策者提供可理解的IF-THEN規(guī)則,幫助他們理解數(shù)據(jù)真實(shí)的內(nèi)容。Huang等人(2006)[3]提出了一種兩階段遺傳模型來研究信用評價模型,該模型通過遺傳規(guī)劃來提取IF-THEN規(guī)則,取得了很好的分類效果。然而,以歸納為主的模型存在的主要問題是預(yù)測能力不強(qiáng),如果一個樣本新個體不符合任何規(guī)則,就無法確定它的信用類別[6]。第6頁/共23頁71.引言

為了結(jié)合兩種模型的優(yōu)點(diǎn),柯孔林等人(2008)[7]將RS和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,針對商業(yè)銀行企業(yè)貸款業(yè)務(wù),構(gòu)造了五級分類評價模型。然而,BP神經(jīng)網(wǎng)絡(luò)存在一些問題,如穩(wěn)定性差,容易陷入局部極值。此外,目前國內(nèi)很少有學(xué)者將以歸納為基礎(chǔ)的方法和以功能為基礎(chǔ)的方法集成來研究商業(yè)銀行個人信用評價問題,因此,本文提出了以RS和遺傳神經(jīng)網(wǎng)絡(luò)(GA-NeuralNetwork,GA-NN)集成的混合信用評價模型,通過基于GA的RS來約簡信用評價指標(biāo),降低了GA-NN輸入層的結(jié)點(diǎn)數(shù),提高了分類精度;通過RS來提取個人信用評價規(guī)則庫,有利于決策者更好地掌握數(shù)據(jù)信息和執(zhí)行信貸決策。第7頁/共23頁82.RS和GA-NN集成模型RS和GA-NN集成的個人信用評價模型主要由兩部分組成,見圖1。第一部分是模型訓(xùn)練,包括三個步驟:(1)樣本數(shù)據(jù)預(yù)處理:離散化和歸一化;(2)應(yīng)用GA簡約評價指標(biāo);(3)采用RS,基于最小簡約指標(biāo)提取判別規(guī)則,形成個人信用評價判別規(guī)則庫。第二部分是模型檢驗(yàn),將檢驗(yàn)樣本評價指標(biāo)值與規(guī)則庫進(jìn)行匹配,會出現(xiàn)匹配和不匹配兩種情況。用RS判別與規(guī)則庫匹配的檢驗(yàn)樣本信用等級,GA-NN算法作為輔助模型,判別不與規(guī)則庫任何規(guī)則匹配的檢驗(yàn)樣本信用等級。否

圖1:個人信用評價集成模型框架圖YES數(shù)據(jù)預(yù)處理訓(xùn)練集測試集應(yīng)用遺傳算法進(jìn)行屬性約簡規(guī)則庫匹配?粗糙集理論樣本集基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)模型分類結(jié)果第8頁/共23頁92.RS和GA-NN集成模型

評價指標(biāo)屬性約簡在決策過程中,并不是屬性越多越好,而是遵循樣本的屬性特征足夠刻畫樣本特征的選擇原則。這是因?yàn)閷傩赃^多時,樣本中會更容易夾雜一些噪聲數(shù)據(jù),對于計(jì)算空間的要求以及算法的時間要求都會增加,增加問題的復(fù)雜性。因此,本文對樣本進(jìn)行知識約簡。知識約簡,就是指保持知識庫分類能力不變的條件下,刪除其中不相關(guān)或不重要的冗余知識?,F(xiàn)有的約簡算法,主要是是從RS的核出發(fā),采用啟發(fā)式搜索的方法構(gòu)造所含條件屬性最少的約簡,即最小約簡(陶志等人,2003)[8]。通過刪除條件指標(biāo)

的前后近似質(zhì)量之差

來考察條件指標(biāo)

對于決策屬性D

的重要性,如果

,則認(rèn)為評價指標(biāo)

對于決策屬性D沒有影響,可以在評價指標(biāo)集中將其刪除。本文采用GA尋找最小相對約簡[8]:假設(shè)評價指標(biāo)集合為,評價指標(biāo)空間染色體為長度為制位串,每一位對應(yīng)一個條件屬性。若某位取值為1,則表示選擇其對應(yīng)的條件屬性;的二進(jìn)第9頁/共23頁102.RS和GA-NN集成模型

評價指標(biāo)屬性約簡

若某位取值為0,則去除其對應(yīng)的條件屬性。這樣,每一個染色體個體對應(yīng)了條件屬性空間中的一個屬性子集。定義自適應(yīng)函數(shù)為(柯孔林等人,2008)[7]:式中:Lθ表示染色體

選擇了的評價指標(biāo)個數(shù),Zθ表示染色體

覆蓋決策表的行數(shù),

為評價指標(biāo)個數(shù),

為訓(xùn)練樣本數(shù)。第10頁/共23頁112.RS和GA-NN集成模型信用評價規(guī)則生成商業(yè)銀行零售客戶的數(shù)據(jù)庫以二維數(shù)據(jù)表的形式表示,決策表

表示為

,表中的每一行描述一個零售客戶,所有零售客戶的集合稱為論域

,每一列描述一個屬性,屬性可以分為條件屬性(評價指標(biāo))和決策屬性(貸款與否),

為屬性集合,C和D分別為評價指標(biāo)集和決策屬性集合,

,

是屬性的值域

[9]。利用RS生成商業(yè)銀行零售客戶信用評價規(guī)則庫是以決策表作為單位進(jìn)行的,將GA約簡的評價指標(biāo)作為規(guī)則的前部,決策屬性作為規(guī)則的后部,由此形成判別規(guī)則。若

為評價指標(biāo)

的離散值,

為決策屬性D

的取值,則由簡化后的評價指標(biāo)生成的個人信用判別規(guī)則表示為:第11頁/共23頁122.RS和GA-NN集成模型GA-NN構(gòu)造基于采用標(biāo)準(zhǔn)GA簡約得到的最小評價指標(biāo)集及相應(yīng)的經(jīng)過歸一化之后的標(biāo)準(zhǔn)化數(shù)據(jù)形成最新的學(xué)習(xí)樣本,對GA-NN系統(tǒng)進(jìn)行學(xué)習(xí)和訓(xùn)練。基本操作步驟如下:(1)選擇合適的參數(shù),包括群體規(guī)模,交叉概率和變異概率

(2)確定適應(yīng)度函數(shù),為期望輸出,為神經(jīng)網(wǎng)絡(luò)的輸出(3)隨機(jī)產(chǎn)生一組初始染色體,計(jì)算每一個染色體的適應(yīng)值同時計(jì)算群體的總適應(yīng)值(4)采用實(shí)數(shù)編碼方法,本文把一組網(wǎng)絡(luò)權(quán)值和閾值連接成一個GA中的染色體第12頁/共23頁132.RS和GA-NN集成模型GA-NN構(gòu)造

(5)計(jì)算每一串的選擇概率和累計(jì)概率以輪盤賭方式進(jìn)行個體的選擇;(6)對每串產(chǎn)生隨機(jī)數(shù),若一組后,隨機(jī)配對,對每一對,產(chǎn)生則參加交叉操作,選出參加操作的間的隨機(jī)數(shù)以確定交叉的位置;(7)可能變異的位數(shù)的期望值為,每一位為等概率變異,具體步驟為:對每一串中的每一位產(chǎn)生,,則該位變異,如果子代染色體數(shù)達(dá)到,則已形成下一代,直至達(dá)到預(yù)定的進(jìn)化代數(shù)為止,否則轉(zhuǎn)向第(5)步操作;(8)利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)。第13頁/共23頁143.實(shí)證分析本文采用國內(nèi)某商業(yè)銀行的個人信貸數(shù)據(jù)集對該方法的有效性進(jìn)行驗(yàn)證,共獲得496個樣本,其中正常客戶和違約客戶分別用1和2表示,樣本數(shù)據(jù)集包含15個指標(biāo)屬性:性別(C1),年齡(C2),婚否(C3),教育程度(C4),健康狀況(C5),家庭情況(C6),月均收入(C7),單位性質(zhì)(C8),職業(yè)(C9),賬戶結(jié)算方式(C10),賬戶存在年限(C11),貸款額(C12),貸款期限(C13),還款方式(C14),擔(dān)保方式(C15)。本文采用隨機(jī)抽樣方法,從總體中隨機(jī)抽取350個客戶為訓(xùn)練集,剩余的146位客戶作為檢驗(yàn)樣本集。訓(xùn)練集中正常和違約客戶分別為301位和49位,檢驗(yàn)樣本集中正常和違約客戶分別為132位和14位。

樣本選擇第14頁/共23頁153.實(shí)證分析評價指標(biāo)符號12345年齡C2[0,30)[30,35)[35,40)[40,50)[50,∞)賬戶存在年限(年)C11[0,2)[2,3)[3,4)[4,5)[5,∞)貸款額(萬)C12[0,5)[5,10)[10,20)[20,30)[30,∞)表1評價指標(biāo)屬性離散化區(qū)間利用RS進(jìn)行屬性簡約時,需要將連續(xù)屬性離散化。在本文選擇的15個屬性里,年齡、賬戶存在年限、貸款金額需要進(jìn)行離散化處理。參考文獻(xiàn)[5](姜明輝,袁緒川,2008),對以上3個連續(xù)指標(biāo)離散區(qū)間劃分標(biāo)準(zhǔn),同時根據(jù)樣本在各屬性上的分布情況,得到表1的離散化結(jié)果。數(shù)據(jù)離散化第15頁/共23頁163.實(shí)證分析

屬性約簡通過GA求得訓(xùn)練樣本的最小約簡共有3個,分別為{C1,C2,C6,C7,C8,C9,C12,C14},{C2,C6,C7,C8,C9,C10,C12,C14},{C2,C6,C7,C8,C9,C11,C12,C14}。根據(jù)最大聚類比率公式(柯孔林,馮宗憲,2008)[7],選擇{C2,C6,C7,C8,C9,C10,C12,C14}產(chǎn)生信用評價規(guī)則,共產(chǎn)生138條,限于篇幅文本選擇支持?jǐn)?shù)較多的部分規(guī)則列于表2中,每一行表示一個信用評價規(guī)則,比如第一行可以表示為:如果{C2=4,C6=3,C7=4C8=3,C9=5,C10=3,C12=2,C14=2},則該客戶信用良好,相應(yīng)規(guī)則數(shù)為9。規(guī)則條件屬性決策屬性支持?jǐn)?shù)C2C6C7

C8

C9C10C12C1414343532219222235122183433333221842234332217532731352166432351321673323313224表2個人信用判別規(guī)則第16頁/共23頁173.實(shí)證分析GA-NN模型在基于GA的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,輸入層有8個神經(jīng)元,輸出層有2個神經(jīng)元,設(shè)定隱層有6個神經(jīng)元。如果評價的結(jié)果為正常貸款,則輸出(1,0),如果評價結(jié)果為違約,則應(yīng)輸出(0,1)。本文中,取種群規(guī)模為60,最大進(jìn)化數(shù)為1000,交叉概率0.5,變異概率0.001,設(shè)置學(xué)習(xí)率為0.01,訓(xùn)練誤差為0.05,訓(xùn)練最大數(shù)為5000。在編碼過程中,染色體定義為第17頁/共23頁183.實(shí)證分析初始值預(yù)測值樣本數(shù)誤判率(%)

壞好871510214.71%壞36933.33%初始值預(yù)測值樣本數(shù)誤判率(%)

壞好2283026.67%壞14520.00%將146個檢驗(yàn)樣本客戶與信用評價規(guī)則庫進(jìn)行比較,有111個客戶的評價指標(biāo)與規(guī)則相匹配,可以將其判定為相應(yīng)規(guī)則的信用等級,見表3。剩余的35個檢驗(yàn)樣本不與任何規(guī)則匹配,分別將它們的標(biāo)準(zhǔn)數(shù)據(jù)輸入到已訓(xùn)練完成的GA-NN中,根據(jù)網(wǎng)絡(luò)輸出的最大值判別信用等級,結(jié)果見表4。表3RS規(guī)則判別結(jié)果表4GA-NN判別結(jié)果第18頁/共23頁193.實(shí)證分析由表3和表4可知,RS和GA-NN集成模型對146個檢驗(yàn)樣本的正確判別樣本數(shù)為119個,總體正確判斷率為81.51%,其中正常、違約的正確判斷率分別為:82.58%和71.43%。同時將檢驗(yàn)樣本的模型預(yù)測結(jié)果列于表5,括號外的數(shù)字為檢驗(yàn)樣本數(shù),括號內(nèi)的數(shù)字為平均誤判率。從表中可知,RS提取的規(guī)則對檢驗(yàn)樣本的平均誤判率要低于GA-NN,但當(dāng)RS提取的規(guī)則無法判別檢驗(yàn)樣本時,GA-NN作為輔助的判別方法其預(yù)測精度比較理想??梢?,基于RS和GA-NN的集成模型預(yù)測精度較高,魯棒性較強(qiáng),對商業(yè)銀行零售客戶的信用等級有很好的預(yù)測能力。組別RS規(guī)則GA-NN集成模型1111(16.22%)35(25.71%)81.51%表3檢驗(yàn)樣本預(yù)測精度

第19頁/共23頁203.結(jié)論本文將人工智能領(lǐng)域中的RS理論結(jié)合本文構(gòu)造的GA-NN,針對國內(nèi)商業(yè)銀行零售信貸業(yè)務(wù),構(gòu)建了適合我國商業(yè)銀行個人信用等級分類需要的評價模型。通過基于GA的RS來約簡信用評價屬性,降低了GA-NN輸入層的結(jié)點(diǎn)數(shù)。通過RS進(jìn)行規(guī)則提取,從而建立信用評價規(guī)則庫,有利于銀行客戶經(jīng)理進(jìn)行快速、有效決策。同時,用GA-NN作為輔助的判別方法,進(jìn)一步彌補(bǔ)了RS的不足,提高了信用評價的準(zhǔn)確度。最后,利用國內(nèi)某商業(yè)銀行的個人貸款數(shù)據(jù)集進(jìn)行實(shí)證,取得了良好的分類預(yù)測效果。

現(xiàn)階段主要的工作是:解決代價敏感以及數(shù)據(jù)不平衡的問題,構(gòu)建“基于改進(jìn)粒子群算法的代價敏感支持向量機(jī)模型”,利用粒子群算法來選擇代價敏感支持向量機(jī)中(CS-SVM)的核函數(shù)參數(shù)以及懲罰函數(shù)C,并將該模型應(yīng)用于“貸款違約判別”。目前只剩下實(shí)證部分。第20頁/共23頁21參考文獻(xiàn)[1]ChenMC,HuangSH.Creditscoringandrejectedinstancesreassigningthroughevolutionarycomputationtechniques[J].ExpertSystemswithApplications,2003,24(4):433–441.[2]LeeTS,ChiuCC,LuCJ,etal.Creditscoringusingthehybridneuraldiscriminanttechnique[J].ExpertSystemswithApplications,2003,23(3):245–254.[3]HuangJJ,TzengGH,OngCS.Two-stagegeneticprogramming(2SGP)forthecreditscoringmodel[J].AppliedMathematicsandComputation,2006,2(174):1039-1053.[4]朱興德,馮鐵軍.基于GA神經(jīng)網(wǎng)絡(luò)的個人信用評估[J].系統(tǒng)工程理論與實(shí)踐,2003

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論