版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
深度學(xué)習(xí)驅(qū)動(dòng)的財(cái)務(wù)困境預(yù)測實(shí)證分析案例概述目錄TOC\o"1-3"\h\u26945深度學(xué)習(xí)驅(qū)動(dòng)的財(cái)務(wù)困境預(yù)測實(shí)證分析案例概述 1118731.1樣本數(shù)據(jù)的預(yù)處理 171461.2LSTM神經(jīng)網(wǎng)絡(luò)的構(gòu)建 1115231.2.1模型的訓(xùn)練 1315651.2.2模型的檢驗(yàn) 480961.3SMOTE非平衡處理后的LSTM神經(jīng)網(wǎng)絡(luò) 623651.3.1SMOTE過采樣原理 6317641.3.2非平衡處理后的模型結(jié)果分析 7149021.4不同的財(cái)務(wù)困境預(yù)測模型 827641.4.1不同模型的參數(shù)設(shè)置 9192721.4.2不同模型預(yù)測效果分析 10147291.5深度學(xué)習(xí)模型的可解釋性 141.1樣本數(shù)據(jù)的預(yù)處理1999年到2019年間,有些上市公司的小部分指標(biāo)數(shù)據(jù)在某些年份是空缺的,空缺值會(huì)影響模型的訓(xùn)練。因此,對(duì)于缺失值我們主要通過取相對(duì)應(yīng)上市公司的該財(cái)務(wù)指標(biāo)序列均值來填補(bǔ),保證數(shù)據(jù)的完整性。最終得到3218家上市公司的40252條樣本數(shù)據(jù),其中ST與非ST樣本數(shù)據(jù)的比例為1:17。為了消除不同指標(biāo)數(shù)據(jù)的量綱不同的影響,在模型訓(xùn)練前,利用最大最小歸一化將45個(gè)預(yù)測指標(biāo)數(shù)據(jù)進(jìn)行處理,將原始數(shù)據(jù)轉(zhuǎn)化為[0,1]的數(shù)據(jù)。x由于模型的訓(xùn)練不使用T年和T-1年的指標(biāo)數(shù)據(jù),因此在數(shù)據(jù)預(yù)處理和歸一化處理后,刪除T年和T-1年的指標(biāo)數(shù)據(jù),最終得到33586條樣本數(shù)據(jù)。1.2LSTM神經(jīng)網(wǎng)絡(luò)的構(gòu)建1.2.1模型的訓(xùn)練在模型訓(xùn)練前需要對(duì)樣本數(shù)據(jù)進(jìn)行相應(yīng)的處理。LSTM神經(jīng)網(wǎng)絡(luò)輸入層數(shù)據(jù)必須是三維數(shù)據(jù),因此需要將數(shù)據(jù)構(gòu)建為三維張量,第一維是公司樣本,第二維是時(shí)間,第三維是特征。然后針對(duì)不同時(shí)間步長的總樣本劃分模型的訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集的數(shù)據(jù)用來訓(xùn)練模型,確定模型的權(quán)重和偏置等學(xué)習(xí)參數(shù),驗(yàn)證集的數(shù)據(jù)用來調(diào)試模型確定超參數(shù),測試集的數(shù)據(jù)用來評(píng)價(jià)最終模型的預(yù)測效果及穩(wěn)定性,測試集的數(shù)據(jù)既不參與學(xué)習(xí)參數(shù)的過程也不參與超參數(shù)的選擇過程。運(yùn)用分層采樣的方法,保證訓(xùn)練集、驗(yàn)證集和測試集三個(gè)樣本中的ST公司與非ST公司樣本的比例保持在1:17左右。首先取樣本總數(shù)中的80%作為訓(xùn)練數(shù)據(jù),然后將訓(xùn)練數(shù)據(jù)中的75%作為訓(xùn)練集,訓(xùn)練數(shù)據(jù)中25%作為驗(yàn)證集,最后取剩余的20%樣本數(shù)據(jù)作為測試集,最終訓(xùn)練集、驗(yàn)證集和測試集的數(shù)據(jù)量如表1.1所示。表1.1不同時(shí)間步長下樣本的訓(xùn)練集、驗(yàn)證集和測試集的樣本數(shù)時(shí)間步長總樣本數(shù)ST樣本數(shù)非ST樣本數(shù)訓(xùn)練集驗(yàn)證集測試集T-2335861839317472015167176718T-3至T-2年303251779285461819560656065T-4至T-2年274201683257371645254845484T-5至T-2年247021551231511482149404941深度學(xué)習(xí)模型構(gòu)建由超參數(shù)確定。關(guān)于超參數(shù)的選擇至今沒有一套完善的理論做指導(dǎo)?,F(xiàn)階段深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)超參數(shù)的設(shè)定主要依據(jù)經(jīng)驗(yàn)法及試錯(cuò)法。超參選擇本質(zhì)上就是一個(gè)不斷試錯(cuò)的過程,不同的超參數(shù)組合會(huì)構(gòu)造出不同深度學(xué)習(xí)模型,然后通過對(duì)比模型的預(yù)測性能來選擇相對(duì)較優(yōu)的模型。主要超參數(shù)有:每層神經(jīng)元的數(shù)量、網(wǎng)絡(luò)的層數(shù)、激活函數(shù)、優(yōu)化算法、學(xué)習(xí)率、訓(xùn)練批量規(guī)模等。深度學(xué)習(xí)方法不需要進(jìn)行特征選擇工程,也即不需要對(duì)選取的預(yù)測指標(biāo)進(jìn)行篩選。將指標(biāo)數(shù)據(jù)直接傳遞給神經(jīng)網(wǎng)絡(luò)后,深度學(xué)習(xí)能夠自動(dòng)識(shí)別特征,實(shí)現(xiàn)良好的預(yù)測性能。因此直接將劃分好的訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)進(jìn)行LSTM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。通過大量實(shí)驗(yàn)反復(fù)調(diào)試,最終LSTM神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)具體設(shè)定如下。(1)輸入層數(shù)據(jù)為[步長,45個(gè)指標(biāo)數(shù)據(jù)],輸出層節(jié)點(diǎn)數(shù)為1。(2)隱藏層的數(shù)量為2,依次將隱藏層的數(shù)量設(shè)置為1、2、3、4進(jìn)行逐個(gè)訓(xùn)練,根據(jù)測試集的召回率和AUC進(jìn)行評(píng)價(jià),發(fā)現(xiàn)隱藏層為2層時(shí),模型的效果最好。隱藏層各層神經(jīng)元的設(shè)置按照“金字塔”原則設(shè)為32,16。(3)激活函數(shù):隱藏層為Relu函數(shù),該函數(shù)能夠克服梯度消失問題,節(jié)省計(jì)算量并且能緩解模型的過擬合問題,。輸出層為sigmoid函數(shù),本文的財(cái)務(wù)困境預(yù)測為一個(gè)二分類問題,輸出值為公司陷入財(cái)務(wù)困境的概率。Reluσ(4)batchsize設(shè)為256,epoch設(shè)為300。(5)代價(jià)損失函數(shù)為交叉熵函數(shù),函數(shù)表達(dá)式如下。L=?其中n為訓(xùn)練數(shù)據(jù)的總數(shù),y是對(duì)應(yīng)的目標(biāo)輸出,y是輸出值。(6)使用Adadelta優(yōu)化算法,Adadelta優(yōu)化算法用自適應(yīng)來調(diào)整學(xué)習(xí)率,其性能穩(wěn)定優(yōu)于其他優(yōu)化算法,可以解決Adagrad優(yōu)化算法在超參選擇時(shí)學(xué)習(xí)率持續(xù)衰減至后期訓(xùn)練后期學(xué)習(xí)率非常小的問題。(7)初始學(xué)習(xí)率設(shè)置為0.1,當(dāng)訓(xùn)練5次模型性能得不到提升時(shí),則減少學(xué)習(xí)率為原始的0.2倍。(8)加入L1正則化防止模型訓(xùn)練過擬合。(9)閾值設(shè)置為0.5,當(dāng)輸出值概率大于0.5時(shí),預(yù)測為正類,當(dāng)輸出值概率小于0.5時(shí),預(yù)測為負(fù)類。利用T-3至T-2年數(shù)據(jù)預(yù)測T年企業(yè)財(cái)務(wù)狀況的LSTM神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中損失值的變化如圖1.1所示。圖1.1T-3至T-2年的LSTM神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練損失值變化圖在圖1.1中,紅色的曲線表示訓(xùn)練過程中訓(xùn)練集樣本損失值的變化,綠色的曲線表示驗(yàn)證集樣本損失值的變化。從圖1.1中可以看出,模型訓(xùn)練過程中損失值在一開始下降較快,訓(xùn)練次數(shù)到100左右時(shí),損失值逐漸趨于平穩(wěn),說明模型比較穩(wěn)定。此外,可以發(fā)現(xiàn)訓(xùn)練過程中訓(xùn)練集和驗(yàn)證集的損失值曲線接近重合,說明訓(xùn)練的LSTM神經(jīng)網(wǎng)絡(luò)模型不存在嚴(yán)重的過擬合問題。同理,將T-2年,T-4至T-2年,T-5至T-2年的數(shù)據(jù)依次進(jìn)行LSTM神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。1.2.2模型的檢驗(yàn)LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練好后,需要利用劃分好的測試集樣本數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)的效果進(jìn)行檢驗(yàn)。分別使用不同時(shí)間步長的測試集的數(shù)據(jù)對(duì)訓(xùn)練好的LSTM神經(jīng)網(wǎng)絡(luò)模型的效果進(jìn)行檢驗(yàn),得到不同時(shí)間步長數(shù)據(jù)下模型的企業(yè)財(cái)務(wù)困境預(yù)測效果ROC圖如圖1.2所示。圖1.2不同時(shí)間步長下LSTM神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)困境預(yù)測模型的ROC圖從圖1.2可以看出,T-3至T-2年LSTM神經(jīng)網(wǎng)絡(luò)模型的ROC曲線更靠近左上角,表明T-3至T-2年模型的分類效果是最好的,也即在LSTM神經(jīng)網(wǎng)絡(luò)模型中,使用T-3至T-2年樣本數(shù)據(jù)來預(yù)測T年企業(yè)是否發(fā)生困境預(yù)測時(shí)的模型預(yù)測效果最好。單次預(yù)測的結(jié)果存在一定的隨機(jī)性,為了消除單次預(yù)測的隨機(jī)性影響,將不同時(shí)間步長的LSTM神經(jīng)網(wǎng)絡(luò)重復(fù)訓(xùn)練檢驗(yàn)10次,得出主要評(píng)價(jià)指標(biāo)的結(jié)果。我們將10次運(yùn)行結(jié)果的平均值作為LSTM神經(jīng)網(wǎng)絡(luò)最終的預(yù)測結(jié)果,如表1.2所示。表1.2不同時(shí)間步長數(shù)據(jù)的LSTM神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)困境預(yù)測效果時(shí)間步長準(zhǔn)確率(%)召回率(%)真負(fù)類率(%)精確率(%)F2值A(chǔ)UCT-2年91.3540.7098.5261.550.43660.9403T-3至T-2年91.4541.3098.5866.590.48390.9494T-4至T-2年91.5447.3298.6970.230.50620.9445T-5至T-2年91.3339.4599.0774.100.43520.9416從表1.2可知,不同時(shí)間步長下的LSTM神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率均達(dá)到了95%以上,但是由于此時(shí)ST樣本與非ST樣本的比例為1:17,只要將所有樣本都預(yù)測成非ST,就可以得到將近95%的預(yù)測準(zhǔn)確率,因此此時(shí)的準(zhǔn)確率評(píng)價(jià)意義不大。AUC不受正負(fù)類樣本數(shù)據(jù)不平衡的影響,從AUC來看,T-3至T-2年LSTM神經(jīng)網(wǎng)絡(luò)模型的AUC值為0.9494,高于其他三個(gè)時(shí)間步長模型的AUC值。圖1.3展示了模型重復(fù)訓(xùn)練檢驗(yàn)10次的AUC分布,從圖1.3可以發(fā)現(xiàn)T-3至T-2年模型的AUC高于其他時(shí)間步長。因此,消除單次預(yù)測的隨機(jī)性影響后,仍是T-3至T-2年數(shù)據(jù)下的模型分類效果最好,也即在LSTM神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)困境預(yù)測模型中,用T-3至T-2年的指標(biāo)數(shù)據(jù)預(yù)測T年企業(yè)是否發(fā)生財(cái)務(wù)困境時(shí)模型的預(yù)測效果是最好的。圖1.3不同時(shí)間步長下LSTM神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)困境預(yù)測模型的AUC箱形圖企業(yè)的預(yù)測指標(biāo)數(shù)據(jù)具有長期依賴關(guān)系,根據(jù)前文原理分析可知LSTM神經(jīng)網(wǎng)絡(luò)擅長處理時(shí)間序列數(shù)據(jù),因此,理論上在LSTM神經(jīng)網(wǎng)絡(luò)模型中使用多期數(shù)據(jù)進(jìn)行預(yù)測會(huì)比單期數(shù)據(jù)的預(yù)測效果更好。從表1.2和圖1.3中可以看到,使用T-3至T-2年的數(shù)據(jù)進(jìn)行預(yù)測時(shí)模型的AUC確實(shí)大于只用T-2年的數(shù)據(jù)。但是,當(dāng)預(yù)測的時(shí)間步長大于T-3至T-2年時(shí),LSTM神經(jīng)網(wǎng)絡(luò)模型的AUC值逐漸下降,T-4至T-2年模型的AUC值小于T-3至T-2年,T-5至T-2年模型的AUC值小于T-4至T-2年,也即當(dāng)時(shí)間步長大于2時(shí),模型的預(yù)測效果越來越差。這說明財(cái)務(wù)困境的發(fā)生存在時(shí)間累積性,但指標(biāo)數(shù)據(jù)也存在一定的時(shí)效性,用來預(yù)測的數(shù)據(jù)時(shí)間步長不是越長越好。在LSTM神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)困境模型中,用T-3至T-2年的指標(biāo)數(shù)據(jù)預(yù)測T年公司是否發(fā)生財(cái)務(wù)困境時(shí)模型的預(yù)測效果是最好的。此外,從表1.2中可以發(fā)現(xiàn),雖然LSTM神經(jīng)網(wǎng)絡(luò)模型的AUC值比較高,但是模型的召回率和F2值較低。這可能是由于ST與非ST的樣本比例嚴(yán)重不平衡影響了模型對(duì)少數(shù)類樣本的識(shí)別,導(dǎo)致模型對(duì)ST樣本的預(yù)測效果較差。1.3SMOTE非平衡處理后的LSTM神經(jīng)網(wǎng)絡(luò)在樣本非平衡的財(cái)務(wù)困境預(yù)測中,識(shí)別出財(cái)務(wù)危機(jī)公司往往更為重要,如果將財(cái)務(wù)危機(jī)公司預(yù)測為財(cái)務(wù)正常公司,會(huì)給企業(yè)的利益相關(guān)者造成重大損失。為了克服樣本數(shù)據(jù)不平衡對(duì)財(cái)務(wù)困境預(yù)測模型效果的影響,提升模型對(duì)正類樣本的預(yù)測精確率,本文采用SMOTE過采樣的方法來處理樣本數(shù)據(jù)的非平衡問題。1.3.1SMOTE過采樣原理SMOTE全稱是SyntheticMinorityOversamplingTechnique,它是基于隨機(jī)過采樣算法改進(jìn)的一種合成少數(shù)類樣本的采樣方法。隨機(jī)過采樣方法往往會(huì)使模型學(xué)習(xí)的信息過于特殊,從而導(dǎo)致模型泛化能力不夠且容易過擬合。SMOTE技術(shù)是通過生成少數(shù)類樣本來改變整個(gè)樣本數(shù)據(jù)集的數(shù)據(jù)分布,是目前流行的提高不平衡數(shù)據(jù)分類模型性能的方法之一。SMOTE采用了線性插值的方法,其基本思想是針對(duì)每個(gè)少數(shù)類樣本,從其最近鄰中隨機(jī)選一個(gè)樣本,然后在這兩個(gè)樣本間的連線上隨機(jī)選擇一點(diǎn),合成一個(gè)新的少數(shù)類樣本,從而有效的緩解隨機(jī)過采樣引起的過擬合問題。其算法流程如下。(1)以歐式距離為標(biāo)準(zhǔn),計(jì)算少數(shù)類樣本中每一個(gè)樣本A到少數(shù)類樣本中其他樣本的距離,得到該少數(shù)類樣本的k近鄰;(2)依據(jù)樣本不平衡比例,設(shè)置采樣比例來確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類樣本A,從它的k近鄰中隨機(jī)選擇若干個(gè)樣本;(3)對(duì)于每一個(gè)隨機(jī)選出的近鄰B,分別與原少數(shù)類樣本A按照公式(1.5)構(gòu)建新的樣本C:C=A+rand1.3.2非平衡處理后的模型結(jié)果分析LSTM神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)為三維數(shù)據(jù),而SMOTE的過采樣只能對(duì)二維的數(shù)據(jù)進(jìn)行。因此,直接將預(yù)處理后的樣本數(shù)據(jù)運(yùn)用分層采樣的辦法進(jìn)行訓(xùn)練集、驗(yàn)證集和測試集的劃分,然后將訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)進(jìn)行SMOTE的過采樣,生成平衡訓(xùn)練樣本數(shù)據(jù)之后,再將樣本數(shù)據(jù)構(gòu)建為三維張量。以T-2年為例,T-2年訓(xùn)練集和驗(yàn)證集中ST的樣本數(shù)分別為1107和366,非ST的樣本數(shù)分別為18282和6094,對(duì)訓(xùn)練集和驗(yàn)證集中的ST樣本利用SMOTE過抽樣技術(shù)生成虛擬樣本,訓(xùn)練集生成17175個(gè)虛擬樣本,驗(yàn)證集生成5728個(gè)虛擬樣本,保證財(cái)務(wù)困境公司樣本與正常公司樣本數(shù)量相等,形成新的平衡訓(xùn)練樣本數(shù)據(jù)集。表1.3不同時(shí)間步長LSTM神經(jīng)網(wǎng)絡(luò)模型SMOTE采樣后樣本數(shù)據(jù)時(shí)間步長總樣本訓(xùn)練集驗(yàn)證集測試集ST樣本非ST樣本ST樣本非ST樣本ST樣本非ST樣本T-2年552131828218282609460943666095T-3至T-2年507371679416794559855983545599T-4至T-2年463281533015330511151113365110T-5至T-2年419811389013890463046303104631分別使用T-2年、T-3至T-2年、T-4至T-2年和T-5至T-2年的訓(xùn)練樣本數(shù)據(jù)對(duì)構(gòu)建好的LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后使用測試集的數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn),重復(fù)訓(xùn)練檢驗(yàn)10次后,最終模型的預(yù)測效果如表1.4所示。表1.4SMOTE非平衡處理后LSTM神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果時(shí)間步長準(zhǔn)確率(%)召回率(%)真負(fù)類率(%)精確率(%)F2值A(chǔ)UCT-2年90.7882.9891.2331.440.65430.9347T-3至T-2年90.8184.1591.2337.440.67350.9454T-4至T-2年90.7681.1591.3938.180.66240.9415T-5至T-2年91.1478.7791.9739.660.65790.9392圖1.4非平衡前后LSTM神經(jīng)網(wǎng)絡(luò)的F2值對(duì)比從表1.4可以看出,對(duì)樣本數(shù)據(jù)進(jìn)行SMOTE過采樣處理之后,LSTM神經(jīng)網(wǎng)絡(luò)對(duì)財(cái)務(wù)困境預(yù)測的準(zhǔn)確率達(dá)到了90%以上,說明模型的預(yù)測性能良好。從圖1.4可以看出,樣本數(shù)據(jù)非平衡后不同時(shí)間步長下LSTM神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)困境預(yù)測模型的F2值均顯著高于樣本數(shù)據(jù)非平衡前的模型,說明對(duì)樣本數(shù)據(jù)進(jìn)行SMOTE過采樣處理能夠有效提升模型對(duì)正類樣本的預(yù)測性能。從表1.4中的召回率來看,SMOTE非平衡處理后T-3至T-2年模型的召回率達(dá)到了84.15%。綜合以上分析,在LSTM神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過SMOTE過采樣處理后模型對(duì)正類樣本的預(yù)測能力得到了顯著的提升。1.4不同的財(cái)務(wù)困境預(yù)測模型為了得到LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果的優(yōu)劣,分別構(gòu)建財(cái)務(wù)困境預(yù)測的全連接神經(jīng)網(wǎng)絡(luò),隨機(jī)森林、Logistic回歸模型,然后對(duì)比這三個(gè)模型與LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果的優(yōu)劣。全連接神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中最簡單的神經(jīng)網(wǎng)絡(luò),隨機(jī)森林是機(jī)器學(xué)習(xí)中最好的財(cái)務(wù)困境預(yù)測算法之一,Logistic回歸模型是經(jīng)典的財(cái)務(wù)困境預(yù)測模型,與這三個(gè)模型進(jìn)行對(duì)比能夠很好的檢驗(yàn)LSTM神經(jīng)網(wǎng)絡(luò)在財(cái)務(wù)困境預(yù)測領(lǐng)域效果的優(yōu)劣。將預(yù)處理好的樣本數(shù)據(jù)直接運(yùn)用分層采樣的方法進(jìn)行訓(xùn)練集、驗(yàn)證集、測試集的劃分,劃分的數(shù)據(jù)量與表1.1一致。用劃分好的訓(xùn)練集和驗(yàn)證集數(shù)據(jù)進(jìn)行模型的調(diào)試,利用測試集數(shù)據(jù)檢驗(yàn)?zāi)P偷念A(yù)測效果。然后對(duì)訓(xùn)練樣本進(jìn)行SMOTE過采樣后重新對(duì)不同的模型進(jìn)行訓(xùn)練檢驗(yàn),SMOTE之后樣本的數(shù)據(jù)量與表1.3一致。1.4.1不同模型的參數(shù)設(shè)置經(jīng)過調(diào)試,全連接神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)具體設(shè)定為:(1)輸入層節(jié)點(diǎn)數(shù)為特征指標(biāo)的個(gè)數(shù)。T-2年的為45,T-3至T-2年為90,T-4至T-2年為135,T-5至T-2年為180。輸出層節(jié)點(diǎn)數(shù)為1。(2)隱藏層的設(shè)置為2層,神經(jīng)元分別設(shè)置為32,16。(3)輸入和隱藏層的激活函數(shù)為Relu函數(shù),輸出層激活函數(shù)為sigmoid函數(shù)。(4)batchsize設(shè)為256,epoch設(shè)為300。(5)代價(jià)損失函數(shù)為交叉熵函數(shù)。(6)使用Adadelta優(yōu)化算法。(7)初始學(xué)習(xí)率設(shè)置為0.1,當(dāng)訓(xùn)練5次模型性能得不到提升時(shí),則減少學(xué)習(xí)率為原始的0.2倍。(8)加入L1正則化(9)閾值設(shè)置為0.5,當(dāng)輸出值概率大于0.5時(shí),預(yù)測為正類,當(dāng)輸出值概率小于0.5時(shí),預(yù)測為負(fù)類。以T-2年為例,用T-2年的數(shù)據(jù)預(yù)測T年企業(yè)是否發(fā)生財(cái)務(wù)困境的全連接神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中損失值的變化如圖1.5所示。圖1.5T-2年的全連接神經(jīng)網(wǎng)絡(luò)模型損失值變化圖在圖1.5中,紅色和綠色的曲線表示訓(xùn)練過程中訓(xùn)練集和驗(yàn)證集樣本損失值的變化。從圖1.5可以看出,訓(xùn)練集和驗(yàn)證集的損失值在訓(xùn)練過程的開始下降速度較快,訓(xùn)練至50次左右時(shí),兩個(gè)數(shù)據(jù)集的損失值的變化逐漸平穩(wěn),并且訓(xùn)練過程中訓(xùn)練集和驗(yàn)證集的損失值曲線逐漸接近重合,說明訓(xùn)練的全連接神經(jīng)網(wǎng)絡(luò)模型不存在嚴(yán)重的過擬合問題。同理,依次使用T-3至T-2年、T-4至T-2年、T-5至T-2年數(shù)據(jù)的訓(xùn)練集和驗(yàn)證集數(shù)據(jù)進(jìn)行模型的訓(xùn)練。隨機(jī)森林利用訓(xùn)練集和驗(yàn)證集的數(shù)據(jù)進(jìn)行訓(xùn)練調(diào)參,但調(diào)參對(duì)于隨機(jī)森林的來說,模型的結(jié)果不會(huì)發(fā)生太大的變化。與神經(jīng)網(wǎng)絡(luò)相比,隨機(jī)森林只使用默認(rèn)的參數(shù)也可以達(dá)到不錯(cuò)的結(jié)果。增加樹的數(shù)量和最大特征數(shù)量可以讓模型有更好的性能,但會(huì)讓代碼運(yùn)行速度變慢,降低算法的速度。而如果樹的最大深度越深,決策樹會(huì)擬合得更深,甚至?xí)^擬合。所以,本文對(duì)n_estimators(樹的數(shù)量)、max_features(決策樹隨機(jī)選擇的最大特征數(shù)量)和max_depth(樹的最大深度)這三個(gè)參數(shù)進(jìn)行了調(diào)節(jié)。以T-2年的隨機(jī)森林模型為例,調(diào)參后n_estimators=21,max_features=26,max_depth=21。隨機(jī)森林模型的其他參數(shù)選擇了默認(rèn)的參數(shù)。Logistic回歸模型的調(diào)參主要是為了防止模型過擬合,因此調(diào)參時(shí)加入了L1正則化的懲罰項(xiàng)。L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,對(duì)預(yù)測指標(biāo)體系進(jìn)行特征選擇,此外在一定程度上也能避免模型的過擬合。Logistic回歸的其他參數(shù)選擇了默認(rèn)參數(shù)。1.4.2不同模型預(yù)測效果分析將全連接神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和Logistic回歸模型重復(fù)訓(xùn)練檢驗(yàn)10次消除隨機(jī)性后,不同模型在測試集上的預(yù)測效果如表1.5所示。模型非平衡處理時(shí)間步長準(zhǔn)確率(%)召回率(%)真負(fù)類率(%)精確率(%)F2值A(chǔ)UC全連接神經(jīng)網(wǎng)絡(luò)處理前T-2年91.5136.9298.9066.420.40520.9404T-3至T-2年91.3342.5598.6261.970.45800.9444T-4至T-2年91.4943.4298.8972.100.47170.9365T-5至T-2年91.0139.3598.7367.660.42940.9325處理后T-2年90.8681.2591.4131.420.64550.9293T-3至T-2年90.1882.3090.6731.520.65140.9334T-4至T-2年91.5974.1592.7340.080.63380.9190T-5至T-2年91.4468.5192.9739.550.59760.9011隨機(jī)森林處理前T-2年91.5444.7098.4963.200.47480.9346T-3至T-2年91.4742.1398.7968.530.45650.9474T-4至T-2年91.4747.3598.6168.960.50520.9297T-5至T-2年91.2841.1998.9071.450.45000.9383處理后T-2年94.3660.3096.3348.810.57590.9356T-3至T-2年94.7561.5396.5754.370.62950.9494T-4至T-2年94.6669.1496.3451.270.65840.9483T-5至T-2年94.7359.5597.0957.830.59200.9430Logistic回歸處理前T-2年91.3832.3499.0361.850.36000.8970T-3至T-2年91.3534.1099.1671.800.38100.9190T-4至T-2年91.3131.8399.2074.410.39980.9058T-5至T-2年91.0634.6599.1072.030.38660.9124處理后T-2年89.4874.1390.3730.890.57920.8969T-3至T-2年90.0281.8390.5331.050.64590.9340T-4至T-2年89.2382.3789.6834.320.64350.9294T-5至T-2年89.3279.4889.9834.690.63170.9238表1.5不同時(shí)間步長下不同模型的財(cái)務(wù)困境預(yù)測效果結(jié)合表1.2、表1.4和表1.5,對(duì)比LSTM神經(jīng)網(wǎng)絡(luò)與全連接神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和Logistic回歸模型的預(yù)測效果可以得到以下幾個(gè)結(jié)論。圖1.6非平衡前不同模型的AUC對(duì)比圖(1)LSTM神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果比全連接神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和Logistic回歸模型的更好。從圖1.6可以看出,非平衡前不同時(shí)間步長的LSTM神經(jīng)網(wǎng)絡(luò)模型的AUC高于全連接神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和Logistic回歸模型,此外,Logistic回歸模型AUC最低。即LSTM神經(jīng)網(wǎng)絡(luò)的財(cái)務(wù)困境預(yù)測效果優(yōu)于其他三個(gè)模型,并且在四個(gè)模型中Logistic回歸模型的預(yù)測效果最差。因此LSTM神經(jīng)網(wǎng)絡(luò)在財(cái)務(wù)困境預(yù)測領(lǐng)域中具有良好的預(yù)測性能。圖1.7不同步長下不同模型的AUC值對(duì)比圖(2)預(yù)測T年企業(yè)是否陷入財(cái)務(wù)困境的最優(yōu)時(shí)間步長為2,即用T-3至T-2年的數(shù)據(jù)預(yù)測T年企業(yè)的財(cái)務(wù)狀況效果最好。從圖1.7可以看出,無論數(shù)據(jù)是否經(jīng)過SMOTE非平衡處理,使用T-3至T-2年的數(shù)據(jù)進(jìn)行構(gòu)建財(cái)務(wù)困境預(yù)測模型時(shí),模型的AUC均高于其他時(shí)間步長的數(shù)據(jù)所構(gòu)建的模型AUC值。(3)利用SMOTE過采樣技術(shù)對(duì)樣本數(shù)據(jù)進(jìn)行非平衡處理后,能夠顯著提高財(cái)務(wù)困境預(yù)測模型對(duì)正類樣本的預(yù)測準(zhǔn)確率。結(jié)合表1.2、表1.4和表1.5中的召回率和F2值所展示的結(jié)果,進(jìn)行非平衡處理后不同模型的F2值比非平衡處理前均有了很大的提升,非平衡后LSTM神經(jīng)網(wǎng)絡(luò)模型的召回率也高于其他三個(gè)模型,說明SMOTE過采樣后能夠提高模型對(duì)正類樣本的預(yù)測準(zhǔn)確率。(4)樣本數(shù)據(jù)的非平衡性對(duì)不同財(cái)務(wù)困境預(yù)測模型的影響不同。非平衡數(shù)據(jù)處理后能提升Logistic回歸和隨機(jī)森林模型的預(yù)測性能,但非平衡后深度學(xué)習(xí)模型的預(yù)測性能稍差于非平衡前模型的預(yù)測性能。圖1.8非平衡前(左)后(右)隨機(jī)森林模型的AUC值箱形圖圖1.9非平衡前(左)后(右)Logistic回歸模型的AUC值箱形圖從圖1.8和1.9可以看出,樣本數(shù)據(jù)非平衡后的隨機(jī)森林和Logistic回歸模型AUC高于樣本數(shù)據(jù)非平衡處前的模型。說明樣本數(shù)據(jù)SMOTE過采樣后能提高隨機(jī)森林和Logistic回歸模型的預(yù)測性能。而從圖1.10和1.11中可以看出,不同時(shí)間步長下樣本數(shù)據(jù)非平衡前LSTM神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)模型AUC稍低于樣本數(shù)據(jù)經(jīng)過SMOTE非平衡處理后的模型,說明數(shù)據(jù)經(jīng)過非平衡處理會(huì)降低深度學(xué)習(xí)模型的預(yù)測性能,但影響程度有限。圖1.10非平衡前(左)后(右)LSTM神經(jīng)網(wǎng)絡(luò)模型的AUC箱形圖圖1.11非平衡前(左)后(右)全連接神經(jīng)網(wǎng)絡(luò)模型的AUC箱形圖1.5深度學(xué)習(xí)模型的可解釋性綜合以上分析可知LSTM神經(jīng)網(wǎng)絡(luò)模型的預(yù)測性能比其他三個(gè)模型更好一些,但復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型的可解釋性較差,神經(jīng)網(wǎng)絡(luò)往往被人們當(dāng)作一個(gè)“黑箱子”來使用。人們只知道神經(jīng)網(wǎng)絡(luò)中輸入了什么,輸出了什么,無法理解黑箱子里面到底發(fā)生了什么,也即無法得到輸入的指標(biāo)數(shù)據(jù)與輸出的財(cái)務(wù)困境發(fā)生概率值之間的因果關(guān)系。本文借助SHAP這一工具來比較各個(gè)指標(biāo)對(duì)模型輸出影響的大小和方向,解決模型的可視化問題,讓復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型具備可解釋性。SHAP方法基于Shapley值,Shapley值是由博弈論領(lǐng)域的專家LloydShapley教授提出的,用來解決合作博弈論中分配均衡問題的概念。Lundberg和Lee(2017)將Shapley值引入到模型的解釋中,提出用SHAP(ShapleyAdditiveexPlanation)來解釋各種分類和回歸模型。SHAP的目標(biāo)是通過計(jì)算特征集F中每一個(gè)特征對(duì)預(yù)測值的貢獻(xiàn),為每個(gè)特征分配特定預(yù)測的重要性值,從而對(duì)模型的預(yù)測結(jié)果進(jìn)行解釋。模型對(duì)每一個(gè)預(yù)測樣本模型都會(huì)產(chǎn)生一個(gè)預(yù)測結(jié)果,Shapley值就是該樣本中每個(gè)特征所分配到的數(shù)值。SHAP是通過向每個(gè)預(yù)測j和特征i詢問從模型中刪除i時(shí)j的變化來構(gòu)建模型的解釋。由于SHAP使用特征輸入的所有可能組合考慮了實(shí)例的所有可能預(yù)測,因此它可以保證一致性和局部精度。SHAP方法的整個(gè)框架圖如圖1.12所示。預(yù)測模型預(yù)測模型數(shù)據(jù)數(shù)據(jù)SHAP解釋SHAP解釋圖1.12SHAP方法的框架圖SHAP屬于模型事后解釋的方法,SHAP方法的優(yōu)勢在于它不僅能反映出特征對(duì)每一個(gè)樣本的影響力,還能表現(xiàn)出特征在樣本中影響的正負(fù)性。通過計(jì)算每一個(gè)特征的Shapley值來判斷特征對(duì)輸出值的影響,Shapley值越大對(duì)目標(biāo)函數(shù)的影響越正向,Shapley值越小對(duì)目標(biāo)函數(shù)的影響越負(fù)向。Shapley值的計(jì)算公式如公式(1.6)。假設(shè)特征全集為F,則有φ其中φxi表示第xi個(gè)特征的Shapley值,S表示序列中位于xi前面的元素集合,|S|!(|F|?|S|?1)!表示在S集合中位于特征xi模型對(duì)單個(gè)樣本的輸出結(jié)果,是所有特征的Shapley值之和。假設(shè)第j個(gè)樣本為xj,第j個(gè)樣本的第i個(gè)特征為xj,i。模型對(duì)第j個(gè)樣本的預(yù)測值為yjy公式(1.7)中,fxj,k為第j個(gè)樣本中第k個(gè)特征的Shapley值,當(dāng)以T-3至T-2年的LSTM神經(jīng)網(wǎng)絡(luò)模型中驗(yàn)證集的第1000個(gè)觀測樣本為例,每個(gè)特征對(duì)于預(yù)測結(jié)果的貢獻(xiàn)度如圖1.13所示。圖1.13第1000個(gè)財(cái)務(wù)困境預(yù)測樣本的SHAP力圖圖1.13中,每個(gè)特征的Shapley值都可視化為了一個(gè)“力”,從而增加或降低模型的預(yù)測值。每個(gè)Shapley值都是一個(gè)箭頭,當(dāng)Shapley值為正值時(shí)顯示為紅色,表示該特征推動(dòng)增加預(yù)測值,當(dāng)Shapley值為負(fù)值時(shí)顯示為藍(lán)色,表示該特征推動(dòng)減少預(yù)測值,經(jīng)過所有這些“力”的平衡后輸出模型預(yù)測值。每個(gè)特征都有其貢獻(xiàn),從而將模型的預(yù)測結(jié)果從基本值(basevalue)推動(dòng)到最終的取值,圖中特征的長度表示特征影響的程度。由圖1.13可知,該觀測樣本模型的預(yù)測結(jié)果為1,而基準(zhǔn)值是0.8609。對(duì)該觀測樣本的預(yù)測影響最大的特征是EPS,EPS=0.3595,EPS推動(dòng)增加預(yù)測值。對(duì)該觀測樣本的預(yù)測負(fù)面影響最大的特征是CR_5,CR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年貴陽花溪智聯(lián)數(shù)智科技服務(wù)有限公司公開招聘備考題庫附答案詳解
- 2025年雄安綜合保稅區(qū)建設(shè)發(fā)展有限公司工作人員公開招聘備考題庫及參考答案詳解一套
- 2025年杭州市濱蘭實(shí)驗(yàn)學(xué)校教師招聘備考題庫及參考答案詳解一套
- 人保財(cái)險(xiǎn)陽江市分公司2026統(tǒng)籌校園招聘備考題庫及一套答案詳解
- 陸良縣消防救援局專職消防員招聘20人備考題庫及1套完整答案詳解
- 職業(yè)高中會(huì)計(jì)基礎(chǔ)題庫及答案
- 2025年葫蘆島市市直部分事業(yè)單位公開招聘高層次人才備考題庫及參考答案詳解1套
- 2025年中共贛州市贛縣區(qū)委政法委下屬事業(yè)單位面向全區(qū)選調(diào)工作人員備考題庫及答案詳解一套
- 2025年百色市凌云縣新活力勞務(wù)有限責(zé)任公司工作人員招聘6人備考題庫完整答案詳解
- 理想與夢想課件
- 2024屆廣東省高三三校12月聯(lián)考英語試題及答案
- 假膜性結(jié)腸炎匯報(bào)演示課件
- 專項(xiàng)基金合作協(xié)議書
- 單人徒手心肺復(fù)蘇操作評(píng)分表(醫(yī)院考核標(biāo)準(zhǔn)版)
- 國家預(yù)算實(shí)驗(yàn)報(bào)告
- 蒸汽品質(zhì)檢測儀安全操作規(guī)定
- 設(shè)備綜合效率OEE統(tǒng)計(jì)表(使用)
- 附件1:中國聯(lián)通動(dòng)環(huán)監(jiān)控系統(tǒng)B接口技術(shù)規(guī)范(V3.0)
- 閉合性顱腦損傷病人護(hù)理查房
- 《立血康軟膠囊研究6400字(論文)》
- GB/T 19216.21-2003在火焰條件下電纜或光纜的線路完整性試驗(yàn)第21部分:試驗(yàn)步驟和要求-額定電壓0.6/1.0kV及以下電纜
評(píng)論
0/150
提交評(píng)論