版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
II財務(wù)困境預(yù)測模型的基礎(chǔ)理論分析概述目錄TOC\o"1-3"\h\u11415財務(wù)困境預(yù)測模型的基礎(chǔ)理論分析概述 1230721.1全連接神經(jīng)網(wǎng)絡(luò)原理 1128861.2LSTM神經(jīng)網(wǎng)絡(luò)原理 2276331.3隨機森林 526521.4Logistic回歸模型 61.1全連接神經(jīng)網(wǎng)絡(luò)原理深度學習(DeepLearning)是通過模仿人腦的機制來解釋數(shù)據(jù)的一種機器學習技術(shù),它能模擬人腦進行分析學習,是一種深度神經(jīng)網(wǎng)絡(luò)。深度學習方法目前已應(yīng)用于很多領(lǐng)域,如語音識別和圖像識別、自然語言處理和大數(shù)據(jù)特征提取等且均取得了巨大的成功。全連接神經(jīng)網(wǎng)絡(luò)是深度學習中最簡單的深度神經(jīng)網(wǎng)絡(luò),全連接神經(jīng)網(wǎng)絡(luò)又被稱為“全連接層模型”?!叭B接”的意思是指上一層里所有的神經(jīng)元都與下一層里所有的神經(jīng)元相連。全連接神經(jīng)網(wǎng)絡(luò)最大的改變是引入了隱藏層的概念,全連接神經(jīng)網(wǎng)絡(luò)可以包含多個隱藏層,每個隱藏層可以包含多個神經(jīng)元。圖3.1只含1個隱藏層的全連接神經(jīng)網(wǎng)絡(luò)圖3.1是一個簡單的3層全連接神經(jīng)網(wǎng)絡(luò),包括了輸入層、隱藏層和輸出層各1個。神經(jīng)網(wǎng)絡(luò)主要是通過層與層之間的轉(zhuǎn)換、層與層之間的激活函數(shù)來擬合任意的函數(shù)。神經(jīng)網(wǎng)絡(luò)中的輸入層只是簡單將訓練樣本賦給輸入層作為輸出,隱藏層處理輸入數(shù)據(jù),然后經(jīng)過非線性激活函數(shù)產(chǎn)生輸出,傳輸給下一個隱藏層,直到最后一個隱藏層將信號傳遞給輸出層。假設(shè)一個深度神經(jīng)網(wǎng)絡(luò)由L=l1,l2?ln層組成,每層神經(jīng)元的個數(shù)為N=nZ其中wi,bZ 本文建立的模型是為了預(yù)測財務(wù)困境是否發(fā)生,屬于一個兩分類的問題,因此最后輸出層的輸出變量為概率值。輸出變量可表示為α=f而對于整個模型可以簡化表示為α=f(X,θ)其中x為輸入的公司特征數(shù)據(jù),θ為所有權(quán)重參數(shù)表示。神經(jīng)網(wǎng)絡(luò)的訓練過程有兩部分:(1)輸入信號的前向傳播,指的是輸入信號經(jīng)過激活函數(shù)進入隱藏層再到輸出層的輸出過程(2)誤差的反向傳播,通過計算模型的輸出與期望輸出的誤差損失,利用梯度下降法更新初始的權(quán)值和偏置項,直到模型的輸出與期望輸出的誤差損失取得最小值或者完成設(shè)定的迭代次數(shù)。通過前向傳播和反向傳播的過程找到神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。1.2LSTM神經(jīng)網(wǎng)絡(luò)原理全連接神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),其信號是單向傳播的,網(wǎng)絡(luò)中沒有回路。如果網(wǎng)絡(luò)中允許循環(huán),則可以得到遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)。RNN的網(wǎng)絡(luò)結(jié)構(gòu)是一種環(huán)形結(jié)構(gòu),網(wǎng)絡(luò)中的神經(jīng)元能夠存儲當前時刻的輸入和之前時刻的輸出。與全連接神經(jīng)網(wǎng)絡(luò)相比,RNN神經(jīng)網(wǎng)絡(luò)中的隱藏層不僅與輸出層連接,而且隱藏層節(jié)點之間也自連接,即隱藏層的輸出不僅會傳輸給輸出層,也會傳輸給隱藏層自身。RNN的這種環(huán)形結(jié)構(gòu)有利于保存歷史信息,實現(xiàn)動態(tài)時序建模。圖3.2RNN結(jié)構(gòu)圖及展開圖圖3.2的RNN展開圖展示的是輸出層中第i個神經(jīng)元與隱藏層中第n個神經(jīng)元相連接的情況。在t時刻,輸入層的輸出為xt,隱藏層第j個神經(jīng)元不僅連接了輸入層的第i個神經(jīng)元,也連接了t-1時刻的隱藏層神經(jīng)元,為了解決傳統(tǒng)RNN神經(jīng)網(wǎng)絡(luò)的弊端,人們提出了各種改進的RNN神經(jīng)網(wǎng)絡(luò)模型,在這些模型中,最成功的是一種具有長短期記憶單元(LSTM)的RNN神經(jīng)網(wǎng)絡(luò)變體,也被稱為LSTM神經(jīng)網(wǎng)絡(luò)。LSTM神經(jīng)網(wǎng)絡(luò)是由一系列遞歸連接的記憶區(qū)塊構(gòu)成,每個記憶區(qū)塊包括了記憶單元(Cell)和3個邏輯單元:輸入門(InputGate)、輸出門(OutputGate)和遺忘門(ForgetGate)。記憶單元表示神經(jīng)元狀態(tài)的記憶,輸入門和輸出門分別用來接收和輸出參數(shù),遺忘門則用來控制是否保留當前隱藏層節(jié)點存儲的歷史信息。邏輯單元不會將自己的輸出發(fā)送給其他神經(jīng)元,而是負責在神經(jīng)網(wǎng)絡(luò)的其他部分與記憶單元連接的邊緣處設(shè)定權(quán)值,用來選擇性記憶反饋的誤差函數(shù)隨梯度下降的修正參數(shù)。利用這種循環(huán)反饋結(jié)構(gòu),LSTM神經(jīng)網(wǎng)絡(luò)有了保存,讀取、重置和更新長距離歷史信息的能力。圖3.3LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖LSTM單元存在兩個狀態(tài)向量s和h,包含三個門控:遺忘門、輸入門和輸出門。s為LSTM的內(nèi)部狀態(tài)向量,h為LSTM的輸出向量。遺忘門決定前一時刻狀態(tài)向量st?1對當前狀態(tài)向量st的影響,影響由變量f(t)控制。f(t)=σ其中,Wf是遺忘門權(quán)重參數(shù),bf是遺忘門偏置參數(shù),通過非線性變換產(chǎn)生的新變量g(t)和控制變量i(t),輸入門控制LSTM對輸入的接收程度。g(t)=tanhi其中,Ws和Wi是輸入門權(quán)重參數(shù),bs和s式中,f(t)=1,i(t)=1表示相應(yīng)控制門完全打開,f(t)=0,i(t)=0表示相應(yīng)控制門完全關(guān)閉。然而,內(nèi)部狀態(tài)向量st可以直接輸出為下一時刻的狀態(tài)向量,也可以用來與輸出門的控制變量形成輸出變量ho?式中,o(t)表示輸出門控制變量,o(t)=1時,狀態(tài)向量st全部用于輸出,o(t)=0時,LSTM輸出為零的向量,Wo是輸出門權(quán)重參數(shù),bo是輸出門偏置參數(shù)。每個LSTM神經(jīng)元上都有一個輸出值,但只有最后的輸出才包含了以前所有時間戳上記憶更新后的特征信息。因此,LSTM神經(jīng)網(wǎng)絡(luò)在處理時間序列數(shù)據(jù)具有其獨特的優(yōu)勢。企業(yè)發(fā)生財務(wù)困境是一個循序漸進的過程,是客觀存在的財務(wù)風險LSTM神經(jīng)網(wǎng)絡(luò)模型在設(shè)計方面需要考慮以下因素:模型的深度即隱藏層的個數(shù);模型的寬度即每個隱藏層包含的神經(jīng)元個數(shù);隱藏層激活函數(shù),主要有Sigmoid、tanh和ReLU激活函數(shù);代價函數(shù):主要有交叉熵(CrossEntropy)和最小平方誤差(MSE);優(yōu)化算法選擇:主要有隨機梯度下降、Ada、RMSPro和Adam等;調(diào)整策略:L2調(diào)整項(權(quán)值衰減)、EarlyStopping和Dropout;輸出層激活函數(shù):二分類問題為Sigmoid,多分類問題為Softmax。1.3隨機森林隨機森林是美國教授Breiman(2001)提出的利用多棵決策樹對樣本進行訓練并預(yù)測的分類算法,是集成學習思想下的產(chǎn)物。決策樹算法既能用于分類也能解決回歸問題。決策樹主要由根節(jié)點、非葉子節(jié)點、葉子節(jié)點和分支四部分組成。根節(jié)點包含所有樣本,非葉子節(jié)點對應(yīng)屬性測試,葉子節(jié)點對應(yīng)決策結(jié)果,根節(jié)點到葉子節(jié)點的路徑對應(yīng)一個判定測試序列。決策樹算法主要包括三個部分:特征選擇、樹的生成和樹的修剪。特征選擇的準則主要有信息增益、信息增益率和Gini系數(shù)。決策樹的分類流程從根節(jié)點開始,對樣本的某一個特征進行測試,根據(jù)測試結(jié)果將樣本分配到非葉子節(jié)點,這時,每一個非葉子節(jié)點對應(yīng)著該特征的一個取值,如此遞歸對樣本進行測試并分配,直至到達葉子節(jié)點。提高信息增益可以讓決策樹更好的擬合訓練數(shù)據(jù),但這樣會導致決策樹容易過擬合。樹的修剪在決策樹生成過程中起著防止過擬合,提高泛化能力的作用。對決策樹的修剪主要分為預(yù)剪枝和后剪枝兩種方式,是否進行剪枝主要是看剪枝能否提高決策樹的泛化性能。預(yù)剪枝是在決策樹的生成過程中進行的,對節(jié)點進行劃分時先對當前的劃分進行估計,如果此次劃分不能提升樹的泛化性能,就停止此次劃分并將當前的節(jié)點標記為葉子節(jié)點。后剪枝是生成完整的決策樹后,從下到上對每個非葉子節(jié)點進行分析,若將該節(jié)點對應(yīng)的子樹替換為葉子節(jié)點能帶來泛化性能的提升,則將該子樹替換為葉子節(jié)點。決策樹的損失函數(shù)如下。其中,T表示葉子節(jié)點,HtT表示第t個葉子的熵,Nt表示該葉子包含的訓練樣本數(shù)量,α決策樹算法具有不需要事先對總體的分布做假設(shè),易于理解和解釋、可視化等優(yōu)點。決策樹也存在一些不足,一方面是容易創(chuàng)建一棵過于復雜的樹從而導致過擬合問題,這一點可以通過修剪機制來解決。另一方面是決策樹比較不穩(wěn)定、方差較大,即使數(shù)據(jù)有一點非常小的變異都會導致完全不同分裂結(jié)果,從而產(chǎn)生一棵完全不同的決策樹。為了解決決策樹的這一不足,隨機森林算法便出現(xiàn)了,隨機森林是通過隨機生成大量的決策樹進行判斷從而降低方差,并且判斷的準確率也會顯著提高。隨機森林算法可以直接從“隨機”和“森林”兩個詞語來理解,“森林”是指算法中有很多棵決策樹,而“隨機”是指算法中數(shù)據(jù)和特征選擇的隨機性。其中:數(shù)據(jù)選擇隨機性是指從含N個樣本的數(shù)據(jù)集中有放回的采樣,得到含N個樣本的采樣集用于決策樹的訓練。特征選取隨機性是指每個決策樹的M個分類特征是在所有特征中隨機選擇的。隨機性的引入使得隨機森林算法且有較好的抗噪能力且不易過擬合。隨機森林算法的分類性能受兩個因素的影響:一是森林中的任意兩棵樹的相關(guān)性,若兩棵樹的相關(guān)性越大,則分類的正確率越小。二是森林中每棵樹的分類能力,單棵樹的分類能力越好,則整個森林的正確率越高。決策樹的相關(guān)性和分類能力與決策樹的特征選擇有關(guān),特征個數(shù)越多,樹的相關(guān)性和分類能力越強,反之則越弱,因此選擇最佳的特征數(shù)量是隨機森林訓練的關(guān)鍵。隨機森林的最終結(jié)果由森林中的決策樹結(jié)果決定:對于分類問題,按少數(shù)服從多數(shù)的原則由森林中多數(shù)決策樹的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學人類學(體質(zhì)人類學)試題及答案
- 2025年高職機電(機電設(shè)備維修)試題及答案
- 2026年電工考證(電工理論考核)試題及答案
- 2025年中職園藝(園藝植物栽培)試題及答案
- 2025年大學藥品與醫(yī)療器械(醫(yī)藥技術(shù)推廣)試題及答案
- 2025年高職傳感器維修(傳感器維修技術(shù))試題及答案
- 2025年大學第四學年(通信原理)信號處理階段測試題及答案
- 2025年高職工藝美術(shù)品設(shè)計(工藝品設(shè)計技能)試題及答案
- 2025年大學糧食工程(糧食加工技術(shù))試題及答案
- 2025年大學廣播電視新聞學(節(jié)目策劃與制作)試題及答案
- QGDW11970.7-2023輸變電工程水土保持技術(shù)規(guī)程第7部分水土保持設(shè)施質(zhì)量檢驗及評定
- 2024-2025學年四川省達州市高一上學期1月期末考試語文試題(解析版)
- 2025至2030年中國止鼾器行業(yè)市場現(xiàn)狀調(diào)查及前景戰(zhàn)略研判報告
- 人教版信息科技五年級全一冊 第26課 尋找最短的路徑 課件
- 人民軍隊性質(zhì)宗旨教育
- T-CEPPEA 5002-2019 電力建設(shè)項目工程總承包管理規(guī)范
- 護士長管理培訓課件
- 暫緩行政拘留申請書
- 小學班主任經(jīng)驗交流課件
- TSG 21-2015《固定式壓力容器安全技術(shù)監(jiān)察規(guī)程》
- 2025個人年終工作總結(jié)
評論
0/150
提交評論