大數(shù)據(jù)財(cái)務(wù)分析與決策 課件 第4章 智能并購項(xiàng)目決策_(dá)第1頁
大數(shù)據(jù)財(cái)務(wù)分析與決策 課件 第4章 智能并購項(xiàng)目決策_(dá)第2頁
大數(shù)據(jù)財(cái)務(wù)分析與決策 課件 第4章 智能并購項(xiàng)目決策_(dá)第3頁
大數(shù)據(jù)財(cái)務(wù)分析與決策 課件 第4章 智能并購項(xiàng)目決策_(dá)第4頁
大數(shù)據(jù)財(cái)務(wù)分析與決策 課件 第4章 智能并購項(xiàng)目決策_(dá)第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章

智能并購項(xiàng)目決策xx老師本章內(nèi)容4.1并購的決策方法4.2并購成功率的預(yù)測(cè)4.3商譽(yù)減值概率的預(yù)測(cè)機(jī)器學(xué)習(xí)平臺(tái)網(wǎng)址

01并購的決策方法4.1.1什么是并購決策4.1.2傳統(tǒng)并購決策與智能并購決策4.1.1什么是并購決策所謂并購,即企業(yè)之間的兼并和收購,是企業(yè)在平等自愿、等價(jià)有償?shù)幕A(chǔ)上,通過一定的法律程序取得其他企業(yè)產(chǎn)權(quán)的經(jīng)濟(jì)行為。并購有助于企業(yè)快速實(shí)現(xiàn)業(yè)務(wù)擴(kuò)張、節(jié)省交易成本或?qū)崿F(xiàn)規(guī)模經(jīng)濟(jì),是企業(yè)重要的發(fā)展方式和資本運(yùn)作手段。然而在實(shí)踐中,并購失敗的案例也并不在少數(shù),使企業(yè)遭受財(cái)務(wù)損失、聲譽(yù)損失甚至陷入破產(chǎn)。因此,并購決策的質(zhì)量高低對(duì)企業(yè)而言至關(guān)重要。傳統(tǒng)的并購決策,決策者利用凈現(xiàn)值模型、投資回收期模型、內(nèi)含報(bào)酬率等方法或指標(biāo)來估計(jì)并購目標(biāo)的價(jià)值,這些方法往往基于決策者經(jīng)驗(yàn)來判斷并購目標(biāo)與本企業(yè)的戰(zhàn)略匹配程度,存在決策主觀的問題。傳統(tǒng)并購決策智能并購決策數(shù)據(jù)來源并購方和并購目標(biāo)的關(guān)鍵財(cái)務(wù)指標(biāo)量化數(shù)據(jù)。關(guān)鍵財(cái)務(wù)指標(biāo)等結(jié)構(gòu)化信息;非財(cái)務(wù)指標(biāo)和多源異構(gòu)數(shù)據(jù),如行業(yè)政策、研究報(bào)告、媒體報(bào)道、企業(yè)社會(huì)網(wǎng)絡(luò)信息等

。方法原理資本預(yù)算決策模型

利用先進(jìn)的算法

進(jìn)行“預(yù)測(cè)”決策效率使用人工操作或Excel等工具,速度慢且容易出現(xiàn)人為誤差或錯(cuò)誤;因數(shù)據(jù)更新和分析周期較長(zhǎng),可能導(dǎo)致決策滯后

;依賴經(jīng)驗(yàn)判斷和簡(jiǎn)單模型的傳統(tǒng)決策方法則容易受主觀因素影響,其決策結(jié)果的科學(xué)性和準(zhǔn)確性較低

。通過分布式計(jì)算框架(如Spark)和先進(jìn)的數(shù)據(jù)處理技術(shù)快速處理海量數(shù)據(jù),大幅提升數(shù)據(jù)處理和分析效率

;通過實(shí)時(shí)監(jiān)控和分析并購交易相關(guān)數(shù)據(jù),快速對(duì)市場(chǎng)變化做出響應(yīng),及時(shí)提供決策支持

。4.1.2傳統(tǒng)并購決策與智能并購決策隨著新一代技術(shù)的不斷發(fā)展,大數(shù)據(jù)、機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)有望被應(yīng)用于并購決策過程,極大地提升并購決策質(zhì)量。02并購成功率預(yù)測(cè)4.2.1實(shí)訓(xùn)任務(wù)要求與特點(diǎn)4.2.2分類機(jī)器模型4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)4.2.4基于XGSoost的并購成功率預(yù)測(cè)4.2.1實(shí)訓(xùn)任務(wù)要求與特點(diǎn)本次任務(wù)以SDC全球并購數(shù)據(jù)庫中2000-2024年間的發(fā)生的所有并購交易事件作為原始數(shù)據(jù),該數(shù)據(jù)不僅提供了并購事件的各項(xiàng)特征(例如主并企業(yè)和并購對(duì)象的財(cái)務(wù)數(shù)據(jù)),還提供了每個(gè)并購項(xiàng)目最終的交易結(jié)果(例如成功交易或撤銷交易),因而可以支持本次預(yù)測(cè)。我們將基于上述數(shù)據(jù)建立并訓(xùn)練機(jī)器學(xué)習(xí)模型,利用主并方和并購對(duì)象的相關(guān)信息來預(yù)測(cè)企業(yè)并購是否成功,并調(diào)整模型參數(shù)以盡量提高預(yù)測(cè)準(zhǔn)確率。4.2.1實(shí)訓(xùn)任務(wù)要求與特點(diǎn)任務(wù)的預(yù)測(cè)目標(biāo)是“并購是否成功”,成功則取值為1,反之為0。選取了36個(gè)財(cái)務(wù)和非財(cái)務(wù)指標(biāo)。財(cái)務(wù)指標(biāo)包括被并方在過去12個(gè)月的銷售收入、凈利潤(rùn)、現(xiàn)金流、市值等絕對(duì)指標(biāo),以及股權(quán)價(jià)值與銷售收入比、股權(quán)價(jià)值與現(xiàn)金流量比等財(cái)務(wù)比率;非財(cái)務(wù)指標(biāo)分為國(guó)家層面、企業(yè)層面和交易層面的指標(biāo)。指標(biāo)名稱和定義方式如下表所示,其中,多個(gè)分類變量已通過獨(dú)熱編碼(One-HotEncoding)創(chuàng)建了啞變量。4.2.2分類機(jī)器學(xué)習(xí)模型使用已知的輸入特征來預(yù)測(cè)樣本所屬的類別,輸出一個(gè)離散的類別標(biāo)簽?;貧w機(jī)器學(xué)習(xí)模型分類機(jī)器學(xué)習(xí)模型目標(biāo)是預(yù)測(cè)連續(xù)值的輸出。4.2.2分類機(jī)器學(xué)習(xí)模型針對(duì)典型的二分類任務(wù),模型預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)包括:

準(zhǔn)確率(Accuracy)

精確率(Precision)

召回率(Recall)

F1-score、

ROC(ReceiverOperatingCharacteristicCurve)曲線和AUC值(AreaUndertheCurve)

這些評(píng)價(jià)指標(biāo)各有優(yōu)劣和適用場(chǎng)景。整體而言,這些指標(biāo)的值約接近1,代表模型預(yù)測(cè)效果越好。1.混淆矩陣混淆矩陣指的是一個(gè)2×2的矩陣,其結(jié)構(gòu)如下圖所示,它展示了預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的對(duì)比,共包含以下四種元素:真正例(TruePositive)、假正例(FalsePositive)、真負(fù)例(TrueNegative)、假負(fù)例(FalseNegative),分別簡(jiǎn)寫為TP、FP、TN、FN。4.2.2分類機(jī)器學(xué)習(xí)模型2.準(zhǔn)確率(Accuracy)準(zhǔn)確率衡量了模型在所有樣本中正確預(yù)測(cè)的比例,即模型預(yù)測(cè)正確的樣本數(shù)與總樣本數(shù)之比。計(jì)算公式如下:4.2.2分類機(jī)器學(xué)習(xí)模型3.召回率(Recall)召回率為模型預(yù)測(cè)結(jié)果為正類的樣本數(shù)占實(shí)際為正類的樣本數(shù)的比例,又被稱為真陽率、敏感度,適用于對(duì)假負(fù)例非常敏感的情形。高召回率意味著模型能夠更好地捕捉到真實(shí)的正類別樣本,但召回率高可能會(huì)伴隨著更多的假正類別。計(jì)算公式如下:

4.2.2分類機(jī)器學(xué)習(xí)模型4.

精確率(Precision)精確率的定義為模型預(yù)測(cè)結(jié)果為正類的樣本中預(yù)測(cè)正確的樣本比例,適用于對(duì)假正例非常敏感的情形。高精確率意味著模型在預(yù)測(cè)為正類別時(shí)的準(zhǔn)確性更高,但精確率高可能會(huì)伴隨著更低的召回率,計(jì)算公式如下:4.2.2分類機(jī)器學(xué)習(xí)模型5.

F1

ScoreF1Score是精確率和召回率的調(diào)和平均數(shù),用于衡量分類模型的性能。調(diào)和平均數(shù)(HarmonicMean)是一種平均數(shù)的計(jì)算方法,特別適用于衡量多個(gè)比率或速率的綜合表現(xiàn)。計(jì)算公式如下:4.2.2分類機(jī)器學(xué)習(xí)模型6.

ROC曲線和AUC值ROC曲線(ReceiverOperatingCharacteristicCurve)是用來評(píng)估模型完成二分類任務(wù)的性能的工具,它展現(xiàn)了閾值變化對(duì)模型預(yù)測(cè)結(jié)果的影響,直觀地反映出模型的預(yù)測(cè)能力。ROC曲線的橫軸為假陽率(FPR),縱軸為真陽率(TPR),即上述的召回率。4.2.2分類機(jī)器學(xué)習(xí)模型AUC值為ROC曲線下的面積,其取值范圍為0.5到1,可以量化模型的性能,數(shù)值越大表示模型的分類效果越好。當(dāng)AUC值為下限0.5時(shí),表示模型的分類效果等同于隨機(jī)分類,當(dāng)AUC值為上限0.5時(shí),表示模型的分類效果完美。AUC值特別適合作為樣本不平衡情況下的二分類任務(wù)的模型評(píng)價(jià)指標(biāo),可以全面了解模型分類的能力。4.2.2分類機(jī)器學(xué)習(xí)模型4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

隨機(jī)森林算法是一種以決策樹為基本構(gòu)成單位的集成算法,通過自助法重采樣技術(shù),從訓(xùn)練集中有放回地重復(fù)隨機(jī)抽取樣本和特征建立多個(gè)決策樹模型,進(jìn)而組成隨機(jī)森林,其最終的輸出結(jié)果由所有決策樹模型輸出結(jié)果的眾數(shù)決定。以N來表示訓(xùn)練集所含的樣本數(shù)量,以M來表示每個(gè)樣本的特征數(shù)量,隨機(jī)森林算法的步驟可簡(jiǎn)單歸納如下:(1)從訓(xùn)練集中有放回地隨機(jī)抽樣N次,每次抽取一個(gè)樣本,最終獲得一個(gè)樣本數(shù)量為N的新的訓(xùn)練集,將新訓(xùn)練集作為決策樹根節(jié)點(diǎn)的樣本訓(xùn)練一個(gè)決策樹;(2)對(duì)于決策樹的每一個(gè)節(jié)點(diǎn),均隨機(jī)選取m個(gè)特征屬性,滿足m遠(yuǎn)小于M的條件,然后依據(jù)決策樹節(jié)點(diǎn)對(duì)于分裂特征的選擇策略(如信息增益、基尼系數(shù)等)從這m個(gè)特征屬性中選擇出該節(jié)點(diǎn)的分裂特征,完成分裂;(3)按照前一步驟繼續(xù)分裂,一直到無法再分裂為止,整個(gè)決策樹的形成過程中無須進(jìn)行剪枝;(4)重復(fù)上述三個(gè)步驟,生成若干決策樹,組成隨機(jī)森林。隨機(jī)森林算法(1)數(shù)據(jù)導(dǎo)入導(dǎo)入名為“并購企業(yè)數(shù)據(jù).xlsx”的原始數(shù)據(jù)文件。被解釋變量為“并購是否成功”,其余36個(gè)變量為解釋變量。由于數(shù)據(jù)集已提前經(jīng)過缺失值填充、異常值檢測(cè)、標(biāo)準(zhǔn)化處理等處理,故而無須再進(jìn)行數(shù)據(jù)清洗。(2)劃分訓(xùn)練集和測(cè)試集將數(shù)據(jù)集拆分成兩部分,分別用于隨機(jī)森林模型訓(xùn)練和訓(xùn)練結(jié)果的測(cè)試。我們以8:2對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)劃分,即隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。設(shè)定隨機(jī)種子數(shù),它可以是任一整數(shù),旨在確保每次運(yùn)行程序時(shí)生成的隨機(jī)數(shù)序列都是相同的。在多次預(yù)測(cè)中使用相同的隨機(jī)種子數(shù),可以消除分組的隨機(jī)性對(duì)預(yù)測(cè)結(jié)果的影響,從而更好地評(píng)估算法或模型的預(yù)測(cè)效果。隨機(jī)森林建模過程4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

(3)模型訓(xùn)練以“并購是否成功”的啞變量作為預(yù)測(cè)目標(biāo),使用訓(xùn)練集數(shù)據(jù)進(jìn)行建模訓(xùn)練。下圖展示了在機(jī)器學(xué)習(xí)平臺(tái)上使用下述參數(shù)組合進(jìn)行隨機(jī)森林建模的結(jié)果。4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

01n_estimators(決策樹數(shù)量)通常默認(rèn)為100,增加樹的數(shù)量可以提高模型的穩(wěn)定性和性能,但同時(shí)也會(huì)增加計(jì)算成本和訓(xùn)練時(shí)間;如果數(shù)據(jù)集較大或模型性能要求較高,可以適當(dāng)提高該參數(shù)值。03criterion用于評(píng)估決策樹分裂質(zhì)量的準(zhǔn)則其中,gini為基尼不純度,衡量樣本的分布不均勻程度,entropy為信息增益。

05max_depth代表決策樹的最大深度,用于限制決策樹的生長(zhǎng)深度,防止過擬合。由于本任務(wù)的特征變量較少,可以設(shè)置一個(gè)較小的max_depth(例如10)來避免過擬合。02min_samples_split代表分裂內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)量,通常默認(rèn)為2。旨在防止決策樹過度生長(zhǎng)和分裂,控制樹的復(fù)雜度;如果數(shù)據(jù)集較大,可以適當(dāng)加大數(shù)值以提高模型的泛化能力。04min_samples_leaf是葉子節(jié)點(diǎn)所需的最小樣本數(shù)量,默認(rèn)值為1。這兩個(gè)參數(shù)旨在防止決策樹過度生長(zhǎng)和分裂,控制樹的復(fù)雜度;如果數(shù)據(jù)集較大,可以適當(dāng)加大數(shù)值以提高模型的泛化能力。06max_features指在尋找最佳分裂時(shí)考慮的最大特征數(shù)量,通過減少每次分裂考慮的特征數(shù)量,增加模型的隨機(jī)性;可選擇sqrt(使用特征數(shù)量的平方根)或log2(使用特征數(shù)量的對(duì)數(shù))。4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

隨機(jī)森林模型預(yù)測(cè)及效果評(píng)估(1)樣本內(nèi)預(yù)測(cè)采用構(gòu)建好的隨機(jī)森林模型對(duì)數(shù)據(jù)集中的各案例“并購是否成功”進(jìn)行擬合。在機(jī)器學(xué)習(xí)平臺(tái)上,預(yù)測(cè)結(jié)果可以顯示目標(biāo)變量的真實(shí)值、預(yù)測(cè)值以及每個(gè)案例并購成功的概率值(如圖中的“預(yù)測(cè)結(jié)果概率_1”所示)。4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

(2)模型評(píng)估通過比較測(cè)試集中“并購是否成功”變量的真實(shí)值和預(yù)測(cè)值來評(píng)估模型的預(yù)測(cè)效果。財(cái)務(wù)分析人員可以采用預(yù)測(cè)指標(biāo)進(jìn)行模型評(píng)價(jià),并且以其中某一項(xiàng)指標(biāo)(例如準(zhǔn)確性)作為參數(shù)調(diào)整時(shí)比較各參數(shù)組合優(yōu)劣的主要依據(jù)。如圖所示,使用隨機(jī)森林模型來預(yù)測(cè)并購是否成功的準(zhǔn)確率達(dá)到了98.6%,說明預(yù)測(cè)效果很好。4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

分類模型的預(yù)測(cè)效果也可以通過混淆矩陣來反映左上角的“9875”和右下角的“9497”代表分類正確的樣本數(shù),即模型共分類正確19372個(gè)測(cè)試集樣本,將9875個(gè)真實(shí)取值為“并購失敗”的樣本預(yù)測(cè)為失敗,同時(shí)將9497個(gè)真實(shí)取值為“并購成功”的樣本預(yù)測(cè)為成功。右上角的“0”說明模型沒有將任何真實(shí)為并購失敗的樣本錯(cuò)誤地預(yù)測(cè)為并購成功,模型的預(yù)測(cè)沒有過分樂觀左下角的“280”說明模型將280個(gè)真實(shí)為并購成功的樣本錯(cuò)誤地預(yù)測(cè)為并購失敗,表示模型在該測(cè)試集上的誤判。綜合而言,該矩陣結(jié)果意味著模型預(yù)測(cè)結(jié)果較為理想。4.2.3基于隨機(jī)森林的并購成功率預(yù)測(cè)

4.2.4基于XGBoost的并購成功率預(yù)測(cè)

XGBoost算法XGBoost算法是一種基于CART樹的Boosting算法。Boosting算法作為集成學(xué)習(xí)算法的基本策略之一,其核心思想就是通過對(duì)弱分類器的不斷迭代,逐步逼近真實(shí)值,取得“三個(gè)臭皮匠,賽過諸葛亮”的效果。XGBoost算法的基本運(yùn)行過程如下:(1)利用訓(xùn)練集完成第一顆決策樹的訓(xùn)練,接著使用訓(xùn)練好的模型對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè),輸出對(duì)訓(xùn)練集每一個(gè)樣本的預(yù)測(cè)值,與真實(shí)值相減得到殘差;(2)以上一步的殘差作為繼續(xù)迭代的訓(xùn)練目標(biāo),訓(xùn)練第二顆決策樹,并將預(yù)測(cè)結(jié)果與上一顆決策樹的預(yù)測(cè)結(jié)果按照權(quán)重相加,其與真實(shí)值的差異為新的殘差;(3)繼續(xù)重復(fù)上述步驟,直到滿足停止條件(如已達(dá)最大迭代次數(shù)等);(4)所有決策樹各自輸出結(jié)果按照權(quán)重相加,得到模型的最終預(yù)測(cè)結(jié)果。XGBoost建模過程利用XGBoost模型預(yù)測(cè)并購成功率的技術(shù)流程與隨機(jī)森林建模過程流程圖所展示的基本相似。其中,數(shù)據(jù)導(dǎo)入、劃分訓(xùn)練集和測(cè)試集的操作與前述隨機(jī)森林建模時(shí)完全相同,不再贅述。4.2.4基于XGBoost的并購成功率預(yù)測(cè)

在模型訓(xùn)練時(shí),建模的目標(biāo)依然是對(duì)“并購是否成功”進(jìn)行分類預(yù)測(cè)。需要選擇一些關(guān)鍵的XGBoost模型參數(shù)。參數(shù)含義用途n_estimators基學(xué)習(xí)器的數(shù)量(即樹的數(shù)量)默認(rèn)值為100,值較大時(shí)可能提高模型的性能。learning_rate學(xué)習(xí)率(也稱為eta)用來控制每棵樹對(duì)最終結(jié)果的貢獻(xiàn),取值范圍在0到1之間。當(dāng)學(xué)習(xí)率較低時(shí),就需要更多的樹來進(jìn)行數(shù)據(jù)擬合。reg_alpha和reg_lambda正則化系數(shù)分別代表L1正則化項(xiàng)的權(quán)重(alpha)和L2正則化項(xiàng)的權(quán)重(lambda)。前者用來減少特征數(shù)量,降低模型復(fù)雜度,默認(rèn)值為0;后者用來使模型更加平滑,防止過擬合,默認(rèn)值為1。兩個(gè)參數(shù)的值越大則說明模型越保守。gamma模型復(fù)雜度的懲罰項(xiàng)防止模型過擬合。其默認(rèn)值為0,值越大代表算法越保守,模型的復(fù)雜度也越低。4.2.4基于XGBoost的并購成功率預(yù)測(cè)

XGBoost模型預(yù)測(cè)及效果評(píng)估(1)樣本內(nèi)預(yù)測(cè)采用構(gòu)建好的XGBoost模型對(duì)數(shù)據(jù)集中各案例“并購是否成功”進(jìn)行預(yù)測(cè)。在機(jī)器學(xué)習(xí)平臺(tái)上,預(yù)測(cè)結(jié)果可以顯示目標(biāo)變量的真實(shí)值、預(yù)測(cè)值以及每個(gè)案例并購成功的概率值(如圖中的“預(yù)測(cè)結(jié)果概率_1”所示)。4.2.4基于XGBoost的并購成功率預(yù)測(cè)

(2)模型評(píng)估XGBoost的分類效果同樣采用準(zhǔn)確率、精確率、召回率、F1-score、AUC值等指標(biāo)或者混淆矩陣來評(píng)估。評(píng)估結(jié)果顯示,使用XGBoost模型預(yù)測(cè)企業(yè)并購是否成功的準(zhǔn)確率達(dá)到97.1%,與隨機(jī)森林模型的預(yù)測(cè)效果差異不大。4.2.4基于XGBoost的并購成功率預(yù)測(cè)

03商譽(yù)減值概率預(yù)測(cè)4.3.1實(shí)訓(xùn)任務(wù)要求與特點(diǎn)4.3.2支持向量機(jī)算法(SVM)4.3.3基于支持向量機(jī)算法的商譽(yù)減值概率預(yù)測(cè)4.3.1實(shí)訓(xùn)任務(wù)要求本任務(wù)擬構(gòu)建機(jī)器學(xué)習(xí)模型對(duì)商譽(yù)減值的概率進(jìn)行預(yù)測(cè)。采用恰當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法訓(xùn)練模型,基于企業(yè)第T年的公開信息,預(yù)測(cè)企業(yè)在T+1年會(huì)否發(fā)生商譽(yù)減值。預(yù)測(cè)目標(biāo)為“商譽(yù)是否減值”,該變量在企業(yè)于T+1年遭遇商譽(yù)減值時(shí)取1,反之取0。特征變量共包括124個(gè)預(yù)測(cè)指標(biāo)(如下表所示),涵蓋了管理層動(dòng)機(jī)、企業(yè)商譽(yù)狀況、公司治理、企業(yè)財(cái)務(wù)指標(biāo)、公司特征、資產(chǎn)負(fù)債表項(xiàng)目、利潤(rùn)表項(xiàng)目、現(xiàn)金流量表項(xiàng)目等八大類。4.3.2支持向量機(jī)算法(SVM)

支持向量機(jī)算法支持向量機(jī)(SupportVectorMachine,簡(jiǎn)稱SVM)是一種強(qiáng)大的監(jiān)督學(xué)習(xí)算法,廣泛應(yīng)用于分類和回歸任務(wù)。它的核心思想是通過找到一個(gè)最優(yōu)的決策邊界(超平面),將不同類別的數(shù)據(jù)盡可能分開,同時(shí)最大化邊界到最近數(shù)據(jù)點(diǎn)的距離,這些最近的數(shù)據(jù)點(diǎn)即被稱為“支持向量”。泛化能力強(qiáng)SVM通過最大化間隔來優(yōu)化決策邊界,這使得它在未見數(shù)據(jù)上具有較好的泛化能力。出于這些優(yōu)勢(shì),SVM被廣泛應(yīng)用于圖像識(shí)別(例如手寫數(shù)字識(shí)別、人臉識(shí)別)、文本分類(例如垃圾郵件檢測(cè)、情感分析)、金融風(fēng)險(xiǎn)預(yù)測(cè)(例如信用評(píng)估、股票市場(chǎng)預(yù)測(cè))等領(lǐng)域。有強(qiáng)大的核技巧核技巧通過將數(shù)據(jù)映射到高維空間,使得數(shù)據(jù)在高維空間中線性可分,因此,SVM可以處理非線性問題,而無須顯式地計(jì)算高維空間中的映射。

高維數(shù)據(jù)處理特別擅長(zhǎng)處理高維數(shù)據(jù);即使在特征數(shù)量遠(yuǎn)大于樣本數(shù)量的情況下,SVM也能表現(xiàn)出色

。支持向量機(jī)算法優(yōu)勢(shì)相比其他機(jī)器學(xué)習(xí)算法,SVM具備一些明顯優(yōu)勢(shì):4.3.2支持向量機(jī)算法(SVM)

4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)數(shù)據(jù)導(dǎo)入與處理(1)數(shù)據(jù)導(dǎo)入導(dǎo)入名為“商譽(yù)減值數(shù)據(jù).xlsx”的原始數(shù)據(jù)文件,該數(shù)據(jù)集共有125個(gè)變量;其中,被解釋變量為“商譽(yù)是否減值”,其余均為特征變量。4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)(2)缺失觀測(cè)值處理對(duì)于缺失的變量觀測(cè)值,財(cái)務(wù)分析人員可以選擇將其刪除或用某個(gè)數(shù)值進(jìn)行填充??紤]到一些觀測(cè)記錄中的存在缺失值的變量數(shù)量較多,如果進(jìn)行缺失值填充,可能會(huì)影響數(shù)據(jù)的真實(shí)性;因此,在本任務(wù)中,我們將缺失值較多(例如,超過10%的變量缺失)的公司-年度觀測(cè)記錄直接刪除。這一操作會(huì)損失部分樣本(如圖所示),但剩余的樣本數(shù)量足夠支持我們完成預(yù)測(cè)任務(wù)。4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)(3)缺失特征變量處理對(duì)于缺失率較高的特征變量,大面積的填充也會(huì)造成數(shù)據(jù)失真;因此,我們將缺失率超過一定閾值的特征變量予以刪除。如圖所示,設(shè)置缺失率的閾值為20%,則“上市公司透明度”“被分析師關(guān)注度”“是否采取整改措施”“利息保障倍數(shù)”“經(jīng)營(yíng)活動(dòng)產(chǎn)生的凈流量增長(zhǎng)率”等五個(gè)特征變量因缺失率超過了20%而被刪除。對(duì)于缺失率較低的特征變量,則可以用該變量的中位數(shù)來填充缺失值,這樣做不會(huì)影響特征變量的數(shù)量,又能夠最大程度地減少信息損失。4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)(4)數(shù)據(jù)標(biāo)準(zhǔn)化處理SVM模型對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化要求較高,因此,在運(yùn)用該模型之前需要先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化是將數(shù)據(jù)按照均值為0、方差為1進(jìn)行縮放,適用于特征變量呈正態(tài)分布或者近似正態(tài)分布的情況。標(biāo)準(zhǔn)化有助于消除量綱影響,加快模型收斂速度,并能夠處理異常值。不同于SVM模型,隨機(jī)森林模型和XGBoost模型對(duì)變量的尺度并不敏感,因此,是否進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理不會(huì)影響模型性能。4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)SVM建模過程(1)劃分訓(xùn)練集和測(cè)試集將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,分別用于模型訓(xùn)練和訓(xùn)練結(jié)果測(cè)試。本任務(wù)中,我們將70%的數(shù)據(jù)劃分為訓(xùn)練集,30%的數(shù)據(jù)劃分為測(cè)試集。4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)(2)模型訓(xùn)練本任務(wù)以“商譽(yù)是否減值”作為預(yù)測(cè)目標(biāo),屬于分類任務(wù)。為了提高SVM模型得訓(xùn)練效果,需要對(duì)關(guān)鍵參數(shù)進(jìn)行設(shè)置,并根據(jù)預(yù)測(cè)效果進(jìn)行調(diào)整優(yōu)化。4.3.3基于支持向量機(jī)算法(SVM)的商譽(yù)減值概率預(yù)測(cè)01懲罰參數(shù)C用于控制誤分類的懲罰程度。當(dāng)C值較小時(shí),模型會(huì)更傾向于選擇較大的間隔,此時(shí)模型的正則化程度較高,對(duì)噪聲和異常值的容忍度較高,、當(dāng)C值較大時(shí),模型會(huì)盡量減少誤分類。03Probability代表是否啟用概率估計(jì)。如若啟用,SVM可以輸出預(yù)測(cè)結(jié)果的概率值,而不僅僅是分類標(biāo)簽。05Kernel(核函數(shù))代表核函數(shù),用于將數(shù)據(jù)映射到高維空間,以便在高維空間中找到線性可分的超平面。常見核函數(shù)包括線性核(LinearKernel)、高斯徑向基核(RBFKernel)、Sigmoid核、多項(xiàng)式核等。02Degree(多項(xiàng)式度數(shù))用以控制多項(xiàng)式核的復(fù)雜度。較小的度數(shù)會(huì)導(dǎo)致模型更簡(jiǎn)單,但可能欠擬合;較大的度數(shù)會(huì)導(dǎo)致模型更復(fù)雜,但可能過擬合。通常在訓(xùn)練初始時(shí)選擇較小的度數(shù),再通過交叉驗(yàn)證來確定是否調(diào)整。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論