大數(shù)據(jù)財務分析與決策 課件 第7、8章 企業(yè)風險分析、企業(yè)戰(zhàn)略分析_第1頁
大數(shù)據(jù)財務分析與決策 課件 第7、8章 企業(yè)風險分析、企業(yè)戰(zhàn)略分析_第2頁
大數(shù)據(jù)財務分析與決策 課件 第7、8章 企業(yè)風險分析、企業(yè)戰(zhàn)略分析_第3頁
大數(shù)據(jù)財務分析與決策 課件 第7、8章 企業(yè)風險分析、企業(yè)戰(zhàn)略分析_第4頁
大數(shù)據(jù)財務分析與決策 課件 第7、8章 企業(yè)風險分析、企業(yè)戰(zhàn)略分析_第5頁
已閱讀5頁,還剩120頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第7章

企業(yè)風險分析xx老師本章學習目標

通過本章的學習,將:了解數(shù)智技術對企業(yè)風險分析的變革理解XGBoost分類、LightGBM分類機器學習算法基礎知識掌握財務舞弊甄別模型訓練方法掌握債券違約預警模型訓練方法掌握市場與交易違規(guī)預測模型訓練方法掌握法律訴訟風險預警模型訓練方法本章內(nèi)容

7.1企業(yè)風險分析的方法7.2財務舞弊甄別7.3債券違約預警7.4市場與交易違規(guī)預測7.5法律訴訟風險預警機器學習平臺網(wǎng)址

01企業(yè)風險分析的方法7.1.1傳統(tǒng)的企業(yè)風險分析方法7.1.2數(shù)智化的企業(yè)風險分析方法本節(jié)教學目標了解企業(yè)風險分析的內(nèi)容了解傳統(tǒng)企業(yè)風險分析方法及弊端掌握數(shù)智化企業(yè)風險分析方法及步驟熟悉傳統(tǒng)與數(shù)智化企業(yè)風險分析之間的區(qū)別本節(jié)教學內(nèi)容企業(yè)風險分析的內(nèi)容傳統(tǒng)企業(yè)風險分析方法及弊端數(shù)智化企業(yè)風險分析方法及步驟傳統(tǒng)與數(shù)智化企業(yè)風險分析之間的區(qū)別企業(yè)風險分析簡介企業(yè)風險分析是指系統(tǒng)地評估和識別一個企業(yè)在其運營和市場環(huán)境中可能面臨的潛在風險。對企業(yè)進行風險分析的目的在于通過對這些風險因素的深入了解,幫助企業(yè)制定相應的風險管理策略和緩解措施,從而優(yōu)化企業(yè)的決策過程,增強其抵御外部和內(nèi)部威脅的能力,保護企業(yè)的資產(chǎn)和股東價值。企業(yè)風險分析不僅有助于防范和應對負面事件,也為企業(yè)發(fā)展和長期成功提供了支持。030201歷史數(shù)據(jù)往往無法充分反映未來風險,尤其是在市場快速變化或出現(xiàn)新興風險時,傳統(tǒng)方法的前瞻性和適應性不足。定性分析在很大程度上依賴于管理層和專家的主觀判斷,容易受到個人偏見的影響,導致對風險的評價可能不夠全面或準確。傳統(tǒng)方法通常缺乏實時數(shù)據(jù)支持和動態(tài)監(jiān)控機制,難以及時捕捉風險的變化,限制了風險管理的靈活性和響應速度。7.1.1傳統(tǒng)企業(yè)風險分析方法的特點對歷史數(shù)據(jù)和專家經(jīng)驗的依賴較強依賴于管理層和專家的主觀判斷缺乏實時數(shù)據(jù)支持和動態(tài)監(jiān)控機制在信息化和全球化程度不斷提高的背景下,傳統(tǒng)風險分析方法的局限性日益顯現(xiàn),急需引入數(shù)據(jù)驅動和智能化的分析手段。7.1.2數(shù)智化企業(yè)風險分析方法及步驟數(shù)智化企業(yè)風險分析方法及步驟

分析方法含義數(shù)智化企業(yè)風險分析方法是利用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)和區(qū)塊鏈等先進技術,對企業(yè)面臨的風險進行智能化、實時化的識別、評估和管理的一種方法。1.數(shù)據(jù)獲取企業(yè)通過物聯(lián)網(wǎng)設備和傳感器等技術,收集關于生產(chǎn)、供應鏈、庫存等各個環(huán)節(jié)的實時數(shù)據(jù)。2.數(shù)據(jù)處理和清洗企業(yè)將這些實時數(shù)據(jù)與歷史數(shù)據(jù)進行結合,經(jīng)過數(shù)據(jù)處理和清洗,為進一步分析做好準備。3.構建預測模型企業(yè)構建預測模型,對識別出的風險進行量化評估4.模型分析企業(yè)基于模型預測結果,制定具體的應對策略,并不斷優(yōu)化分析模型傳統(tǒng)與數(shù)智化分析方法的區(qū)別基于機器學習的企業(yè)風險分析場景財務舞弊甄別法律訴訟風險預警市場與交易違規(guī)預測債券違約預警02財務舞弊甄別7.2.1實訓任務要求與特點7.2.2預測方法及技術原理7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理7.2.4模型訓練、預測和評估本節(jié)學習目標1.了解機器學習分類算法基礎知識2.熟悉XGBosst分類機器學習算法3.掌握財務舞弊甄別模型訓練方法7.2.1實訓任務要求與特點財務舞弊風險是指企業(yè)在財務報告中故意進行誤導性的、欺詐性的或不合規(guī)的行為,以夸大或隱藏其真實的經(jīng)濟狀況。財務舞弊行為可能包括虛報收入、夸大資產(chǎn)價值、隱藏或低估債務和責任等。財務舞弊不僅違反了法律法規(guī),還會嚴重損害企業(yè)的信譽和財務健康。機器學習模型可以根據(jù)歷史數(shù)據(jù)學習舞弊案例的特征,預測未來潛在的舞弊行為。通過這種預測,企業(yè)能夠及時發(fā)現(xiàn)和應對財務舞弊,減少經(jīng)濟損失,維護企業(yè)的市場信譽和投資者信任。對監(jiān)管機構而言,機器學習提供了一種高效的監(jiān)控工具,有助于加強市場的公平性和透明度。在企業(yè)財務風險管理中,我們可以通過預測模型判斷企業(yè)是否存在財務舞弊的可能性或債務違約的風險。在合規(guī)風險管理方面,預測模型能夠幫助評估企業(yè)未來是否會因市場或交易違規(guī)行為受到監(jiān)管部門的處罰,或面臨法律訴訟。財務舞弊風險的含義任務說明本實訓將構建一個財務舞弊預測模型,通過分析企業(yè)歷史財務數(shù)據(jù)和其他相關數(shù)據(jù),預測企業(yè)是否存在財務舞弊的風險。問題的核心在于對某個事件的發(fā)生與否進行判斷,本質上屬于二分類問題。在機器學習中,針對這種“是”或“否”的問題,我們通常采用分類算法來構建模型,以進行精準的風險預測。7.2.1實訓任務要求與特點7.2.2預測方法及技術原理XGBoost是一種集成學習算法,通過組合多個弱分類器(通常是決策樹)來構建強大的預測模型,特別適用于分類任務。XGBoost模型簡介01XGBoost通過逐步構建一系列的決策樹來集成學習,每一棵新樹都在之前樹的基礎上進行改進,以最小化損失函數(shù),從而優(yōu)化模型預測能力。模型的集成學習原理02XGBoost利用梯度下降法優(yōu)化模型,通過損失函數(shù)的最小化來提升模型的預測準確性,并通過正則化項防止過擬合。損失函數(shù)與模型優(yōu)化03該算法引入正則化項,增強模型的泛化能力,防止過擬合現(xiàn)象,提高模型的魯棒性。正則化與過擬合預防04XGBoost能夠自動選擇重要的特征并處理缺失數(shù)據(jù),具有較強的處理非線性關系的能力,適合復雜的數(shù)據(jù)結構。XGBoost的非線性處理能力05XGBoost支持并行計算,能夠顯著加快模型訓練速度,特別適合于大規(guī)模數(shù)據(jù)集的分析和處理。并行計算與大規(guī)模數(shù)據(jù)集06XGBoost分類機器學習7.2.2預測方法及技術原理類別不平衡問題在機器學習分類任務中常見,可能導致模型偏向于多數(shù)類,影響模型的預測準確性。類別不平衡問題概述01過采樣和欠采樣是處理類別不平衡問題的兩種策略,分別通過增加少數(shù)類樣本和減少多數(shù)類樣本數(shù)量來平衡類別。過采樣與欠采樣策略02SMOTE是一種過采樣技術,通過在少數(shù)類樣本之間進行插值生成新的合成樣本,以改善模型對少數(shù)類的識別能力。SMOTE技術原理03在財務舞弊預測模型中,使用SMOTE技術可以合成更多的舞弊公司樣本,從而提高分類器對少數(shù)類樣本的識別能力。SMOTE在財務舞弊預測中的應用04分類機器學習中的樣本平衡性處理XGBoost分類模型參數(shù)學習率。控制每一步的權重縮減,防止過擬合。常用值:0.01到0.3分裂所需的最小損失減少量,值越大,模型越保守,常用值:0

5L1正則化項(權重正則化),值越大,模型越保守L2正則化項(權重正則化),值越大,模型越保守模型中使用多少棵樹(或多少輪boosting),每一棵樹都會嘗試修正前一棵樹的錯誤,更多的樹通常意味著模型可以學習到更復雜的模式,通??梢詮囊粋€較大的值開始(如100或200),然后根據(jù)模型性能進行調整。7.2.2預測方法及技術原理數(shù)據(jù)初識變量“是否舞弊”是本次實訓的預測目標。財務指標為特征變量獲取3867家上市公司2005~2022年的審計意見類型及財務數(shù)據(jù)。7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理數(shù)據(jù)初識7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理數(shù)據(jù)預處理(1)增加滯后/超前期數(shù)據(jù)為了提升模型訓練的效果,我們希望將已有的一些特征變量生成以往年度的數(shù)值,一同放入預測模型,給予模型更多的預測信息。本例以股票代碼為組別對相關預測特征生成超前/滯后數(shù)據(jù),滯后2期。7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理

數(shù)據(jù)預處理(2)缺失值填充用“股票代碼”分組進行填充;再用“行業(yè)名稱”和“省份+經(jīng)營性質”兩種分組進行填充;7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理數(shù)據(jù)預處理(3)劃分訓練集與測試集在機器學習模型的訓練過程中,劃分訓練集與測試集是為了評估模型的泛化能力,即模型在未見過的數(shù)據(jù)上的表現(xiàn)。通過將數(shù)據(jù)集分為訓練集和測試集,可以有效地避免模型過擬合,即模型在訓練數(shù)據(jù)上表現(xiàn)良好,但在新數(shù)據(jù)上的預測能力較差。訓練集用于訓練模型,模型通過學習這些數(shù)據(jù)來調整參數(shù)和優(yōu)化預測性能。測試集則用于評估模型的性能,確保模型能夠在未知數(shù)據(jù)上做出合理的預測,檢驗其泛化能力。常見的劃分比例是70%用于訓練,30%用于測試,或者80%訓練、20%測試。劃分時需確保訓練集和測試集的代表性,通常通過隨機抽樣的方式,保證兩部分數(shù)據(jù)具有相似的分布,以確保測試結果的可靠性。7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理數(shù)據(jù)預處理這份數(shù)據(jù)存在財務舞弊公司樣本明顯少于非舞弊公司的情況。針對該數(shù)據(jù)特點,我們需要通過過采樣的處理方式緩解樣本不平衡問題,以提升模型訓練效果。(4)過采樣過采樣是一種用于處理數(shù)據(jù)不平衡問題的技術,特別是在機器學習中。數(shù)據(jù)不平衡指的是訓練數(shù)據(jù)中不同類別樣本的數(shù)量差異較大,這可能會導致模型在預測時偏向于數(shù)量較多的類別,而忽略數(shù)量較少的類別。過采樣通過增加少數(shù)類樣本的數(shù)量,從而平衡不同類別樣本的比例,有助于提高模型的性能。SMOTE是一種流行的過采樣方法,它通過合成新的少數(shù)類樣本來增加數(shù)據(jù)集中少數(shù)類樣本的數(shù)量,其作為一種有效的過采樣技術,可以幫助解決數(shù)據(jù)不平衡問題,提高模型的性能和穩(wěn)定性。7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理(1)對于每一個少數(shù)類樣本,計算其與所有其他少數(shù)類樣本的距離;(3)將差值乘以一個隨機數(shù)(通常為0到1之間),并將結果添加到選定的少數(shù)類樣本上,生成新的合成樣本;(2)從其近鄰中隨機選擇一個樣本,并計算兩者之間的差值;(4)重復以上步驟,直到達到指定的合成樣本數(shù)量。SMOTE方法的具體步驟如下:7.2.3數(shù)據(jù)導入和數(shù)據(jù)處理平臺實踐根據(jù)教材二維碼中提供的實訓指南,完成數(shù)據(jù)的預處理,包括增加滯后數(shù)據(jù)、缺失值處理、劃分訓練集與測試集,過采樣。7.2.4模型訓練、預測和評估財務舞弊甄別這類問題的核心在于對某個事件的發(fā)生與否進行判斷,本質上屬于二分類問題。在機器學習中,針對這種“是”或“否”的問題,我們通常采用分類算法來構建模型,以進行精準的風險預測。分類機器學習模型的定義分類機器學習模型是一類用于解決分類問題的模型。在分類問題中,目標是將輸入樣本分配到預定義的類別中。這些模型使用已知的輸入特征來預測樣本所屬的類別,通常輸出是一個離散的類別標簽。與分類機器學習模型相對應的一個概念是回歸機器學習模型,其目標是預測連續(xù)值的輸出。模型選擇與訓練在分類任務中,XGBoost首先將每個輸入特征與目標變量之間的關系通過一系列的決策樹進行建模,然后根據(jù)每個樹的輸出加權求和,最終得到一個分類結果。XGBoost具有較強的處理非線性關系的能力,能夠自動選擇重要的特征并處理缺失數(shù)據(jù)。此外,XGBoost支持并行計算,可以大大加快模型的訓練速度,特別適合大規(guī)模數(shù)據(jù)集的分析。7.2.4模型訓練、預測和評估模型選擇與訓練借助AI工具學習和篩選7.2.4模型訓練、預測和評估模型選擇與訓練XGBoost分類模型的定義XGBoost是一種基于梯度提升算法的機器學習模型,廣泛應用于分類和回歸問題,尤其在處理結構化數(shù)據(jù)時表現(xiàn)出色。XGBoost通過集成多個弱分類器(通常是決策樹),將它們組合成一個強大的預測模型,能夠有效提高預測準確性。XGBoost的核心思想是通過逐步構建一系列的決策樹,每一棵新樹都在之前樹的基礎上做出改進,具體通過最小化一個損失函數(shù)來優(yōu)化模型的預測能力。該算法利用梯度下降法來尋找模型的最優(yōu)解,并且通過正則化項來防止過擬合。XGBoost在傳統(tǒng)的梯度提升算法的基礎上引入了多個改進措施,包括更高效的算法實現(xiàn)、更強的正則化能力和更好的計算效率,從而提高了模型的準確性和魯棒性。7.2.4模型訓練、預測和評估7.2.4模型訓練、預測和評估混淆矩陣的含義真負例是模型正確預測為負類的實例數(shù)量,假負例則是模型錯誤地將正類預測為負類的實例數(shù)量。真負例與假負例混淆矩陣的組成混淆矩陣包含四個基本部分:真正例(TruePositives,TP)、假正例(FalsePositives,FP)、真負例(TrueNegatives,TN)和假負例(FalseNegatives,FN)。真正例與假正例真正例指模型正確預測為正類的實例數(shù)量,而假正例是模型錯誤地將負類預測為正類的實例數(shù)量。混淆矩陣定義混淆矩陣是一個表格,用于可視化分類模型的性能,它展示了實際類別與模型預測類別之間的關系。7.2.4模型訓練、預測和評估模型在未發(fā)生舞弊的樣本中正確預測了1466個,錯誤預測了115個,即將115個未舞弊樣本誤分類為舞弊樣本。而在實際發(fā)生舞弊的樣本中,模型正確預測了325個,但將93個舞弊樣本誤分類為未舞弊樣本。該結果反映了模型在識別財務舞弊樣本時具備高準確度的同時,也存在一定的誤分類情況。7.2.4模型訓練、預測和評估(1)準確率(2)召回率(3)精確率(5)曲線下面積AUC(AreaUndertheCurve)(4)F1Score分類機器學習模型評價指標7.2.4模型訓練、預測和評估準確率準確率衡量了模型在所有樣本中正確預測的比例,即模型預測正確的樣本數(shù)與總樣本數(shù)之比?!矩攧瘴璞最A測為例】假設我們有一個二分類模型,用于預測公司是否存在財務舞弊。假設在測試集中,共有100家公司,其中實際存在財務舞弊的公司有20家(真正類別TruePositives,TP),不存在財務舞弊的公司有80家(真負類別TrueNegatives,TN)。而模型的預測情況是,模型將其中的一部分公司預測為存在財務舞弊(預測為正類別),其中正確預測為存在財務舞弊的公司有15家(TP=15),但錯誤地將5家不存在財務舞弊的公司預測為存在財務舞弊(假正類別FalsePositives,F(xiàn)P)。此時,模型的準確率可以計算如下:準確率=(TP+TN)/總樣本數(shù)=(15+80)/100=0.95這意味著模型在預測財務舞弊時的準確率為80%。換句話說,模型在所有公司,有95%的公司被正確地分類,無論它們是否存在財務舞弊。7.2.4模型訓練、預測和評估召回率召回率衡量了模型能夠正確識別正類別樣本的能力,即模型成功預測為正類別的樣本數(shù)與真實正類別樣本總數(shù)之比?!矩攧瘴璞最A測為例】在測試集中,共有100家公司,其中20家實際存在財務舞弊(真正類別TruePositives,TP),80家不存在財務舞弊(真負類別TrueNegatives,TN)。假設模型的預測結果為:正確預測了15家存在財務舞弊的公司(TP=15),但錯過了5家存在財務舞弊的公司(FN=5)。其中,F(xiàn)N表示假負類別(FalseNegatives),是實際存在財務舞弊的公司被錯誤地預測為財務正常的數(shù)量。那么,模型的召回率為:召回率=TP/(TP+FN)=15/(15+5)=0.75這意味著模型能夠成功識別出存在財務舞弊的公司的能力為75%,模型能夠將真實存在財務舞弊的公司中的75%正確地預測為財務舞弊。高召回率意味著模型能夠更好地捕捉到真實的正類別樣本,但召回率高可能會伴隨著更多的假正類別,需要綜合考慮召回率和其他評估指標,以全面評估模型的性能。7.2.4模型訓練、預測和評估精確率精確率衡量了模型在預測為正類別時的準確性,即模型正確預測為正類別的樣本數(shù)與所有預測為正類別的樣本數(shù)之比。【財務舞弊預測為例】在測試集中,共有100家公司,其中20家實際存在財務舞弊(真正類別TruePositives,TP),80家不存在財務舞弊(真負類別TrueNegatives,TN)。假設模型的預測結果為:正確預測了15家存在財務舞弊的公司(TP=15),但錯誤地將30家不存在財務舞弊的公司預測為存在財務舞弊(FP=30)。其中,F(xiàn)P表示假正類別(FalsePositives),是實際不存在財務舞弊的公司被錯誤地預測為財務舞弊的數(shù)量。模型的精確率可以計算如下:精確率=(TP+FP)/TP=15/(15+30)≈0.33這意味著在所有被模型預測為存在財務舞弊的公司中,有約33%是真正存在財務舞弊的。換句話說,模型在預測存在財務舞弊的公司時的準確率為33%。高精確率意味著模型在預測為正類別時的準確性更高,但精確率高可能會伴隨著更低的召回率,需要綜合考慮精確率和其他評估指標,以全面評估模型的性能。7.2.4模型訓練、預測和評估精確率與召回率之間的權衡提高精確率會導致召回率下降,反之亦然。這是因為提高精確率意味著減少假陽性(FalsePositives),這可能會導致漏掉一些實際為正類的樣本(降低召回率)。而提高召回率意味著減少假陰性(FalseNegatives),這可能會導致增加一些錯誤的正類預測(降低精確率)。在實際應用中,需要根據(jù)具體需求找到精確率和召回率之間的平衡點。例如,在醫(yī)療診斷中,可能更關注召回率,以確保盡量不漏掉每一個患病的患者;而在垃圾郵件過濾中,可能更關注精確率,以避免誤判正常郵件為垃圾郵件。7.2.4模型訓練、預測和評估F1ScoreF1Score是精確率(Precision)和召回率(Recall)的調和平均數(shù),用于衡量分類模型的性能。調和平均數(shù)(HarmonicMean)是一種平均數(shù)的計算方法,特別適用于衡量多個比率或速率的綜合表現(xiàn)。與算術平均數(shù)不同,調和平均數(shù)更側重于較小的數(shù)值,對較大的數(shù)值影響較小。如果使用算術平均數(shù),當一個值非常低而另一個值很高時,平均值可能會顯得較高,無法真實反映模型的性能。因此,當涉及到比例和速率時,調和平均數(shù)通常是更合適的度量。F1Score的范圍是0到1,值越高表示模型的性能越好。它在精確率和召回率之間找到一個平衡點,適用于那些需要平衡錯判和漏判的應用場景。7.2.4模型訓練、預測和評估曲線下面積AUC(AreaUndertheCurve)AUC是一個用于評估分類模型性能的重要指標,代表ROC曲線下的面積。ROC曲線是一條通過不同的閾值繪制出的圖表,顯示了模型在不同閾值下的分類性能。具體來說,ROC曲線以假陽性率(FPR)為橫軸,真陽性率(TPR)為縱軸。AUC的值介于0和1之間,值越接近1表示模型的性能越好。當AUC=1,表示模型的分類能力極好,能夠完美區(qū)分正類和負類;當AUC=0.5,表示模型的分類能力與隨機猜測相同,沒有預測能力;當AUC<0.5,說明模型的表現(xiàn)比隨機猜測還差,可能模型有問題。7.2.4模型訓練、預測和評估(1)準確率(Accuracy):準確率約為0.895948,表示模型預測正確的樣本約占總樣本數(shù)量的89.59%,這是一個比較高的準確率,說明模型整體預測效果較好。(2)召回率(Recall):召回率為0.777512,表示模型能夠正確預測出正樣本的比例約為77.75%,這是一個相對較高的召回率,說明模型對正樣本的識別能力較強。(3)精確率(Precision):精確率為0.738636,表示模型預測為正樣本中實際為正樣本的比例約為73.86%,這也是一個相對較高的精確率。(4)F1值:1值為0.757576,說明模型在精確率和召回率之間取得了一個平衡。(5)AUC曲線下面積:AUC的值為0.852387,接近1,表明模型整體的預測性能較好。平臺實踐根據(jù)教材二維碼中提供的實訓指南,在平臺中完成財務舞弊甄別模型的預測與評估。03債券違約預警7.3.1實訓任務要求與特點7.3.2數(shù)據(jù)導入和數(shù)據(jù)處理7.3.3模型訓練、預測和評估債券違約風險債券違約風險屬于企業(yè)信用風險的一種,指的是債務人可能無法履行其償還債務的義務,從而導致債權人遭受損失的風險。對于發(fā)債企業(yè)來說,債券違約風險涉及到企業(yè)無法按時支付債券的本金和利息,這可能因企業(yè)的現(xiàn)金流不足、運營不善或市場條件惡化等原因導致。債券違約會直接影響企業(yè)的資金成本和市場聲譽,增加財務負擔,并可能引發(fā)連鎖反應,影響企業(yè)獲取未來融資的能力。因此,有效管理和降低債券違約風險是企業(yè)財務風險管理的重要部分。7.3.1實訓任務要求與特點本實訓的任務是構建一個債券違約預測模型,通過分析企業(yè)的歷史財務數(shù)據(jù)以及債券發(fā)行信息相關數(shù)據(jù),預測企業(yè)未來是否有債券違約的風險。該預測模型將幫助投資者和信用評級機構更好地評估債券的信用風險,從而做出更加明智的投資決策。數(shù)據(jù)集為公司-年度數(shù)據(jù),每一條觀測對應某公司在對應年度的具體情況,包括是否發(fā)生債券違約、債券相關信息和公司財務特征。變量“是否違約”是本次實訓的預測目標,其他變量可作為用于預測目標變量的特征變量。7.3.2數(shù)據(jù)導入和數(shù)據(jù)處理(1)生成虛擬變量機器學習模型中,通常要求輸入變量是數(shù)值型的,這是因為大多數(shù)機器學習算法都依賴于數(shù)學運算,如距離計算、加權求和和矩陣運算,而這些運算只能在數(shù)值數(shù)據(jù)上進行。然而,通過所導入數(shù)據(jù)的特征列表,我們可以觀察到有部分變量屬于基于文本的類別型數(shù)據(jù),如省份、公司屬性、利率類型、上市地點等。這些基于文本的類別型數(shù)據(jù)通常包含有意義的分類信息,可以幫助解釋模型的預測結果,因此類別型的文本類變量不能直接排除在模型使用的數(shù)據(jù)外。盡管原始數(shù)據(jù)中可能包含非數(shù)值型特征,如類別變量、文本數(shù)據(jù)等,但這些特征可以通過適當?shù)木幋a方法轉換為數(shù)值型特征,從而使得機器學習算法能夠處理它們。7.3.2數(shù)據(jù)導入和數(shù)據(jù)處理(1)生成虛擬變量我們可以采用獨熱編碼(One-HotEncoding)的方式,為每個類別創(chuàng)建一個新的二進制特征(特征值為0或1),幫助模型區(qū)分并捕捉這些差異,避免信息丟失。通過創(chuàng)建虛擬變量,我們可以將類別型數(shù)據(jù)轉換為模型可以處理的數(shù)值型數(shù)據(jù)。虛擬變量的使用是為了讓回歸模型能夠處理非數(shù)值型數(shù)據(jù),同時保留數(shù)據(jù)的分類信息,并可能提高模型的預測準確性?!笆》荨薄肮緦傩浴薄袄暑愋汀薄吧鲜械攸c”四個變量,生成方法選擇“類別”7.3.2數(shù)據(jù)導入和數(shù)據(jù)處理(2)缺失值填充此處選擇除了債券代碼、債券簡稱、統(tǒng)計日期、年度、違約年度、違約之外的所有變量。填充方法選擇“中位數(shù)”(3)劃分訓練集與測試集(4)過采樣我們數(shù)據(jù)就存在債務違約公司樣本明顯少于非違約公司的情況。針對該數(shù)據(jù)特點,我們可以通過過采樣的處理方式緩解樣本不平衡問題,以提升模型訓練效果。7.3.2數(shù)據(jù)導入和數(shù)據(jù)處理全局特征重要性分析在模型擬合中,“全局特征重要性分析”主要在于幫助識別哪些特征對模型預測結果具有顯著影響,哪些特征則可能相對不那么重要。這有助于我們理解模型背后的邏輯,并可以據(jù)此進行特征選擇,簡化模型,提高模型的解釋性。利率類型_固定利率、公司屬性_地方國有企業(yè)是該債務違約預測模型里影響最大的兩個特征字段。7.3.3模型訓練、預測和評估平臺實踐根據(jù)教材二維碼中提供的實訓指南,在平臺中完成債務違約風險模型的預測與評估。7.3.3模型訓練、預測和評估模型對未違約的樣本具有較高的預測準確性,共有19,917個未違約樣本被正確預測,僅有737個未違約樣本被誤判為違約。此外,模型對違約樣本的識別能力也較為可靠,共有28個違約樣本被正確識別,僅有4個違約樣本被漏判為未違約,這表明模型在違約識別上具有較高的敏感性。但是,模型在精確率上表現(xiàn)欠佳:有737個未違約樣本(真實值為0)被識別為違約(預測值為1),發(fā)生了誤判。7.3.3模型訓練、預測和評估(1)準確率(Accuracy):準確率為0.964179,表示模型預測正確的樣本約占總樣本數(shù)量的96.42%,這是一個比較高的準確率,說明模型整體預測效果較好。(2)召回率(Recall):召回率為0.875,表示模型能夠正確預測出正樣本的比例為87.5%,這是一個相對較高的召回率,說明模型對正樣本的識別能力較強。(3)精確率(Precision):召回率為0.036601,這是一個相對較低的精確率。通常,提高精確率會導致召回率下降,反之亦然。這是因為提高精確率意味著減少假陽性(FalsePositives),這可能會導致漏掉一些實際為正類的樣本(降低召回率)。(4)F1值:F1值為0.070263,指標較低,主要是由于較低的精確率導致的。(5)AUC曲線下面積:AUC的值為0.919658,接近1,表明模型整體的預測性能較好。綜合來看,給定的分類預測模型在準確率、召回率等指標上表現(xiàn)較好,整體上可以認為是一個性能較為優(yōu)秀的模型。04市場與交易違規(guī)預測7.4.1實訓任務要求與特點7.4.2數(shù)據(jù)導入和數(shù)據(jù)處理7.4.3模型訓練、預測和評估市場與交易違規(guī)風險的含義市場與交易違規(guī)風險是指企業(yè)或個人在金融市場或交易活動中,違反相關法律法規(guī)、市場規(guī)則或交易所規(guī)定的行為所帶來的風險。這類違規(guī)行為可能包括利用未公開的重大信息進行內(nèi)幕交易以獲取不正當利益,或通過虛假信息、虛假交易、操縱市場價格和交易量來誤導其他投資者等。這些行為不僅危害市場的公平性,還可能導致嚴重的法律后果和經(jīng)濟損失。對企業(yè)法律訴訟風險進行預測能夠幫助企業(yè)提前識別潛在的法律問題,采取預防措施,優(yōu)化合規(guī)管理,完善企業(yè)的內(nèi)部控制體系,從而減少法律糾紛和經(jīng)濟損失。通過良好的法律訴訟風險預警與預防措施,企業(yè)一方面可以減少因法律訴訟導致的高額律師費和訴訟費用,另一方面可以保護企業(yè)聲譽,避免因訴訟曝光而損害企業(yè)形象,同時保障財務穩(wěn)定,減少可能導致的財務不確定性和損失。7.4.1實訓任務要求與特點本實訓的目標是構建一個市場與交易違規(guī)機器學習預測模型,通過分析企業(yè)的歷史財務數(shù)據(jù)和公司治理情況等特征,預測是否存在市場與交易違規(guī)的風險。通過本次實訓,學生將掌握市場與交易違規(guī)預測的基本方法和技術,了解常見的違規(guī)模式及其特征,提升識別和防范市場風險的能力。企業(yè)是否存在市場與交易違規(guī)的預測是一個二分類任務,本任務采用線性分類模型進行預測。7.4.2數(shù)據(jù)導入和數(shù)據(jù)處理此數(shù)據(jù)集為公司-年度數(shù)據(jù),每一條觀測對應某公司在對應年度的具體情況,包括是否發(fā)生違規(guī)行為、財務會計相關的特征變量(如營業(yè)收入、財務費用、營業(yè)利潤、銷售費用等等)。變量“是否違規(guī)”是本次實訓的預測目標,其他變量可作為用于預測目標變量的特征變量。數(shù)據(jù)預處理1.缺失特征刪除(列)2.填充缺失值

按報告年度分組與行業(yè)代碼分組,用其均值去對本組的缺失值進行填充3.缺失觀測刪除(行)7.4.2數(shù)據(jù)導入和數(shù)據(jù)處理數(shù)據(jù)預處理4.數(shù)據(jù)標準化處理數(shù)值型數(shù)據(jù)的標準化主要是將數(shù)據(jù)轉換為具有零均值和單位方差的形式,這一過程的主要目的是為了平衡不同特征之間的尺度差異,防止某些特征的數(shù)值過大或過小而影響模型的訓練和預測效果。5.劃分訓練集與測試集6.過采樣數(shù)據(jù)中,有市場與交易違規(guī)行為的樣本數(shù)量明顯少于無違規(guī)行為的樣本數(shù)量。7.4.2數(shù)據(jù)導入和數(shù)據(jù)處理模型選擇與訓練我們將使用劃分好的訓練集對模型進行訓練。由于本實訓的預測目標為非是即否的0、1變量,因此在選擇機器學習模型時,要選擇分類機器學習模型。市場行為和交易違規(guī)通常涉及到一系列財務、交易頻率、市場波動等變量,這些變量之間可能存在線性或近似線性關系。線性分類模型能夠有效地利用這些特征進行快速預測,并且具有較強的可解釋性,便于分析和理解哪些特征對預測結果的影響較大。線性分類算法是一類基于線性假設的分類方法,通過構造線性決策邊界將數(shù)據(jù)分為不同的類別。這類算法通常簡單高效,適合處理線性可分或近似線性可分的數(shù)據(jù)。線性分類模型的訓練時間較短,適合處理大規(guī)模數(shù)據(jù)集,因此在實際應用中,尤其是對實時監(jiān)控和快速決策的需求較高時,線性分類模型常常是一個合適的選擇。7.4.3模型訓練、預測和評估7.4.3模型訓練、預測和評估平臺實踐根據(jù)教材二維碼中提供的實訓指南,在平臺中完成市場與交易違規(guī)預測與評估。05法律訴訟風險預警7.5.1實訓任務要求與特點7.5.2數(shù)據(jù)導入和數(shù)據(jù)處理7.5.3模型訓練、預測和評估法律訴訟風險的含義法律訴訟風險是指企業(yè)或高管個人因違反法律法規(guī)或合同條款而面臨法律訴訟的可能性。這種情況通常發(fā)生在企業(yè)管理不善、合規(guī)措施不足或與利益相關方產(chǎn)生爭議時。對企業(yè)的法律訴訟風險進行預測具有重要意義:對企業(yè)而言,有助于企業(yè)優(yōu)化合規(guī)策略,提前識別并管理潛在的法律風險,從而避免訴訟成本增加和聲譽受損;對投資者而言,法律訴訟風險預測能夠幫助他們更準確地評估投資風險,識別潛在的法律糾紛,從而做出更明智的投資決策。7.5.1實訓任務要求與特點本任務旨在構建一個法律訴訟風險機器學習預測模型,通過分析企業(yè)歷史的訴訟事項、財務數(shù)據(jù)和公司治理情況,預測企業(yè)未來是否會發(fā)生法律訴訟風險。法律訴訟風險的預測仍然是一個二分類任務,本任務采用LightGBM分類算法來構建機器學習模型。7.5.2數(shù)據(jù)導入和數(shù)據(jù)處理此數(shù)據(jù)集為公司-年度數(shù)據(jù),每一條觀測對應某公司在對應年度的具體情況,包括是否發(fā)生重大訴訟、公司財務特征等。獲取5031家上市公司,2011~2018年數(shù)據(jù)。預測目標“是否發(fā)生重大訴訟”,以及一系列與財務會計相關的特征變量(如營業(yè)收入、財務費用、營業(yè)利潤、銷售費用等等)。1.填充缺失值

按報告年度分組與行業(yè)代碼分組,用其均值去對本組的缺失值進行填充2.缺失觀測刪除(行)3.劃分訓練集與測試集4.過采樣

數(shù)據(jù)就存在訴訟風險公司樣本明顯少于無訴訟風險公司的情況。7.5.2數(shù)據(jù)導入和數(shù)據(jù)處理7.5.3模型訓練、預測和評估預測目標為非是即否的0、1變量,因此在選擇機器學習模型時,要選擇分類機器學習模型。法律訴訟風險通常涉及大量的歷史案件數(shù)據(jù)、法律條款、企業(yè)或個人的行為特征等,特征之間可能存在復雜的非線性關系。LightGBM能夠自動選擇重要特征,處理復雜的特征交互,且通過逐步優(yōu)化模型提高預測精度。在訓練過程中,LightGBM能夠快速處理大量數(shù)據(jù),并通過調整模型參數(shù)進一步提升預測準確性,尤其在需要快速響應和處理大規(guī)模數(shù)據(jù)的場景中,LightGBM為法律訴訟風險預測提供了一個高效、準確的解決方案。模型選擇與訓練LightGBM分類LightGBM是一種基于梯度提升算法的高效分類模型,廣泛應用于大規(guī)模數(shù)據(jù)集的學習任務中。與傳統(tǒng)的梯度提升算法相比,LightGBM通過采用基于直方圖的決策樹學習方法,能夠顯著提高訓練速度和減少內(nèi)存消耗。它通過逐步構建多棵決策樹,每一棵新樹都通過優(yōu)化損失函數(shù)來改進前一棵樹的預測結果,從而不斷提高模型的準確性。LightGBM分類模型的優(yōu)勢在于其高效性和可擴展性,能夠處理大規(guī)模數(shù)據(jù)集,尤其適用于特征較多、樣本量大的問題。LightGBM能夠處理缺失值、支持類別特征的直接處理,并且具有較強的魯棒性,能夠有效減少過擬合。它的并行化和分布式計算能力使得在海量數(shù)據(jù)集上訓練模型時,計算速度更快,且能夠在有限的計算資源下高效執(zhí)行。7.5.3模型訓練、預測和評估LightGBM分類模型參數(shù)n_estimators參數(shù)n_estimators參數(shù)代表了集成模型中決策樹的數(shù)量,即迭代次數(shù)。增加決策樹的數(shù)量通??梢蕴岣吣P偷念A測性能,因為模型能夠學習到更多的數(shù)據(jù)特征和模式。然而,這同時可能導致模型過擬合,即模型在訓練數(shù)據(jù)上表現(xiàn)良好,但在未見過的數(shù)據(jù)上表現(xiàn)不佳。此外,更多的樹意味著更長的訓練時間。因此,選擇合適的n_estimators值需要通過交叉驗證等方法進行細致的調優(yōu)。learning_rate參數(shù)learning_rate參數(shù)控制著每棵樹對最終模型預測結果的權重調整幅度。一個較小的learning_rate值(如0.01)意味著每棵樹對模型的影響較小,需要更多的樹來累積影響,這通常會使得模型更加穩(wěn)健,但同時需要更多的迭代次數(shù),導致訓練時間增長。在實踐中,通常會將learning_rate與n_estimators聯(lián)合調整,以達到最佳的模型性能。reg_alpha參數(shù)reg_alpha參數(shù)是L1正則化項的權重,類似于LASSO回歸中的α參數(shù)。增加reg_alpha的值會增強模型的稀疏性,有助于減少模型復雜度,并可能減少過擬合的風險。然而,如果reg_alpha值過大,可能會導致模型欠擬合,因為它會過度簡化模型,忽略掉重要的特征。因此,在實際應用中需要仔細選擇reg_alpha的值。LightGBM分類模型參數(shù)reg_lambda參數(shù)reg_lambda參數(shù)是L2正則化項的權重,對應于Ridge回歸中的λ參數(shù)。L2正則化通過平滑權重來防止模型過擬合,即避免模型過度依賴于訓練數(shù)據(jù)中的噪聲。典型的reg_lambda值范圍在0.1到1.0之間,但最終的值需要根據(jù)具體的數(shù)據(jù)集進行調整。通過調整reg_lambda,可以在模型復雜度和泛化能力之間找到平衡點。colsample_bytree參數(shù)colsample_bytree參數(shù)定義了每棵樹在訓練過程中隨機采樣的特征比例,其值介于0到1之間。這個參數(shù)的作用類似于隨機森林中的特征抽樣,通過限制每棵樹可用的特征數(shù)量來增加模型的多樣性,從而有助于抑制過擬合。在實踐中,colsample_bytree的值通常設置在0.3到0.8之間,以平衡模型的性能和復雜度。num_leaves參數(shù)num_leaves參數(shù)決定了單棵決策樹的最大葉子節(jié)點數(shù),它直接影響模型的復雜度。更大的葉子節(jié)點數(shù)意味著模型可以捕捉到更細微的數(shù)據(jù)特征,從而具有更強的擬合能力。然而,如果葉子節(jié)點數(shù)過多,模型可能會過度擬合訓練數(shù)據(jù)。因此,通常需要與max_depth參數(shù)配合調整,以控制模型的復雜度,并找到防止過擬合和欠擬合的最佳平衡點。7.5.3模型訓練、預測和評估平臺實踐根據(jù)教材二維碼中提供的實訓指南,在平臺中完成市場與交易違規(guī)預測與評估。課后練習練習1本章實訓預測的是未來一年的企業(yè)舞弊風險。請利用附件“財務舞弊甄別”數(shù)據(jù)集或自行在數(shù)據(jù)庫搜集整理特征變量,訓練模型預測未來三年的企業(yè)財務舞弊風險,即預測未來三年企業(yè)是否會發(fā)生財務舞弊。練習2負面的審計意見也能夠在一定程度上反映企業(yè)財務風險。請基于附件“財務舞弊甄別”數(shù)據(jù)集或自行在數(shù)據(jù)庫搜集整理特征變量,對企業(yè)下一年度的審計意見類型進行預測。感謝觀看xx老師第8章

企業(yè)戰(zhàn)略分析XX老師本章內(nèi)容8.1戰(zhàn)略分析方法簡介8.2基于NPL的機會與威脅分析8.3基于NLP的企業(yè)優(yōu)劣勢分析8.4基于Kmeans聚類的戰(zhàn)略群組分析機器學習平臺網(wǎng)址

01戰(zhàn)略分析方法簡介8.1.1SWOT分析8.1.2戰(zhàn)略群組分析8.1.3傳統(tǒng)戰(zhàn)略分析與智能戰(zhàn)略分析的比較8.1戰(zhàn)略分析方法簡介

企業(yè)戰(zhàn)略分析指的是對企業(yè)所處的內(nèi)外部環(huán)境進行系統(tǒng)深入的了解,以識別環(huán)境中的機會和威脅、評估企業(yè)的優(yōu)勢和劣勢,從而為制定有效的戰(zhàn)略決策提供依據(jù)。企業(yè)戰(zhàn)略分析通常包括外部環(huán)境分析和內(nèi)部環(huán)境分析。8.1戰(zhàn)略分析方法簡介常見的戰(zhàn)略分析工具和方法8.1.1SWOT分析SWOT分析是對企業(yè)的內(nèi)外部條件進行綜合概括,S指企業(yè)內(nèi)部的優(yōu)勢(Strength),W指企業(yè)內(nèi)部的劣勢(Weakness),O指企業(yè)外部環(huán)境中的發(fā)展機會(Opportunity),T指企業(yè)面臨的外部威脅(Threat)。優(yōu)劣勢分析主要著眼于企業(yè)相比于競爭對手的實力,機會和威脅分析則著眼于外部環(huán)境變化及其對企業(yè)的潛在影響。SWOT分析概念8.1.1SWOT分析典型的SWOT分析框架優(yōu)勢(S)劣勢(W)S有力的戰(zhàn)略w

缺乏明確戰(zhàn)略導向S

有利的金融環(huán)境w

陳舊的設備S

有利的品牌形象和美譽w

高于對手的財務杠桿(資產(chǎn)負債率)S

被廣泛認可的市場領導地位w

高于對手的成本費用S專利技術w

缺少關鍵技能和資格能力S成本優(yōu)勢w

侵蝕利潤的各項支出S強勢廣告w

不利的內(nèi)在運作環(huán)境S產(chǎn)品創(chuàng)新技能w

落后的研發(fā)能力S優(yōu)質客戶服務w

過分狹窄的產(chǎn)品組合S優(yōu)秀產(chǎn)品質量w

缺乏市場規(guī)劃能力S

戰(zhàn)略聯(lián)盟與并購

機會(O)威脅(T)O服務獨特的客戶群體T強勢競爭者的進入O新地理區(qū)域的擴張T替代品引起的銷售下降O產(chǎn)品組合的擴張T市場增長減緩O核心技能向產(chǎn)品組合轉化T交換率和貿(mào)易政策的不利轉變O垂直整合的戰(zhàn)略形式T由新規(guī)則引起的成本增加O分享競爭對手的市場資源T商業(yè)周期的影響O競爭對手的支持T客戶和供應商的杠桿作用加強O戰(zhàn)略聯(lián)盟與并購帶來的超額市場覆蓋T消費者的購買需求下降O新技術開發(fā)T人口與環(huán)境的變化O品牌形象拓展8.1.1SWOT分析外部因素機會威脅內(nèi)部因素優(yōu)勢SOST劣勢WOWT增長型戰(zhàn)略(SO):在該戰(zhàn)略下,企業(yè)應當充分利用內(nèi)部優(yōu)勢來把握外部機會。如開發(fā)市場、增加產(chǎn)量等。多種經(jīng)營戰(zhàn)略(ST):在該戰(zhàn)略下,企業(yè)應當利用自身優(yōu)勢來回避或減少外部威脅的沖擊。扭轉型戰(zhàn)略(WO):該戰(zhàn)略旨在借助外部機遇來彌補企業(yè)內(nèi)部的劣勢,如充分利用環(huán)境變化帶來的機會設法消除劣勢。防御型戰(zhàn)略(WT):該戰(zhàn)略是一種彌補內(nèi)部劣勢并規(guī)避外部威脅的防御性策略,通過業(yè)務調整來設法避開威脅和消除劣勢。通常,企業(yè)需要先采用WO,ST或WT戰(zhàn)略,以逐步達到能夠采用SO戰(zhàn)略的程度。SWOT分析結果將形成一個2×2的矩陣,矩陣的不同區(qū)域被賦予了不同的戰(zhàn)略意義。SWOT矩陣將企業(yè)可選擇的戰(zhàn)略分成了四種類型。SWOT分析結構與戰(zhàn)略8.1.2戰(zhàn)略群組分析戰(zhàn)略群組定義戰(zhàn)略群組是在同一行業(yè)中經(jīng)營并且在某方面采用相同或相似戰(zhàn)略的企業(yè)集合,通常只有少數(shù)幾個戰(zhàn)略群組,各組采用特征不同的戰(zhàn)略;而同一個戰(zhàn)略群組內(nèi)的企業(yè)卻在許多方面存在相似之處。戰(zhàn)略群組競爭

戰(zhàn)略群組內(nèi)企業(yè)競爭激烈,行業(yè)五力強度各異;進入壁壘阻止新企業(yè)進入,不同戰(zhàn)略群組間的戰(zhàn)略越接近,企業(yè)相互成為競爭者的可能性越大。戰(zhàn)略群組劃分方法根據(jù)2至3項代表性特征把行業(yè)內(nèi)的企業(yè)進行分類,如產(chǎn)品的差異化程度、細分市場的數(shù)目、所使用的分銷渠道等,選擇兩項繪制二維坐標圖,根據(jù)企業(yè)在兩個特征上的表現(xiàn)確定其在坐標圖中的位置,位置接近的企業(yè)屬于同一戰(zhàn)略群組。戰(zhàn)略群組分析圖選取兩項特征,如地區(qū)覆蓋與營銷力度,繪制戰(zhàn)略群組分析圖,每個戰(zhàn)略群組用圓表示,半徑與銷售收入份額成正比,直觀展示競爭地位。選取變量的條件在選取劃分戰(zhàn)略群組的依據(jù)時,變量應體現(xiàn)各企業(yè)的競爭目的,避免共性特征,且兩個變量不能具有強相關性,以確保分析的準確性和有效性。戰(zhàn)略群組分析價值戰(zhàn)略群組分析有助于企業(yè)確定戰(zhàn)略行動方向;思考外部環(huán)境變化的影響;發(fā)現(xiàn)競爭者,把握市場定位,發(fā)現(xiàn)潛在的合作伙伴或尋找競爭優(yōu)勢;了解移動障礙,避免其他群組的進攻8.1.2戰(zhàn)略群組分析

例如,選取“地區(qū)覆蓋”與“營銷力度”兩項特征,可以得到如下戰(zhàn)略群組分析圖:戰(zhàn)略群組分析圖根據(jù)研究目的,從多個角度繪制戰(zhàn)略群組分析圖,以全面地反映企業(yè)的競爭地位。在選取劃分戰(zhàn)略群組的依據(jù)時,位于橫縱坐標的兩個變量應能夠體現(xiàn)各企業(yè)的競爭目的,避免選擇行業(yè)內(nèi)企業(yè)所共有的特征,且兩個變量不能具有強相關性。8.1.3傳統(tǒng)戰(zhàn)略分析與智能戰(zhàn)略分析的比較

在復雜多變的商業(yè)環(huán)境下,傳統(tǒng)戰(zhàn)略分析方法局限性漸顯。數(shù)智化時代的智能戰(zhàn)略分析,憑借大數(shù)據(jù)和智能化技術,解決了傳統(tǒng)戰(zhàn)略管理的滯后性和信息遺漏問題,以全面、動態(tài)、科學的優(yōu)勢,更契合企業(yè)發(fā)展需求,助力企業(yè)在激烈競爭中把握先機,實現(xiàn)可持續(xù)發(fā)展。對比維度傳統(tǒng)戰(zhàn)略分析智能戰(zhàn)略分析信息收集依賴歷史資料、市場調研報告,信息采集成本高,易遺漏重要信息。利用大數(shù)據(jù)技術,高效搜尋和處理海量信息,來源廣泛且全面。分析方法基于相對靜態(tài)環(huán)境,人工分析耗時耗力構建數(shù)據(jù)模型,自動分析和排列影響因素,形成矩陣。預測能力決策滯后,難以應對快速變化的環(huán)境實時監(jiān)控內(nèi)外部環(huán)境,及時識別風險和機遇分析效果決策信息集不完整,增加企業(yè)風險隱患。確保戰(zhàn)略分析的全面性、動態(tài)性和科學性,助力企業(yè)發(fā)展02基于NPL的機會與威脅分析8.2.1實訓任務要求與特點8.2.2情感分析的方法8.2.3基于詞典法的情感分析8.2.4基于調包法的情感分析8.2.5基于機器學習法的情感分析8.2.6企業(yè)機會和威脅分析8.2.1實訓任務要求與特點家電行業(yè)文本分析企業(yè)外部環(huán)境相關的信息并非都是結構化的信息,相反,許多此類信息蘊含在政府的政策文件、監(jiān)管機構的規(guī)章制度、分析師報告等文本中。因此,需要使用自然語言處理(NLP)技術對這些文本進行內(nèi)容和情感分析。家電政策語料庫構建利用爬蟲技術,搜集了可能影響家電企業(yè)所處的宏觀環(huán)境、產(chǎn)業(yè)環(huán)境和競爭格局的政府政策、行業(yè)報告、監(jiān)管要求、行業(yè)規(guī)范等公開文件。提取上述文件中與家電行業(yè)相關的語句,刪除無關語句。語料庫情感分析生成OT表基于家電行業(yè)外部環(huán)境語料庫,采用詞典法、調包法、機器學習法對外部環(huán)境相關語句進行文本情感分析,積極暗示機會,消極暗示威脅;如“消費市場”一詞中性,但“蓬勃”與“疲軟”分別代表機遇與風險。8.2.2情感分析的方法情感分析方法及原理目前,主流的文本情感分析方法可分為基于情感詞典的情感分析法、基于調包的情感分析法以及基于機器學習的情感分析法。詞典法調包法機器學習法8.2.2情感分析的方法需情感詞、否定詞、程度副詞詞典情感詞詞典包含許多個表達積極或消極情緒的情感詞,以及每個詞對應的情感分數(shù)。否定詞詞典包含許多個否定詞,在遇到這些否定詞時,句子取相反意思,而雙重否定則表示肯定。程度副詞詞典包含許多個用來調整情感詞的情感分數(shù)權重(即情緒強度)的程度副詞,以及每個詞本身的程度副詞分數(shù)(即調整力度)。詞典法的基本流程如下:(1)遍歷每個句子的分詞結果;(2)初始化情感分數(shù)權重,取值為1;(3)對于當前句子的每個單詞:如果該單詞是情感詞,根據(jù)權重和情感詞得分,更新情感分數(shù)。獲取下一個情感詞的位置索引,更新位置索引。判斷當前情感詞與下一個情感詞之間是否存在否定詞或程度副詞,根據(jù)否定詞調整情感分數(shù)的正負符號,根據(jù)程度副詞調整情感分數(shù)的取值大小,更新情感分數(shù)權重。(4)將每個句子的加權情感分數(shù)作為情感分析結果。詞典法的特點在于綜合考慮了情感詞、否定詞和程度副詞,以及其詞匯屬性、位置、相互作用等因素,實現(xiàn)對文本數(shù)據(jù)的情感分析。詞典法8.2.2情感分析的方法調包法可以更快地實現(xiàn)文本情感分析。Python、R、Matlab等高級編程語言能夠為我們提供廣泛的生態(tài)系統(tǒng)和豐富的第三方包,而直接調用開源環(huán)境中其他人預先編寫好的庫或模塊,相當于“站在巨人的肩膀上”——只需自行編寫少量代碼,即可擴展程序的功能并實現(xiàn)特定的任務。以情感分析任務為例,現(xiàn)階段Python有許多自然語言處理(NLP)包,可以輕松實現(xiàn)文本情感分析,如SnowNLP、NLTK和TextBlob等,這些NLP包已經(jīng)內(nèi)嵌了分詞、詞性標注、與詞典對比等操作。調包法8.2.2情感分析的方法機器學習法可以更加自主地實現(xiàn)文本情感分析。傳統(tǒng)方法如決策樹,能有效捕獲關鍵特征。集成學習算法如XGBoost通過優(yōu)化梯度提升框架,提升模型準確性和效率。深度學習模型如DNN、LSTM能夠自動學習文本的抽象特征,處理非線性關系,效果更理想。機器學習法需要先對一個帶情感標簽的樣本進行學習,才能建立模型對樣本外數(shù)據(jù)的情感分類進行預測。帶標簽樣本又稱為樣本內(nèi)數(shù)據(jù),即由人工判斷每條文本觀測記錄的情感傾向,打上積極、消極、中性等情感標簽,其將被劃分為訓練集和測試集兩個部分,分別用來訓練機器學習模型和評估模型的預測效果。機器學習法8.2.2情感分析的方法方法優(yōu)勢劣勢詞典法簡單直觀,不需要大量標注數(shù)據(jù),適用于快速情感分析。受限于情感詞典的質量和覆蓋范圍,對于新詞、復雜語境以及歧義性較高的文本可能表現(xiàn)不佳。調包法開發(fā)者提前訓練并封裝好NLP模型,使用者可以直接使用,操作方便模型的可調試空間有限,通常無法自由調整模型參數(shù);開發(fā)者訓練好的模型可能不適配數(shù)據(jù)集特征。機器學習法能夠根據(jù)特定領域或特定任務的數(shù)據(jù)進行自定義訓練,具有較好的靈活性和可解釋性。依賴于數(shù)據(jù)標注,需要大量的訓練樣本和特征工程,消耗大量的訓練時間和計算資源,編程難度與學習成本較高。情感分析方法比較8.2.3基于詞典法的情感分析詞典法流程基于詞典法的技術流程圖步驟一:數(shù)據(jù)導入與清洗01導入名為“家電行業(yè)政策.xlsx”的文本數(shù)據(jù)集,該數(shù)據(jù)共有50行觀測記錄,5列特征;其中的“內(nèi)容”列是我們進行情感分析的對象。數(shù)據(jù)導入02本次任務所涉及的變量均為字符型變量,因此,在數(shù)據(jù)清洗階段主要檢查各變量是否存在缺失值和重復值,而無須進行異常值檢測。將缺失比例較高的特征變量刪除,并檢查是否存在完全相同的觀測記錄,若有則只保留其中一條。缺失值和重復值處理8.2.3基于詞典法的情感分析8.2.3基于詞典法的情感分析文本分詞和詞性標注分詞按照特定需求把文本切分成一個字符串序列,其中的元素被稱為詞語。分詞中涉及到幾個基本問題:分詞規(guī)范、歧義切分、未登錄詞的識別。詞性標注僅保留對機器學習或人工智能識別有益的詞匯。刪除停用詞刪除對文本分析意義不大的詞匯,如介詞、助詞、連詞、代詞等,其出現(xiàn)頻率很高卻不攜帶太多語義信息。文本分詞結果步驟二:文本分詞與詞性標注保留詞性的結果8.2.3基于詞典法的情感分析計算文本情感分數(shù)讀者在選擇相應的中文情感詞典和否定詞典之后,便可自動計算文本的情感分數(shù)。情感分數(shù)的取值范圍是0-1,取值越趨近于1,說明文本的分詞結果中正向情感詞越多,文本情感越積極;取值越趨近于0,說明文本情感越消極;取值在0.5左右,則說明文本沒有明顯的情感傾向。圖8-5展示了詞典法下的情感分析結果。步驟二:計算文本情感分數(shù)詞典法情感分析結果8.2.4基于調包法的情感分析基于調包法的技術流程圖“包”的概念與調包法流程調包法中的“包”指的是專注于中文文本情感分析的一系列程序集合,“包”里面內(nèi)嵌了文本分詞、詞性標注、去除停用詞等處理,并能夠基于大規(guī)模的情感詞典和概率算法,根據(jù)情感詞的出現(xiàn)頻率、情感詞前后的詞語以及語法規(guī)則等對文本的整體情感進行分析,計算并輸出文本的情感分數(shù)。如SnowNLP包就是一個簡單易用的情感分析包,能夠較好地識別中文文本的情感傾向。調包法計算的情感分數(shù)的取值范圍同樣在0-1之間。取值越趨近于1,文本情感越積極;反之則情感越消極。在調包法下,分析人員無須再進行分詞等文本預處理操作,直接調用程序包即可。8.2.5基于機器學習法的情感分析基于機器學習法的技術流程圖機器學習法技術流程機器學習法需要先對一個帶情感標簽的樣本進行學習,才能建立模型對樣本外數(shù)據(jù)的情感分類進行預測。所謂的“帶標簽”的樣本,即由人工判斷每條文本觀測記錄的情感傾向,打上積極、消極、中性等情感標簽。帶標簽樣本又稱為樣本內(nèi)數(shù)據(jù),將被劃分為訓練集和測試集兩個部分,分別用來訓練機器學習模型和評估模型的預測效果。在建模完成后,就可以用該模型對樣本外數(shù)據(jù)進行情感分析了。導入一份名為“家電行業(yè)政策_帶標注.xlsx”的數(shù)據(jù)集。新數(shù)據(jù)集共有50條文本觀測記錄,其中40條帶有情感分數(shù)(變量名為“OT分數(shù)”),剩余10條不帶標簽。數(shù)據(jù)導入8.2.5基于機器學習法的情感分析步驟一:數(shù)據(jù)導入與清洗缺失值和重復值處理同8.2.3主要檢查各變量是否存在缺失值和重復值,而無須進行異常值檢測。將缺失比例較高的特征變量刪除,并檢查是否存在完全相同的觀測記錄,若有則只保留其中一條。先對文本的內(nèi)容進行分詞、詞性標注、刪除停用詞等預處理。將分詞結果中的每個詞匯都轉變成一個向量,最終形成許多內(nèi)容向量,第N個詞匯對應“內(nèi)容向量N”?!皟?nèi)容向量N”的取值代表了第N個詞匯在該條觀測記錄中出現(xiàn)的位置;若“內(nèi)容向量N”取值為0,則說明第N個詞匯未曾出現(xiàn)在這條觀測記錄中。8.2.5基于機器學習法的情感分析步驟二:文本向量化文本向量化結果首先剔除數(shù)據(jù)集中的樣本外數(shù)據(jù)(不帶標簽的觀測記錄),再將樣本內(nèi)數(shù)據(jù)進行拆分。將帶標簽觀測記錄中的80%劃分為訓練集,其余20%作為測試集。劃分訓練集和測試集步驟三:決策樹建模過程與效果評估8.2.5基于機器學習法的情感分析模型訓練將劃分得到的訓練集用于模型訓練,預測目標是“OT分數(shù)”,所使用的特征變量即之前生成的全部文本向量。設置決策樹模型的各種參數(shù)取值。模型評估我們用構建的決策樹模型來預測測試集樣本的情感分數(shù),并與其真實的情感分數(shù)進行對比,從而評價該模型的預測效果。由于此數(shù)據(jù)的樣本規(guī)模較小,樣本量少于特征量,應使用R2而非調整R2進行模型評價。目前模型未經(jīng)過系統(tǒng)性調參,故而R2僅為0.7199,模型性能一般,仍具有改進空間。模型評估結果導入樣本外數(shù)據(jù),重復前述的數(shù)據(jù)清洗、分詞、標注詞性、文本向量化等預處理過程?;驅颖緝?nèi)、外的數(shù)據(jù)同時進行數(shù)據(jù)清洗、分詞、詞性標注、文本向量化等預處理操作,再單獨保留經(jīng)過預處理的樣本外數(shù)據(jù),以便在模型應用階段使用。進行樣本外預測,將已經(jīng)構建的決策樹模型用于不帶標簽的樣本,以全部文本向量作為預測因子,便可得到所有樣本外觀測記錄的情感分數(shù)(OT分數(shù))。步驟四:決策樹模型應用8.2.5基于機器學習法的情感分析通過對樣本內(nèi)數(shù)據(jù)的學習,分析人員得到了情感分數(shù)的預測模型,可以用該模型對樣本外數(shù)據(jù)進行預測。8.2.2情感分析的方法機器學習法情感分析調包法情感分析使用專注于中文文本情感分析的程序包,如SnowNLP,直接調用程序包進行情感分析。調包法計算的情感分數(shù)取值范圍為0-1,越趨近于1表示情感越積極,越趨近于0表示情感越消極。詞典法情感分析選擇合適的中文情感詞典,如Hownet詞典、清華大學李軍詞典等,結合否定詞典進行情感分析。詞典法計算的情感分數(shù)取值范圍也是0-1,取值越趨近于1表示情感越積極,反之亦然。對少量文本語句打標簽,將帶標簽的觀測記錄作為樣本內(nèi)數(shù)據(jù),分為訓練集和驗證集。通過模型訓練、驗證和應用,對樣本外數(shù)據(jù)進行情感分類。機器學習模型的性能可以通過均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、決定系數(shù)(R2)等指標進行衡量。情感分析方法對比8.2.6企業(yè)機會和威脅分析設置劃分閾值生成OT清單統(tǒng)計分析結合企業(yè)的風險偏好和風險容忍度,設置機會和威脅的劃分閾值將符合機會/威脅定義的觀測記錄篩選出來并列表通過統(tǒng)計機會和威脅因素各自的數(shù)量或占比,得到外部環(huán)境整體的有利或不利程度企業(yè)機會和威脅分析步驟得到與某家電企業(yè)相關的所有外部環(huán)境文本的情感分數(shù)后,在此基礎上,計算外部環(huán)境整體蘊含的機會或威脅大小程度8.2.6企業(yè)機會和威脅分析機會/威脅因素清單03基于NLP的企業(yè)優(yōu)劣勢分析8.3.1實訓任務要求與特點8.3.2文本主題分析8.3.3基于LDA的文本主題分析8.3.4企業(yè)優(yōu)勢和劣勢分析8.3.1實訓任務要求與特點消費者往往會在電商平臺的評論區(qū)分享自己的商品使用體驗,對商品的外觀設計、質量、價格、創(chuàng)新性等進行評價。這些消費者評論能夠很大程度地反映出品牌的優(yōu)勢和劣勢。因此,需要從電商平臺上爬取海爾冰箱的公開客戶評價,其中包括評分星級、評論內(nèi)容、時間、產(chǎn)品型號等信息,形成產(chǎn)品評論文檔??蛻粼u價評分星級是客戶對商品的定量評價,通常在1-5分之間,屬于數(shù)值型信息。評論內(nèi)容是客戶對商品的定性評價,表現(xiàn)為文字形式,是我們進行文本分析的對象。我們要基于評分星級對產(chǎn)品評論文本進行情感分類。建模對評論內(nèi)容的主題做提取和分類,使一個主題代表企業(yè)的一項能力?;谡妫ㄘ撁妫┰u論樣本所得到的主題即為美的冰箱的優(yōu)勢(劣勢)。生成SW表以列表形式對優(yōu)劣勢進行直觀呈現(xiàn)。消費者評論信息步驟一從文檔的主題分布中隨機選擇一個主題步驟二從被選擇的主題的詞分布中隨機選擇一個詞作為該位置的詞文本主題分析(ThematicAnalysis)指對文本內(nèi)容與含義進行有效概括與詮釋。LDA(LatentDirichletAllocation)模型是最為常用的文本主題分析模型,在LDA模型中,每個文檔可以被表示為對各個主題的概率分布,而每個主題又可以被表示為對各個詞的概率分布。8.3.2文本主題分析文檔中每個詞生成過程通過重復這一過程,可以生成整個文檔的詞序列。而LDA模型的目標就是通過觀察到的文本數(shù)據(jù),推斷出最有可能的主題分布和詞分布,從而揭示文檔集合中的潛在主題結構。8.3.3基于LDA的文本主題分析文本主題分析的技術流程圖文本主題分析的技術流程文本數(shù)據(jù)清洗數(shù)據(jù)導入:導入名為“冰箱產(chǎn)品評論.xlsx”的數(shù)據(jù)集,其中有9167行觀測記錄和5列特征,最關鍵的三個變量是“評論級別”、“評論內(nèi)容”和“品牌”。數(shù)據(jù)篩選:我們主要分析海爾冰箱的優(yōu)劣勢,因此,需要剔除其他品牌的觀測記錄。缺失值處理:主要檢查各變量是否存在缺失值和重復值,無需進行異常值檢測和處理。將缺失比例較高的特征變量刪除,并將變量缺失率達到10%以上的觀測記錄刪除。8.3.3基于LDA的文本主題分析步驟一:文本數(shù)據(jù)清洗8.3.3基于LDA的文本主題分析分詞結果步驟二:文本分詞和詞性標注分詞:將文本拆分成一個個有意義的詞語刪除停用詞:將研究對象的代稱或者同義詞等非常用的停用詞排除在外。詞性標注:主題分析時僅保留詞性標注為名詞的詞匯,比如外觀、容量、包裝、設計等,其余詞性的詞匯均予以刪除。(1)正面評論篩選。根據(jù)“評論級別”的取值大小來區(qū)分正面評論與負面評論,先篩選出“評論級別”大于等于4的正面評論。(2)詞頻關鍵詞建模。將所有備選主題詞按照其在文本中出現(xiàn)的頻率(即詞頻)由高到低來排序,排序最靠前的就是關鍵詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論