基于隨機森林的回歸預(yù)測股票價格趨勢_第1頁
基于隨機森林的回歸預(yù)測股票價格趨勢_第2頁
基于隨機森林的回歸預(yù)測股票價格趨勢_第3頁
基于隨機森林的回歸預(yù)測股票價格趨勢_第4頁
基于隨機森林的回歸預(yù)測股票價格趨勢_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1緒論1.1研究背景股票市場身為現(xiàn)代金融體系的關(guān)鍵構(gòu)成部分,其發(fā)展進程歷經(jīng)了數(shù)個世紀(jì),在這段時間里市場參與者一直都在探尋有效的股價預(yù)測辦法,并且把它當(dāng)作金融研究范疇的關(guān)鍵課題,可是,因為影響股價波動的因素有著很高的復(fù)雜性和不確定性,這一研究目標(biāo)遭遇了極大挑戰(zhàn),傳統(tǒng)分析方法主要是依據(jù)對企業(yè)經(jīng)營績效、財務(wù)指標(biāo)、技術(shù)形態(tài)以及市場參與者心理行為等多個維度要素的考量,不過這些研究范式大多時候會受到分析者主觀認知的限制。正是因為上市公司行業(yè)特征存在明顯差異以及市場行情有高度動態(tài)性,股價預(yù)測成為金融學(xué)研究里極具挑戰(zhàn)性的前沿問題之一。如今計算機技術(shù)不斷取得進步,這為人工智能領(lǐng)域?qū)崿F(xiàn)重大突破以及快速發(fā)展奠定了基礎(chǔ),機器學(xué)習(xí)是該領(lǐng)域核心研究方向,其關(guān)鍵特性是構(gòu)建有自主優(yōu)化能力的算法模型,借助數(shù)據(jù)驅(qū)動的辦法持續(xù)提高預(yù)測準(zhǔn)確性,這類算法依靠分析處理海量數(shù)據(jù)集,自主挖掘其中隱藏的模式特征以及規(guī)律性信息,實現(xiàn)對未知數(shù)據(jù)的智能化推理和決策。機器學(xué)習(xí)模型的預(yù)測性能會隨著訓(xùn)練數(shù)據(jù)規(guī)模的增大而提升,兩者呈現(xiàn)出正相關(guān)的趨勢。隨著人工智能技術(shù)迅速發(fā)展,機器學(xué)習(xí)算法于社會各個領(lǐng)域呈現(xiàn)出廣泛應(yīng)用價值,在數(shù)字媒體領(lǐng)域,依據(jù)用戶偏好構(gòu)建的智能推薦系統(tǒng),提高了短視頻平臺內(nèi)容分發(fā)效率,在交通運輸行業(yè),有自動駕駛功能的智能車輛實現(xiàn)了商業(yè)化運營,憑借創(chuàng)建災(zāi)害預(yù)測模型,機器學(xué)習(xí)技術(shù)提升了自然災(zāi)害預(yù)警能力,降低了災(zāi)害導(dǎo)致的經(jīng)濟損失與人員傷亡。隨機森林是一種機器學(xué)習(xí)模型,它有出色性能且適應(yīng)能力強,在分類以及回歸任務(wù)里呈現(xiàn)出良好的處理效果,該算法的核心實現(xiàn)方式是憑借整合多棵決策樹來搭建預(yù)測模型,并且可在R或者Python等主流編程環(huán)境當(dāng)中實現(xiàn),近年來股票投資領(lǐng)域出現(xiàn)了新的研究方法,人工智能技術(shù)為股價預(yù)測提供了更具優(yōu)勢的算法支持。在這樣的背景下,把隨機森林等機器學(xué)習(xí)技術(shù)引入到股票市場分析領(lǐng)域,剖析算法在交易決策過程中起到的輔助或者主導(dǎo)作用,成為了有關(guān)鍵學(xué)術(shù)價值和應(yīng)用前景的研究方向。1.2研究的目的與意義1.2.1理論意義本研究首先說明,機器學(xué)習(xí)技術(shù)于金融市場的應(yīng)用呈現(xiàn)出科技創(chuàng)新同時代需求的深度融合態(tài)勢:從技術(shù)發(fā)展角度來講,這意味著算法模型在新興領(lǐng)域展開了突破性嘗試,針對金融分析而言,它為股票市場的量化研究給予了更具科學(xué)性的預(yù)測范式,本研究在股價預(yù)測方法論方面達成了關(guān)鍵創(chuàng)新——與傳統(tǒng)研究過度依賴絕對漲跌幅指標(biāo)不同,本文創(chuàng)新性地運用相對漲跌幅評估體系。這種改進源自對股價波動影響機制的深入剖析:市場行情、宏觀政策等多種因素的動態(tài)交互作用有十分突出的不確定性特點,而相對評估體系依靠削弱絕對指標(biāo)的剛性約束,切實提高了研究結(jié)論的適應(yīng)性以及實踐指導(dǎo)價值。1.2.2現(xiàn)實意義傳統(tǒng)投資策略大多時候依靠投資者的主觀經(jīng)驗來判斷,這種方式有著十分突出的局限性,并且很難去量化其中的不確定性因素,本研究創(chuàng)新地運用隨機森林算法,依據(jù)海量數(shù)據(jù)訓(xùn)練搭建預(yù)測模型,提升了投資預(yù)測的客觀性與可靠性,該模型可有效地識別投資風(fēng)險,量化股價波動特征,還可以為投資者給出最優(yōu)資產(chǎn)配置建議,在提升股市運行穩(wěn)定性之際,提高對股價走勢的預(yù)測分析能力。1.3機器學(xué)習(xí)以及其應(yīng)用于股票投資的研究現(xiàn)狀1.3.1機器學(xué)習(xí)部分的研究現(xiàn)狀1.3.1.1決策樹的研究現(xiàn)狀決策樹算法是一種基于樹形結(jié)構(gòu)的經(jīng)典機器學(xué)習(xí)方法,在眾多變體里呈現(xiàn)出不同的實現(xiàn)特性,據(jù)文獻[2-3]記載,該算法家族包含ID3、C4.5、CART和SLIQ等有代表性的方法,Quinlan提出的ID3算法作為基礎(chǔ)模型,衍生出了C4.5和CART等改進版本,SLIQ算法是在C4.5分類方法基礎(chǔ)上,對算法實現(xiàn)層面做了優(yōu)化。從構(gòu)造策略來講,C4.5采用深度優(yōu)先的建樹方式,SLIQ運用廣度優(yōu)先的構(gòu)建方法,決策樹的建模過程能分解成三個核心環(huán)節(jié),即特征選擇、樹結(jié)構(gòu)生成以及剪枝處理,其中特征選擇環(huán)節(jié)對模型泛化性能影響很大,ID3算法依據(jù)信息論中的信息增益準(zhǔn)則評估特征,C4.5算法引入信息增益率當(dāng)作特征選擇標(biāo)準(zhǔn),CART算法采用Gini指數(shù)作為分裂準(zhǔn)則。決策樹算法是一種機器學(xué)習(xí)方法,它基于離散型數(shù)據(jù),可有效挖掘數(shù)據(jù)特征里的潛在規(guī)則,它的優(yōu)勢是不需要依賴先驗知識,并且有較高的可解釋性,相比神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型,它更容易理解[4],在分類任務(wù)中,該算法呈現(xiàn)出較低的計算復(fù)雜度、良好的實用性以及較高的運行效率。不過該算法存在一些局限性:其一,它對缺失數(shù)據(jù)的處理能力比較弱,其二,容易因為對樣本空間過度劃分而出現(xiàn)過擬合現(xiàn)象,雖然剪枝技術(shù)可以緩解過擬合問題,但這一操作會增加算法的復(fù)雜度,限制了決策樹算法性能的提升空間。1.3.1.2Bagging集成學(xué)習(xí)方法集成學(xué)習(xí)的關(guān)鍵核心機制是,憑借搭建多個弱學(xué)習(xí)器模型,運用特定的組合策略把它們整合成為泛化能力更強的強學(xué)習(xí)器[5],按照模型構(gòu)建方式的差異,集成學(xué)習(xí)方法可分為并行與串行這兩大類別,在并行式集成學(xué)習(xí)里,Bagging[6]算法因為基于自助采樣法的特性而成為典型的代表,該算法借助對原始訓(xùn)練集進行有放回的隨機抽樣,使得每一輪生成的子訓(xùn)練集都是由N個樣本構(gòu)成,其中一些樣本可能會出現(xiàn)多次或者完全沒有出現(xiàn)。經(jīng)過T輪迭代訓(xùn)練之后,將各個基學(xué)習(xí)器的預(yù)測結(jié)果進行集成:針對分類任務(wù)采用多數(shù)投票機制,對于回歸問題則運用簡單平均法來進行最終預(yù)測。1.3.1.3隨機森林算法隨機森林是一種機器學(xué)習(xí)算法,它基于Bagging集成框架,在構(gòu)建決策樹基學(xué)習(xí)器時融入了隨機屬性選擇機制,由于其實現(xiàn)簡單、計算效率高且在實際應(yīng)用中表現(xiàn)出色,該算法受到了廣泛關(guān)注[7],F(xiàn)ernandez-Delgado等學(xué)者[8]進行的實證研究很有說服力,他們在121個UCI標(biāo)準(zhǔn)數(shù)據(jù)集上系統(tǒng)評估了179種分類算法的性能,最終證明隨機森林的分類準(zhǔn)確率比其他算法更優(yōu)。從模型架構(gòu)方面看,隨機森林本質(zhì)上是一個由多個決策樹分類器組成的集成模型,每個決策樹分類器憑借投票機制參與最終的分類決策,展開來說,該算法的實現(xiàn)流程有三個關(guān)鍵步驟:首先利用bootstrap抽樣技術(shù)從原始訓(xùn)練集中生成k個容量相同的樣本子集,接著基于每個子集獨立構(gòu)建決策樹模型,得到k個有差異的分類器,最后依靠多數(shù)投票原則整合各分類器的預(yù)測結(jié)果,確定樣本的最終類別歸屬。1.3.1.4隨機森林算法改進研究雖然隨機森林算法和決策樹算法相比,在分類準(zhǔn)確率以及泛化能力等性能指標(biāo)方面呈現(xiàn)出優(yōu)勢,并且已經(jīng)在很多領(lǐng)域得到廣泛應(yīng)用,然而該算法還是存在一些需要解決的局限性:其一,它在非平衡數(shù)據(jù)集上的表現(xiàn)不太理想,其二,該算法處理連續(xù)型變量時需要借助離散化預(yù)處理,其三,其分類性能以及提升空間。隨機森林算法改進研究隨機森林算法在應(yīng)對非平衡數(shù)據(jù)時效果不佳,主要是因為其訓(xùn)練集的隨機抽樣機制會讓數(shù)據(jù)分布的不均衡性變得更嚴(yán)重,黃衍團隊[9]利用20組UCI數(shù)據(jù)集做對比實驗,發(fā)現(xiàn)和支持向量機相比,隨機森林在不平衡分類任務(wù)中的性能有所下降,學(xué)界針對此進行了一系列研究:吳瓊等學(xué)者[10]把鄰域清理規(guī)則技術(shù)創(chuàng)新性地用在數(shù)據(jù)預(yù)處理階段,提高了隨機森林處理非平衡數(shù)據(jù)時的分類精度,王雪[11]采用欠采樣和過采樣結(jié)合的策略,實現(xiàn)了高維不平衡數(shù)據(jù)的均衡化處理。鐘龍申[12]開發(fā)的KSMOTE算法以及徐少成[13]提出的E-SMOTE改進方案,都借助優(yōu)化數(shù)據(jù)平衡技術(shù),降低了數(shù)據(jù)分布不均衡對模型性能的不良影響,馬海榮與程新文[14]用等量抽樣策略構(gòu)建初始訓(xùn)練集,還基于投票熵和廣義歐氏距離的動態(tài)樣本擴充方法,解決了樣本類別不平衡的問題。趙錦陽和盧會國等人[15]研發(fā)的SCSMOTE過采樣算法,經(jīng)UCI數(shù)據(jù)集驗證,改善了隨機森林在非平衡場景下的分類表現(xiàn),綜合分析發(fā)現(xiàn),現(xiàn)有研究大多是憑借對數(shù)據(jù)集進行預(yù)處理來讓數(shù)據(jù)分布重新平衡,提升隨機森林處理非平衡數(shù)據(jù)時的分類性能。處理連續(xù)性變量上的改進在隨機森林算法傳統(tǒng)的實現(xiàn)進程里,對于連續(xù)型變量的處理一般會采用離散化辦法,也就是把它劃分成好些區(qū)間,不過這種處理方式會讓算法在計算節(jié)點分裂標(biāo)準(zhǔn)的時候花費大量時間,使得整體運行效率降低不少,在現(xiàn)有的研究當(dāng)中,連續(xù)變量離散化方法有很多種,其中比較有代表性的是基于統(tǒng)計學(xué)原理的CHI2相關(guān)算法。曹正鳳在研究隨機森林處理連續(xù)變量問題時,借鑒了CHI2算法的核心思想,還對其做了創(chuàng)新性改進,最后提出的CORCHI2算法有效提高了隨機森林算法的執(zhí)行效率。在提高精度上的改進在分類算法優(yōu)化研究領(lǐng)域,提升分類精度一直以來都是核心的研究目標(biāo)所在,這使得學(xué)者們不斷去探索各類算法性能改進的方法路徑,雖說隨機森林算法在分類任務(wù)當(dāng)中表現(xiàn)出了相對比較優(yōu)越的性能,然而它在不同數(shù)據(jù)集上的分類精度還是存在著一定的局限性[17],現(xiàn)有的研究主要從四個方面對隨機森林算法進行優(yōu)化:數(shù)據(jù)集預(yù)處理、決策樹生成算法改良、決策樹篩選機制優(yōu)化以及投票策略改進。其中針對非平衡數(shù)據(jù)和連續(xù)性數(shù)據(jù)的處理就屬于典型的數(shù)據(jù)預(yù)處理范圍,在算法改進方面,曹正鳳等學(xué)者[18]借助融合C4.5與CART決策樹算法構(gòu)建混合算法,有效地提高了隨機森林的預(yù)測精度,王日升團隊[19]則創(chuàng)新性地運用AUC值排序與相似度矩陣聚類相結(jié)合的方式,篩選最優(yōu)決策樹組合,實驗證明該策略提升了模型分類性能。Paul等研究者[20]另找方法,依靠特征關(guān)鍵性分析限制決策樹數(shù)量,構(gòu)建最小樹數(shù)分類器,在多組數(shù)據(jù)集實驗中都觀察到分類誤差有明顯下降,另外王誠等人[21]提出的基于決策樹聚類的改進算法,借助剔除低精度及高相似性決策樹,在集成準(zhǔn)確率和分類效率兩方面都超過了傳統(tǒng)隨機森林算法的表現(xiàn)。1.3.2機器學(xué)習(xí)應(yīng)用于股票學(xué)習(xí)的研究現(xiàn)狀隨著計算機技術(shù)不斷發(fā)展,市場因子挖掘能力有了數(shù)量級的提高,傳統(tǒng)多因子模型在面對海量因子時暴露出了局限性,在這樣的情形下,機器學(xué)習(xí)方法憑借處理高維數(shù)據(jù)的優(yōu)勢,慢慢變成解決因子過載問題的有效辦法,文獻[22]研究顯示,借助整合分析師預(yù)期、動量效應(yīng)以及基本面數(shù)據(jù)構(gòu)建的特征因子,可有效預(yù)測1997至2011年間全球股票市場的收益率。在預(yù)測方法對比方面,MichelBallings的實證研究[23]證明,和簡單分類器相比,集成學(xué)習(xí)算法在股票收益預(yù)測中表現(xiàn)出了更優(yōu)的性能,針對中國證券市場,ZhangRu等學(xué)者[24]創(chuàng)造性地把LSTM時序模型與傳統(tǒng)多因子模型結(jié)合起來,以滬深300成分股作為樣本的實證分析說明,這個混合模型在預(yù)測準(zhǔn)確性以及投資盈利能力方面都比單一模型要好。ZhengTan提出[25],機器學(xué)習(xí)技術(shù)很適合解決金融領(lǐng)域非線性定價難題,它憑借引入兩種空間特征因子并運用隨機森林模型進行預(yù)測,成功實現(xiàn)了對股市長短期價格波動的有效捕捉,而且實證結(jié)果證實了該方法有獲取超額收益的能力。從歷史發(fā)展的脈絡(luò)去看,國外資本市場和技術(shù)演進歷程時間較長,在多因子選股模型的理論探索以及機器學(xué)習(xí)技術(shù)在證券市場應(yīng)用的實證研究這兩方面都有先發(fā)優(yōu)勢,相比之下,國內(nèi)相關(guān)研究開始得晚些,不過也有進展,在短短二十多年里就完成了從驗證多因子模型在中國證券市場的適用性到運用機器學(xué)習(xí)技術(shù)進行選股策略優(yōu)化的研究跨越。黃興旺引入美國三因子模型對中國股市做實證檢驗,發(fā)現(xiàn)只有兩個因子有股票收益解釋能力,還據(jù)此構(gòu)建了有中國特色的二因子定價模型,孟慶順基于Fama-French三因子模型的理論框架,對上海證券市場做實證分析,驗證了這個模型對中國股市的適用性,也證實三因子能有效解釋上海證券市場的收益特征。史永東在傳統(tǒng)四因子模型基礎(chǔ)上引入投資者情緒因子,系統(tǒng)剖析股票收益率和投資者行為之間的內(nèi)在聯(lián)系,他構(gòu)建的定價模型實證結(jié)果說明,投資者情緒和股票收益率呈現(xiàn)正相關(guān)關(guān)系,具體是投資者持負面情緒的上市公司股價波動性較大,而對持正面情緒的企業(yè)收益率更高。隨著計算機技術(shù)的快速發(fā)展,國內(nèi)量化投資研究范式正從傳統(tǒng)多因子預(yù)測模型向機器學(xué)習(xí)算法應(yīng)用轉(zhuǎn)變,研究者嘗試結(jié)合兩者優(yōu)勢來提高投資績效,李姝錦[29]提到,國內(nèi)量化投資策略研究目前處于起步階段,市場有效性存在爭議,建議在大數(shù)據(jù)環(huán)境下充分利用數(shù)據(jù)優(yōu)勢,著重構(gòu)建專業(yè)化的多因子選股模型。王春麗[30]的研究顯示,借鑒國際成熟資本市場的投資管理技術(shù),針對中國證券市場特點開發(fā)量化交易與擇時模型很有價值,以上證180指數(shù)為樣本,用回歸法構(gòu)建多因子模型并設(shè)置風(fēng)險控制閥值的實證研究說明,引入擇時策略能提升投資收益,劉佳琪[31]依靠系統(tǒng)挖掘八類關(guān)鍵因子,創(chuàng)新性地運用XGBoost模型結(jié)合IC加權(quán)評分法對滬深300成分股進行排序篩選,構(gòu)建了有效的投資組合策略。王麗娜[32]聚焦于市場指數(shù)預(yù)測研究,覺得指數(shù)有更強的抗操縱特性,采用神經(jīng)網(wǎng)絡(luò)模型在不同誤差容忍度條件下對上證指數(shù)進行預(yù)測,并與支持向量機模型對比分析,結(jié)果說明兩種模型在不同誤差條件下各有優(yōu)勢。1.4研究內(nèi)容與研究方法1.4.1研究內(nèi)容1.4.1.1數(shù)據(jù)準(zhǔn)備本研究一開始就獲取了包含開盤價、收盤價、最高價、最低價以及成交量等關(guān)鍵指標(biāo)的股票歷史交易數(shù)據(jù),接著針對原始數(shù)據(jù)集展開了一系列系統(tǒng)的預(yù)處理工作,像是進行缺失值填補、識別并修正異常值以及開展數(shù)據(jù)標(biāo)準(zhǔn)化處理等環(huán)節(jié),最終依照研究的具體需求,把經(jīng)過清洗的數(shù)據(jù)合理地劃分成了訓(xùn)練集和測試集這兩個子集。1.4.1.2特征選擇與構(gòu)建這項研究依據(jù)歷史交易數(shù)據(jù),全面地提取了眾多和股價波動趨勢緊密相連的技術(shù)指標(biāo)特征,像移動平均線、相對強弱指數(shù)以及成交量這類核心市場變量都覆蓋在內(nèi)。為了讓模型的預(yù)測效果得到更好的提升,可以思考對現(xiàn)有的特征進行重新構(gòu)建,或者實施特征組合的策略。1.4.1.3模型訓(xùn)練與優(yōu)化:使用訓(xùn)練集數(shù)據(jù)訓(xùn)練隨機森林回歸模型。本研究運用交叉驗證和網(wǎng)格搜索相結(jié)合這種優(yōu)化策略,針對決策樹模型的關(guān)鍵參數(shù)展開系統(tǒng)調(diào)優(yōu)工作,其中涉及到的核心超參數(shù)有決策樹數(shù)量、最大深度閾值以及最小樣本分裂數(shù)等。評估模型的性能,如準(zhǔn)確性、均方誤差(MSE)等。1.4.1.4預(yù)測與驗證:使用測試集數(shù)據(jù)對訓(xùn)練好的模型進行預(yù)測。對比預(yù)測結(jié)果與實際股票價格趨勢,評估模型的預(yù)測性能。根據(jù)需要,可以對模型進行進一步的調(diào)整和優(yōu)化。1.4.2研究方法隨機森林作為集成學(xué)習(xí)算法中的一種典型類型,借助并行構(gòu)建多個決策樹模型達成集成效果,其核心機制是運用雙重隨機化策略,也就是在對訓(xùn)練樣本展開自助采樣的同一時刻,對特征子集實施隨機選擇。1.5技術(shù)路線本研究把隨機森林回歸模型當(dāng)作核心方法,全面剖析它在金融時間序列預(yù)測領(lǐng)域里的應(yīng)用價值,著重針對股票市場價格波動趨勢的預(yù)測問題開展詳細分析。論文研究的技術(shù)路線如圖1所示:圖1論文技術(shù)路線圖2相關(guān)研究與技術(shù)2.1機器學(xué)習(xí) 2.1.1機器學(xué)習(xí)機器學(xué)習(xí)身為人工智能領(lǐng)域的關(guān)鍵分支,其歷史源頭可追溯到20世紀(jì)早期,自從1980年該學(xué)科正式確立起獨立的地位后,它的發(fā)展進程已經(jīng)歷經(jīng)了四十多年的時間,隨著人工智能技術(shù)不斷地向前發(fā)展,機器學(xué)習(xí)不管是在理論框架方面,還是在實踐應(yīng)用方面,都取得了突破性的進步。當(dāng)下金融與科技深度融合的發(fā)展形勢催生了兩者相互依存、共同演進的協(xié)同機制,機器學(xué)習(xí)作為數(shù)據(jù)驅(qū)動方法的核心技術(shù),從非結(jié)構(gòu)化原始數(shù)據(jù)里提取隱含模式與深層關(guān)聯(lián)規(guī)則,以此實現(xiàn)對新觀測數(shù)據(jù)的預(yù)測建模,海量數(shù)據(jù)資源的積累為機器學(xué)習(xí)技術(shù)給予了前所未有的應(yīng)用場景,能把多維異構(gòu)數(shù)據(jù)轉(zhuǎn)化為有決策價值的商業(yè)智能,提升了投資策略制定的科學(xué)性。該技術(shù)在處理高維金融數(shù)據(jù)結(jié)構(gòu)時呈現(xiàn)出明顯技術(shù)優(yōu)勢,其強大計算能力有效克服了傳統(tǒng)分析方法應(yīng)對復(fù)雜數(shù)據(jù)特征時的局限性,金融分析范式隨著交易體量擴大和特征維度提升,正從傳統(tǒng)二維分析向高維空間建模轉(zhuǎn)型,這種技術(shù)革新提高了模型預(yù)測精確度,還為解析市場參與主體的交易行為模式提供了新研究路徑,最終促成了人機交互式金融分析框架的系統(tǒng)性構(gòu)建。隨著人工智能技術(shù)的不斷發(fā)展,當(dāng)代計算機系統(tǒng)已然呈現(xiàn)出可自主獲取知識并且識別數(shù)據(jù)內(nèi)在規(guī)律的能力,從方法論的角度而言,機器學(xué)習(xí)算法依據(jù)訓(xùn)練過程當(dāng)中是否含有目標(biāo)變量可以被劃分成三種主要的范式,第一種是監(jiān)督學(xué)習(xí),第二種是無監(jiān)督學(xué)習(xí),第三種是強化學(xué)習(xí),從功能架構(gòu)的維度去剖析,機器學(xué)習(xí)系統(tǒng)一般是由模型訓(xùn)練子系統(tǒng)以及預(yù)測應(yīng)用子系統(tǒng)所組成的:訓(xùn)練子系統(tǒng)依據(jù)歷史數(shù)據(jù)構(gòu)建出最優(yōu)的數(shù)學(xué)模型,而預(yù)測子系統(tǒng)則利用訓(xùn)練好的模型對新輸入的數(shù)據(jù)展開推理預(yù)測。在具體的實現(xiàn)過程里,首先把部分樣本數(shù)據(jù)輸入到訓(xùn)練子系統(tǒng)進行參數(shù)優(yōu)化,等模型收斂之后,預(yù)測子系統(tǒng)就可將新輸入的特征向量x映射為預(yù)測輸出y。圖2機器學(xué)習(xí)系統(tǒng)框架監(jiān)督學(xué)習(xí)的關(guān)鍵特性在于其訓(xùn)練數(shù)據(jù)囊括輸入變量以及相應(yīng)的輸出結(jié)果,此學(xué)習(xí)模式借助剖析歷史數(shù)據(jù)里多維自變量與因變量之間的內(nèi)在聯(lián)系,構(gòu)建出能揭示數(shù)據(jù)規(guī)律的預(yù)測模型,展開來說,系統(tǒng)憑借學(xué)習(xí)流程確立輸入數(shù)據(jù)x與期望輸出y之間的函數(shù)映射關(guān)系或者概率分類模型,其中訓(xùn)練數(shù)據(jù)以(x,y)的配對形式呈現(xiàn)。如圖2-1所示,在模型訓(xùn)練階段,首先把標(biāo)注樣本集{(x1,y1),(x2,y2)...(xi,yi)}輸入學(xué)習(xí)系統(tǒng)來構(gòu)建預(yù)測模型,接著在預(yù)測階段將新數(shù)據(jù)x輸入該模型就能得到對應(yīng)的預(yù)測輸出y,依據(jù)預(yù)測目標(biāo)的性質(zhì)不同,監(jiān)督學(xué)習(xí)可分成兩大類型:當(dāng)輸出變量是離散類別時采用分類算法,而當(dāng)要預(yù)測連續(xù)數(shù)值范圍內(nèi)的任意值時則適用回歸算法。非監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)范式里不依賴目標(biāo)變量的一種,其核心特點是訓(xùn)練樣本里只有輸入數(shù)據(jù){x1,x2,...xi},沒有對應(yīng)的輸出變量y,這種學(xué)習(xí)方式是讓計算系統(tǒng)自己去探索數(shù)據(jù)內(nèi)在規(guī)律以實現(xiàn)模式識別,典型應(yīng)用有聚類分析、維度約簡等任務(wù),以聚類方法來說,它會按照預(yù)設(shè)的類別數(shù)量對歷史數(shù)據(jù)自動劃分,整個過程完全依據(jù)數(shù)據(jù)自身的相似性特征,不需要任何人工標(biāo)注的監(jiān)督信號。和需要先驗知識指導(dǎo)的監(jiān)督學(xué)習(xí)不同,非監(jiān)督學(xué)習(xí)把原始數(shù)據(jù)直接交給計算系統(tǒng),讓它能自主發(fā)現(xiàn)潛在的分布規(guī)律與隱藏模式,這種學(xué)習(xí)機制的本質(zhì)是讓計算系統(tǒng)不斷和海量動態(tài)數(shù)據(jù)交互,提取出人類還沒認知到的數(shù)據(jù)洞見,典型應(yīng)用場景包括但不限于探索性數(shù)據(jù)分析、特征提取等領(lǐng)域。強化學(xué)習(xí)是一種特殊的學(xué)習(xí)范式,處于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間,它本質(zhì)上是一種機器學(xué)習(xí)機制,以便最大化累積獎勵,借助狀態(tài)映射來達成最優(yōu)決策,在學(xué)術(shù)界也被稱作再勵學(xué)習(xí)或者評價學(xué)習(xí),此學(xué)習(xí)范式的核心特征在于,它要依靠持續(xù)地與環(huán)境交互,獲取反饋信息,并且依據(jù)這些信息動態(tài)地優(yōu)化狀態(tài)和行為之間的映射關(guān)系。和監(jiān)督學(xué)習(xí)依靠標(biāo)注數(shù)據(jù)以及無監(jiān)督學(xué)習(xí)著重發(fā)現(xiàn)潛在模式不一樣,強化學(xué)習(xí)的獨特之處主要體現(xiàn)在它的兩大本質(zhì)屬性上,即探索性試錯機制和延遲獎勵機制,這些特性讓它不同于有明確監(jiān)督信號的監(jiān)督學(xué)習(xí),也區(qū)別于只需從無標(biāo)簽數(shù)據(jù)里挖掘隱含結(jié)構(gòu)的無監(jiān)督學(xué)習(xí),而是依靠設(shè)計合理的獎勵函數(shù),引導(dǎo)系統(tǒng)一步步收斂到最優(yōu)狀態(tài)。2.1.2隨機森林本研究把集成學(xué)習(xí)模型當(dāng)作核心方法,主要是因為它在當(dāng)前機器學(xué)習(xí)領(lǐng)域呈現(xiàn)出的優(yōu)勢與高效性能,集成學(xué)習(xí)作為一種先進的機器學(xué)習(xí)范式,是憑借整合多個有差異性且獨立的基學(xué)習(xí)器的預(yù)測結(jié)果來達成最終決策的,從模型架構(gòu)方面分析,和單一學(xué)習(xí)器相比,集成方法憑借構(gòu)建學(xué)習(xí)器群體能更全面地挖掘數(shù)據(jù)特征信息。該方法的獨特優(yōu)勢有三個方面:其一,依靠隨機抽樣機制有效緩解了小樣本問題,其二,基于弱學(xué)習(xí)器集成的特性使其對異常數(shù)據(jù)有較強容錯能力,保證整體決策的穩(wěn)定性,其三,多學(xué)習(xí)器協(xié)同工作機制提升了模型的泛化能力,還可以有效抑制過擬合與欠擬合現(xiàn)象,隨著基學(xué)習(xí)器數(shù)量的增加,模型的預(yù)測精度可得到提升。從圖3可看出,該系統(tǒng)的架構(gòu)設(shè)計主要有四個核心組件,分別是輸入單元、學(xué)習(xí)器、處理模塊以及輸出單元,其中輸入單元的作用是接收隨機采樣得來的研究數(shù)據(jù),學(xué)習(xí)器作為分類模型,會對輸入樣本進行類別劃分,處理模塊承擔(dān)著對學(xué)習(xí)器輸出結(jié)果做統(tǒng)計分析的功能,并且會把最終處理結(jié)果傳送到輸出單元。在集成學(xué)習(xí)框架之下,根據(jù)學(xué)習(xí)器之間關(guān)聯(lián)方式的不同,其內(nèi)部算法可分為Bagging和Boosting兩大類別,隨機森林算法作為Bagging方法的代表性模型,和Boosting方法中的XGBoost模型一起構(gòu)成了當(dāng)前最具魯棒性的兩類集成學(xué)習(xí)范式,隨機森林是早期提出的經(jīng)典算法,憑借自身出色的分類性能,在相關(guān)研究領(lǐng)域大多時候被確立為基準(zhǔn)對比模型。圖3集成學(xué)習(xí)框架隨機森林模型是一種典型的集成學(xué)習(xí)算法,它的核心機制構(gòu)建于Bagging算法框架之上,此模型借助雙重隨機化策略來達成性能的優(yōu)化:一方面運用Bootstrap抽樣方法對樣本單元做有放回的隨機采樣,另一方面針對特征變量實施隨機選擇,借此構(gòu)建出眾多相互獨立的決策樹學(xué)習(xí)器。在模型訓(xùn)練階段,每一棵決策樹依據(jù)不同的數(shù)據(jù)子集以及特征子空間展開學(xué)習(xí),最終經(jīng)由集成投票機制綜合各個學(xué)習(xí)器的預(yù)測結(jié)果,這種獨特的雙重隨機性設(shè)計有效地抑制了異常值的干擾,提高了模型抵抗噪聲的能力,而且還提升了模型的泛化性能,和單一決策樹模型相比,隨機森林在預(yù)測精度、極端值處理以及高維數(shù)據(jù)分析等方面都呈現(xiàn)出優(yōu)勢,這主要是因為其樹狀結(jié)構(gòu)對高維特征空間有天然的適應(yīng)性。圖4呈現(xiàn)了該模型的原理示意圖。圖4隨機森林模型示意圖2.2股票投資策略本研究采用的投資組合交易理論框架是建立在動量投資的基礎(chǔ)之上,它的核心就是持續(xù)持有呈現(xiàn)上漲趨勢的證券資產(chǎn),動量投資策略最早可追溯到20世紀(jì)90年代的海外金融市場,在互聯(lián)網(wǎng)泡沫時期,憑借著十分突出的超額收益表現(xiàn),引起了學(xué)界的廣泛關(guān)注,從行為金融學(xué)的角度進行分析,動量效應(yīng)產(chǎn)生的內(nèi)在機理主要是源于市場參與者的反應(yīng)不足現(xiàn)象,也就是說多數(shù)投資者很難對市場變化做出及時且有效的調(diào)整。展開來說,當(dāng)市場出現(xiàn)新的信息沖擊時,投資者普遍呈現(xiàn)出認知滯后或者決策保守的特點,以證券市場作為例子,在初期市場對信息的消化大多時候呈現(xiàn)出漸進式的特征,體現(xiàn)為股價波動幅度有限,隨著信息逐漸被市場參與者充分吸收,資產(chǎn)價格才會依靠劇烈波動反映出真實的市場預(yù)期。動量投資本質(zhì)上是一種依據(jù)歷史收益率來預(yù)測未來價格走勢的量化策略,基于投資者的行為特征,本文會從兩個維度系統(tǒng)地闡釋動量投資策略的理論基礎(chǔ)。在行為金融學(xué)理論框架之下,投資者的決策行為實際上是由其心理認知機制所掌控的,BSV模型對這一現(xiàn)象作出了系統(tǒng)闡釋,也就是多數(shù)市場參與者往往會把股價波動當(dāng)作均值回歸過程,低估價格變動的持續(xù)性,這種認知偏差使得他們在處于虧損狀態(tài)時呈現(xiàn)出處置效應(yīng),經(jīng)過研究可發(fā)現(xiàn),市場參與者可以被劃分成兩類存在認知偏差的群體:一類是那些雖然接收了信息但卻產(chǎn)生了認知扭曲的投資者,另一類是完全對市場信息給予忽視的投資者群體。這兩類投資者的非理性決策行為一同造成了市場價格對基礎(chǔ)價值的系統(tǒng)性偏離,具體體現(xiàn)為市場波動率的異常放大或者非理性低估,這充分證明了投資者在信息處理過程中存在有限理性的特征。從宏觀市場層面展開分析,可觀察到兩個較為十分突出的現(xiàn)象,一方面,當(dāng)個體投資者碰到與自身判斷不一致的群體性決策時,大多時候會出現(xiàn)認知失調(diào)的情況,這種失調(diào)致使決策信心喪失,最終引發(fā)非理性投資行為,另一方面,市場參與者普遍存有從眾心理,往往傾向于復(fù)制他人的投資策略。這種集體行為模式在市場出現(xiàn)異常波動的時候表現(xiàn)得格外突出,會使得羊群效應(yīng)的顯現(xiàn)程度有所提高,這種微觀層面的個體行為借助市場傳導(dǎo)機制形成宏觀累積效應(yīng),最終造成市場整體出現(xiàn)反應(yīng)過度或者反應(yīng)不足的非效率現(xiàn)象。本研究基于動量投資理論框架,設(shè)計了等權(quán)重投資策略和行業(yè)配置投資策略這兩種不同的投資方案,等權(quán)重策略采用高度分散化投資方式,將經(jīng)模型驗證有持續(xù)正收益的個股進行等比例配置,如此能有效減少單一股票預(yù)測誤差給投資組合整體收益帶來的負面作用,行業(yè)配置策略重點考慮市值規(guī)模和行業(yè)屬性這兩個關(guān)鍵因素,其核心是讓投資組合在上述風(fēng)險維度與基準(zhǔn)指數(shù)保持一致,憑借挑選各行業(yè)內(nèi)預(yù)期收益率最佳的標(biāo)的來構(gòu)建投資組合,具體實施流程是:先對各行業(yè)內(nèi)股票預(yù)測結(jié)果排序,選出各行業(yè)排名第一的個股組成投資組合,接著準(zhǔn)確計算各成分股權(quán)重比例,最后依據(jù)權(quán)重分配進行資金配置,實現(xiàn)超越基準(zhǔn)指數(shù)的投資收益目標(biāo)。3數(shù)據(jù)來源及數(shù)據(jù)處理3.1數(shù)據(jù)來源本研究挑選了2005年1月4日至2025年1月4日這個時間段內(nèi),以5分鐘作為采樣頻率的十年期交易數(shù)據(jù)樣本,這些數(shù)據(jù)是從Wind金融終端平臺采集而來的,在行業(yè)分類上,研究依照Wind行業(yè)分類體系,著重對中證細分金融產(chǎn)業(yè)主題指數(shù)成分股里前十大權(quán)重企業(yè)的相關(guān)數(shù)據(jù)展開分析。為了切實保證行業(yè)分類體系和實證數(shù)據(jù)之間可保持一致性,此項研究運用了標(biāo)準(zhǔn)化的數(shù)據(jù)采集流程,以此來提高數(shù)據(jù)獲取的效率,同時保障數(shù)據(jù)的質(zhì)量。此數(shù)據(jù)集是由七個關(guān)鍵屬性所組成的,具體涉及了交易日期、開盤價格、收盤價格、當(dāng)日最高價、當(dāng)日最低價、成交量以及成交金額這些核心指標(biāo),關(guān)于各屬性的詳細說明可以去查看表3-1中所展示的內(nèi)容。表3-1數(shù)據(jù)集描述表3.2數(shù)據(jù)處理原始數(shù)據(jù)存在缺失值、異常值以及數(shù)據(jù)分布不一致等常見問題,為保證建模質(zhì)量,本研究于模型訓(xùn)練階段實施了數(shù)據(jù)預(yù)處理流程,該流程涉及基于中位數(shù)的極值剔除、缺失值填補、行業(yè)市值中性化處理以及數(shù)據(jù)標(biāo)準(zhǔn)化等關(guān)鍵步驟。金融時間序列數(shù)據(jù)存在偏離主體分布的異常值問題,本研究運用基于行業(yè)分類的中位數(shù)去極值法處理,該方法能消除極端值對統(tǒng)計量估計與模型訓(xùn)練的干擾,最大程度保持原始數(shù)據(jù)統(tǒng)計特性,保證樣本容量完整,與傳統(tǒng)極值處理方法相比,這種行業(yè)基準(zhǔn)化去極值策略可降低數(shù)據(jù)處理時引入的系統(tǒng)性偏差,符合金融數(shù)據(jù)行業(yè)異質(zhì)性特征。在構(gòu)建股票池時會遇到月末交易日缺失值問題,依據(jù)股票價格時間序列持續(xù)性特征,本研究采用前一交易日數(shù)值填補來減少誤差,交易日內(nèi)數(shù)據(jù)缺失現(xiàn)象成因不同處理策略也有差異,因短期停牌致大范圍數(shù)據(jù)缺失,直接剔除,因填充方法對模型難有積極影響,局部小規(guī)模缺失數(shù)據(jù),則用行業(yè)均值與中位數(shù)結(jié)合方法填補。這種分類處理考慮了不同缺失類型對數(shù)據(jù)質(zhì)量的影響差別。為了可有效地控制指標(biāo)數(shù)據(jù)當(dāng)中有可能存在的系統(tǒng)性偏差以及干擾因素,本研究運用市值中性化處理方式,以此降低特定指標(biāo)跟市場整體風(fēng)險之間的關(guān)聯(lián)程度,保證研究結(jié)果的準(zhǔn)確與可靠。表3-2實驗數(shù)據(jù)集合表原始樣本數(shù)據(jù)存在問題的樣本量剔除后樣本量2005年242152272006年241222192007年242272152008年24622442009年244122322010年242501922011年24482362012年243102332013年24412432014年24612452015年24402442016年24702472017年24202422018年24402442019年24602462020年24302432021年24402442022年24602462023年24202422024年24402442025年2450245總計=sum(B2:B22)5121148=sum(D2:D22)49734隨機森林模型構(gòu)建與模型評估4.1關(guān)于隨機森林回歸模型4.1.1關(guān)于隨機森林回歸核心公式依據(jù)輸入的特征向量x,第t棵決策樹模型產(chǎn)生的預(yù)測輸出可被表示成如下形式:式(4-1)其中表示該樹的參數(shù)(如分裂特征、閾值等)。(2)隨機森林的集成預(yù)測隨機森林通過T棵樹的預(yù)測均值輸出最終結(jié)果:式(4-2)此公式體現(xiàn)了集成學(xué)習(xí)的核心思想——降低方差。(3)目標(biāo)函數(shù)(分裂準(zhǔn)則)構(gòu)建單棵樹時,節(jié)點分裂通過最小化均方誤差(MSE)實現(xiàn):式(4-3)其中:分裂特征索引分裂閾值左右子節(jié)點的樣本集合左右子節(jié)點的樣本均值4.1.2關(guān)于隨機森林回歸的算法步驟tep1:自助采樣(BootstrapSampling)從訓(xùn)練集 中有放回地抽取N個樣本,生成T個子集此次研究運用自助抽樣法即bootstrapsampling,借助重復(fù)抽樣策略自原始數(shù)據(jù)集中有放回地隨機抽取N個觀測樣本,并且重復(fù)這個過程T次,以此構(gòu)建出T個獨立的子樣本集合。Step2:隨機特征選擇在構(gòu)建模型期間,針對各個網(wǎng)絡(luò)節(jié)點執(zhí)行特征隨機選擇機制,展開來說,就是從d維特征空間里依據(jù)預(yù)設(shè)比例挑選出m個候選特征。Step3:構(gòu)建回歸樹在整個迭代進程當(dāng)中,持續(xù)不斷地去執(zhí)行下面所講述的這樣一套操作流程,一直到達成預(yù)先設(shè)定好的終止標(biāo)準(zhǔn)為止:1.從m個特征中選擇最優(yōu)分裂特征j和閾值s(最小化MSE)2.將節(jié)點劃分為左右子節(jié)點L和R。3.對子節(jié)點重復(fù)分裂過程。Step4:生成隨機森林重復(fù)Step1-3構(gòu)建T棵獨立決策樹,形成森林Step5:預(yù)測與聚合對測試樣本x,計算所有數(shù)的預(yù)測均值:式(4-4)證券市場價格的波動一般會受到開盤價、最高價、最低價以及成交量等多種因素的共同作用,此次研究把每日收盤價當(dāng)作時間序列分析的核心指標(biāo),挑選交易日期、開盤價、最高價、最低價和成交量這五個關(guān)鍵變量來構(gòu)建預(yù)測模型,在數(shù)據(jù)處理階段,先利用sklearn工具包里面的StandardScaler方法對原始數(shù)據(jù)做標(biāo)準(zhǔn)化處理,接著按照7比3的比例把數(shù)據(jù)集分成訓(xùn)練集和測試集,最后運用sklearn工具包的LinearRegression模塊對訓(xùn)練數(shù)據(jù)開展建模分析。由圖5可看到在進行隨機森林對股票價格數(shù)據(jù)預(yù)測的整個流程圖5隨機森林模型實驗流程圖4.2隨機森林回歸模型的評估本研究針對回歸分析問題,關(guān)注模型預(yù)測精度,也著重考察預(yù)測結(jié)果與真實值之間的擬合優(yōu)度,為此特別選取均方誤差以及決定系數(shù)這兩個適用于回歸任務(wù)的評價指標(biāo),以此對線性回歸模型的性能展開系統(tǒng)評估。4.2.1均方誤差均方誤差,也就是MSE,是一項關(guān)鍵的評估指標(biāo),主要是用來對預(yù)測模型輸出結(jié)果跟真實觀測值之間的偏差程度給予量化,該指標(biāo)的數(shù)值大小和模型預(yù)測精度呈現(xiàn)出負相關(guān)的關(guān)系,也就是說MSE數(shù)值越低,就說明模型預(yù)測結(jié)果跟真實值的吻合度越高,要是數(shù)值較大,那就反映出模型預(yù)測性能不太好。借助對比不同模型在相同數(shù)據(jù)集上的MSE數(shù)值,可有效地評估各個模型的相對預(yù)測效能。式(4-5)在針對模型性能展開評估的進程當(dāng)中,均方誤差的計算會涉及到樣本數(shù)量n、實際觀測值yi以及模型預(yù)測值yi這些關(guān)鍵參數(shù),此指標(biāo)一般不會被當(dāng)作獨立的評價標(biāo)準(zhǔn),而是適用于不同模型之間進行對比分析的場景之中。4.2.2R平方?jīng)Q定系數(shù)屬于評估模型擬合優(yōu)度的關(guān)鍵指標(biāo),其取值范圍在0至1這個區(qū)間當(dāng)中,數(shù)值越是向著1靠近,就意味著模型對數(shù)據(jù)變異的解釋能力越強,要是數(shù)值越接近0,那就反映出模型對數(shù)據(jù)變異的解釋效力越弱[]。式(4-6)式中,為因變量的均值。4.2.3關(guān)于五折交叉驗證五折交叉驗證是一種經(jīng)典的機器學(xué)習(xí)模型評估方法,它實際上是k折交叉驗證在參數(shù)k取值為5時的具體體現(xiàn),該方法核心實施流程為,先把原始數(shù)據(jù)集隨機劃分成5個不重疊且樣本量大致相同的子數(shù)據(jù)集,然后進行5輪迭代訓(xùn)練與驗證,每輪迭代時選取一個子集當(dāng)作驗證集,其余4個子集合并作為訓(xùn)練集,憑借這種輪換方式,最終保證每個數(shù)據(jù)子集可作為驗證集參與模型性能評估。五折交叉驗證的標(biāo)準(zhǔn)實施過程可以如下形式化方式進行表述:最初是數(shù)據(jù)分割階段,把樣本總量為N的原始數(shù)據(jù)集D隨機劃分成5個相互排斥的子集,分別是{D?,D?,D?,D?,D?},各個子集的容量要保持大致相等,也就是說每個子集的樣本數(shù)大約為N/5,接著進入循環(huán)驗證階段,在5次迭代的過程當(dāng)中,依次把D?到D?當(dāng)作驗證集,而其余四個子集的并集作為對應(yīng)的訓(xùn)練集,最后在性能評估環(huán)節(jié),借助計算每次迭代時驗證集上的模型性能指標(biāo),并且求取五次結(jié)果的平均值,將此作為模型整體性能的可靠估計。參照圖7,本研究按照訓(xùn)練集與測試集3:7的比例來劃分數(shù)據(jù)集,運用5折交叉驗證方法對三種模型的泛化性能展開系統(tǒng)評估,實驗數(shù)據(jù)說明,各模型在測試集上的平均R2值都維持在0.83以上,這一結(jié)果有力證實了模型可以有效捕捉并學(xué)習(xí)數(shù)據(jù)集中的核心特征信息。實證分析得出的結(jié)果顯示,此模型呈現(xiàn)出相當(dāng)出色的擬合性能,其判定系數(shù)R2達到了理想數(shù)值1,同時均方誤差MSE也逐漸趨向于0,這樣的量化指標(biāo)有力地證實了模型有有效性,說明該模型擁有對未知樣本進行精準(zhǔn)預(yù)測的實用價值。圖6隨機森林模型的R2值與MSE值4.3模型預(yù)測4.3.1擬合效果圖機器學(xué)習(xí)模型的性能評估以及泛化能力在相當(dāng)程度上取決于訓(xùn)練集跟測試集的劃分比例,隨機森林作為一種集成學(xué)習(xí)方法,依靠構(gòu)建多棵決策樹并且整合這些決策樹的預(yù)測結(jié)果,使得模型的準(zhǔn)確性和魯棒性都有了提升,本研究從理論分析和實驗驗證這兩個方面,全面考察了不同訓(xùn)練集與測試集比例對隨機森林回歸模型性能所產(chǎn)生的影響,還針對不同規(guī)模的數(shù)據(jù)集給出了最優(yōu)劃分方案。以平安銀行股票數(shù)據(jù)當(dāng)作例子,本研究設(shè)置了1:9、2:8、3:7以及4:6這四種測試集與訓(xùn)練集比例來進行實證分析,其中訓(xùn)練集和測試集分別用藍色和紅色進行標(biāo)識,橫縱坐標(biāo)分別代表真實收盤價與預(yù)測收盤價,實驗結(jié)果顯示,該模型在不同比例下都呈現(xiàn)出優(yōu)異的擬合性能,這充分驗證了其在股票未知數(shù)據(jù)預(yù)測方面是有效的。圖7真實值與預(yù)測值的擬合效果圖(平安銀行)依據(jù)圖7呈現(xiàn)出的實驗結(jié)果展開分析可知,要是將測試集和訓(xùn)練集的比例設(shè)定成3比7,此時模型性能會達到最佳狀態(tài),基于這一最優(yōu)比例的配置情況,本研究在圖8里展示了在四種不同數(shù)據(jù)集上的模型擬合效果驗證結(jié)果。圖8真實值與預(yù)測值的擬合效果圖(從上至下依次為平安銀行,興業(yè)銀行,招商銀行,東方財富)從圖8可看出,橫坐標(biāo)的范圍有著較為十分突出的不同,此坐標(biāo)軸分別表示測試集收盤價及其相應(yīng)的預(yù)測值,這種差異是因為所選時間區(qū)間不一樣造成的,圖8同時呈現(xiàn)出了模型擬合效果,將圖8和圖9進行對比分析可發(fā)現(xiàn),預(yù)測結(jié)果和實際觀測值之間呈現(xiàn)出高度相符的特點,實證研究顯示,該預(yù)測模型在股票價格趨勢預(yù)測方面有著出色的性能表現(xiàn)。圖9真實值與預(yù)測值的擬合效果圖(依次為平安銀行,興業(yè)銀行,招商銀行,東方財富)5結(jié)論與展望5.1全文總結(jié)運用系統(tǒng)化的研究方法,本文對隨機森林回歸算法在金融市場價格走勢預(yù)測領(lǐng)域的實際應(yīng)用價值展開詳細分析,核心研究發(fā)現(xiàn)可總結(jié)為以下幾個方面:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論