版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
摘要滬深300是衡量中國股票市場的一項(xiàng)主要指標(biāo),它所反映的300支滬深股票市場最有代表性的300支股票。該指數(shù)覆蓋了中國經(jīng)濟(jì)中最為活躍、最為核心的板塊,也是中國股票市場總體走勢的重要指標(biāo)。因此,對(duì)滬深300成分股進(jìn)行量化交易策略的研究對(duì)投資者具有重要意義,并有助于理解和分析中國經(jīng)濟(jì)發(fā)展趨勢。本文旨在通過構(gòu)建基于SVM模型的滬深300成分股量化交易策略,提高交易的準(zhǔn)確性和盈利能力,為投資者提供更好的交易決策依據(jù)。、本文主要研究機(jī)器學(xué)習(xí)在量化投資中的應(yīng)用,使用滬深300成分股作為股票池,初步篩選出基本面因子未缺失的成分股,共計(jì)224支。對(duì)這224支股票進(jìn)行因子分析,得出各個(gè)因子的得分以及各個(gè)因子所占的權(quán)重,根據(jù)因子得分以及權(quán)重計(jì)算出每一支股票的綜合得分。選取綜合得分前30的股票作為最終的股票池,拉取這30支股票從2021年初到2023年初的每日交易數(shù)據(jù)。將30支股票的第一年的交易數(shù)據(jù)作為訓(xùn)練集,第二年的交易數(shù)據(jù)作為測試集,使用訓(xùn)練集對(duì)采用徑向基核函數(shù)的SVM模型來進(jìn)行訓(xùn)練,并且采取貝葉斯優(yōu)化的方式來對(duì)參數(shù)C和gamma進(jìn)行調(diào)整以找到最合適的參數(shù),來對(duì)測試集進(jìn)行預(yù)測。后續(xù)進(jìn)行交易策略的制定,根據(jù)之前的預(yù)測結(jié)果來進(jìn)行股票的買賣。在經(jīng)過一年的交易之后,資金呈現(xiàn)一個(gè)波動(dòng)上升的趨勢,收益率約為20.72%。通過對(duì)徑向基核函數(shù)的SVM模型在量化投資中的應(yīng)用研究,驗(yàn)證了機(jī)器學(xué)習(xí)技術(shù)在預(yù)測股票價(jià)格方面的實(shí)用性和有效性。這為未來利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行股票投資提供了實(shí)證基礎(chǔ)。并且在本次實(shí)驗(yàn)中資金的穩(wěn)步增長證明了所開發(fā)交易策略在風(fēng)險(xiǎn)控制和資金管理方面的有效性。在波動(dòng)的股市中實(shí)現(xiàn)資金的穩(wěn)定增長,對(duì)于投資者而言具有重要的實(shí)際意義,尤其是對(duì)于尋求中長期穩(wěn)定回報(bào)的投資者。關(guān)鍵詞:量化投資,股票交易,支持向量機(jī),交易策略。
AbstractTheCSI300isamajorindicatormeasuringtheChinesestockmarket,reflectingthe300mostrepresentativestocksintheShanghaiandShenzhenstockmarkets.ThisindexcoversthemostactiveandcoresectorsoftheChineseeconomyandisanimportantindicatoroftheoveralltrendoftheChinesestockmarket.Therefore,researchingquantitativetradingstrategiesforCSI300constituentstocksisofsignificantimportancetoinvestorsandhelpsinunderstandingandanalyzingthetrendsofChina'seconomicdevelopment.ThispaperaimstobuildaquantitativetradingstrategyforCSI300constituentstocksbasedonanSVMmodel,improvingtheaccuracyandprofitabilityoftrading,andprovidingbetterdecision-makingsupportforinvestors.Thispaperprimarilyexplorestheapplicationofmachinelearninginquantitativeinvestment,usingtheCSI300constituentstocksasthestockpool.Initially,224stockswithcompletefundamentalfactorswereselected.Factoranalysiswasconductedonthese224stocks,resultinginscoresforeachfactorandtherespectiveweightsofeachfactor.Basedonthesescoresandweights,acomprehensivescoreforeachstockwascalculated.Thetop30stocks,accordingtothecomprehensivescores,wereselectedasthefinalstockpool.Dailytradingdataforthese30stocksfromthebeginningof2021tothebeginningof2023werepulled.Thefirstyear'stradingdatawereusedasthetrainingset,andthesecondyear'sdataasthetestset.ThetrainingsetwasusedtotraintheSVMmodelemployingtheradialbasisfunctionkernel,andBayesianoptimizationwasusedtoadjusttheparametersCandgammatofindthemostsuitableparametersforpredictingthetestset.Subsequently,atradingstrategywasformulatedbasedonthepreviouspredictionresultsforbuyingandsellingstocks.Afterayearoftrading,thecapitalshowedanupwardtrendwithareturnofapproximately20.72%.ThestudyoftheapplicationoftheradialbasisfunctionkernelSVMmodelinquantitativeinvestmentvalidatesthepracticalityandeffectivenessofmachinelearningtechnologyinpredictingstockprices.Thisprovidesempiricalevidenceforfuturestockinvestmentsusingmachinelearningtechnologies.Moreover,thesteadygrowthofcapitalinthisexperimentprovestheeffectivenessofthedevelopedtradingstrategyinriskcontrolandcapitalmanagement.Achievingstablecapitalgrowthinavolatilestockmarkethassignificantpracticalimplicationsforinvestors,especiallythoseseekingstablemediumtolong-termreturns.Keywords:QuantitativeInvesting,StockTrading,SupportVectorMachines,TradingStrategies.
目錄1緒論 緒論1.1研究背景及意義在當(dāng)今金融市場中,滬深300指數(shù)作為中國股市的重要指標(biāo)之一,其成分股涵蓋了滬深兩市最具代表性的300只大盤股。這些成分股不僅覆蓋了中國經(jīng)濟(jì)中最為活躍和核心的部分,而且在很大程度上反映了中國股市的整體走勢。因此,對(duì)滬深300成分股進(jìn)行量化交易策略的研究,不僅對(duì)投資者有著重要的實(shí)踐意義,同時(shí)也對(duì)理解和分析中國經(jīng)濟(jì)發(fā)展趨勢具有重要的參考價(jià)值。量化投資是一種將歷史數(shù)據(jù),數(shù)學(xué)模型,程序化交易融合在一起的交易方式。它摒棄了傳統(tǒng)的主觀判斷,轉(zhuǎn)而采用數(shù)據(jù)和模型驅(qū)動(dòng)的決策,以期達(dá)到控制風(fēng)險(xiǎn)、提高收益的目的。定量的投資模型能夠降低沖擊成本,提高效率,降低人工成本,提高交易的隱蔽性。量化投資模型的建立是一個(gè)復(fù)雜的過程,在量化投資模型的建立過程中,我們首先需要找到大量的金融數(shù)據(jù),比如說在一段時(shí)間的股票數(shù)據(jù),然后對(duì)這些數(shù)據(jù)輔以金融投資的思想,建立一個(gè)運(yùn)用了統(tǒng)計(jì)和數(shù)學(xué)方法的能夠跑贏市場的策略模型。其中,支持向量機(jī)模型因其在數(shù)據(jù)處理、識(shí)別準(zhǔn)確率等方面具有獨(dú)特優(yōu)勢,已成為定量金融研究的熱點(diǎn)。支持向量機(jī)的初衷是為了求解二分類問題,但是它同樣適用于多類問題。該算法通過在特征空間中搜索最佳劃分超平面,實(shí)現(xiàn)了對(duì)各類型數(shù)據(jù)的分離,并極大地提高了支撐矢量的間距。該算法能夠有效地處理小樣本、非線性、高維數(shù)據(jù),尤其適用于復(fù)雜、高噪音的金融市場。。1.2研究現(xiàn)狀1.2.1量化投資量化投資是基于市場弱有效[1]或非有效的理論基礎(chǔ),利用計(jì)算機(jī)技術(shù)和數(shù)學(xué)建模等方法實(shí)現(xiàn)超越市場的投資策略。常見的量化投資策略包括多因子、套利、商品交易、高頻交易、阿爾法中性等。在國外,量化投資已經(jīng)有幾十年的歷史了,自從1952年馬科維茨提出了“投資組合”理論,將風(fēng)險(xiǎn)與收益進(jìn)行了定量,這就是國際上最早的量化投資方式,1971年,巴克萊公司推出了世界上第一只量化投資基金,這才讓量化投資真正的進(jìn)入到了人們的生活當(dāng)中。但是后來的二十幾年中,由于計(jì)算機(jī)技術(shù)的限制,量化投資并沒有很大的突破。這樣的狀況一直延續(xù)到了1955年,在1995年之后隨著計(jì)算機(jī)科學(xué)和信息技術(shù)的發(fā)展,量化投資技術(shù)才有了突飛猛進(jìn)的增長。對(duì)我國來說,量化投資起步落后西方較多,并且對(duì)我國來說,政策對(duì)股市的影響,投資者的不理性行為導(dǎo)致對(duì)股市的狀況難以預(yù)估,因此我國的量化投資技術(shù)依然在路上不停地探索?;谝陨蠈?duì)量化投資的研究,近些年來,也有許多的國內(nèi)學(xué)者對(duì)量化投資進(jìn)行研究,王晴[2]利用網(wǎng)絡(luò)平臺(tái)上的投資者的主觀情緒,構(gòu)建了一個(gè)網(wǎng)絡(luò)情感因子,并將其應(yīng)用于使用支持向量機(jī)(SVM)算法構(gòu)建的多因子量化選股模型中,來進(jìn)行交易策略的設(shè)計(jì),最后發(fā)現(xiàn),加入了網(wǎng)絡(luò)情感因子交易策略相比較未加入網(wǎng)絡(luò)情感因子的交易策略在更低風(fēng)險(xiǎn)的情況下獲得更高的收益。付志剛和沈慧娟[3]基于股票K線數(shù)據(jù)建立人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練集,從而對(duì)下一年進(jìn)行預(yù)測,并且基于預(yù)測結(jié)果構(gòu)建量化投資策略。王成龍和王曦[4]將投資者情緒與量化投資相結(jié)合,根據(jù)能反映投資者情緒的指標(biāo)設(shè)計(jì)量化投資策略。何栩晗[5]選擇對(duì)固定動(dòng)量策略和固定動(dòng)量反轉(zhuǎn)投資策略分別進(jìn)行了Matlab量化短期投資策略模擬。1.2.2機(jī)器學(xué)習(xí)隨著互聯(lián)網(wǎng)和人工智能的高速發(fā)展,機(jī)器學(xué)習(xí)技被術(shù)各行各業(yè)關(guān)注的越來越多,并且也有了很大的發(fā)展,使得機(jī)器學(xué)習(xí)技術(shù)能夠在相應(yīng)的行業(yè)有它該有的作用,尤其是在金融領(lǐng)域,它被廣泛應(yīng)用于股票市場的預(yù)測。很多學(xué)者將SVM應(yīng)用于股市、期貨市場的實(shí)證研究中,證明該模型是一種行之有效的方法。QinC等人[6]提出了一種新穎的基于機(jī)器學(xué)習(xí)的方法FollowAKOInvestor,以更有效地整合投資者的情緒,進(jìn)行高盈利的股票推薦。它通過聚類算法或者投資者的專業(yè)知識(shí)水平將投資者劃分為不同的群體,然后從每個(gè)群體中提取情感特征來訓(xùn)練機(jī)器學(xué)習(xí)模型。利用產(chǎn)出對(duì)股票進(jìn)行打分,并提供投資建議。后來出現(xiàn)了SVM方法,SVM方法是基于神經(jīng)網(wǎng)絡(luò)發(fā)展的,可以對(duì)數(shù)據(jù)進(jìn)行識(shí)別分類。后來CaoandTay.[7]通過選用多個(gè)模型評(píng)價(jià)指標(biāo)對(duì)比SVM和BP神經(jīng)網(wǎng)絡(luò),并以標(biāo)普500作為研究對(duì)象,結(jié)果發(fā)現(xiàn)SVM的預(yù)測能力更強(qiáng),模型的穩(wěn)健型也更高。我國的學(xué)者李斌,林彥,唐聞軒[8]設(shè)計(jì)了一套基于機(jī)器學(xué)習(xí)和技術(shù)指標(biāo)的量化投資算法ML-TEA,這個(gè)模型將技術(shù)指標(biāo)作為輸入的變量,再分別用不同的機(jī)器學(xué)習(xí)算法來預(yù)測這些股票在幾天之后的漲跌,并根據(jù)預(yù)測的方向來構(gòu)建投資組合。王云凱,藍(lán)金輝[9]設(shè)計(jì)了一套基于機(jī)器學(xué)習(xí)回歸方法和基本面因子分析的量化投資策略ML-FFA,這個(gè)算法利用率梯度提升回歸,隨機(jī)森林回歸兩個(gè)機(jī)器學(xué)習(xí)算法來預(yù)測股票,建立投資組合策略。黃卿[10]結(jié)合了支持向量機(jī)和三因子模型,利用A股進(jìn)行實(shí)證分析,來構(gòu)建投資組合。彭麗芳等人[11]提出用支持向量機(jī)方法結(jié)合時(shí)間序列來對(duì)股票收盤價(jià)進(jìn)行預(yù)測,這樣的方法相比于傳統(tǒng)的時(shí)間序列模型具有更高的預(yù)測精度。吳微等人[12]通過提取A股市場的信息特征,將其輸入給BP神經(jīng)網(wǎng)絡(luò),并且運(yùn)用該網(wǎng)絡(luò)來預(yù)測對(duì)滬市綜合指數(shù)的漲跌,結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于股票市場是可行的。曹正鳳等人[13]提出了價(jià)值成長投資策略,該模型使用等權(quán)重對(duì)多支股票進(jìn)行離散化處理,然后利用隨機(jī)森林算法對(duì)離散化的股票數(shù)據(jù)進(jìn)行分類,最終根據(jù)分類結(jié)果進(jìn)行選股。1.3本文研究內(nèi)容本文的研究目的在于利用SVM模型對(duì)滬深300成分股進(jìn)行研究并且制定量化交易策略,以提高交易的準(zhǔn)確性和盈利能力。首先,從滬深300指數(shù)中獲取成分股的歷史數(shù)據(jù),包括股價(jià)、成交量、市值等指標(biāo)。然后,對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理,包括處理缺失值和異常值,以確保數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。在建模過程中,選取了特征變量與目標(biāo)變量,對(duì)樣本進(jìn)行了分割,得到了樣本的訓(xùn)練樣本和測試樣本。在此基礎(chǔ)上,我們將利用該方法對(duì)滬深300指數(shù)的股價(jià)走勢進(jìn)行預(yù)測,并對(duì)其進(jìn)行實(shí)證檢驗(yàn)。在此基礎(chǔ)上,以支持向量機(jī)模型為基礎(chǔ),對(duì)滬深300指數(shù)的買賣策略進(jìn)行了研究。同時(shí),根據(jù)市場的風(fēng)險(xiǎn)及波動(dòng)性,設(shè)置止損、止損等措施,實(shí)現(xiàn)了對(duì)交易風(fēng)險(xiǎn)的控制。藉由發(fā)展出高效的交易策略,以達(dá)成更具穩(wěn)定性與持續(xù)性之交易回報(bào)。在實(shí)證結(jié)果分析階段,對(duì)基于SVM模型的量化交易策略進(jìn)行評(píng)估。分析交易策略在歷史交易上的表現(xiàn),是否使得資金得到增長,具有多少的收益率。最后,總結(jié)研究結(jié)果并提出未來的展望。討論研究中的發(fā)現(xiàn)和挑戰(zhàn),并探討如何進(jìn)一步優(yōu)化模型和策略,以提高交易效果和實(shí)現(xiàn)更穩(wěn)定的交易收益。
2相關(guān)理論基礎(chǔ)概述2.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是機(jī)器學(xué)習(xí)項(xiàng)目的初始步驟,旨在通過提升數(shù)據(jù)的質(zhì)量來使其更適合模型的訓(xùn)練需求。這一過程關(guān)注于確保數(shù)據(jù)的精確性、完整性、統(tǒng)一性、及時(shí)性和可靠性,通過適當(dāng)?shù)念A(yù)處理方法來應(yīng)對(duì)數(shù)據(jù)中可能出現(xiàn)的重復(fù)、離散、缺失或不一致的值。數(shù)據(jù)清洗主要是對(duì)異常、重復(fù)數(shù)據(jù)進(jìn)行過濾,對(duì)噪音、異常值進(jìn)行處理;數(shù)據(jù)整合是對(duì)多源數(shù)據(jù)進(jìn)行整合;數(shù)據(jù)變換是指數(shù)據(jù)的光滑、聚合和歸一化;數(shù)據(jù)縮減以規(guī)范的形式表示數(shù)據(jù),以維護(hù)完整性[14]。在數(shù)據(jù)清洗過程中,主要任務(wù)包括移除重復(fù)項(xiàng)和處理空缺數(shù)據(jù)等。對(duì)空缺數(shù)據(jù)的處理方法多樣,包括移除、填補(bǔ)或使用插值技術(shù)。數(shù)據(jù)整合是將不同來源的數(shù)據(jù)匯聚到一個(gè)統(tǒng)一的數(shù)據(jù)集中,解決數(shù)據(jù)不一致性、數(shù)據(jù)重復(fù)和數(shù)據(jù)格式不匹配等問題。數(shù)據(jù)變換則涉及到數(shù)據(jù)的規(guī)范化和歸一化等操作,目的是確保數(shù)據(jù)滿足一定的標(biāo)準(zhǔn)范圍或分布要求,這對(duì)于增強(qiáng)模型訓(xùn)練的效率和性能是必不可少的。此外,數(shù)據(jù)規(guī)范化是指將數(shù)據(jù)調(diào)整至一致的標(biāo)準(zhǔn)范圍或分布的過程,這一步驟對(duì)于機(jī)器學(xué)習(xí)算法的適應(yīng)性至關(guān)重要。數(shù)據(jù)縮減是為了降低數(shù)據(jù)復(fù)雜度、保留關(guān)鍵信息、增強(qiáng)數(shù)據(jù)處理效率。金融市場數(shù)據(jù)處理中,不同指標(biāo)可能存在較大數(shù)值差異,需進(jìn)行數(shù)據(jù)規(guī)范化處理。常用規(guī)范化技術(shù)包括最大-最小規(guī)范化和Z得分規(guī)范化,有助于提升模型預(yù)測精度和泛化性能。2.2SVM模型支持向量機(jī)(SupportVectorMachine,SVM)作為一種有監(jiān)督的學(xué)習(xí)方式,被廣泛應(yīng)用于分類和回歸問題中。支持向量機(jī)的理論基礎(chǔ)就是通過搜索最優(yōu)判決面來有效區(qū)分樣本點(diǎn)。在學(xué)習(xí)過程中,支持向量機(jī)通過極大化分類區(qū)間,得到最優(yōu)判決面,使其具有較高的精度和泛化性。支持向量機(jī)的基本思想是在特征空間中搜索最大區(qū)間的判決面,使其能夠很好的區(qū)分出不同類型的樣本。判定面可以是低維點(diǎn)上的一條直線,而在高維空間上它可以是一個(gè)平面或者超平面。在SVM框架中,目標(biāo)是選取一個(gè)決策平面,使得與該平面最近的樣本點(diǎn)(即支持向量)到該平面的距離被最大化。正是這些支持向量在定義決策平面時(shí)起到了決定性的作用。通過最大化這個(gè)間隔,SVM能夠在遇到新的樣本時(shí)展現(xiàn)出更好的泛化性和穩(wěn)定性。對(duì)于非線性可分的數(shù)據(jù),SVM通過引入核技術(shù)解決了這一問題。核技術(shù)使數(shù)據(jù)能被映射到一個(gè)更高維度的空間上,在這個(gè)新空間中數(shù)據(jù)可能變得線性可分。常見的核技術(shù)包括線性核、多項(xiàng)式核和徑向基函數(shù)(RBF)核等,正確選擇核技術(shù)及其參數(shù)對(duì)于提升SVM的性能至關(guān)重要。SVM的優(yōu)勢在于其高度的準(zhǔn)確性、優(yōu)秀的泛化能力和較強(qiáng)的解釋性。特別是在處理具有較小樣本量和非線性特性的數(shù)據(jù)集時(shí),SVM能夠表現(xiàn)出良好的性能。通過最大化間隔,SVM確保了對(duì)新樣本的良好泛化。同時(shí),SVM的決策邊界和支持向量提供了明確的分類依據(jù)。盡管SVM有諸多優(yōu)點(diǎn),但它在處理大型數(shù)據(jù)集時(shí)可能會(huì)遇到較長的訓(xùn)練時(shí)間。此外,模型性能對(duì)核函數(shù)選擇和正則化參數(shù)的設(shè)定較為敏感,這要求在實(shí)踐中進(jìn)行細(xì)致的參數(shù)調(diào)優(yōu)以達(dá)到最優(yōu)性能。2.3貝葉斯優(yōu)化貝葉斯優(yōu)化是一個(gè)高效的全局優(yōu)化策略,通常用于調(diào)整機(jī)器學(xué)習(xí)模型的超參數(shù)。這種方法基于貝葉斯統(tǒng)計(jì)原理,利用一個(gè)代理模型來近似目標(biāo)函數(shù),并用它預(yù)測最優(yōu)解的位置。在貝葉斯優(yōu)化中,最初通過選擇若干初始點(diǎn)并評(píng)估目標(biāo)函數(shù)來訓(xùn)練代理模型。接著,基于當(dāng)前代理模型和采集函數(shù)來確定新的采樣點(diǎn),并在此點(diǎn)上評(píng)估真實(shí)的目標(biāo)函數(shù),隨后更新代理模型。這一過程會(huì)持續(xù)進(jìn)行,直至滿足如最大迭代次數(shù)、預(yù)算限制或性能基準(zhǔn)等預(yù)設(shè)的終止條件。由于其在樣本使用上的高效性,貝葉斯優(yōu)化廣泛應(yīng)用于超參數(shù)優(yōu)化,特別是在計(jì)算資源有限或目標(biāo)函數(shù)評(píng)估代價(jià)高昂的場景中,如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等計(jì)算密集型領(lǐng)域,貝葉斯優(yōu)化提供了一種有效的優(yōu)化手段。
3SVM模型在量化交易中的適用性及構(gòu)建分析3.1SVM模型在量化交易中的適用性及基本原理在當(dāng)今復(fù)雜多變的金融市場環(huán)境下,傳統(tǒng)投資方法已難以滿足高效、準(zhǔn)確、穩(wěn)定的交易需求。因此,引入機(jī)器學(xué)習(xí)模型如SVM構(gòu)建量化交易策略顯得尤為重要。SVM模型具有良好的泛化能力和適應(yīng)性,能準(zhǔn)確捕捉市場變化和趨勢,提高交易成功率。其處理小樣本和非平衡數(shù)據(jù)表現(xiàn)出色,有助提高交易穩(wěn)定性和盈利能力。利用SVM構(gòu)建的策略可降低投資風(fēng)險(xiǎn),通過歷史數(shù)據(jù)分析和建模預(yù)測市場走勢,靈活調(diào)整策略降低損失。相較傳統(tǒng)方法,SVM更科學(xué)客觀地分析股市數(shù)據(jù),提高成功率和盈利能力。SVM是一種監(jiān)督學(xué)習(xí)模型,通過尋找最佳分割超平面最大化類別間邊界距離,其核心操作在于在特征空間內(nèi)進(jìn)行,將初始數(shù)據(jù)投射到一個(gè)更高的維度空間中,以便尋找到一個(gè)最合適的分離超平面。利用核方法,SVM能夠有效處理非線性問題,從而增強(qiáng)訓(xùn)練過程的效率。對(duì)于一個(gè)線性可分離的數(shù)據(jù)集合,支持向量機(jī)的目的是尋找一個(gè)分段超平面,如下圖:w支持向量機(jī)算法以最大限度地提高超平面與最近一個(gè)樣本點(diǎn)的間距,該區(qū)間被稱作“邊界”。最佳化問題可表示為:min約束條件為:subjectto對(duì)于非線性可分的數(shù)據(jù),SVM需要使用所謂的核技巧來進(jìn)行處理,這使得它能夠在原始空間中學(xué)習(xí)非線性關(guān)系,而無需顯式地映射到高維空間。支持向量機(jī)使用核技巧的一個(gè)重要特點(diǎn)就是可以對(duì)高維數(shù)據(jù)進(jìn)行處理,而不需要對(duì)其上的點(diǎn)進(jìn)行求解,因此可以避免“維數(shù)災(zāi)難”。SVM的核函數(shù)是SVM模型的核心組成部分,使用核函數(shù)可以讓我們更好地開發(fā)SVM訓(xùn)練算法。常見的核函數(shù)有如表3-11所示[15]:表3-1常見核函數(shù)核函數(shù)名稱數(shù)學(xué)公式線性核(LinearKernel)K(多項(xiàng)式核(PolynomialKernel)K(徑向基函數(shù)核(RadialBasisFunction,RBF)K(xSigmoid核K(使用核技巧后,SVM的優(yōu)化問題變?yōu)椋簃in約束條件為:0最終的決策函數(shù)為:f3.2函數(shù)的選擇和參數(shù)優(yōu)化3.2.1核函數(shù)選擇在股價(jià)預(yù)測中,如何選取以SVM為代表的機(jī)器學(xué)習(xí)模型對(duì)股價(jià)或走勢進(jìn)行預(yù)測是非常關(guān)鍵的。股市中的數(shù)據(jù)往往蘊(yùn)含著大量的非線性特征,隱含著隱含的趨勢,這就導(dǎo)致了傳統(tǒng)的線性預(yù)測方法難以準(zhǔn)確地反映出全部的信息。因此,徑向基函數(shù)(RBF)作為一種不同于線性核函數(shù)的核函數(shù),是解決此類問題的有效途徑。在此處,因?yàn)槲覀冞x擇使用核函數(shù),因此SVM模型的優(yōu)化目標(biāo)如下:min徑向基核函數(shù)公式如下:K圖3-1為使用徑向基核函數(shù)的SVM模型的圖示,圖中生成了一些隨機(jī)的環(huán)形數(shù)據(jù),并使用徑向基核函數(shù)的SVM模型進(jìn)行訓(xùn)練。然后,繪制了決策函數(shù)的曲面示意圖,其中曲面表示了模型在不同數(shù)據(jù)點(diǎn)處的決策值。在圖像中,可以看到曲面的形狀和變化,這反映了模型對(duì)數(shù)據(jù)的分類決策。曲面的高低和形狀取決于數(shù)據(jù)點(diǎn)在特征空間中的分布和分類邊界的位置。圖3-1徑向基核函數(shù)SVM模型圖中生成了一些隨機(jī)的環(huán)形數(shù)據(jù),并使用徑向基核函數(shù)的SVM模型進(jìn)行訓(xùn)練。然后,繪制了決策函數(shù)的曲面示意圖,其中曲面表示了模型在不同數(shù)據(jù)點(diǎn)處的決策值。在圖像中,可以看到曲面的形狀和變化,這反映了模型對(duì)數(shù)據(jù)的分類決策。曲面的高低和形狀取決于數(shù)據(jù)點(diǎn)在特征空間中的分布和分類邊界的位置。3.2.2參數(shù)優(yōu)化在對(duì)支持向量機(jī)(SVM)進(jìn)行分類預(yù)測的過程中,正確的參數(shù)選擇對(duì)于模型的預(yù)測效果至關(guān)重要。目前,支持向量機(jī)的參數(shù)選取主要有粒子群算法、遺傳算法、貝葉斯優(yōu)化和網(wǎng)格法等。在本項(xiàng)研究中,我們采用了貝葉斯優(yōu)化技術(shù)來進(jìn)行SVM參數(shù)的優(yōu)化。貝葉斯優(yōu)化的核心思想是構(gòu)建一個(gè)代理模型(通常是高斯過程)來近似目標(biāo)函數(shù),并利用這個(gè)模型來預(yù)測參數(shù)空間中性能最優(yōu)的參數(shù)組合。我們針對(duì)懲罰系數(shù)C和核函數(shù)參數(shù)gamma,運(yùn)用這種方法不斷更新代理模型,并使用采集函數(shù)來平衡探索和利用,從而有效地搜索參數(shù)空間。通過采用交叉驗(yàn)證法(如K折交叉驗(yàn)證)來評(píng)估每一組參數(shù)C和gamma的表現(xiàn),我們能夠持續(xù)優(yōu)化模型參數(shù),最終確定能夠在訓(xùn)練集上獲得最高精度的C和gamma參數(shù)組合。這種方法相比傳統(tǒng)的網(wǎng)格搜索,能更高效地探索參數(shù)空間,尤其是在參數(shù)維度較高或評(píng)估代價(jià)較大的情況下。3.3模型評(píng)價(jià)指標(biāo)因?yàn)槟P头矫孢x擇了徑向基核函數(shù)的SVM模型。那么在對(duì)模型進(jìn)行評(píng)價(jià)的時(shí)候,可以以使用分類模型的評(píng)價(jià)指標(biāo),如準(zhǔn)確率、精確率、召回率等。準(zhǔn)確率是最直觀的性能指標(biāo),它計(jì)算了所有預(yù)測中正確預(yù)測的比例。公式為:TP+TNTP+TN+FP+FN,其中,TP表示準(zhǔn)確預(yù)計(jì)的上漲,TN表示準(zhǔn)確預(yù)計(jì)的下跌,F(xiàn)P表示錯(cuò)誤預(yù)測上漲,F(xiàn)N表示錯(cuò)誤預(yù)測上漲。精確率關(guān)注于預(yù)測為正的樣本中,預(yù)測正確的比例。公式為:TPTP+FP。在股票市場預(yù)測中,精確度是指在所有被預(yù)測為上漲的日子里,真正上漲天數(shù)的占比。而召回率則衡量在所有實(shí)際上漲的樣本當(dāng)中,有多少被準(zhǔn)確識(shí)別出來的比例。公式為:TPTP+FN。在對(duì)一只股票進(jìn)行預(yù)測的時(shí)候,召回率就是在所有實(shí)際上升的天數(shù)中,準(zhǔn)確地預(yù)測到上升的百分比。F1值是精確率與召回率的和諧平均值,它是一種綜合性的評(píng)價(jià)指標(biāo)。公式為:2×(Precision×Recall)(
4基于SVM模型的滬深300成分股量化交易實(shí)證研究4.1股票的選擇滬深300股票池是由滬深300指數(shù)中的成分股組成,包含了中國A股市場中市值和流動(dòng)性較高的300家公司。選擇滬深300股票池是因?yàn)槠浜w了不同行業(yè)和領(lǐng)域的公司,投資者可以通過投資于滬深300股票池實(shí)現(xiàn)多元化投資,降低風(fēng)險(xiǎn)。滬深300指數(shù)代表了中國A股市場的主要走勢,有助于跟蹤市場整體表現(xiàn)。成分股具有較高流動(dòng)性,便于投資者買賣股票,降低交易成本??傮w來說,滬深300股票池是中國A股市場的代表性投資對(duì)象,具有多元化、高流動(dòng)性、市場代表性等優(yōu)勢。在初步構(gòu)建股票池時(shí),由于樣本數(shù)量較大,會(huì)直接剔除有基本面因子缺失的股票,最終留下224只滬深300成分股。選擇的基本面因子都是正向因子,其主要包括:每股收益,每股凈資產(chǎn),每股現(xiàn)金流量,每股股東自由現(xiàn)金流量,每股股東自由現(xiàn)金流量,凈資產(chǎn)收益率,資產(chǎn)報(bào)酬率,營業(yè)利潤率,流動(dòng)比率,速動(dòng)比率,現(xiàn)金比率,每股收益,總資產(chǎn),存貨周轉(zhuǎn)率,應(yīng)付賬款周轉(zhuǎn)率,資產(chǎn)負(fù)債率。通過對(duì)KMO、巴特利特等方法的分析,結(jié)果如表4-1,發(fā)現(xiàn)KMO值在0.6以上,顯著性水平在0.05以下,是適宜進(jìn)行因子分析的。表4-1KMO檢驗(yàn)和巴特利特檢驗(yàn)KMO和巴特利特檢驗(yàn)KMO取樣適切性量數(shù)。.693巴特利特球形度檢驗(yàn)近似卡方3175.052自由度136顯著性.000總方差解釋如表4-2所示。表4-2總方差解釋表總方差解釋成分初始特征值提取載荷平方和總計(jì)方差百分比累積%總計(jì)方差百分比累積%14.82728.39328.3934.82728.39328.39322.51114.76943.1622.51114.76943.16231.4228.36751.5291.4228.36751.52941.3688.0559.5791.3688.0559.579續(xù)表4-251.2327.24766.8251.2327.24766.82560.9935.84472.6690.9935.84472.66970.9035.3177.9790.9035.3177.97980.8735.13683.1150.8735.13683.11590.8064.73987.855100.7464.38992.243110.5843.43795.68120.3692.16997.85130.1570.92198.771140.1070.6399.4150.0720.42599.825160.0250.14799.972170.0050.028100通常來說,我們?cè)谶M(jìn)行因子分析時(shí),會(huì)選擇那些特征值超過1的因子作為公因子。但在本次實(shí)驗(yàn)中,由于存在三個(gè)因子的特征值緊鄰于1,為了增強(qiáng)解釋力,決定提取8個(gè)因子。通過查看總方差解釋表并計(jì)算每個(gè)因子的得分,根據(jù)這些因子對(duì)總方差的貢獻(xiàn)率來分配它們的權(quán)重。接著,利用這些權(quán)重對(duì)股票執(zhí)行評(píng)分,從而計(jì)算出每只股票的總體評(píng)分。根據(jù)綜合得分的前30來確定股票池中的30支優(yōu)勢股票。總得分=0.28393*成分一+0.14769*成分二+0.08367*成分三+0.08050*成分四+0.07247*成分五+0.05844*成分六+0.05310*成分七+0.05136*成份八公司名稱和股票代碼以及得分如表4-3:表4-3股票及其得分綜合得分表公司名稱股票代碼成分一得分成分二得分成分三得分成分四得分成分五得分成分六得分成分七得分成分八得分綜合得分愛美客30089610.08341-5.862972.08831.76458-1.317450.46644-1.6607-2.358512.04中航沈飛6007600.107641.68926.042494.08053-0.575031.401580.7201-0.638381.16泰格醫(yī)藥3003472.61224-1.514920.109080.597863.6776-0.601392.782362.053361.06續(xù)表4-3智飛生物3001221.661893.84712-1.986880.83792-0.35023-0.304781.160331.003721.01國投資本600061-0.060790.18854-0.705060.75220.5379411.674891.132364.206761.01貝泰妮3009573.61729-1.571050.381921.77866-1.92977-0.808043.34725-0.148870.95卓勝微3007824.03792-0.2223-1.6895-0.76091-0.7542-0.884281.227881.122150.93洋河股份0023041.222293.526822.27004-2.10021.925220.99289-0.6967-3.24180.88古井貢酒0005961.242721.794152.74796-0.789930.39894-0.16063-0.350111.827990.88中遠(yuǎn)海運(yùn)6019191.067713.84175-2.063374.85144-1.45271-1.83522-2.582632.138410.85長春高新0006611.616472.198611.45166-2.376580.40288-0.3909-0.760752.607930.81萬華化學(xué)6003090.66892.872871.521220.04518-0.02368-0.7152-0.199051.525160.77重慶啤酒6001320.961322.69009-1.903172.39163-1.72197-0.606143.29899-0.35690.7五糧液0008581.260281.853421.02265-1.468380.760770.26017-1.012350.734760.65東鵬飲料6054991.123971.48477-0.236320.67573-0.31367-0.467751.691840.475130.64分眾傳媒0020270.24918-0.25265-1.718782.293265.17275-0.622322.629961.328780.62杏花村6008091.386874.58855-1.30851-2.177932.002731.312921.65518-9.790440.59瀘州老窖0005680.90032.368290.09985-1.635970.90570.9634-0.17231-2.16260.48德業(yè)科技6051171.62135-0.11154-0.378670.18129-1.05827-1.072572.729070.851590.48邁為科技3007510.438551.201362.06274-0.8969-0.53696-0.371690.74521.644650.47歐派家居6038330.239051.098562.34355-0.105010.45815-0.08972-0.630650.847160.46公牛集團(tuán)6031950.773991.282380.6326-0.511650.374960.05942-0.62780.632620.45續(xù)表4-3贛鋒鋰業(yè)0024600.746180.560320.55191.11103-0.56077-0.08605-0.221620.896730.42寧德時(shí)代3007500.513590.781312.64802-0.73987-0.55923-0.839330.396261.235350.42邁瑞生物3007600.977761.62565-0.04938-1.729370.5335-0.27503-0.822731.257030.42合盛硅業(yè)6032600.534321.75444-0.47165-0.13337-0.34104-0.309820.099251.197120.38韋爾股份6035010.517071.380610.37817-0.422380.03296-0.38257-0.052060.883030.37康龍化成3007590.45027-0.014951.778620.80220.713190.33273-0.68361-0.239310.36中山華利3009790.843440.65738-0.493720.3322-0.12165-0.192040.74550.310980.36圓通速遞600233-0.52367-1.22421-0.432011.275695.4047-1.284313.975591.781640.364.2數(shù)據(jù)采集與預(yù)處理本研究以滬深300指數(shù)成分股為研究對(duì)象,對(duì)其自2020年1月1日至2023年1月1日期間正常交易日的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、成交量等進(jìn)行了統(tǒng)計(jì)分析。數(shù)據(jù)是通過Python中的Tushare庫的pro.daily方法來進(jìn)行獲取。對(duì)于每支股票,代碼計(jì)算了以下技術(shù)指標(biāo):移動(dòng)平均線(MA)::計(jì)算10日和20日的簡單移動(dòng)平均。指數(shù)移動(dòng)平均線(EMA):計(jì)算10日的指數(shù)移動(dòng)平均。相對(duì)強(qiáng)弱指數(shù)(RSI):一個(gè)動(dòng)量指標(biāo),用于評(píng)估股票價(jià)格的最近漲跌速度和變化,以識(shí)別超買或超賣條件。布林帶(BollingerBands):使用標(biāo)準(zhǔn)差來確定股票價(jià)格的上限和下限。MACD(MovingAverageConvergenceDivergence):一種趨勢跟蹤動(dòng)量指標(biāo),顯示兩個(gè)移動(dòng)平均之間的關(guān)系。接下來進(jìn)行了異常值的處理,對(duì)于每個(gè)特征,計(jì)算第一四分位數(shù)(Q1)和第三四分位數(shù)(Q3),以及四分位間距(IQR)。使用IQR來定義異常值的邊界(通常為Q1-1.5*IQR和Q3+1.5*IQR),并移除這些異常值。這有助于減少噪聲和異常值對(duì)模型的影響。進(jìn)行進(jìn)一步的數(shù)據(jù)檢查和處理,包括檢測缺失值和進(jìn)行最大最小歸一化處理。歸一化處理的目的是將成交量的值縮放到0到1之間,以消除數(shù)值范圍差異對(duì)模型的影響。整個(gè)預(yù)處理階段的目的是準(zhǔn)備和清洗數(shù)據(jù),確保數(shù)據(jù)格式和值的正確性,以及為接下來的機(jī)器學(xué)習(xí)模型訓(xùn)練和測試做好準(zhǔn)備。通過計(jì)算收盤價(jià)與開盤價(jià)之差、標(biāo)記漲跌、最大最小歸一化等步驟,數(shù)據(jù)被轉(zhuǎn)換成了模型可以直接使用的格式。方便接下來的操作。4.3模型的訓(xùn)練和測試在對(duì)30只股票進(jìn)行了數(shù)據(jù)收集和預(yù)處理后,然后對(duì)訓(xùn)練和測試集進(jìn)行分組,。這一次,我們選用的是徑向基函數(shù)。徑向基函數(shù)是一種比較常見的核函數(shù),尤其適合于數(shù)據(jù)集非線性可分時(shí)。該算法能夠?qū)?shù)據(jù)向高維空間進(jìn)行映射,從而使其在新的維度上具有線性可分割性。最后,利用貝葉斯優(yōu)化以尋找最優(yōu)的模型參數(shù)。貝葉斯優(yōu)化的結(jié)果如圖4-1。圖4-1貝葉斯優(yōu)化圖3中X軸表示超參數(shù)C的數(shù)值,Y軸表示在該超參數(shù)值下,模型通過交叉驗(yàn)證得到的平均性能指標(biāo)(如準(zhǔn)確率)。每個(gè)點(diǎn)的位置(y坐標(biāo))反映了在給定參數(shù)配置下,模型在交叉驗(yàn)證過程中的平均性能指標(biāo),如準(zhǔn)確率、精確率、召回率或F1分?jǐn)?shù)。這些性能指標(biāo)通常是通過多次交叉驗(yàn)證的平均結(jié)果得到的,以確保評(píng)估的穩(wěn)定性和可靠性。得到的最佳參數(shù):C為109.70919052074338,gamma為0.02061045404501547。在此基礎(chǔ)上,利用支持向量機(jī)模型對(duì)股價(jià)進(jìn)行了預(yù)測。然后,利用分類模型中的性能指標(biāo),包括準(zhǔn)確率、精確率、召回率、F1得分等,來評(píng)價(jià)該模型的性能。這些度量可以幫助我們更好地理解整個(gè)數(shù)據(jù)集上的模型性能。各項(xiàng)得分如圖4-2。圖4-2評(píng)價(jià)指標(biāo)準(zhǔn)確率:0.54精確率:0.53召回率:0.54F1分?jǐn)?shù):0.52雖然從指標(biāo)上來說各項(xiàng)指標(biāo)都不高,但是在股票預(yù)測領(lǐng)域,這樣的已經(jīng)是難能可貴了,這些指標(biāo)共同表明,模型在預(yù)測股票漲跌方面具有一定的可靠性和準(zhǔn)確性,意味著模型在一定程度上已經(jīng)能夠捕捉到影響股票漲跌的一些因素。此外,精確率和召回率均超過50%,表明模型在正確標(biāo)識(shí)股票漲跌方面具有一定的基礎(chǔ)效果。最終模型訓(xùn)練之后的C為109.7,gamma為0.0206。以下公式是支持向量機(jī)(SVM)的優(yōu)化目標(biāo),它涉及到最小化兩個(gè)部分的和:min這些是優(yōu)化問題的約束條件:ξ這些約束條件保持不變,因?yàn)樗鼈儾恢苯右蕾囉?C)或(\gamma)的值。以下為gamma為0.0206的RBF核函數(shù)公式:K4.4交易策略4.4.1交易策略的基礎(chǔ)設(shè)定初始資金和交易成本:初始資金設(shè)定為100000,每手交易為100股,交易成本為每次交易金額的0.15%,包含買入和賣出的手續(xù)費(fèi)。這意味著每次交易都需要考慮額外成本,這會(huì)直接影響交易策略的盈利能力。止盈止虧閾值:止盈閾值設(shè)定為10%,止虧閾值設(shè)定為-10%。這兩個(gè)參數(shù)是風(fēng)險(xiǎn)管理的關(guān)鍵,幫助交易者在預(yù)定的盈虧水平自動(dòng)退出市場,以鎖定利潤或限制損失。如果R≥0.10,則執(zhí)行賣出操作以鎖定利潤;如果R≤-0.10,則執(zhí)行賣出操作以限制損失。4.4.2交易策略的實(shí)施交易信號(hào)生成:交易信號(hào)是通過SVM模型預(yù)測得出的。模型輸入包括多個(gè)技術(shù)指標(biāo),如移動(dòng)平均線(MA10,MA20)、指數(shù)移動(dòng)平均線(EMA10)、相對(duì)強(qiáng)弱指數(shù)(RSI)、布林帶、MACD和信號(hào)線。模型輸出為二分類結(jié)果,1代表預(yù)測股價(jià)將上漲,0代表預(yù)測股價(jià)將下跌。移動(dòng)平均線:MA指數(shù)移動(dòng)平均線:EMA相對(duì)強(qiáng)弱指數(shù):RSI其中RS是平均漲幅與平均跌幅的比值:RS布林帶:上布林線=下布林線=買入策略:當(dāng)模型預(yù)測結(jié)果為1(即預(yù)測股價(jià)上漲)且當(dāng)前無持倉時(shí),根據(jù)當(dāng)前的資本情況計(jì)算可購買的最大股票數(shù)量(向下取整到最接近的100股)。買入時(shí)需要考慮到交易成本,包括交易手續(xù)費(fèi)。買入股票數(shù)量:股票數(shù)量=賣出策略:賣出策略分為兩種情況:1.如果持有股票的價(jià)格達(dá)到止盈點(diǎn)或止損點(diǎn),將執(zhí)行賣出操作,無論模型預(yù)測結(jié)果如何。止盈點(diǎn)設(shè)為買入價(jià)格的110%,止損點(diǎn)設(shè)為買入價(jià)格的90%。2.如果持有股票且模型預(yù)測結(jié)果變?yōu)?(即預(yù)測股價(jià)將下跌),則在下一個(gè)交易日開盤時(shí)賣出所有持股,以避免潛在的損失。止損價(jià)格:止損價(jià)格=買入價(jià)格止盈價(jià)格:止盈價(jià)格=買入價(jià)格4.4.3交易策略的風(fēng)險(xiǎn)和回報(bào)管理為了管理交
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年農(nóng)家樂承包經(jīng)營合同
- 2026年科研設(shè)施與儀器開放共享服務(wù)合同
- 2026年建筑醫(yī)院古太空合同
- 干細(xì)胞研究合作協(xié)議
- 2025年社區(qū)共享經(jīng)濟(jì)服務(wù)項(xiàng)目可行性研究報(bào)告
- 2025年全自動(dòng)洗衣機(jī)技術(shù)升級(jí)項(xiàng)目可行性研究報(bào)告
- 2025年在線醫(yī)療健康管理平臺(tái)項(xiàng)目可行性研究報(bào)告
- 2025年AI讀書機(jī)器人開發(fā)項(xiàng)目可行性研究報(bào)告
- 2025年水產(chǎn)品智能倉儲(chǔ)物流項(xiàng)目可行性研究報(bào)告
- 美工制作合同范本
- CJT 288-2017 預(yù)制雙層不銹鋼煙道及煙囪
- 2024年西安市政道橋建設(shè)集團(tuán)有限公司招聘筆試參考題庫含答案解析
- GB/T 5209-1985色漆和清漆耐水性的測定浸水法
- 12YJ6 外裝修標(biāo)準(zhǔn)圖集
- GB/T 14388-2010木工硬質(zhì)合金圓鋸片
- 大三上學(xué)期-免疫學(xué)第11章
- 《彈性波動(dòng)力學(xué)》課程教學(xué)大綱
- 關(guān)于績效考核與績效工資分配工作的通知模板
- 2023第九屆希望杯初賽六年級(jí)(含解析)
- OpenStack云計(jì)算平臺(tái)實(shí)戰(zhàn)課件(完整版)
- 中醫(yī)舌象舌診PPT課件
評(píng)論
0/150
提交評(píng)論