【《LSTM-Bspline分段預測模型的構建與實踐應用案例研究》18000字】_第1頁
【《LSTM-Bspline分段預測模型的構建與實踐應用案例研究》18000字】_第2頁
【《LSTM-Bspline分段預測模型的構建與實踐應用案例研究》18000字】_第3頁
【《LSTM-Bspline分段預測模型的構建與實踐應用案例研究》18000字】_第4頁
【《LSTM-Bspline分段預測模型的構建與實踐應用案例研究》18000字】_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

LSTM-Bspline分段預測模型的構建與實踐應用案例研究目錄TOC\o"1-3"\h\u5645第一章緒論 第一章緒論1.1研究背景和意義時間序列是一種將同一統(tǒng)計指標的數(shù)值按照其發(fā)生的時間順序排列而形成的序列。生活中一些常見的數(shù)據(jù)如股票收盤價、商品日銷量以及每日的氣候等都屬于時間序列的范疇。由此可見,時間序列的研究與我們的生活息息相關。時間序列分析的原理為,時間序列數(shù)據(jù)中蘊含著某些隨時間變量不斷變化的潛在信息。通過對數(shù)據(jù)處理分析,選取合適的時間序列模型,可以提取出時間序列中蘊含的內(nèi)在規(guī)律,根據(jù)這些規(guī)律,能夠預測出下一時間段數(shù)據(jù)可能達到的水平[1]。金融經(jīng)濟數(shù)據(jù)的預測是時間序列分析的一個重要研究方向。金融市場是國家經(jīng)濟體系中至關重要的一部分,一個國家金融市場的興衰反應了國家經(jīng)濟發(fā)展的狀況。因此,通過時間序列分析,尋找出蘊含在金融市場數(shù)據(jù)中潛在的規(guī)律有助于人們正確把握金融市場的變化情況以及發(fā)展趨勢,從而幫助金融投資者制定出更加合理的投資策略,減小投資風險,增加投資帶來的收益。同時可以給國家經(jīng)濟政策的調(diào)整提供數(shù)據(jù)基礎和理論依據(jù)。因此金融時間序列的分析一直受到眾多統(tǒng)計學們的關注。股票價格是一種典型的金融時間序列數(shù)據(jù)。我國第一張股票出現(xiàn)在1986年。我國股票市場從成立到現(xiàn)在,雖然經(jīng)歷了一段時間的成長,但仍處于發(fā)展的初期。其間,我國股票市場經(jīng)歷過從地位到高位,從高位到突破,也經(jīng)歷過從突破到跌破。這些變化反映出了股票的波動性特征。正因為股票市場如此令人難以捉摸,對股票走勢進行分析顯得尤為重要,因此本文選取股票收盤價數(shù)據(jù)作為研究對象,嘗試多種時間序列模型,預測股票收盤價的變化趨勢。ARIMA模型是最常用的時間序列模型之一。該模型在面對大量不間斷的數(shù)據(jù)時,有著較高的預測準確度,被廣泛應用于金融時間序列領域。但是ARIMA模型也存在著一些缺點,參數(shù)估計較為復雜,并且通過模型估計出的參數(shù)無法移植[2]。20世紀40年代,神經(jīng)網(wǎng)絡作為一種新的研究時間序列的工具被提出。隨著學者們不斷的研究,神經(jīng)網(wǎng)絡發(fā)展出多種變體。其中,循環(huán)神經(jīng)網(wǎng)絡(RNN)是一種專門處理時間序列的神經(jīng)網(wǎng)絡[3]。相較于傳統(tǒng)神經(jīng)網(wǎng)絡,RNN在處理時間序列時具有諸多優(yōu)勢。首先,其具有記憶能力,可以讀取歷史序列的信息,更好的挖掘樣本之間的時序關聯(lián)[4],對未來時刻的數(shù)據(jù)水平進行預測。其次,RNN可以用來處理任意長度的序列數(shù)據(jù)[5],這使得它在金融時間序列研究領域中得到更為廣泛的應用。但是RNN也存在不足之處,其自身的結構十分復雜,使得在處理大量數(shù)據(jù)時存在長期依賴的問題。當輸入的序列數(shù)據(jù)過長時,距離某時刻較遠的序列信息會被弱化甚至忽略。簡言之就是循環(huán)神經(jīng)網(wǎng)絡無法“記憶”距當前時刻較遠但對預測結果起決定作用的信息[6]。為了解決這個問題,2012年,GravesA[7]在RNN的基礎上做出了改進,提出了LSTM引入了線性連接和門控機制,在一定程度上解決了RNN中的長期依賴問題。B樣條曲線是一種用于處理函數(shù)逼近問題的非參數(shù)方法[8]。其結構特性優(yōu)良,逼近能力強,并且構造簡單,被廣泛應用于各個研究領域。Davis和Nihan(1991)[9]將非參數(shù)回歸方法用于時間序列分析,故本文考慮將B樣條曲線擬合應用于時間序列中。本文以LSTM作為基礎,將B樣條函數(shù)和LSTM結合,構建了LSTM-Bspline分段預測模型。分別使用ARIMA和LSTM模型以及LSTM-Bspline模型對同一組股票數(shù)據(jù)進行分析預測。通過將預測結果可視化,選取多種評價指標,對結果進行分析對比。從不同角度比較評價這三種方法的特點和預測效果的優(yōu)劣性,進而證明LSTM-Bspline模型的有效性。1.2國內(nèi)外研究現(xiàn)狀金融時間序列預測的模型大致可分為兩類,一類是以概率論和統(tǒng)計學作為理論基礎來構建的傳統(tǒng)時間序列模型;另一類是機器學習領域的人工神經(jīng)網(wǎng)絡模型。本節(jié)從這兩個方面出發(fā),分別展開介紹傳統(tǒng)時間序列模型研究現(xiàn)狀和人工神經(jīng)網(wǎng)絡的研究現(xiàn)狀。1.2.1傳統(tǒng)時間序列模型研究現(xiàn)狀傳統(tǒng)時間序列模型可分為確定性模型和隨機性模型。確定性模型認為時間序列是多種變化因素(如趨勢變化、季節(jié)變化、周期性變化和循環(huán)波動等)共同作用的結果[10]。針對上述各種變化因素,ClevelandRB和ClevelandWS(1990)[11]提出了STL(SeasonalandTrenddecompositionusingLoess)分解法。該方法結合了傳統(tǒng)線性回歸的簡潔性和非線性回歸的靈活性[12],但是其缺點在于對異常點具有健壯性,僅能處理加法模式的分解。針對時間序列中的周期變動和隨機變動問題,HamiltonJD(1994)[13]提出了移動平均法(MA)。該方法可以緩和時間序列中存在的周期變動和隨機波動等干擾因素,使序列的變化趨勢更為顯著[14]。但是,移動平均法也存在局限性。該方法有時會出現(xiàn)預測值停留在過去的水平的情況,無法預測未來出現(xiàn)的不同水平的波動。而且,MA依賴于大量的歷史數(shù)據(jù),在應用會產(chǎn)生由于樣本不足而導致預測結果欠佳的問題。在移動平均法的基礎上,DCMontgomery,JSGardiner和LAJohnson(1990)[15]提出了指數(shù)平滑法。該方法含參量低,易于實現(xiàn),并且可以適應性數(shù)據(jù)的變化模式并進行調(diào)整。但該方法仍有不足,它對數(shù)據(jù)的轉折點的識別能力較差,并且對于長期數(shù)據(jù)的預測結果不佳,多用于短期數(shù)據(jù)。在隨機性模型中,統(tǒng)計學家們利用隨機理論研究時間序列,探究由隨機因素引起的變化中潛在的規(guī)律。20世紀70年代,BoxG和JenkinsGM(1976)[16]提出了自回歸滑動平均模型(ARMA)。ARMA是自回歸模型(AR)與MA的結合體,適用于很大一類實際問題。其缺點是其參數(shù)估算比較繁瑣。隨后,在ARMA模型的基礎上,BoxG和JenkinsGM又提出了更為完善的ARIMA模型。ARIMA模型是對ARMA模型的改進,是ARMA模型與差分法相結合的產(chǎn)物。EngleRF(1982)[17]提出了自回歸條件異方差模型(ARCH),該方法可以描述出時間序列中隨時間變化的條件方差,[18]。在ARCH模型的基礎之上BollerslevT(1986)[19]提出了廣義ARCH模型,也稱為GARCH模型。GARCH模型是為了研究金融時間序列數(shù)據(jù)提出的模型,尤其對波動性的分析預測表現(xiàn)出色。1.2.2人工神經(jīng)網(wǎng)絡模型研究現(xiàn)狀人工神經(jīng)網(wǎng)絡模型具有優(yōu)秀的學習能力和抗干擾能力,擬合能力強,十分適用于預測金融時間序列[20]。McCullochWS和PittsW(1943)[21]根據(jù)生物學中神經(jīng)元的結構原理,構建了第一個神經(jīng)元模型(MP)。RosenblattF(1958)[22]提出了具有最簡單結構的人工神經(jīng)網(wǎng)絡模型——感知器模型,其結構簡單能夠解決相當復雜的問題。但是,它不能處理線性不可分問題。WerbosPJ(1974)[23]提出了著名的反向傳播(BP)算法,BP算法的計算分為兩個過程,分別為信號的正向傳播和誤差的反向傳播[24],適用于多層神經(jīng)元網(wǎng)絡。BP算法具有強大的信息處理能力,在處理函數(shù)復現(xiàn)問題時表現(xiàn)十分出色[25]。由于BP算法以梯度下降法基礎,因此在訓練具有多個隱藏層的深度網(wǎng)絡時,BP算法易陷入局部最小值。HopfieldJJ(1982)[26]首次提出了RNN,RNN是一種遞歸神經(jīng)網(wǎng)絡,該模型將序列數(shù)據(jù)作為輸入,在序列的演進方向進行遞歸并將所有循環(huán)單元按照鏈式連接[27]。RNN擅長對序列的非線性特征進行學習,被廣泛應用于自然語言處理(NLP)和各類時間序列的預測等領域。但是RNN也有缺點,當輸入序列的長度過大,RNN會產(chǎn)生長期依賴的問題[28]。針對這個問題,HochreiterS和SchmidhuberJ(1997)[29]在RNN的基礎上進行改進并提出了LSTM。LSTM是一種特殊的RNN,它通過設置門控結構,將短期記憶與長期記憶結合,通過控制記憶單元緩解了RNN的長期依賴的問題,在一定程度上防止了梯度的消失與爆炸。Chung(2015)[30]對LSTM模型進行了簡化,提出了門控循環(huán)單元(GRU)。相較于LSTM,GRU具有參數(shù)少,收斂快的優(yōu)點。但缺點也很明顯——面對較大的數(shù)據(jù)集時,其預測表現(xiàn)遠遜色于LSTM。1.3研究內(nèi)容與框架1.3.1研究內(nèi)容本文的選題是時間序列預測方向,研究對象為金融時間序列。主要研究內(nèi)容分為以下三個方面:對金融時間序列研究背景和意義進行描述,敘述金融時間序列預測的必要性,分析研究難點。對現(xiàn)有常用的時間序列模型——ARIMA、LSTM展開描述,介紹不同模型的理論依據(jù)、建模步驟、模型的優(yōu)缺點以及在金融時間序列中的應用情況。分析金融時間序列在不同時間段內(nèi)變化規(guī)律不同的特點,提出時間序列的分段擬合概念。將時間序列劃分成不同區(qū)間,采用B樣條方法對區(qū)間內(nèi)時間序列數(shù)據(jù)進行擬合。然后采用LSTM,提取上一區(qū)間內(nèi)的時序信息,來獲取當前區(qū)間內(nèi)B樣條基函數(shù)系數(shù)的估計值,進而求出區(qū)間內(nèi)序列的預測值。選取寶潔公司2009年2月至2020年12月的股票數(shù)據(jù)作為研究對象,將收盤價作為預測指標,分別使用ARIMA、LSTM、LSTM-Bspline模型進行實證分析。使用多種評價指標,在多種不同的角度對模型預測性能進行比較,分析不同模型之間的優(yōu)劣以及特點,證明LSTM-Bspline模型的可行性。1.3.2研究框架本文總體結構框架由五個章節(jié)構成。第一章為緒論。1.1節(jié)介紹了本文的研究背景與研究意義,闡明了金融時間序列的研究的必要性。1.2節(jié)對國內(nèi)外研究現(xiàn)狀進行介紹,敘述國內(nèi)外研究者針對時間序列問題提出的模型以及目前模型存在的局限性。1.3節(jié)對論文的研究內(nèi)容進行總體敘述,并給出論文的整體框架。第二章為金融時間序列預測的基本理論。2.1節(jié)介紹了金融時間序列特性,分析其與普通時間序列的不同。2.2節(jié)介紹了常用的金融時間序列預處理方法,并敘述不同數(shù)據(jù)預處理方法對預測模型的影響。2.3節(jié)對常用的傳統(tǒng)時間序列模型ARIMA進行展開介紹,敘述ARIMA模型的原理以及建模過程。2.4節(jié)對常用的神經(jīng)網(wǎng)絡模型LSTM展開介紹,敘述模型的內(nèi)部結構以及計算過程,并且介紹模型構建的基本流程。第三章為基于LSTM-Bspline的時間序列分段預測模型。3.1節(jié)提出時間序列的分段預測問題,分析分段預測的必要性。3.2節(jié)初步建立時間序列的分段擬合模型。3.3節(jié)介紹B樣條函數(shù)的定義、構造方法以及優(yōu)點。3.4節(jié)建立基于B樣條函數(shù)的時間序列分段擬合模型,并通過LSTM提取序列時序信息來獲取B樣條模型參數(shù)。第四章實證分析。本章選取寶潔公司的股票數(shù)據(jù)作為研究對象,將股票收盤價作為預測指標,4.1節(jié)對數(shù)據(jù)進行整體描述,并將數(shù)據(jù)可視化。4.2節(jié)至4.4節(jié)分別使用ARIMA模型、LSTM模型和LSTM-Bspline模型對收盤價進行預測,并分析結果。4.5節(jié)將不同模型的預測結果進行比較,證明LSTM-Bspline的有效性。第五章全文總結與展望。本章對全文的總體研究和工作進行全面的概括總結,補充說明目前論文研究中存在的有待改進的地方,提出未來在進一步的研究中需要努力和改進的方向。第二章金融時間序列預測的基本理論本章從四個部分展開介紹金融時間序列預測的基本理論:第一部分介紹金融時間序列的特征;第二部分介紹金融時間序列分析中常用的數(shù)據(jù)預處理方法;第三部分介紹ARIMA模型的基本理論以及模型構建過程;第四部分介紹LSTM的結構原理以及建模必要過程。2.1金融時間序列的特征時間序列是指按照一定的時間間隔(如每時,每日,每周,每月,每年等)收集的一系列數(shù)據(jù)。根據(jù)時間的變化,將隨機變量的變化或隨機事件的產(chǎn)生用數(shù)據(jù)的形式記錄下來,形成的具有時間先后順序的一系列數(shù)據(jù)就是時間序列。而使用相關的方法和理論對時間序列進行數(shù)據(jù)采集、處理、分析、以及預測序列未來變化趨勢的技術被稱為時間序列分析。根據(jù)收集數(shù)據(jù)的背景的不同,時間序列可以被分為很多種,金融時間序列就是其中之一。金融時間序列數(shù)據(jù)與普通時間序列的不同之處在于,它反映了金融市場在時間維度上的變化情況。在獨特的金融理論背景下,金融時間序列具有高復雜度、高噪聲、高混亂度、動態(tài)性、非線性相關性以及非參數(shù)性等特點[28]。并且金融時間序列數(shù)據(jù)存在著多種不同的性質(zhì)(如趨勢性、季節(jié)性等),多為非平穩(wěn)序列。因此,在對金融數(shù)據(jù)進行分析之前,需要預先消除數(shù)據(jù)中存在的的趨勢性和季節(jié)性等因素,使之轉變?yōu)槠椒€(wěn)序列。另外,金融數(shù)據(jù)還具有強烈的波動性,在外界因素的作用下序列會隨著時間的前向推移不斷上下浮動。隨機波動會導致金融時間序列數(shù)據(jù)的趨勢在穩(wěn)步上升后突然下降或在逐漸下降后突然上升,想要對其準確預測十分困難。2.2金融時間序列的數(shù)據(jù)預處理在采集到研究樣本后,時間序列分析的首要工作是對數(shù)據(jù)進行預處理。首先分析數(shù)據(jù)的特征,然后根據(jù)數(shù)據(jù)特征以及研究需要對樣本采取恰當?shù)念A處理機制。否則會受到數(shù)據(jù)中多種因素的干擾而難以挖掘到有效信息,預測結果欠佳。常見的用于預處理方法有:數(shù)據(jù)的差分處理、數(shù)據(jù)的歸一化和滑動窗口技術等。2.2.1數(shù)據(jù)的差分處理金融時間序列大多具有非平穩(wěn)性的特點,而傳統(tǒng)的時間序列模型只能針對平穩(wěn)時間序列建立模型。因此,需要對具有非平穩(wěn)性的樣本采取合適的算法進行轉化,將其處理為平穩(wěn)性數(shù)據(jù)。目前應用最廣的數(shù)據(jù)平穩(wěn)化方法是差分法。設一組序列為則對該序列進行差分處理后得到的序列為:2-(1)經(jīng)過一次差分變換的得到的時間序列稱為一階差分序列,重復2-(1)的變換過程可以得到更高階數(shù)的差分序列。2.2.2數(shù)據(jù)的歸一化在機器學習和深度學習研究領域里,對于使用梯度下降算法優(yōu)化的模型,特征的尺度將對其優(yōu)化效率產(chǎn)生很大的影響。如果不對樣本數(shù)據(jù)實行歸一化處理,當數(shù)據(jù)相差較大不在同一尺度時,會出現(xiàn)梯度迭代方向偏離最小值的情況。這將使得模型優(yōu)化效率降低,訓練時間變長。如圖2.1所示。圖2.SEQ圖\*ARABIC\s11尺度相差過大的梯度更新軌跡而對數(shù)據(jù)進行歸一化處理,可以使得梯度更新的方向更接近最小值方向,大大提高訓練速度,如圖2.2所示。圖2.SEQ圖\*ARABIC\s12歸一化處理后的梯度更新軌跡歸一化的第一步是提取數(shù)據(jù)集的最大值與最小值,然后對數(shù)據(jù)集所含全部序列值用如下公式進行變換。2-(2)2.2.3滑動窗口技術金融時間序列與普通時間序列相比,具有快速、大規(guī)模和持續(xù)的特點,最新的數(shù)據(jù)往往對預測起著至關重要的作用。因此,序列中的最新信息是往往是金融市場參與者們的關注焦點,它們是預測金融數(shù)據(jù)的關鍵。在面對龐大的數(shù)據(jù)時,采用滑動窗口技術可以始終保持以最新時段的數(shù)據(jù)作為模型的實時輸入。因此,滑動窗口技術在金融時間序列預測領域得到廣泛應用?;瑒哟翱诩夹g對數(shù)據(jù)的處理原理如圖2.3所示。圖2.SEQ圖\*ARABIC\s13滑動窗口技術其中表示模型的輸入,表示時間序列值,進入(或離開)窗口的時間點表示為。為窗口的寬度,其中前個點為訓練模型的歷史數(shù)據(jù),第點為時間序列的預測值。2.3ARIMA模型的基本理論2.3.1.ARIMA模型的原理ARIMA模型是目前最為常用的傳統(tǒng)時間序列模型,其原理與ARMA相似。而ARMA的原理如下所示:且:其中,代表模型的自回歸階數(shù),代表模型的移動平均階數(shù),經(jīng)過上述過程建立的ARMA模型可表示為。ARIMA模型在ARMA的基礎上添加一步差分過程,解決了ARMA不能處理非平穩(wěn)數(shù)據(jù)的問題。首先對非平穩(wěn)數(shù)據(jù)進行次差分處理,將其轉化為平穩(wěn)時間序列,隨后對轉化后的數(shù)據(jù)應用模型建模,形成最終的。2.3.2ARIMA模型的構建ARIMA模型的構建過程大致分為平穩(wěn)性檢驗、非白噪聲檢驗、模型定階和模型檢驗,下面將對這幾個流程分別展開描述。1.平穩(wěn)性檢驗ARIMA模型是平穩(wěn)時間序列的過去誤差和過去序列值的線性組合,檢驗研究樣本是否平穩(wěn)是建模的前提。確定樣本的平穩(wěn)性后才能對模型參數(shù)進行選擇。平穩(wěn)性分為嚴平穩(wěn)和寬平穩(wěn)[31],ARIMA模型中的平穩(wěn)性條件是寬平穩(wěn)。當時間序列的主要性質(zhì)近似穩(wěn)定(二階矩平穩(wěn)),即時間序列滿足:a.,;b.,為常數(shù);c.,且,。其中表示常數(shù),則稱具有寬平穩(wěn)性。常用的檢驗方法為圖檢法與ADF檢驗法結合。首先繪制樣本折線圖,觀察圖像走勢,如果圖像未呈現(xiàn)明顯趨勢,可以初步判定為平穩(wěn)時間序列。隨后對序列進行ADF檢驗,如果值大于提前設置的顯著性水平,則樣本非平穩(wěn)。針對非平穩(wěn)樣本,采用差分法對其變換,直至將其轉化成平穩(wěn)序列。2.非白噪聲檢驗得到平穩(wěn)序列后,需要檢驗其是否為白噪聲,白噪聲中含有的可提取信息極低,因此,如果數(shù)據(jù)為白噪聲,則失去了研究意義,需更換數(shù)據(jù)。常用的白噪聲檢驗方法為Ljung-Box()檢驗,該方法的原假設和備擇假設為:檢驗統(tǒng)計量為:其中,表示檢驗樣本的長度,表示樣本階自相關系數(shù),為滯后階數(shù)。如果值小于提前設置的顯著性水平,拒絕原假設,則說明樣本序列之間存在自相關性,不為白噪聲序列。3.模型定階完成平穩(wěn)性檢驗并證明序列不為白噪聲后,需要對模型定階,即選取合適的值和值。常用的方法是通過觀察自相關函數(shù)()圖和偏自相關函數(shù)()圖的拖尾性或截尾性特征來定階。定階規(guī)則如表2.1:表2.1ARIMA模型定階規(guī)則當圖和圖的截尾或拖尾特征不好判斷時,采用信息準則法定階。常用的準則和準則。準則計算公式為:2-(3)準則計算公式為:2-(4)其中表示模型參數(shù)的數(shù)量,表示模型的極大似然函數(shù)。選擇或值最小的一組。4.殘差檢驗選擇好模型階數(shù)后,即可對模型進行訓練,訓練完成后可以得到殘差序列。殘差序列是樣本與模型估計值之差,如果殘差序列不為白噪聲,說明殘差中還殘留著部分信息,模型對樣本信息的提取不夠充分。在進行殘差檢驗時可以采取多種方法共同觀測,如檢驗,自相關性檢驗,QQ圖檢驗,多種方法共同分析,可以使結果更全面準確。2.2LSTM的基本理論LSTM是一類用于捕獲時間序列中蘊含的長期和短期依賴關系的特殊RNN模型。其在RNN的基礎上加入了門控結構,在一定程度上解決了RNN存在的長期依賴問題。近年來,在深度學習領域得到廣泛應用。2.2.1LSTM內(nèi)部結構LSTM是一個高度復合的非線性參數(shù)函數(shù),它將一列向量通過隱含層映射到另一組向量。其內(nèi)部結構如圖2.4所示。圖2.SEQ圖\*ARABIC\s14LSTM內(nèi)部結構2.2.2LSTM的前向傳播過程LSTM通過門控結構來決定信息傳遞至神經(jīng)元的程度。LSTM擁有三種門控結構,分別為遺忘門、輸入門、輸出門[33]。下面對這三種門控結構展開描述。(1)遺忘門:遺忘門的作用是確定從神經(jīng)元中舍棄什么樣的信息,是LSTM前向傳播過程的第一步。設前一時間點的輸出值為,當前時間點的輸入值為,門的偏置項設為,則遺忘門的輸出值表示為:其中表示遺忘門的權值向量,表示值域為[0,1]的的函數(shù),其作用是決定信息傳輸?shù)谋戎?。?)輸入門:輸入門的作用是確定何種信息被放在神經(jīng)元中,由兩個部分組成,第一部分為輸入門層,其輸出值的表達式為:用來決定候選神經(jīng)元的輸入程度。第二部分通過層創(chuàng)建一個當前時刻的候選細胞狀態(tài),表達式為其中為輸入門的權值矩陣和為偏置值,為神經(jīng)元經(jīng)過更新后的權值矩陣,為神經(jīng)元經(jīng)過更新后的偏置值。簡單來說,輸入門通過函數(shù)創(chuàng)建新的輸入值,通過函數(shù)決定輸入比重。(3)神經(jīng)元的記憶更新在進行上述過程后,獲得了時刻的控制信號、和候選細胞狀態(tài),可對時刻的細胞狀態(tài)進行更新,得到時刻的細胞狀態(tài):(4)輸出門輸出門的作用是生成時刻LSTM結構的輸出值,分兩步。第一步運行一個層來產(chǎn)生一個值域為[0,1]的控制信號。第二步運用函數(shù)對細胞狀態(tài)進行轉換,并通過計算它和層的輸出值的乘積,得到LSTM的輸出值。其中,和為輸出門的權值向量和偏置值。2.2.3LSTM的損失函數(shù)損失函數(shù)的提出是為了衡量預測值與實際樣本值的不一致程度。選擇合適的損失函數(shù)可以計算出LSTM每次迭代的輸出值與真實值的誤差,指導LSTM下一次迭代向著正確的方向進行。LSTM中常用的損失函數(shù)有以下幾種:均方誤差(MSE)損失函數(shù)MSE表示樣本真實值與估計值之間歐式距離。設時刻的樣本值為,估計值為,MSE的函數(shù)表達式為:2-(3)交叉熵損失函數(shù)交叉熵是信息熵概念的延申,廣泛應用于分類問題。其作用是度量兩個概率分布間的差異性信息,衡量模型訓練得到的概率分布與真實分布的差異情況。設時刻數(shù)據(jù)的真實概率為,模型訓練得到的概率為,交叉熵損失函數(shù)的函數(shù)表達式為:2.2.4LSTM的優(yōu)化器神經(jīng)網(wǎng)絡訓練過程的本質(zhì)是損失函數(shù)的最小化問題,求解這個問題的方法被稱為優(yōu)化器。常用的優(yōu)化器有以下幾類:1.隨機梯度下降法(SGD)其思路是沿著梯度方向前進一定距離,該算法的更新規(guī)則如下:其中表示要更新的參數(shù),表示參數(shù)的目標函數(shù)。SGD算法簡單易實現(xiàn),但是也有一些不足,如選擇恰當?shù)某跏紝W習率困難,且不同參數(shù)以同一學習率迭代等。2.自適應梯度法(AdaGrad)AdaGrad的核心思想是在更新步長時,額外增加分母——梯度平方累積和的平方根。更新規(guī)則如下:其中為待更新的參數(shù),為第時間步的梯度,表示第時間步的梯度平方,為學習率。該算法能夠針對不同的參數(shù)選擇不同的更新速度。對于更新頻繁的梯度,隨著累積的分母項的逐漸增大,其更新步長減小。而稀疏的梯度其分母項的累計速度較慢,因此更新步長相對較大[34]。在數(shù)據(jù)分布稀疏的情境下,AdaGrad算法能實現(xiàn)更高效的收斂。但是隨著時間步的增加,AdaGrad的分母項的梯度平方不斷累積,分母項不斷增大,會使得學習率過小,參數(shù)更新速度過慢。3.RMSProp算法RMSProp算法在更新學習率時,結合了梯度平方的指數(shù)移動平均數(shù)[35]。這種做法克服了AdaGrad的梯度急劇減小的問題[35]。該算法的原理如下:a.計算時間步的梯度:b.計算梯度平方的指數(shù)移動平均數(shù):其中表示指數(shù)衰減率。c.更新參數(shù):其中,作用是避免除數(shù)為0。為學習率。4.Adam算法Kingma和Ba(2014)[36]提出了Adam優(yōu)化器。該算法的進步之處在于,計算更新步長時綜合考慮了梯度的一階矩和二階矩。具體計算步驟如下:a.計算時間步的梯度:b.分別計算梯度的指數(shù)及指數(shù)平方的移動平均值:上式中的初始值和的初始值統(tǒng)一設置為0。參數(shù)和分別表示和衰減率。c.對和進行修正。由于中和的初始值均為0,在訓練過程的初期會使得和更新方向偏向0。因此要對和進行如下修正:d.更新參數(shù)。得到修正后的和后可對進行更新:與AdaGrad算法和RMSProp算法相比,Adam具有諸多優(yōu)勢。算法簡單易實現(xiàn),能自動調(diào)整學習率,適用于梯度稀疏或梯度存在大量噪聲的情況。2.2.5LSTM的超參數(shù)選擇超參數(shù)是構建模型過程中涉及的無法通過訓練得到的參數(shù)。在構建LSTM的過程中,隱藏層神經(jīng)元的數(shù)量、優(yōu)化器的初始學習率、滑動窗口的長度等均為超參數(shù),無法通過訓練獲得。超參數(shù)的選擇會影響模型的預測結果,因此需要采取正確的算法進行選擇。常用選擇算法有網(wǎng)格搜索和隨機搜索。網(wǎng)格搜索適合處理模型超參數(shù)較少(一般不大于三個)的問題情境。其原理是對每個超參數(shù)預先給出搜索范圍,在所有超參數(shù)搜索空間的笛卡爾積中遍歷,找到使驗證集誤差最小的超參數(shù)組合,如圖2.5所示。圖2.SEQ圖\*ARABIC\s15網(wǎng)格搜索隨機搜索是一種遍歷式的搜索方法,更易找到使誤差最低的超參數(shù)組合,但當超參數(shù)數(shù)量過多時,搜索效率過低。此時可以采用速度更快的隨機搜索法。隨機搜索規(guī)則為:預先給每個超參數(shù)定義一個邊緣分布,使用隨機采樣法得到不同的參數(shù)組合,并選取使驗證集誤差最小的超參數(shù)組合,如圖2.6所示。圖2.SEQ圖\*ARABIC\s16隨機搜索隨機搜索法犧牲了部分準確性,但大幅縮短搜索時間,適用于模型超參數(shù)較多的情況。2.3模型效果的評估僅依靠圖像,無法得出模型確切的預測性能,因此需要選取合適的指標,對模型預測效果進行評估,常用的指標如下:絕對誤差(AE):絕對百分比誤差(APE):均方誤差(MSE):決定系數(shù)(R2):

第三章基于LSTM-Bspline的時間序列分段預測模型3.1.金融時間序列的分段預測問題許多金融時間序列(如股票),由于受到某段時期的政策或氣候影響,其變化規(guī)律呈現(xiàn)出階段性。即在不同時間段內(nèi),序列往往呈現(xiàn)出截然不同的變化規(guī)律。對于金融投資者來說,其關注的重點多為時間序列在某段時期內(nèi)的變化規(guī)律,而非序列的整體水平或在某個點的水平。比如相較于股票收盤價的整體均值或在某個時間點的值,股票投資者會更為關注股票的十日均線(股票收盤價每十天的均值)及其變化情況。目前常用的預測模型多為逐點預測,根據(jù)每個時間點前一段序列來預測當前時間點的值,即:然而,金融時間序列的變化呈現(xiàn)階段性,如果中的序列點橫跨不同的時間階段,其所蘊含的規(guī)律會截然不同,因此在對其分析時難以提取出正確的規(guī)律。針對逐點預測中的問題,本文建立LSTM-Bspline模型對時間序列進行分段預測。首先將金融時間序列分割成時間跨度相同的局部擬合區(qū)間,對區(qū)間內(nèi)的數(shù)據(jù)建立B樣條模型進行擬合。而B樣條模型的參數(shù)則通過LSTM進行獲取。3.2.時間序列的分段擬合模型3.2.1時間序列時間段的劃分金融時間序列往往在不同時間區(qū)間內(nèi)有著不同的變化規(guī)律,為研究不同時間區(qū)間內(nèi)的序列值變化情況,需要首先根據(jù)研究需要對序列進行劃分。設一組金融時間序列數(shù)據(jù)為,假設將每個時間點設置為一個局部擬合區(qū)間,則序列被分成個周期,,如3-1圖:圖3-SEQ圖\*ARABIC\s11時間序列分段示意圖3.2.2時間序列的分段擬合將第個局部擬合區(qū)間內(nèi)的第個時間點的序列值表示為。在第個局部擬合區(qū)間中,序列值會隨其序列索引值的變化而變化,且對于每一個索引值,都存在唯一的序列值與其對應,符合函數(shù)關系的定義。因此可以判斷序列值與其序列索引值之間存在函數(shù)關系。函數(shù)表達式如公式3-(1)所示。3-(1)由于金融時間序列與時間變量之間呈現(xiàn)一種高度復雜的非線性關系,且時間序列的序列值與序列索引值之間的函數(shù)關系缺少相應的先驗知識。因此,常用的參數(shù)模型難以對上式中的關系進行建模。B樣條曲線擬合是一種非參數(shù)回歸方法,適用于對不確定、非線性的函數(shù)關系進行建模。在對數(shù)據(jù)進行分析時,不需要大量的先驗知識,只需要足夠多的歷史數(shù)據(jù)作為支持,這與金融時間序列數(shù)據(jù)的特點相契合。因此,本章采用B樣條曲線來對局部擬合區(qū)間內(nèi)的序列值與其在區(qū)間內(nèi)的索引值之間的函數(shù)關系建立回歸模型。3.3B樣條擬合的介紹B樣條是一種用于處理函數(shù)逼近問題的工具。其結構特性優(yōu)良,逼近能力強,并且構造簡單,被廣泛應用于各個研究領域。B樣條曲線是在貝塞爾曲線的基礎上提出的,Bezier(1962)提出了貝塞爾曲線,用于汽車主體的設計。貝塞爾曲線擁有平移不變形和幾何結構不變性的優(yōu)點,然而在實際應用中,研究者們發(fā)現(xiàn)貝塞爾曲線存在一些局限性。其中最為顯著的問題在于,貝塞爾曲線在應用中無法進行局部修改,某個控制點位置的改動會引起曲線整體的變化。Gordon、Riesenfeld(1972)等人提出了B樣條曲線[36]。其解決了貝塞爾曲線無法進行局部修改的問題。B樣條曲線在改變某個控制點的位置時僅改變曲線控制點附近的部分,這使得B樣條曲線的調(diào)節(jié)更為靈活。3.3.1B樣條基函數(shù)的定義B樣條函數(shù)存在幾種不同的定義方法,不同定義方法雖然思路不同但是本質(zhì)相同。本章使用由Cox和deBoor[37]通過遞推方法定義的B樣條函數(shù),下面對其展開介紹。首先明確B樣條基函數(shù)的定義。設B樣條函數(shù)的定義區(qū)間為,則區(qū)間上的一組節(jié)點可以表示為:3-(2)在3-(2)中,表示B樣條基函數(shù)第個節(jié)點,。代表區(qū)間上內(nèi)節(jié)點的數(shù)量,表示B樣條基函數(shù)的次數(shù),其中和的取值范圍為正整數(shù)。由全部節(jié)點組成的向量被稱為節(jié)點向量(knotvector),半開區(qū)間被稱為第個節(jié)點區(qū)間(knotspan)。在區(qū)間上定義的內(nèi)節(jié)點數(shù)為次數(shù)為的全部B樣條基函數(shù)組成的集合可以表示為:根據(jù)Cox-deBoor遞推公式,得到第個次B樣條基函數(shù)的遞推表達式:第個次B樣條基函數(shù)的形成過程如圖3.2所示。圖3-SEQ圖\*ARABIC\s12B樣條基函數(shù)的形成過程3.3.2B樣條基函數(shù)的特點1.非負性。通過觀察公式可以發(fā)現(xiàn),對所有的,和,取值保持非負的。2.局部支撐性。在區(qū)間上非零,并且對于任意相鄰的節(jié)點,除了基函數(shù)外,其余基函數(shù)在區(qū)間都為零。3.單位分解性。上的非零的次B樣條基函數(shù)之和恒等于1。3.3.3B樣條函數(shù)回歸模型設是B樣條基函數(shù)在上張成的線性空間。假設可以被中的元素近似,即: 其中,表示B樣條基函數(shù)的系數(shù),是需要估計的參數(shù)。最常用的參數(shù)的估計方法為最小二乘估計,即求解使下式子達到最小的一組參數(shù)。其中表示系數(shù)向量,表示矩陣,表示響應變量。3.3.4B樣條節(jié)點的選取B樣條的節(jié)點決定了B樣條基函數(shù)的值,節(jié)點的選取會直接影響模型的擬合效果,因此確定合理的節(jié)點尤為重要。根據(jù)節(jié)點的間距特點,可以分為均勻節(jié)點和非均勻節(jié)點,當每個節(jié)點的間距相等,則稱為均勻節(jié)點,反之為非均勻節(jié)點。對于非均勻節(jié)點,其選取方法較為復雜,本文不再贅述。均勻節(jié)點的選取較為簡單,易于實現(xiàn),因此本文采用均勻節(jié)點的B樣條函數(shù)。對于均勻節(jié)點的B樣條,其節(jié)點的位置完全由內(nèi)節(jié)點的數(shù)量所決定,因此,只需要對進行參數(shù)選擇,即可完成節(jié)點的選擇。參數(shù)的選取方法可以采用公式2-(3)介紹的AIC準則,和公式2-(4)介紹的BIC準則進行選擇。3.4基于B樣條的時間序列分段擬合上一節(jié)介紹了B樣條的原理及優(yōu)點,本節(jié)使用B樣條方法來對公式3-(1)的關系建立模型。3.4.1區(qū)間內(nèi)序列值的B樣條擬合:對第個局部擬合區(qū)間內(nèi)的時間序列建立B樣條擬合模型,變量設置為第個周期中的序列索引值,。B樣條基函數(shù)的次數(shù)設為,區(qū)間設為,內(nèi)節(jié)點數(shù)為則得到如下方程:3-(3)其中,為第個局部擬合區(qū)間的B樣條系數(shù),僅隨著周期的索引值變化。預測的關鍵是求參數(shù)。3.4.2基于LSTM的B樣條參數(shù)求解由于為時間序列,因此第個局部擬合區(qū)間內(nèi)的序列值與第個區(qū)間內(nèi)序列值之間存在函數(shù)關系。在公式3-(3)中,第個局部擬合區(qū)間內(nèi)的序列值又由參數(shù)決定,因此可認為參數(shù)與第個局部擬合區(qū)間內(nèi)的序列值存在函數(shù)關系,即3-(4)LSTM在處理多種時間序列問題有多種優(yōu)勢,在上一章已經(jīng)介紹,因此本節(jié)采用LSTM對3-(4)函數(shù)關系建模。首先依據(jù)第個局部擬合區(qū)間內(nèi)的時間序列值構造變量序列。參照WeizhongZhang,LinMa等人(2010)[38]的構造方法,提取與周期內(nèi)個樣本的第一階,二階,三階,四階中心矩有關的信息。構造如下長度為的變量序列:我們將作為第個局部擬合區(qū)間LSTM模型的輸入,將作為LSTM模型的輸出,可建立如下關系:其中表示LSTM參數(shù),代表最后的隱藏狀態(tài),代表輸出層參數(shù)。上述一系列參數(shù)可以通過最小二乘法獲得,即:經(jīng)過對模型的訓練,可以得到第個局部擬合區(qū)間的B樣條基函數(shù)系數(shù)的預測值,將其代入公式3-(3),即可計算出第個局部擬合區(qū)間內(nèi)序列的預測值3.4.3模型的超參數(shù)選取本章將B樣條與LSTM結合構建模型,在建模過程中涉及的超參數(shù)有三個。1.局部擬合區(qū)間包含的序列點個數(shù)。2.B樣條均勻節(jié)點數(shù)量。3.LSTM神經(jīng)網(wǎng)絡隱藏層的包含的神經(jīng)元數(shù)量。模型超參數(shù)不大于三,因此依然采取第二章介紹的網(wǎng)格搜索完成參數(shù)選擇。其中對于超參數(shù),在實際應用中也可以根據(jù)研究需要人為設定?;谏鲜瞿P徒⒌牟襟E以及模型涉及的超參數(shù),本文將新提出的模型表達式表示為。

4實證分析為驗證本文提出的LSTM-Bspline模型的可行性,本文選取股票數(shù)據(jù)作為研究對象。股票數(shù)據(jù)是一種典型的金融時間序列,由于其受到氣候、政策等因素的影響,呈現(xiàn)出階段性變化的特點。本章將本文提出的方法與傳統(tǒng)的ARIMA以及LSTM模型比較,證明LSTM-Bspline模型在預測此類階段性變化數(shù)據(jù)時的優(yōu)越性。4.1實證數(shù)據(jù)4.1.1數(shù)據(jù)選取本文選取的數(shù)據(jù)是寶潔公司2009年2月至2020年12月的股價數(shù)據(jù)作為研究對象,數(shù)據(jù)來源于英為財情網(wǎng)站,部分數(shù)據(jù)如表4.1所示。表4.SEQ表\*ARABIC1寶潔公司股票數(shù)據(jù)日期收盤開盤高低交易量漲跌幅2009/2/353.9153.4954.0952.5414.90M1.62%2009/2/452.5254.3354.4552.2114.76M-2.58%2009/2/553.3252.2953.652.1317.73M1.52%2009/2/65453.4254.4653.0615.34M1.28%2009/2/952.9453.8953.9852.6713.42M-1.96%2009/2/1051.4552.7453.4650.9722.52M-2.81%2009/2/1151.1651.851.9150.8616.40M-0.56%2009/2/1251.2850.9351.449.9518.02M0.23%寶潔(PG)公司建立于1837年,是日用消費品行業(yè)的巨頭。因此其股票的走勢也在一定程度上反映了人們當前的消費水平以及世界經(jīng)濟狀況,因此,對其股票進行分析研究對我們了解當前以及未來的經(jīng)濟形勢有著重要意義。所選取的數(shù)據(jù)中包括股票當日最高價、最低價、收盤價、開盤價。其中,收盤價是多數(shù)市場參與者認可的研究指標,具有重要的研究意義。因此,本文選擇收盤價作為研究指標。4.1.2數(shù)據(jù)的描述所選時間段內(nèi)寶潔公司股票收盤價走勢如圖4.1所示。圖4.SEQ圖\*ARABIC\s11寶潔公司股票收盤價從圖中看,該時間段內(nèi)寶潔公司股票日收盤價數(shù)據(jù)總體呈現(xiàn)上漲趨勢,并伴隨著頻繁的波動。其間也經(jīng)歷過三次較大幅度的下降,分別是在2015年三四季度、2018年二三季度和2020年一二季度。數(shù)據(jù)的分布圖如圖4.2所示。圖4.SEQ圖\*ARABIC\s12寶潔公司股票收盤價分布圖通過觀察發(fā)現(xiàn),數(shù)據(jù)分布圖并非為單峰對稱的正態(tài)分布,而是總體呈現(xiàn)為非對稱分布偏態(tài)分布。其箱型圖如圖4.3所示。圖4.SEQ圖\*ARABIC\s13寶潔公司股票收盤價箱型圖在箱型圖中可以大致看出數(shù)據(jù)的中位數(shù)、最大值、最小值等信息。通過對數(shù)據(jù)進行分析,得到數(shù)據(jù)統(tǒng)計特征如表4.2所示。表4.SEQ表\*ARABIC2數(shù)據(jù)統(tǒng)計特征MeanStdMaxMin25%50%75%81.9520.61144.4944.1864.9080.0989.01觀察表格發(fā)現(xiàn),所選樣本數(shù)據(jù)的標準差和極差都較大,數(shù)據(jù)具有較強的波動性。4.2ARIMA模型的實證分析4.2.1數(shù)據(jù)預處理首先需要對數(shù)據(jù)集進行劃分,由于需要評價模型的預測性能,因此需要將原始樣本劃分為訓練集和測試集。首先在訓練集上訓練獲取模型參數(shù),然后對測試集上的數(shù)據(jù)進行預測,通過比較預測結果與測試集的誤差來評價模型的預測效果。本節(jié)將樣本劃分為訓練集和測試集。劃分比例為9:1。將寶潔公司2009年2月3日至2019年10月23日之間所有交易日的股票收盤價作為訓練集,共計2700個交易日的數(shù)據(jù);將寶潔公司2019年10月24日至2020年12月31日之間交易日的股票收盤價作為測試集,共計300個交易日的數(shù)據(jù)。訓練集和測試集數(shù)據(jù)分別如圖4.4和圖4.5所示。圖4.SEQ圖\*ARABIC\s14ARIMA模型訓練集數(shù)據(jù)圖4.SEQ圖\*ARABIC\s15ARIMA模型測試集數(shù)據(jù)4.2.2平穩(wěn)性檢驗首先觀察圖4.1,發(fā)現(xiàn)數(shù)據(jù)呈現(xiàn)出明顯的整體上升趨勢,故初步判斷其為非平穩(wěn)序列。將顯著性水平設置為0.05,對序列進行ADF檢驗,發(fā)現(xiàn)值為0.98,遠大于0.05。因此可以確定該樣本具有非平穩(wěn)性。因此需要對樣本進行差分變換。由于隨著差分次數(shù)的增加,會導致信息損失,因此,本文從一階差分開始處理,即對原始研究樣本進行公式2-(1)的處理。差分變換后的序列如圖4.6所示。圖4.SEQ圖\*ARABIC\s16差分處理后的序列觀察圖像可以發(fā)現(xiàn),樣本經(jīng)過差分變換后,不再同原始序列一樣呈現(xiàn)出較為明顯的上升趨勢,并且無明顯周期性變化,數(shù)據(jù)的值圍繞0軸上下波動,基本消除了趨勢,數(shù)據(jù)有穩(wěn)定的均值,因此,初步判定一階差分后的樣本序列為平穩(wěn)時間序列。為保證判斷的嚴謹性,繼續(xù)對差分后的數(shù)據(jù)進行ADF檢驗,值為,遠小于0.05,印證了經(jīng)過一階差分后的樣本具有平穩(wěn)性。4.2.3非白噪聲檢驗采用檢驗法驗證經(jīng)過一階差分變換后的樣本是否為非白噪聲,將顯著性水平設置為0.05。通過計算得到值為遠小于顯著性水平。因此可以判斷,一階差分后的樣本不為白噪聲,有可供提取的信息。4.2.4模型定階繪制一階差分后序列的圖(圖4.7)和圖(圖4.8)。圖4.SEQ圖\*ARABIC\s17差分序列的ACF圖圖4.SEQ圖\*ARABIC\s18差分序列的PACF圖觀察序列的圖和圖,發(fā)現(xiàn)圖像的的截尾現(xiàn)象或截尾現(xiàn)象并不明顯,不好據(jù)此作出判斷,無法依據(jù)此方法進行定階。因此使用信息準則作為模型定階的標準。根據(jù)經(jīng)驗,將ARIMA模型階數(shù)和的取值范圍設為之間的整數(shù)。確定參數(shù)取值范圍之后,對不同參數(shù)組合進行嘗試,計算每組參數(shù)的AIC得分,選擇AIC得分較小的模型為最優(yōu)模型。比較發(fā)現(xiàn)取時AIC取值最小,故最終得到模型。4.2.5殘差檢驗完成模型定階并進行訓練后,得到殘差序列。通過多種方法檢驗殘差序列中是否存在殘留信息。如果殘差內(nèi)仍有較多信息殘留,需要重新選擇模型。(1)白噪聲檢驗繪制殘差項的圖(圖4.9)和圖(圖4.10),觀察判斷其是否為白噪聲,圖像如下所示圖4.SEQ圖\*ARABIC\s19殘差序列ACF圖圖4.SEQ圖\*ARABIC\s110殘差序列PACF圖觀察殘差的和圖發(fā)現(xiàn),圖中的豎線全部位于藍色區(qū)域內(nèi),因此可以初步判斷殘差序列為白噪聲。對其進行檢驗進行驗證,發(fā)現(xiàn)值為0.97,遠大于0.05,因此判斷序列殘差為白噪聲。(2)自相關性檢驗對殘差序列進行自相關性檢驗,如果序列不存在自相關性,則說明其殘差中的信息被充分。本節(jié)采用德賓-沃森(DW)檢驗,當DW值顯著的接近于0或4時,說明被檢測的序列存在自相關性,當DW值接近于2時,則不存在自相關性[39]。經(jīng)過檢驗得到DW值為2.02,十分接近2,因此判斷殘差序列不存在相關性,信息提取較為充分。(3)正態(tài)性檢驗理想的殘差序列服從正態(tài)分布,本文采用最直觀的QQ圖對殘差進行檢驗如圖4.11所示。圖4.SEQ圖\*ARABIC\s111殘差序列QQ圖觀察圖像可以發(fā)現(xiàn)圖像點基本沿著分界線,故可以判斷,殘差序列基本服從正態(tài)分布。4.2.5模型預測利用最后得到的模型進行滾動預測,即首先用訓練集所有數(shù)據(jù)預測測試集第一項數(shù)據(jù);然后將訓練集的第一項剔除,并添加測試集第一項數(shù)據(jù),利用這新的一組數(shù)據(jù)對測試集第二項數(shù)據(jù)進行預測。依次類推,不斷用測試集中的數(shù)據(jù)更新訓練集,并始終保持用來預測的數(shù)據(jù)量與原訓練集數(shù)據(jù)量相同。預測結果如圖4.12所示。圖4.SEQ圖\*ARABIC\s112ARIMA模型預測結果4.2.6模型效果的評估本部分采用3.3節(jié)介紹的四種評價指標得到的模型預測效果如圖4.3所示。表4.SEQ表\*ARABIC3ARIMA模型預測效果評估m(xù)eanstdminmaxAE6.034.270.0524.93APE4.79%3.43%0.04%21.09%MSE54.56R20.46觀察表4.3發(fā)現(xiàn),ARIMA模型對收盤價預測的AE最小值為0.05,最大值為24.93。說明ARIMA對有的點預測準確,有的預測結果不理想,預測效果具有較大的起伏。平均AE為6.03,平均APE為4.79%,MSE為54.56說明模型預測的整體誤差不大,在可接受的范圍內(nèi);R2為0.46,低于0.5,不太理想,說明ARIMA模型對預測變量的解釋程度一般。綜合圖像和表格可以發(fā)現(xiàn),ARIMA模型可以大致預測出股票收盤價的發(fā)展趨勢,在個別點上預測準確,但是預測效果起伏較大,預測效果不穩(wěn)定。4.3LSTM模型的實證分析在上一部分ARIMA建模的過程中,通過平穩(wěn)性檢驗得到了收盤價數(shù)據(jù)不平穩(wěn)的結論,雖然進行差分處理后,ARIMA模型預測結果大致反映出數(shù)據(jù)的變化趨勢。但經(jīng)過差分后的序列會損失部分信息。在本節(jié)中,采用對時間序列平穩(wěn)性無要求的LSTM進行建模。4.3.1數(shù)據(jù)處理1.數(shù)據(jù)集劃分LSTM中存在超參數(shù),需要額外劃分出一個驗證集,其作用是對超參數(shù)進行調(diào)優(yōu)。將上一節(jié)劃分出的訓練集按照8:1分成新的訓練集和驗證集。全部數(shù)據(jù)被按照8:1:1分成了訓練集(圖4.13)、驗證集(圖4.14)和測試集(圖4.15)三部分。圖4.SEQ圖\*ARABIC\s113LSTM模型訓練集數(shù)據(jù)圖4.SEQ圖\*ARABIC\s114LSTM模型驗證集數(shù)據(jù)圖4.SEQ圖\*ARABIC\s115LSTM模型測試集數(shù)據(jù)2.數(shù)據(jù)的歸一化為提升模型的訓練效率,對數(shù)據(jù)進行歸一化處理。采用公式2-(2),將原始股票收盤價數(shù)據(jù)的值域縮小到。3.數(shù)據(jù)維度轉化在進行完數(shù)據(jù)集劃分的工作后,使用滑動窗口技術對數(shù)據(jù)進行處理,將數(shù)據(jù)轉化成適合作為LSTM模型輸入的形式。設時間序列長度為,時間窗口長度為。原始序列從一維轉化為二維,維度由從轉化為。4.3.2模型的構建1.損失函數(shù)的選取本節(jié)研究的是回歸問題,因此,選擇均方誤差作為損失函數(shù),即公式2-(3)。2.優(yōu)化器的選取在上一章中介紹了四種優(yōu)化器,相比于其他優(yōu)化器,Adam優(yōu)化器具有多種優(yōu)勢,也是目前被認為綜合效果最佳的優(yōu)化器,因此,本節(jié)選取Adam作為優(yōu)化器。3.超參數(shù)的選擇本部分建立LSTM模型中需要選擇的超參數(shù)主要有以下三個:(1)LSTM隱藏層神經(jīng)元的個數(shù),設為。(2)滑動窗口長度,設為。(3)每次進行優(yōu)化算法所輸入的樣本數(shù)量,設為。除以上三個,模型中其余超參數(shù)(如Adam算法的學習率參數(shù)),采用程序內(nèi)默認設置。對于上述三個超參數(shù),本節(jié)簡化了參數(shù)選擇過程,依據(jù)以往經(jīng)驗,預先對超參數(shù)作出合理假設。假設為訓練集樣本數(shù)的十分之一,即進行十次迭代即可完成一次完整的訓練。經(jīng)測試,在這個假設下,訓練過程中所得的梯度較為穩(wěn)定。在上述假設下,模型中需要選擇的參數(shù)為和,超參數(shù)數(shù)量較少,因此采用準確度更高的網(wǎng)格搜索法進行選擇。針對本文所建立的模型,在經(jīng)過大量實驗以及閱讀相關文獻[40]后,分別將和的搜索范圍設置為{6,12,24}和{5,10,15}。在遍歷了這9個模型之后,結果顯示,神經(jīng)元個數(shù)為24,窗口長度為20的模型其驗證誤差最低。4.3.3模型預測模型訓練完成后,進行預測,由于數(shù)據(jù)經(jīng)過歸一化處理,因此需要將模型輸出結果進行反歸一化處理,得到真實預測結果,即對預測序列進行如下計算:4-(1)其中表示原始序列,為最終預測結果。預測結果如圖4.16所示。圖4.SEQ圖\*ARABIC\s116LSTM模型預測結果4.3.4模型效果的評估依然采用評價指標AE,APE,MSE,R2來對模型的預測效果進行評估。表4.SEQ表\*ARABIC4LSTM模型預測效果評估m(xù)eanstdminmaxAE5.284.250.0322.96APE4.22%3.47%0.02%18.41%MSE45.97R20.54觀察表4.3發(fā)現(xiàn),LSTM模型對收盤價預測的AE最小值為0.03,最大值為22.96。雖然這兩項指標均低于ARIMA模型,但相差仍較大,說明LSTM模型仍存在預測效果起伏較大的問題。AE的標準差略低于ARIMA模型,說明LSTM模型的穩(wěn)定性比ARIMA較強。平均AE為5.28,平均APE為4.22%,MSE為45.97,均低于ARIMA,說明LSTM預測的整體誤差比ARIMA小。R2為0.54,高于0.5,說明預測變量中大部分的信息得到解釋。綜合圖像和表格可以發(fā)現(xiàn),LSTM模型的整體預測性能略高于ARIMA模型,但預測的穩(wěn)定性仍令人難以滿意。4.4LSTM-Bspline模型的實證分析股票數(shù)據(jù)在不同時間段內(nèi)會呈現(xiàn)不同的變化規(guī)律,LSTM-Bspline模型結合了LSTM與B樣條擬合的優(yōu)點,可以對時間序列進行分段預測。但模型的實際預測效果還未經(jīng)過驗證。在本節(jié)中,使用LSTM-Bspline模型來上述股票收盤價數(shù)據(jù)建立模型,并將模型預測效果與ARIMA以及LSTM的結果相對比。檢驗LSTM-Bspline是否有效。4.4.1數(shù)據(jù)處理1.局部擬合區(qū)間的劃分由于的LSTM-Bspline模型是一種分段預測模型,因此需要對數(shù)據(jù)集劃分局部擬合區(qū)間,即選取每個局部擬合區(qū)間內(nèi)包含的序列值。在股票市場中,十日均線是股票投資者們重點參考的一項指標,這說明每十天股票的變化情況具有較大的研究價值。因此,本節(jié)選取來進行局部擬合區(qū)間的劃分。每十天為一個局部擬合區(qū)間,3000個股票收盤價數(shù)據(jù)被等分成300個集合。2.樣本數(shù)據(jù)集的劃分本文建立的LSTM-Bspline模型以LSTM為基礎,訓練方法與LSTM模型相同。因此樣本數(shù)據(jù)集的劃分與上一節(jié)保持相同,即:按照8:1:1將數(shù)據(jù)分為訓練集,驗證集,測試集。訓練集包含2400個序列值,240個局部擬合區(qū)間。驗證集和測試集都包括300個序列值,30個局部擬合區(qū)間。數(shù)據(jù)的歸一化LSTM-Bspline模型與LSTM訓練過程相同,因此為提升訓練效率,仍對數(shù)據(jù)進行歸一化處理。模型輸入的轉化LSTM-Bspline模型第個局部擬合區(qū)間的輸入值為第個局部擬合區(qū)間內(nèi)的個樣本序列值的1、2、3、4階中心矩。因此采用公式3-(1)對原始序列進行處理。4.4.2模型的優(yōu)化器與超參數(shù)設置鑒于Adam算法的種種優(yōu)點,且為了使結果比較更為直觀,本節(jié)仍然選取與上節(jié)LSTM模型相同的Adam算法。LSTM-Bspline模型超參數(shù)共有三個,其中超參數(shù)已經(jīng)提前選定設置為10。只剩下B樣條等距內(nèi)節(jié)點數(shù)和LSTM隱藏層神經(jīng)元個數(shù)需要調(diào)整。超參數(shù)個數(shù)較少,采用網(wǎng)格搜索法對其進行選擇,其中的搜索范圍依然沿用上一部分的設定。參數(shù)的搜索范圍設為,對一共9個參數(shù)組合進行遍歷,選取使驗證集誤差最小的值。最終選取的超參數(shù),。4.4.3模型預測在對模型進行訓練后,對輸出結果進行公式4-(1)的反歸一化變換,得到預測結果如圖4.17。通過觀察可以發(fā)現(xiàn),LSTM-Spline模型對數(shù)據(jù)變化趨勢的擬合較為準確的,只是數(shù)值存在偏差。圖4.SEQ圖\*ARABIC\s117LSTM-Bspline模型預測結果4.4.4模型效果評估表4.SEQ表\*ARABIC5LSTM-Bspline模型預測效果評估m(xù)eanstdminmaxAE5.012.200.0111.59APE3.99%1.84%0.01%10.39%MSE30.05R20.70觀察表4.5發(fā)現(xiàn),LSTM-Bspline模型對收盤價預測的AE最小值為0.01,最大值為11.59。均為三個模型中最低,并且差距不大。AE的標準差僅為2.20,明顯低于ARIMA和LSTM模型,說明LSTM-Bspline的預測結果在三個模型中最為穩(wěn)定。平均AE為5.01,平均APE為3.99%,MSE為30.05,均為三個模型最低,說明LSTM-Bspline預測的整體準確度最高。R2為0.70,說明預測變量中的絕大部分的信息得到解釋。綜合圖像和表格可以發(fā)現(xiàn),LSTM-Bspline模型結果與實際值仍然有誤差,但是對序列變化趨勢的擬合較為準確,預測準確度和穩(wěn)定性都為三個模型中最佳。因此,總體而言LSTM-Bspline模型的預測性能在三個模型中最優(yōu)。4.4.5模型比較分析為了比較更為直觀,將三種預測方式的平均AE(MAE)、平均APE(MAPE)、MSE和R2放在同一表格進行直接對比,如表4.6所示。表4.SEQ表\*ARABIC6模型預測效果比較MPEMAPEMSER2ARIMA6.030.047954.560.46LSTM5.280.042245.970.54LSTM-BSpline5.010.039930.050.70觀察表格發(fā)現(xiàn),三個模型按照MPE、MAPE、MSE三項指標的從小到大排序均為LSTM-BSpline最小,LSTM次之、ARIMA最大;這說明,相較于ARIMA和LSTM模型,LSTM-BSpline的整體預測準確度更高,總體誤差最小。三個模型按照R2從小到大排序為:ARIMA最小,LSTM次之,LSTM-BSpline模型最大,這說明,相較于ARIMA和LSTM模型,LSTM-BSpline在預測時,原數(shù)據(jù)的變化被解釋的比例更大,模型擬合優(yōu)度更好。寶潔公司股票收盤價數(shù)據(jù)為非平穩(wěn)時間序列,ARIMA模型在進行差分處理時損失了部分數(shù)據(jù)信息,因此其結果遜色于LSTM模型。股票數(shù)據(jù)往往在不同時間段內(nèi)呈現(xiàn)不同的變化趨勢,LSTM-Bspline模型可以時間序列進行分段預測,對不同時間段內(nèi)的數(shù)據(jù)選擇不同的參數(shù)進行擬合,因此其預測效果優(yōu)于LSTM模型。第六章總結與展望6.1總結隨著國際形式日趨緊張,金融市場的變化牽動著每個公民的心,對金融時間序列進行合理的分析判斷愈加重要。然而復雜的國際形勢導致金融市場更加動蕩,金融數(shù)據(jù)的非線性、非平穩(wěn)性、不確定性等特點進一步加劇。這使得對金融市場進行正確判斷更為困難。針對這個問題,本文提出時間序列的分段預測概念,構建LSTM-Bspline模型對時間序列進行分段預測,可以挖掘出金融時間序列數(shù)據(jù)在不同時間段內(nèi)蘊含的不同變化規(guī)律。并現(xiàn)將本文主要工作總結如下:(1)介紹金融時間序列的研究意義,分析了金融時間序列的特點。對現(xiàn)有的較為流行的兩大預測模型——ARIMA模型、LSTM模型進行展開敘述,介紹兩模型的原理、結構,比較不同模型之間的優(yōu)劣性,并介紹建模步驟。(2)分析金融時間序列在不同時間段內(nèi)變化規(guī)律不同的現(xiàn)象,提出時間序列的分段預測概念并將B樣條函數(shù)與LSTM模型結合,建立時間序列的分段擬合模型。首先將時間序列劃分為等數(shù)量的局部擬合區(qū)間,然后對區(qū)間內(nèi)的序列使用B樣條函數(shù)進行擬合。而當前區(qū)間的B樣條基函數(shù)的系數(shù)與前一區(qū)間內(nèi)的序列值存在函數(shù)關系。因此采用LSTM模型對這種函數(shù)關系進行建模,通過訓練獲取當前區(qū)間的B樣條基函數(shù)的系數(shù),進而可以計算出當前區(qū)間內(nèi)的序列值。(3)為驗證LSTM-Bspline模型的預測效果,本文選擇股票作為研究對象,選取寶潔公司2006年2月到2019年1月共3000個交易日的股票收盤價作為研究樣本,將后300個數(shù)據(jù)作為測試集,分別采用ARIMA、LSTM和本文提出的LSTM-Bspline模型對未來300個交易日的收盤價進行預測,并將結果進行分析。通過比較預測結果的MAE、MAPE、MSE、R2發(fā)現(xiàn),LSTM-Bspline模型的整體預測結果優(yōu)于LSTM優(yōu)于ARIMA,證明本文構建的模型有效。6.2展望本文提出金融時間序列的分段預測概念,將LSTM與B樣條曲線結合,構建了分段預測模型LSTM-Bspline。雖然取得了不錯的預測效果,但是還存在著優(yōu)化空間,主要體現(xiàn)在以下幾個方面:1.模型的輸入變量本文依照前人的經(jīng)驗將其設置為過去時間段內(nèi)的一階、二階、三階、四階距,缺乏理論依據(jù)。因此,在后期可以嘗試對序列進行不同的處理作為輸入變量,比較預測效果,并尋找更為堅實理論支撐。2.模型的損失函數(shù)本文選取為泛用性強的均方誤差,未來可以考慮嘗試不同的損失函數(shù),通過比較結果來確定最符合模型的損失函數(shù)。3.為了簡化建模過程,本文默認選擇了均勻節(jié)點的B樣條函數(shù)進行擬合,并且在實證分析部分,預先設置了局部擬合區(qū)間的長度。在未來,為了進一步提升模型的預測性能,可以嘗試選取非等距B樣條曲線,并嘗試更多的模型超參數(shù)組合。這無疑會增加模型訓練的工作量,但可以作為本文未來的努力方向。

參考文獻

張美英,何杰.時間序列預測模型研究綜述[J].數(shù)學的實踐與認識,2011,41(18):189-195.劉靜,關偉.交通流預測方法綜述[J].公路交通科技,2004(03):82-85.張淑軍,張群,李輝.基于深度學習的手語識別綜述[J].電子與信息學報,2020,42(4).MatsubaI.Applicationofneuralsequentialassociatortolong-termstockpriceprediction[C]//[Proceedings]1991IEEEInternationalJointConferenceonNeuralNetworks.IEEE,1991:1196-1201.陳觀欽.基于深度學習的理解式中文短文本摘要生成方法研究[D].廣東工業(yè)大學.鞠春雷,聶方超,劉文崗,郭金山,張江石.基于長短期記憶網(wǎng)絡的礦工不安全行為研究[J].煤礦安全,2020,51(09):260-264.

GravesA.Supervisedsequencelabelling[M]//Supervisedsequencelabellingwithrecurrentneuralnetworks.Springer,Berlin,Heidelberg,2012:5-13.龔小龍.基于結構參數(shù)優(yōu)化的B樣條網(wǎng)絡時間序列預測模型及工業(yè)應用[D].湖南工業(yè)大學.DavisGA,NihanNL.Nonparametricregressionandshort-termfreewaytrafficforecasting[J].JournalofTransportationEngineering,1991,117(2):178-188.郝博乾.基于時間序列分析的股票預測模型研究[D].電子科技大學,2011.ClevelandRB,ClevelandWS.STL:Aseasonal-trenddecompositionprocedurebasedonLoess[J].Journalofofficialstatistics,1990,6(1):3-73..周魯天,梁睿,彭楠,等.基于ARIMA的礦山電網(wǎng)故障暫態(tài)行波波頭辨識及故障測距[J].電力自動化設備,2020,v.40;No.314(06):245-256.HamiltonJD.Timeseriesanalysis[M].Princetonuniversitypress,1994.趙嘯彬.基于數(shù)據(jù)挖掘的零售業(yè)銷售預測[D].

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論