版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
II金融時(shí)間序列預(yù)測(cè)的基本理論綜述目錄TOC\o"1-3"\h\u5618金融時(shí)間序列預(yù)測(cè)的基本理論綜述 1289861.1金融時(shí)間序列的特征 1144111.2金融時(shí)間序列的數(shù)據(jù)預(yù)處理 2107661.1.1數(shù)據(jù)的差分處理 2191541.1.2數(shù)據(jù)的歸一化 2259951.1.3滑動(dòng)窗口技術(shù) 3165761.3ARIMA模型的基本理論 414621.3.1.ARIMA模型的原理 4268851.3.2ARIMA模型的構(gòu)建 4181001.2LSTM的基本理論 6318151.1.1LSTM內(nèi)部結(jié)構(gòu) 6326041.1.2LSTM的前向傳播過程 670701.1.3LSTM的損失函數(shù) 8254781.1.4LSTM的優(yōu)化器 8200271.1.5LSTM的超參數(shù)選擇 10157441.3模型效果的評(píng)估 11本章從四個(gè)部分展開介紹金融時(shí)間序列預(yù)測(cè)的基本理論:第一部分介紹金融時(shí)間序列的特征;第二部分介紹金融時(shí)間序列分析中常用的數(shù)據(jù)預(yù)處理方法;第三部分介紹ARIMA模型的基本理論以及模型構(gòu)建過程;第四部分介紹LSTM的結(jié)構(gòu)原理以及建模必要過程。1.1金融時(shí)間序列的特征時(shí)間序列是指按照一定的時(shí)間間隔(如每時(shí),每日,每周,每月,每年等)收集的一系列數(shù)據(jù)。根據(jù)時(shí)間的變化,將隨機(jī)變量的變化或隨機(jī)事件的產(chǎn)生用數(shù)據(jù)的形式記錄下來,形成的具有時(shí)間先后順序的一系列數(shù)據(jù)就是時(shí)間序列。而使用相關(guān)的方法和理論對(duì)時(shí)間序列進(jìn)行數(shù)據(jù)采集、處理、分析、以及預(yù)測(cè)序列未來變化趨勢(shì)的技術(shù)被稱為時(shí)間序列分析。根據(jù)收集數(shù)據(jù)的背景的不同,時(shí)間序列可以被分為很多種,金融時(shí)間序列就是其中之一。金融時(shí)間序列數(shù)據(jù)與普通時(shí)間序列的不同之處在于,它反映了金融市場(chǎng)在時(shí)間維度上的變化情況。在獨(dú)特的金融理論背景下,金融時(shí)間序列具有高復(fù)雜度、高噪聲、高混亂度、動(dòng)態(tài)性、非線性相關(guān)性以及非參數(shù)性等特點(diǎn)[28]。并且金融時(shí)間序列數(shù)據(jù)存在著多種不同的性質(zhì)(如趨勢(shì)性、季節(jié)性等),多為非平穩(wěn)序列。因此,在對(duì)金融數(shù)據(jù)進(jìn)行分析之前,需要預(yù)先消除數(shù)據(jù)中存在的的趨勢(shì)性和季節(jié)性等因素,使之轉(zhuǎn)變?yōu)槠椒€(wěn)序列。另外,金融數(shù)據(jù)還具有強(qiáng)烈的波動(dòng)性,在外界因素的作用下序列會(huì)隨著時(shí)間的前向推移不斷上下浮動(dòng)。隨機(jī)波動(dòng)會(huì)導(dǎo)致金融時(shí)間序列數(shù)據(jù)的趨勢(shì)在穩(wěn)步上升后突然下降或在逐漸下降后突然上升,想要對(duì)其準(zhǔn)確預(yù)測(cè)十分困難。1.2金融時(shí)間序列的數(shù)據(jù)預(yù)處理在采集到研究樣本后,時(shí)間序列分析的首要工作是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。首先分析數(shù)據(jù)的特征,然后根據(jù)數(shù)據(jù)特征以及研究需要對(duì)樣本采取恰當(dāng)?shù)念A(yù)處理機(jī)制。否則會(huì)受到數(shù)據(jù)中多種因素的干擾而難以挖掘到有效信息,預(yù)測(cè)結(jié)果欠佳。常見的用于預(yù)處理方法有:數(shù)據(jù)的差分處理、數(shù)據(jù)的歸一化和滑動(dòng)窗口技術(shù)等。1.1.1數(shù)據(jù)的差分處理金融時(shí)間序列大多具有非平穩(wěn)性的特點(diǎn),而傳統(tǒng)的時(shí)間序列模型只能針對(duì)平穩(wěn)時(shí)間序列建立模型。因此,需要對(duì)具有非平穩(wěn)性的樣本采取合適的算法進(jìn)行轉(zhuǎn)化,將其處理為平穩(wěn)性數(shù)據(jù)。目前應(yīng)用最廣的數(shù)據(jù)平穩(wěn)化方法是差分法。設(shè)一組序列為則對(duì)該序列進(jìn)行差分處理后得到的序列為:2-(1)經(jīng)過一次差分變換的得到的時(shí)間序列稱為一階差分序列,重復(fù)2-(1)的變換過程可以得到更高階數(shù)的差分序列。1.1.2數(shù)據(jù)的歸一化在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)研究領(lǐng)域里,對(duì)于使用梯度下降算法優(yōu)化的模型,特征的尺度將對(duì)其優(yōu)化效率產(chǎn)生很大的影響。如果不對(duì)樣本數(shù)據(jù)實(shí)行歸一化處理,當(dāng)數(shù)據(jù)相差較大不在同一尺度時(shí),會(huì)出現(xiàn)梯度迭代方向偏離最小值的情況。這將使得模型優(yōu)化效率降低,訓(xùn)練時(shí)間變長(zhǎng)。如圖1.1所示。圖1.SEQ圖\*ARABIC\s11尺度相差過大的梯度更新軌跡而對(duì)數(shù)據(jù)進(jìn)行歸一化處理,可以使得梯度更新的方向更接近最小值方向,大大提高訓(xùn)練速度,如圖1.2所示。圖1.SEQ圖\*ARABIC\s12歸一化處理后的梯度更新軌跡歸一化的第一步是提取數(shù)據(jù)集的最大值與最小值,然后對(duì)數(shù)據(jù)集所含全部序列值用如下公式進(jìn)行變換。2-(2)1.1.3滑動(dòng)窗口技術(shù)金融時(shí)間序列與普通時(shí)間序列相比,具有快速、大規(guī)模和持續(xù)的特點(diǎn),最新的數(shù)據(jù)往往對(duì)預(yù)測(cè)起著至關(guān)重要的作用。因此,序列中的最新信息是往往是金融市場(chǎng)參與者們的關(guān)注焦點(diǎn),它們是預(yù)測(cè)金融數(shù)據(jù)的關(guān)鍵。在面對(duì)龐大的數(shù)據(jù)時(shí),采用滑動(dòng)窗口技術(shù)可以始終保持以最新時(shí)段的數(shù)據(jù)作為模型的實(shí)時(shí)輸入。因此,滑動(dòng)窗口技術(shù)在金融時(shí)間序列預(yù)測(cè)領(lǐng)域得到廣泛應(yīng)用?;瑒?dòng)窗口技術(shù)對(duì)數(shù)據(jù)的處理原理如圖1.3所示。圖1.SEQ圖\*ARABIC\s13滑動(dòng)窗口技術(shù)其中表示模型的輸入,表示時(shí)間序列值,進(jìn)入(或離開)窗口的時(shí)間點(diǎn)表示為。為窗口的寬度,其中前個(gè)點(diǎn)為訓(xùn)練模型的歷史數(shù)據(jù),第點(diǎn)為時(shí)間序列的預(yù)測(cè)值。1.3ARIMA模型的基本理論1.3.1.ARIMA模型的原理ARIMA模型是目前最為常用的傳統(tǒng)時(shí)間序列模型,其原理與ARMA相似。而ARMA的原理如下所示:且:其中,代表模型的自回歸階數(shù),代表模型的移動(dòng)平均階數(shù),經(jīng)過上述過程建立的ARMA模型可表示為。ARIMA模型在ARMA的基礎(chǔ)上添加一步差分過程,解決了ARMA不能處理非平穩(wěn)數(shù)據(jù)的問題。首先對(duì)非平穩(wěn)數(shù)據(jù)進(jìn)行次差分處理,將其轉(zhuǎn)化為平穩(wěn)時(shí)間序列,隨后對(duì)轉(zhuǎn)化后的數(shù)據(jù)應(yīng)用模型建模,形成最終的。1.3.2ARIMA模型的構(gòu)建ARIMA模型的構(gòu)建過程大致分為平穩(wěn)性檢驗(yàn)、非白噪聲檢驗(yàn)、模型定階和模型檢驗(yàn),下面將對(duì)這幾個(gè)流程分別展開描述。1.平穩(wěn)性檢驗(yàn)ARIMA模型是平穩(wěn)時(shí)間序列的過去誤差和過去序列值的線性組合,檢驗(yàn)研究樣本是否平穩(wěn)是建模的前提。確定樣本的平穩(wěn)性后才能對(duì)模型參數(shù)進(jìn)行選擇。平穩(wěn)性分為嚴(yán)平穩(wěn)和寬平穩(wěn)[31],ARIMA模型中的平穩(wěn)性條件是寬平穩(wěn)。當(dāng)時(shí)間序列的主要性質(zhì)近似穩(wěn)定(二階矩平穩(wěn)),即時(shí)間序列滿足:a.,;b.,為常數(shù);c.,且,。其中表示常數(shù),則稱具有寬平穩(wěn)性。常用的檢驗(yàn)方法為圖檢法與ADF檢驗(yàn)法結(jié)合。首先繪制樣本折線圖,觀察圖像走勢(shì),如果圖像未呈現(xiàn)明顯趨勢(shì),可以初步判定為平穩(wěn)時(shí)間序列。隨后對(duì)序列進(jìn)行ADF檢驗(yàn),如果值大于提前設(shè)置的顯著性水平,則樣本非平穩(wěn)。針對(duì)非平穩(wěn)樣本,采用差分法對(duì)其變換,直至將其轉(zhuǎn)化成平穩(wěn)序列。1.非白噪聲檢驗(yàn)得到平穩(wěn)序列后,需要檢驗(yàn)其是否為白噪聲,白噪聲中含有的可提取信息極低,因此,如果數(shù)據(jù)為白噪聲,則失去了研究意義,需更換數(shù)據(jù)。常用的白噪聲檢驗(yàn)方法為L(zhǎng)jung-Box()檢驗(yàn),該方法的原假設(shè)和備擇假設(shè)為:檢驗(yàn)統(tǒng)計(jì)量為:其中,表示檢驗(yàn)樣本的長(zhǎng)度,表示樣本階自相關(guān)系數(shù),為滯后階數(shù)。如果值小于提前設(shè)置的顯著性水平,拒絕原假設(shè),則說明樣本序列之間存在自相關(guān)性,不為白噪聲序列。3.模型定階完成平穩(wěn)性檢驗(yàn)并證明序列不為白噪聲后,需要對(duì)模型定階,即選取合適的值和值。常用的方法是通過觀察自相關(guān)函數(shù)()圖和偏自相關(guān)函數(shù)()圖的拖尾性或截尾性特征來定階。定階規(guī)則如表1.1:表1.1ARIMA模型定階規(guī)則當(dāng)圖和圖的截尾或拖尾特征不好判斷時(shí),采用信息準(zhǔn)則法定階。常用的準(zhǔn)則和準(zhǔn)則。準(zhǔn)則計(jì)算公式為:2-(3)準(zhǔn)則計(jì)算公式為:2-(4)其中表示模型參數(shù)的數(shù)量,表示模型的極大似然函數(shù)。選擇或值最小的一組。4.殘差檢驗(yàn)選擇好模型階數(shù)后,即可對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練完成后可以得到殘差序列。殘差序列是樣本與模型估計(jì)值之差,如果殘差序列不為白噪聲,說明殘差中還殘留著部分信息,模型對(duì)樣本信息的提取不夠充分。在進(jìn)行殘差檢驗(yàn)時(shí)可以采取多種方法共同觀測(cè),如檢驗(yàn),自相關(guān)性檢驗(yàn),QQ圖檢驗(yàn),多種方法共同分析,可以使結(jié)果更全面準(zhǔn)確。1.2LSTM的基本理論LSTM是一類用于捕獲時(shí)間序列中蘊(yùn)含的長(zhǎng)期和短期依賴關(guān)系的特殊RNN模型。其在RNN的基礎(chǔ)上加入了門控結(jié)構(gòu),在一定程度上解決了RNN存在的長(zhǎng)期依賴問題。近年來,在深度學(xué)習(xí)領(lǐng)域得到廣泛應(yīng)用。1.1.1LSTM內(nèi)部結(jié)構(gòu)LSTM是一個(gè)高度復(fù)合的非線性參數(shù)函數(shù),它將一列向量通過隱含層映射到另一組向量。其內(nèi)部結(jié)構(gòu)如圖1.4所示。圖1.SEQ圖\*ARABIC\s14LSTM內(nèi)部結(jié)構(gòu)1.1.2LSTM的前向傳播過程LSTM通過門控結(jié)構(gòu)來決定信息傳遞至神經(jīng)元的程度。LSTM擁有三種門控結(jié)構(gòu),分別為遺忘門、輸入門、輸出門[33]。下面對(duì)這三種門控結(jié)構(gòu)展開描述。(1)遺忘門:遺忘門的作用是確定從神經(jīng)元中舍棄什么樣的信息,是LSTM前向傳播過程的第一步。設(shè)前一時(shí)間點(diǎn)的輸出值為,當(dāng)前時(shí)間點(diǎn)的輸入值為,門的偏置項(xiàng)設(shè)為,則遺忘門的輸出值表示為:其中表示遺忘門的權(quán)值向量,表示值域?yàn)閇0,1]的的函數(shù),其作用是決定信息傳輸?shù)谋戎?。?)輸入門:輸入門的作用是確定何種信息被放在神經(jīng)元中,由兩個(gè)部分組成,第一部分為輸入門層,其輸出值的表達(dá)式為:用來決定候選神經(jīng)元的輸入程度。第二部分通過層創(chuàng)建一個(gè)當(dāng)前時(shí)刻的候選細(xì)胞狀態(tài),表達(dá)式為其中為輸入門的權(quán)值矩陣和為偏置值,為神經(jīng)元經(jīng)過更新后的權(quán)值矩陣,為神經(jīng)元經(jīng)過更新后的偏置值。簡(jiǎn)單來說,輸入門通過函數(shù)創(chuàng)建新的輸入值,通過函數(shù)決定輸入比重。(3)神經(jīng)元的記憶更新在進(jìn)行上述過程后,獲得了時(shí)刻的控制信號(hào)、和候選細(xì)胞狀態(tài),可對(duì)時(shí)刻的細(xì)胞狀態(tài)進(jìn)行更新,得到時(shí)刻的細(xì)胞狀態(tài):(4)輸出門輸出門的作用是生成時(shí)刻LSTM結(jié)構(gòu)的輸出值,分兩步。第一步運(yùn)行一個(gè)層來產(chǎn)生一個(gè)值域?yàn)閇0,1]的控制信號(hào)。第二步運(yùn)用函數(shù)對(duì)細(xì)胞狀態(tài)進(jìn)行轉(zhuǎn)換,并通過計(jì)算它和層的輸出值的乘積,得到LSTM的輸出值。其中,和為輸出門的權(quán)值向量和偏置值。1.1.3LSTM的損失函數(shù)損失函數(shù)的提出是為了衡量預(yù)測(cè)值與實(shí)際樣本值的不一致程度。選擇合適的損失函數(shù)可以計(jì)算出LSTM每次迭代的輸出值與真實(shí)值的誤差,指導(dǎo)LSTM下一次迭代向著正確的方向進(jìn)行。LSTM中常用的損失函數(shù)有以下幾種:均方誤差(MSE)損失函數(shù)MSE表示樣本真實(shí)值與估計(jì)值之間歐式距離。設(shè)時(shí)刻的樣本值為,估計(jì)值為,MSE的函數(shù)表達(dá)式為:2-(3)交叉熵?fù)p失函數(shù)交叉熵是信息熵概念的延申,廣泛應(yīng)用于分類問題。其作用是度量?jī)蓚€(gè)概率分布間的差異性信息,衡量模型訓(xùn)練得到的概率分布與真實(shí)分布的差異情況。設(shè)時(shí)刻數(shù)據(jù)的真實(shí)概率為,模型訓(xùn)練得到的概率為,交叉熵?fù)p失函數(shù)的函數(shù)表達(dá)式為:1.1.4LSTM的優(yōu)化器神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的本質(zhì)是損失函數(shù)的最小化問題,求解這個(gè)問題的方法被稱為優(yōu)化器。常用的優(yōu)化器有以下幾類:1.隨機(jī)梯度下降法(SGD)其思路是沿著梯度方向前進(jìn)一定距離,該算法的更新規(guī)則如下:其中表示要更新的參數(shù),表示參數(shù)的目標(biāo)函數(shù)。SGD算法簡(jiǎn)單易實(shí)現(xiàn),但是也有一些不足,如選擇恰當(dāng)?shù)某跏紝W(xué)習(xí)率困難,且不同參數(shù)以同一學(xué)習(xí)率迭代等。1.自適應(yīng)梯度法(AdaGrad)AdaGrad的核心思想是在更新步長(zhǎng)時(shí),額外增加分母——梯度平方累積和的平方根。更新規(guī)則如下:其中為待更新的參數(shù),為第時(shí)間步的梯度,表示第時(shí)間步的梯度平方,為學(xué)習(xí)率。該算法能夠針對(duì)不同的參數(shù)選擇不同的更新速度。對(duì)于更新頻繁的梯度,隨著累積的分母項(xiàng)的逐漸增大,其更新步長(zhǎng)減小。而稀疏的梯度其分母項(xiàng)的累計(jì)速度較慢,因此更新步長(zhǎng)相對(duì)較大[34]。在數(shù)據(jù)分布稀疏的情境下,AdaGrad算法能實(shí)現(xiàn)更高效的收斂。但是隨著時(shí)間步的增加,AdaGrad的分母項(xiàng)的梯度平方不斷累積,分母項(xiàng)不斷增大,會(huì)使得學(xué)習(xí)率過小,參數(shù)更新速度過慢。3.RMSProp算法RMSProp算法在更新學(xué)習(xí)率時(shí),結(jié)合了梯度平方的指數(shù)移動(dòng)平均數(shù)[35]。這種做法克服了AdaGrad的梯度急劇減小的問題[35]。該算法的原理如下:a.計(jì)算時(shí)間步的梯度:b.計(jì)算梯度平方的指數(shù)移動(dòng)平均數(shù):其中表示指數(shù)衰減率。c.更新參數(shù):其中,作用是避免除數(shù)為0。為學(xué)習(xí)率。4.Adam算法Kingma和Ba(2014)[36]提出了Adam優(yōu)化器。該算法的進(jìn)步之處在于,計(jì)算更新步長(zhǎng)時(shí)綜合考慮了梯度的一階矩和二階矩。具體計(jì)算步驟如下:a.計(jì)算時(shí)間步的梯度:b.分別計(jì)算梯度的指數(shù)及指數(shù)平方的移動(dòng)平均值:上式中的初始值和的初始值統(tǒng)一設(shè)置為0。參數(shù)和分別表示和衰減率。c.對(duì)和進(jìn)行修正。由于中和的初始值均為0,在訓(xùn)練過程的初期會(huì)使得和更新方向偏向0。因此要對(duì)和進(jìn)行如下修正:d.更新參數(shù)。得到修正后的和后可對(duì)進(jìn)行更新:與AdaGrad算法和RMSProp算法相比,Adam具有諸多優(yōu)勢(shì)。算法簡(jiǎn)單易實(shí)現(xiàn),能自動(dòng)調(diào)整學(xué)習(xí)率,適用于梯度稀疏或梯度存在大量噪聲的情況。1.1.5LSTM的超參數(shù)選擇超參數(shù)是構(gòu)建模型過程中涉及的無法通過訓(xùn)練得到的參數(shù)。在構(gòu)建LSTM的過程中,隱藏層神經(jīng)元的數(shù)量、優(yōu)化器的初始學(xué)習(xí)率、滑動(dòng)窗口的長(zhǎng)度等均為超參數(shù),無法通過訓(xùn)練獲得。超參數(shù)的選擇會(huì)影響模型的預(yù)測(cè)結(jié)果,因此需要采取正確的算法進(jìn)行選擇。常用選擇算法有網(wǎng)格搜索和隨機(jī)搜索。網(wǎng)格搜索適合處理模型超參數(shù)較少(一般不大于三個(gè))的問題情境。其原理是對(duì)每個(gè)超參數(shù)預(yù)先給出搜索范圍,在所有超參數(shù)搜索空間的笛卡爾積中遍歷,找到使驗(yàn)證集誤差最小的超參數(shù)組合,如圖1.5所示。圖1.SEQ圖\*ARABIC\s15網(wǎng)格搜索隨機(jī)搜索是一種遍歷式的搜索方法,更易找
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中體育教學(xué)計(jì)劃與試題帶答案
- 中級(jí)茶葉加工工模擬練習(xí)題含參考答案
- gis考研題庫及答案
- 院感填空試題及答案
- 產(chǎn)后出血預(yù)防與處理培訓(xùn)試題(附答案)
- 牙科基本知識(shí)題庫及答案
- 教練員筆試題附答案
- 醫(yī)院管理中級(jí)考試題庫及答案
- 2025年醫(yī)療三基三嚴(yán)知識(shí)試題庫及參考答案
- 計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)試題及答案
- 《煤礦安全規(guī)程(2025)》防治水部分解讀課件
- 2025至2030中國新癸酸縮水甘油酯行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- JJF 2333-2025恒溫金屬浴校準(zhǔn)規(guī)范
- 尾礦庫閉庫綜合治理工程項(xiàng)目可行性研究報(bào)告
- 員工自互檢培訓(xùn)
- (2025年)司法考試法理學(xué)歷年真題及答案
- 隧道照明工程設(shè)計(jì)方案
- 2025年戰(zhàn)傷自救互救題庫及答案
- GB/T 24786-2025一次性使用聚氯乙烯醫(yī)用檢查手套
- 介入導(dǎo)管室知識(shí)培訓(xùn)課件
- 2025年高考高三物理一輪復(fù)習(xí)實(shí)驗(yàn)十四 測(cè)量玻璃的折射率課件
評(píng)論
0/150
提交評(píng)論