版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)06長(zhǎng)短期記憶網(wǎng)絡(luò)目錄遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)0102長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理03超參數(shù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)性能影響04長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法05應(yīng)用實(shí)例:電力負(fù)荷預(yù)測(cè)01遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,FNN)是一種由多個(gè)神經(jīng)元層次組成的網(wǎng)絡(luò)結(jié)構(gòu),其中信息從輸入層逐層傳遞到各隱含層,最終到達(dá)輸出層。該網(wǎng)絡(luò)的處理過(guò)程具有明確的方向性,在這種結(jié)構(gòu)中,除輸出層外,每一層的輸出都會(huì)作為下一層的輸入。
前饋神經(jīng)網(wǎng)絡(luò)圖6-1單層前饋神經(jīng)網(wǎng)絡(luò)圖6-2多層前饋神經(jīng)網(wǎng)絡(luò)301遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN),也稱反饋神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)。與前饋神經(jīng)網(wǎng)絡(luò)不同,遞歸神經(jīng)網(wǎng)絡(luò)中至少存在一個(gè)反饋環(huán)路。遞歸神經(jīng)網(wǎng)絡(luò)既包含前饋連接,又具有反饋連接。這種結(jié)構(gòu)使得網(wǎng)絡(luò)能夠?qū)χ拜斎氲男畔⑦M(jìn)行記憶,并將其應(yīng)用于當(dāng)前輸出的計(jì)算中,從而保持?jǐn)?shù)據(jù)中的依賴關(guān)系。
遞歸神經(jīng)網(wǎng)絡(luò)圖6-3遞歸神經(jīng)網(wǎng)絡(luò)工作原理401遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)RNN的關(guān)鍵點(diǎn)之一就是他們可以用來(lái)連接先前的信息到當(dāng)前的任務(wù)上,當(dāng)預(yù)測(cè)下一時(shí)刻的輸出時(shí),有時(shí)需要依賴于若干個(gè)時(shí)間步之前的輸入信息,即“長(zhǎng)期依賴現(xiàn)象”。
長(zhǎng)期依賴現(xiàn)象圖6-4遞歸神經(jīng)網(wǎng)絡(luò)長(zhǎng)期依賴現(xiàn)象501遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)反饋結(jié)構(gòu)的引入使得遞歸神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)時(shí)間序列時(shí),需要反復(fù)進(jìn)行相同的計(jì)算,并且由于參數(shù)共享,這種結(jié)構(gòu)容易導(dǎo)致梯度消失或者梯度爆炸,使得學(xué)習(xí)長(zhǎng)期依賴關(guān)系變得極具挑戰(zhàn),即“長(zhǎng)期依賴問(wèn)題”。
長(zhǎng)期依賴問(wèn)題產(chǎn)生原因圖6-5遞歸神經(jīng)網(wǎng)絡(luò)長(zhǎng)期依賴問(wèn)題601遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)為了解決上述問(wèn)題,多種遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)被提出。下面的幾種網(wǎng)絡(luò)結(jié)構(gòu)主要是對(duì)遞歸神經(jīng)網(wǎng)絡(luò)中的參數(shù)傳遞機(jī)制進(jìn)行優(yōu)化,減少冗余信息記憶帶來(lái)的問(wèn)題。
長(zhǎng)期依賴問(wèn)題解決方案設(shè)定循環(huán)的隱藏層單元:回聲狀態(tài)網(wǎng)絡(luò)(EchoStateNetwork,ESN),液態(tài)狀態(tài)機(jī)(LiquidStateMachine,LSM)多個(gè)時(shí)間尺度的模型:在時(shí)間展開(kāi)方向增加跳躍連接、滲漏單元使用不同時(shí)間常數(shù)去處理信息門(mén)控RNN(gatedRNN):長(zhǎng)短期記憶網(wǎng)絡(luò)(Longshort-termmemory,LSTM),門(mén)控循環(huán)單元(Gatedrecurrentunit)701遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)Bengio等人提出標(biāo)準(zhǔn)RNN存在梯度消失和梯度爆炸的困擾。這兩個(gè)問(wèn)題都是由于RNN的迭代性引起的,導(dǎo)致其在早期并沒(méi)有得到廣泛的應(yīng)用。隨時(shí)間反向傳播(Backpropagationthroughtime,BPTT)算法,假設(shè)對(duì)于序列通過(guò)將上一時(shí)刻的狀態(tài)映射到下一時(shí)刻的狀態(tài)。T時(shí)刻損失函數(shù)關(guān)于參數(shù)的梯度為:根據(jù)鏈?zhǔn)椒▌t。Jacobian矩陣分解如下:
梯度消失和梯度爆炸(6-1)(6-2)801遞歸神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)循環(huán)網(wǎng)絡(luò)若要可靠地存儲(chǔ)信息,<1,也意味著當(dāng)模型能夠保持長(zhǎng)距離依賴時(shí),其本身也處于梯度消失的情況下。隨著時(shí)間跨度增加,梯度也會(huì)以指數(shù)級(jí)收斂于0。當(dāng)>1時(shí),將發(fā)生梯度爆炸的現(xiàn)象,網(wǎng)絡(luò)也陷入局部不穩(wěn)定。
梯度消失和梯度爆炸圖6-6梯度爆炸示例圖6-7梯度消失示例902長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理RNN的結(jié)構(gòu)按時(shí)間步長(zhǎng)展開(kāi),如下圖所示。RNN通過(guò)延遲遞歸使每個(gè)狀態(tài)都能傳輸并連接到下一個(gè)隱藏狀態(tài),并根據(jù)當(dāng)前輸入和前一狀態(tài)計(jì)算輸出。隱藏狀態(tài)和輸出可定義為:式中,是時(shí)刻的輸入向量;和是偏置項(xiàng);是非線性激活函數(shù);,和分別是輸入向量、隱藏狀態(tài)向量和輸出向量的連接權(quán)重。
標(biāo)準(zhǔn)RNN網(wǎng)絡(luò)結(jié)構(gòu)(6-3)(6-4)圖6-8RNN的結(jié)構(gòu)按時(shí)間步展開(kāi)1002長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理LSTM神經(jīng)網(wǎng)絡(luò)是標(biāo)準(zhǔn)RNN的一個(gè)變體。不同的是,LSTM神經(jīng)網(wǎng)絡(luò)將RNN中的基本單元替換為L(zhǎng)STM單元,可以更好地處理長(zhǎng)期依賴的梯度消失和梯度爆炸問(wèn)題?;綥STM單元的結(jié)構(gòu)如下圖所示。基本的LSTM單元通常包含三個(gè)輸入,分別是前一時(shí)刻的單元狀態(tài)、前一時(shí)刻的隱藏狀態(tài)和當(dāng)前時(shí)刻的輸入向量。
LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖6-9LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖1102長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理
LSTM網(wǎng)絡(luò)門(mén)控機(jī)制①遺忘門(mén)②輸入門(mén)③細(xì)胞狀態(tài)更新④輸出門(mén)(6-6)(6-5)(6-7)(6-8)(6-10)(6-9)(6-11)1202長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理
例6-1假設(shè)當(dāng)前時(shí)刻的輸入向量:=[0.1,0.2](對(duì)應(yīng)特征1的兩個(gè)維度),=[0.3,0.4](對(duì)應(yīng)特征2的兩個(gè)維度),前一時(shí)刻的隱藏狀態(tài):=[0.5],前一時(shí)刻的單元狀態(tài):=[0.6]。權(quán)重矩陣和偏置項(xiàng)為:=[0.1,0.2,0.3,0.4],=[0.6,0.7,0.8,0.9],=[0.4,0.5,0.6,0.7],=[1.0,1.1,1.2,1.3],=[1.0],=[0.5],=[0.6],
=[0.4],=[1.0],=[0.1],=[0.2],=[0.1]和=[0.3],試計(jì)算LSTM網(wǎng)絡(luò)輸出。圖6-10單個(gè)LSTM模塊1302長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理
例6-1輸入門(mén)輸出:遺忘門(mén)輸出:輸出門(mén)輸出:1402長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及工作原理
例6-1候選單元狀態(tài)輸出:更新單元狀態(tài):更新隱藏狀態(tài):網(wǎng)絡(luò)輸出:1503超參數(shù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)性能影響
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的超參數(shù)及其作用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的超參數(shù)是指在該網(wǎng)絡(luò)設(shè)計(jì)中和訓(xùn)練過(guò)程前需要預(yù)先設(shè)置的參數(shù),這些參數(shù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練過(guò)程和參數(shù)優(yōu)化有著重要影響。超參數(shù)的選擇對(duì)模型的性能和泛化能力有顯著影響,因此正確的超參數(shù)設(shè)置對(duì)于達(dá)到最優(yōu)模型性能至關(guān)重要。學(xué)習(xí)率(Learningrate)用于調(diào)整梯度下降算法中權(quán)重的更新速率,學(xué)習(xí)率設(shè)置不當(dāng)可能導(dǎo)致模型訓(xùn)練不穩(wěn)定或無(wú)法收斂。正則化參數(shù)(Regularizationparameter)用于防止過(guò)擬合,通過(guò)在損失函數(shù)中加入正則化項(xiàng),可以迫使模型選擇更簡(jiǎn)單的結(jié)構(gòu)。1603超參數(shù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)性能影響
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的超參數(shù)及其作用神經(jīng)網(wǎng)絡(luò)的層數(shù)(Numberofhiddenlayers)和神經(jīng)元數(shù)量(Numberofneurons)則影響網(wǎng)絡(luò)的深度和寬度,增加層數(shù)和神經(jīng)元數(shù)量可以提高模型的學(xué)習(xí)能力,但也可能增加過(guò)擬合的風(fēng)險(xiǎn)。激活函數(shù)(Activationfunction)決定了神經(jīng)元的輸出信號(hào)如何處理,不同的激活函數(shù)對(duì)網(wǎng)絡(luò)性能和收斂速度有顯著影響。批處理大小(BatchSize)是指在更新模型權(quán)重時(shí)使用的訓(xùn)練樣本數(shù),較小的批量大小可以提高模型的泛化能力,但可能導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定,較大的批量大小加快訓(xùn)練速度,但增加內(nèi)存需求。此外,還有學(xué)習(xí)率衰減、動(dòng)量和權(quán)重衰減等其它用于優(yōu)化訓(xùn)練過(guò)程的超參數(shù)。1703超參數(shù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)性能影響
學(xué)習(xí)率、隱藏單元個(gè)數(shù)和層數(shù)的選擇對(duì)性能的影響學(xué)習(xí)率決定了模型在訓(xùn)練過(guò)程中權(quán)重更新的步長(zhǎng),表征了模型權(quán)重在每次更新時(shí)響應(yīng)估計(jì)誤差的程度。學(xué)習(xí)率的選擇直接影響了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和收斂性。如果學(xué)習(xí)率設(shè)置得太小,會(huì)導(dǎo)致訓(xùn)練過(guò)程過(guò)長(zhǎng),模型收斂速度過(guò)慢。如果學(xué)習(xí)率設(shè)置得太大,則可能導(dǎo)致模型在訓(xùn)練過(guò)程中產(chǎn)生震蕩,甚至無(wú)法收斂到最優(yōu)解。圖6-11不同學(xué)習(xí)率下?lián)p失函數(shù)隨迭代次數(shù)變化1803超參數(shù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)性能影響
學(xué)習(xí)率、隱藏單元個(gè)數(shù)和層數(shù)的選擇對(duì)性能的影響隱藏單元個(gè)數(shù)是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的另一個(gè)關(guān)鍵超參數(shù),需要根據(jù)具體任務(wù)和數(shù)據(jù)集的復(fù)雜程度進(jìn)行合理調(diào)整,以平衡模型的表達(dá)能力和泛化能力。如果隱藏單元數(shù)量過(guò)少,可能導(dǎo)致模型無(wú)法充分學(xué)習(xí)數(shù)據(jù)的特征,從而限制了模型的性能。而隱藏單元數(shù)量過(guò)多,則可能導(dǎo)致模型過(guò)擬合,降低了模型的泛化能力。圖6-12單個(gè)隱含層神經(jīng)元擬合曲線(欠擬合)圖6-1350個(gè)隱含層神經(jīng)元擬合曲線(過(guò)擬合)1903超參數(shù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)性能影響
學(xué)習(xí)率、隱藏單元個(gè)數(shù)和層數(shù)的選擇對(duì)性能的影響層數(shù)也是影響神經(jīng)網(wǎng)絡(luò)性能的一個(gè)重要因素,增加神經(jīng)網(wǎng)絡(luò)的層數(shù)可以提高模型的復(fù)雜度和表達(dá)能力,使其能夠?qū)W習(xí)更復(fù)雜的特征和模式。然而,隨著層數(shù)的增加,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度也會(huì)增大,需要更多的計(jì)算資源和時(shí)間來(lái)完成訓(xùn)練。同時(shí),過(guò)深的神經(jīng)網(wǎng)絡(luò)還可能導(dǎo)致梯度消失或爆炸等問(wèn)題,從而影響模型的性能。20圖6-14單層LSTM擬合曲線(擬合較好)圖6-1510層LSTM網(wǎng)絡(luò)擬合曲線(過(guò)擬合)04長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
超參數(shù)優(yōu)化的目標(biāo)與挑戰(zhàn)通過(guò)調(diào)整這些超參數(shù),可以平衡模型的訓(xùn)練速度和性能,以防止過(guò)擬合或欠擬合。超參數(shù)優(yōu)化的目標(biāo)主要是尋找最優(yōu)的超參數(shù)組合,使得模型在測(cè)試集上的誤差最小,從而提高模型的性能。然而,超參數(shù)優(yōu)化面臨著兩項(xiàng)主要挑戰(zhàn)。一方面,超參數(shù)優(yōu)化是一個(gè)組合優(yōu)化問(wèn)題,其搜索空間隨著超參數(shù)數(shù)量的增加而迅速擴(kuò)大,如何高效地搜索這個(gè)空間并找到最優(yōu)的超參數(shù)組合是首要挑戰(zhàn)。另一方面,評(píng)估一組超參數(shù)配置的性能通常需要訓(xùn)練模型并在驗(yàn)證集上測(cè)試,這通常需要大量的計(jì)算資源和時(shí)間,如何快速且準(zhǔn)確地評(píng)估超參數(shù)的性能是另一項(xiàng)挑戰(zhàn)。2104長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
超參數(shù)優(yōu)化的目標(biāo)與挑戰(zhàn)研究者們提出了一些超參數(shù)優(yōu)化的方法,包括網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化、基于梯度的優(yōu)化、群優(yōu)化算法和其它自動(dòng)化超參數(shù)優(yōu)化工具,如Hyperopt、Scikit-Optimize和RayTune等。這些方法各有優(yōu)缺點(diǎn),適用于不同的場(chǎng)景和需求。網(wǎng)格搜索和隨機(jī)搜索:可以系統(tǒng)地探索超參數(shù)空間,但可能需要大量的計(jì)算資源。貝葉斯優(yōu)化:可以利用已有的觀察結(jié)果來(lái)調(diào)整搜索策略,提高搜索效率。群優(yōu)化算法:模擬生物進(jìn)化過(guò)程來(lái)尋找最優(yōu)的超參數(shù)組合,具有全局搜索能力。2204長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
自適應(yīng)學(xué)習(xí)率算法自適應(yīng)學(xué)習(xí)率算法是一種在模型訓(xùn)練過(guò)程中根據(jù)學(xué)習(xí)步長(zhǎng)隨誤差曲面的變化來(lái)調(diào)整學(xué)習(xí)率的算法,其主要目的是達(dá)到縮短學(xué)習(xí)時(shí)間的效果。這種算法能夠根據(jù)模型的訓(xùn)練情況和數(shù)據(jù)的特點(diǎn)動(dòng)態(tài)地調(diào)整學(xué)習(xí)率,從而更高效地優(yōu)化模型參數(shù),有效地提高模型的訓(xùn)練速度和性能。常見(jiàn)的自適應(yīng)學(xué)習(xí)率算法包括自適應(yīng)梯度算法(AdaptiveGradientAlgorithm,
AdaGrad),均方根傳播算法(Rootmeansquarepropagation,RMSprop),自適應(yīng)矩估計(jì)算法(AdaptiveMomentEstimationAlgorithm,Adam)。2304長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
AdaGrad算法AdaGrad算法是一種基于梯度的優(yōu)化算法,借鑒L2正則化的思想,每次迭代時(shí)自適應(yīng)地調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,在第t次迭代時(shí),先計(jì)算每個(gè)參數(shù)梯度平方的累積值。式中,⊙為按元素乘積,是第τ次迭代時(shí)的梯度。參數(shù)更新為式中,α是初始的學(xué)習(xí)率,ε是為了保持?jǐn)?shù)值穩(wěn)定性而設(shè)置的非常小的常數(shù),一般取值e-7到e-10。此外,這里的開(kāi)平方、除、加運(yùn)算都是按元素進(jìn)行的操作。通過(guò)累積梯度平方的方式來(lái)自適應(yīng)地調(diào)整學(xué)習(xí)率,對(duì)低頻出現(xiàn)的參數(shù)進(jìn)行大的更新,對(duì)高頻出現(xiàn)的參數(shù)進(jìn)行小的更新。從而更加關(guān)注罕見(jiàn)特征的梯度。(6-12)(6-13)2404長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
RMSprop算法RMSprop算法是另一種自適應(yīng)學(xué)習(xí)率方法,它對(duì)AdaGrad算法進(jìn)行了改進(jìn),通過(guò)引入衰減系數(shù)來(lái)減小歷史梯度對(duì)學(xué)習(xí)率的影響,可以在某些情況下克服AdaGrad算法中學(xué)習(xí)率不斷單調(diào)下降以至于過(guò)早衰減的缺點(diǎn)。該算法首先計(jì)算每次選代梯度平方的加權(quán)移動(dòng)平均式中,β為衰減率,一般取值為0.9。參數(shù)更新為式中,α是初始的學(xué)習(xí)率,比如0.001。RMSprop算法和AdaGrad算法的區(qū)別在于RMSprop算法中的計(jì)算由累積方式變成了加權(quán)移動(dòng)平均。(6-14)(6-15)2504長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
Adam算法Adam算法可以看作動(dòng)量法和RMSprop算法的結(jié)合,不但使用動(dòng)量作為參數(shù)更新方向,而且可以自適應(yīng)調(diào)整學(xué)習(xí)率。Adam算法一方面計(jì)算梯度平方的加權(quán)移動(dòng)平均(和RMSprop算法類(lèi)似),另一方面計(jì)算梯度的加權(quán)移動(dòng)平均(和動(dòng)量法類(lèi)似)。式中,和分別為兩個(gè)移動(dòng)平均的衰減率,通常取值為=0.9,=0.99。我們可以把和分別看作梯度的均值(一階矩)和未減去均值的方差(二階矩)。(6-16)(6-17)2604長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
Adam算法假設(shè)=0,=0,那么在迭代初期
和
的值會(huì)比真實(shí)的均值和方差要小。特別是當(dāng)和都接近于1時(shí),偏差會(huì)很大,因此需要一階矩與二階矩修正如下:Adam算法的參數(shù)更新為Adam算法結(jié)合了動(dòng)量?jī)?yōu)化和RMSprop的特點(diǎn)計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率,它不僅具有動(dòng)量?jī)?yōu)化方法的快速收斂性,還能適應(yīng)非平穩(wěn)數(shù)據(jù)和大規(guī)模數(shù)據(jù)集。Adam算法在許多深度學(xué)習(xí)任務(wù)中表現(xiàn)優(yōu)秀。(6-18)(6-19)(6-20)2704長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
增長(zhǎng)-修剪型結(jié)構(gòu)設(shè)計(jì)算法神經(jīng)網(wǎng)絡(luò)的泛化能力被認(rèn)為是評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)性能優(yōu)劣的重要指標(biāo),而神經(jīng)網(wǎng)絡(luò)泛化性能的優(yōu)劣與網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)密不可分。確定合適的網(wǎng)絡(luò)結(jié)構(gòu)是LSTM神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的關(guān)鍵步驟之一,結(jié)構(gòu)過(guò)小或過(guò)大都會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的欠擬合或過(guò)擬合問(wèn)題。為了增強(qiáng)網(wǎng)絡(luò)的適應(yīng)性能和提高網(wǎng)絡(luò)的泛化能力,眾多學(xué)者致力于自組織神經(jīng)網(wǎng)絡(luò)(Self-organizingneuralnetwork,SONN)的研究,并取得了豐碩的成果。皮層網(wǎng)絡(luò)通過(guò)一系列影響其突觸和神經(jīng)元特性的可塑性機(jī)制表現(xiàn)出驚人的學(xué)習(xí)和適應(yīng)能力。這些機(jī)制允許大腦皮層的遞歸網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜時(shí)空刺激的表征。2804長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
增長(zhǎng)-修剪型結(jié)構(gòu)設(shè)計(jì)算法受這種可塑性原理的啟發(fā),本節(jié)提出一種基于神經(jīng)元影響值(Neuronimpactvalue,NIV)和顯著性指標(biāo)(Significanceindex,SI)的自組織長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Self-organizinglongshort-termmemoryneuralnetwork,SOLSTM),實(shí)現(xiàn)隱含層神經(jīng)元的動(dòng)態(tài)優(yōu)化,構(gòu)造出結(jié)構(gòu)緊湊且泛化性能好的網(wǎng)絡(luò)。圖6-16神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自組織示意圖2904長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
結(jié)構(gòu)剪枝算法初始化網(wǎng)絡(luò)模型結(jié)構(gòu),將輸入變量按照比例α
依次增加和減少,得到兩個(gè)新的輸入變量和。將新得到的輸入變量和分別通過(guò)網(wǎng)絡(luò)模型,得到兩組新的神經(jīng)元輸出和,二者差的絕對(duì)值即為神經(jīng)元對(duì)輸入變量按α比例增減后產(chǎn)生的響應(yīng)變化,記為。(6-21)(6-22)(6-23)3004長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
結(jié)構(gòu)剪枝算法由于神經(jīng)元影響值是神經(jīng)元活躍度的具體體現(xiàn),因此需要保留具有較大值的神經(jīng)元。這里,設(shè)定前m個(gè)神經(jīng)元的累積活躍度為,定義為式中,M是初始隱含層神經(jīng)元個(gè)數(shù)。通過(guò)設(shè)置累積活躍度閾值ξ,保留最活躍的前?比例且累積活躍γ高于ξ的神經(jīng)元。(6-24)3104長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
結(jié)構(gòu)剪枝算法抑制剩余對(duì)輸入變量變化不敏感的神經(jīng)元,即將它們的神經(jīng)元連接權(quán)值掩碼MASK置0。為保證SOLSTM神經(jīng)網(wǎng)絡(luò)的收斂性,將最大的第q個(gè)神經(jīng)元的輸出權(quán)值參數(shù)調(diào)整為式中,和是刪除d個(gè)神經(jīng)元前后第q個(gè)神經(jīng)元的輸出權(quán)值,和是刪除d個(gè)神經(jīng)元前第s
個(gè)神經(jīng)元和第q個(gè)神經(jīng)元的輸出值。神經(jīng)元剪枝后,將d個(gè)神經(jīng)元的參數(shù)設(shè)為零,而第q個(gè)神經(jīng)元除輸出權(quán)值外其余參數(shù)不變。(6-25)3204長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
結(jié)構(gòu)增長(zhǎng)算法與大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,LSTM神經(jīng)網(wǎng)絡(luò)的輸出層起到求和的作用。如果輸出權(quán)值的絕對(duì)值很大,則說(shuō)明該權(quán)值所連接的隱含層神經(jīng)元對(duì)網(wǎng)絡(luò)總輸出的貢獻(xiàn)也較大。為了改善神經(jīng)元過(guò)度修剪的情況,可以重新激活這些隱含層神經(jīng)元。因此,提出基于輸出權(quán)重的顯著性指標(biāo)SI來(lái)評(píng)價(jià)每個(gè)隱含層神經(jīng)元的貢獻(xiàn)。若SI值越大,則說(shuō)明對(duì)應(yīng)的隱含層神經(jīng)元對(duì)輸出的貢獻(xiàn)越顯著。因此,根據(jù)每個(gè)LSTM神經(jīng)元的貢獻(xiàn)顯著性,找出并激活最顯著的前β比例神經(jīng)元,即將它們的連接權(quán)值掩碼MASK置1。此外,為保證SOLSTM神經(jīng)網(wǎng)絡(luò)的收斂性,將激活神經(jīng)元的輸出權(quán)值初始化為(6-26)(6-27)3304長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
網(wǎng)絡(luò)結(jié)構(gòu)自組織算法實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的增長(zhǎng)和修剪,具體步驟如下:(1)選擇合適的參數(shù),包括LSTM神經(jīng)網(wǎng)絡(luò)參數(shù)如學(xué)習(xí)率η、網(wǎng)絡(luò)權(quán)值等,自組織過(guò)程參數(shù)如影響值比例α,活躍度閾值?,活躍神經(jīng)比例和顯著神經(jīng)元比例β等。(2)根據(jù)式(6-21)和式(6-22)按比例α
增加和減少輸入變量。(3)根據(jù)式(6-23)計(jì)算神經(jīng)元對(duì)輸入變量按α
比例增減后產(chǎn)生的響應(yīng)變化。(4)根據(jù)式(6-26)計(jì)算每個(gè)神經(jīng)元的顯著性指標(biāo)SI。(5)判斷是否滿足結(jié)構(gòu)剪枝的條件,滿足條件轉(zhuǎn)向(6),否則轉(zhuǎn)向(10)。3404長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化方法
網(wǎng)絡(luò)結(jié)構(gòu)自組織算法(6)將最活躍的前?比例且累積活躍度大于活躍度閾值
ξ
的前m個(gè)神經(jīng)元的連接權(quán)值掩碼MASK置1。對(duì)輸入變量變化不敏感的其余神經(jīng)元,將它們的神經(jīng)元連接權(quán)值掩碼MASK置0。(7)判斷是否滿足結(jié)構(gòu)增長(zhǎng)的條件,滿足條件轉(zhuǎn)向(8),否則轉(zhuǎn)向(10)。(8)找出并激活最顯著的前β比例神經(jīng)元,即將它們的連接權(quán)值掩碼MASK置1。(9)根據(jù)式(6-25)和(6-27)調(diào)整第q個(gè)神經(jīng)元的輸出權(quán)值,調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)網(wǎng)絡(luò)連接權(quán)值進(jìn)行調(diào)整。(10)利用自適應(yīng)學(xué)習(xí)率算法對(duì)神經(jīng)網(wǎng)絡(luò)的連接權(quán)值進(jìn)行調(diào)整。(11)滿足所有停止條件或達(dá)到計(jì)算步驟時(shí)停止計(jì)算,否則轉(zhuǎn)向(2)進(jìn)行重新訓(xùn)練。3505應(yīng)用實(shí)例:電力負(fù)荷預(yù)測(cè)
電力負(fù)荷預(yù)測(cè)該實(shí)例的數(shù)據(jù)來(lái)源為ETESA公布的巴拿馬地區(qū)采集的當(dāng)?shù)仉娏ω?fù)荷數(shù)據(jù),采集時(shí)間為2019年1月1日00:00~2019年12月31日23:00,采樣間隔為60min,數(shù)據(jù)集共計(jì)8759條數(shù)據(jù),如圖6-17所示。數(shù)據(jù)集的列名描述見(jiàn)表6-1。列名描述單位Datetime巴拿馬時(shí)區(qū)UTC-05:00對(duì)應(yīng)的日期時(shí)間---week_X-2負(fù)荷滯后于預(yù)報(bào)前第2周MWHweek_X-3負(fù)荷滯后于預(yù)報(bào)前第3周MWHweek_X-4負(fù)荷滯后于預(yù)報(bào)前第4周MWHMA_X-4負(fù)荷滯后移動(dòng)平均,從第1至第4周之前的預(yù)測(cè)MWHdayOfWeek每周的第1天,從星期六開(kāi)始[1,7]weekend周末二元指標(biāo)1=weekend,0=weekdayhol
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全員考試全真模擬模擬題含完整答案詳解(各地真題)
- LG(中國(guó))秋招面試題及答案
- 大學(xué)生自學(xué)考試題及答案
- 中共玉山縣委社會(huì)工作部公開(kāi)選調(diào)事業(yè)單位工作人員考試備考題庫(kù)附答案
- 中電科金倉(cāng)(北京)科技股份有限公司2026應(yīng)屆畢業(yè)生招聘參考題庫(kù)附答案
- 四川省衛(wèi)健委所屬事業(yè)單位西南醫(yī)科大學(xué)附屬口腔醫(yī)院2025年12月公開(kāi)考核招聘工作人員的參考題庫(kù)必考題
- 宜賓學(xué)院2025年公開(kāi)選調(diào)工作人員(2人)考試備考題庫(kù)附答案
- 廣發(fā)證券分支機(jī)構(gòu)“星·起點(diǎn)”培訓(xùn)生2026屆校招考試備考題庫(kù)必考題
- 艾青中學(xué)面向2026屆畢業(yè)生招聘事業(yè)編制教師1人參考題庫(kù)附答案
- 陜西2026選調(diào)生公布網(wǎng)站參考題庫(kù)附答案
- 2026中國(guó)電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫(kù)帶答案詳解
- 2026云南大理州事業(yè)單位招聘48人參考題庫(kù)必考題
- 《公共科目》軍隊(duì)文職考試新考綱題庫(kù)詳解(2026年)
- 2025至2030中國(guó)啤酒市場(chǎng)行業(yè)調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 報(bào)警受理工作制度規(guī)范
- 嘉賓邀請(qǐng)合同書(shū)
- 多源信息融合驅(qū)動(dòng)的配電網(wǎng)狀態(tài)估計(jì):技術(shù)革新與實(shí)踐應(yīng)用
- 華電集團(tuán)企業(yè)介紹
- 2025年安徽省從村(社區(qū))干部中錄用鄉(xiāng)鎮(zhèn)(街道)機(jī)關(guān)公務(wù)員考試測(cè)試題及答案
- 2025年AI時(shí)代的技能伙伴報(bào)告:智能體、機(jī)器人與我們(英文版)
- 中國(guó)舞蹈知識(shí)常見(jiàn)考點(diǎn)測(cè)試卷
評(píng)論
0/150
提交評(píng)論