深度學(xué)習(xí)與信號(hào)處理:原理與實(shí)踐 課件 第9、10章 深度置信網(wǎng)絡(luò)、深度自編碼器_第1頁(yè)
深度學(xué)習(xí)與信號(hào)處理:原理與實(shí)踐 課件 第9、10章 深度置信網(wǎng)絡(luò)、深度自編碼器_第2頁(yè)
深度學(xué)習(xí)與信號(hào)處理:原理與實(shí)踐 課件 第9、10章 深度置信網(wǎng)絡(luò)、深度自編碼器_第3頁(yè)
深度學(xué)習(xí)與信號(hào)處理:原理與實(shí)踐 課件 第9、10章 深度置信網(wǎng)絡(luò)、深度自編碼器_第4頁(yè)
深度學(xué)習(xí)與信號(hào)處理:原理與實(shí)踐 課件 第9、10章 深度置信網(wǎng)絡(luò)、深度自編碼器_第5頁(yè)
已閱讀5頁(yè),還剩189頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

9.1深度置信網(wǎng)絡(luò)9.2Gamma深度置信網(wǎng)絡(luò)9.3自適應(yīng)深度信念網(wǎng)絡(luò)9.4KPCA深度信念網(wǎng)絡(luò)模型9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)9.6深度信念網(wǎng)絡(luò)優(yōu)化算法9.7基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙第九章深度置信網(wǎng)絡(luò)9.1深度置信網(wǎng)絡(luò)以3層隱含層結(jié)構(gòu)的深度置信神經(jīng)網(wǎng)絡(luò)(DBN-DNN)為例,網(wǎng)絡(luò)一共由3個(gè)受限玻爾茲曼機(jī)(RBM)單元堆疊而成。RBM一共有兩層,上層為隱層,下層為顯層。堆疊成DNN時(shí),前一個(gè)RBM的輸出層(隱層)作為下一個(gè)RBM單元的輸入層(顯層),依次堆疊,便構(gòu)成了基本的DBN結(jié)構(gòu),最后再添加一層輸出層,就是最終的DBN-DNN結(jié)構(gòu)。9.1.1常規(guī)DBM網(wǎng)絡(luò)9.1深度置信網(wǎng)絡(luò)圖中是基于RBM構(gòu)建的DBN和DBM模型。DBN模型通過疊加RBM逐層預(yù)訓(xùn)練時(shí),某層的分布只由上一層決定。

例如,DBN的v層依賴于h1的分布,h1只依賴于h2的分布,也就是說h1的分布不受v的影響;確定了v的分布,h1的分布只由h2來確定。DBM模型為無向圖結(jié)構(gòu),也就是說,DBM的h1層是由h2層和v層共同決定的,是雙向的。1.DBM網(wǎng)絡(luò)結(jié)構(gòu)9.1深度置信網(wǎng)絡(luò)從效果來看,DBM結(jié)構(gòu)會(huì)比DBN結(jié)構(gòu)具有更好的魯棒性,但其求解的復(fù)雜度太大,需要將所有的層一起訓(xùn)練,不利于應(yīng)用。從借用RBM逐層預(yù)訓(xùn)練方法看,DBN結(jié)構(gòu)就方便快捷了很多,便于廣泛應(yīng)用。9.1深度置信網(wǎng)絡(luò)1)基于RBM的無監(jiān)督預(yù)訓(xùn)練利用對(duì)比散度算法(ContrastiveDivergenceK,CD-k)進(jìn)行權(quán)值初始化,Hinton發(fā)現(xiàn)k取為1時(shí),就可以有不錯(cuò)的學(xué)習(xí)效果。2)基于RBM的有監(jiān)督反向調(diào)參有監(jiān)督的調(diào)優(yōu)訓(xùn)練時(shí),需要先利用前向傳播算法,從輸入得到一定的輸出值,然后再利用反向傳播算法來更新網(wǎng)絡(luò)的權(quán)重值和偏置值。2.DBN訓(xùn)練與反向調(diào)優(yōu)9.1深度置信網(wǎng)絡(luò)1.常規(guī)稀疏深度信念網(wǎng)絡(luò)稀疏深度信念網(wǎng)絡(luò)(稀疏DBNs)由多層稀疏RBM模型構(gòu)成,每一層從上一層的隱單元中捕獲高度相關(guān)的關(guān)聯(lián)。稀疏DBNs模型學(xué)習(xí)主要分為兩步:第一步:預(yù)訓(xùn)練。根據(jù)CD算法逐層訓(xùn)練每個(gè)稀疏RBM模型獲得可見層和隱含層間的連接權(quán)值。第二步:微調(diào)。在預(yù)訓(xùn)練之后,為了使模型具有更好的特征表示能力,用帶標(biāo)簽的數(shù)據(jù)利用共軛梯度法對(duì)模型的判別性能作優(yōu)化調(diào)整。9.1.2稀疏深度信念網(wǎng)絡(luò)9.1深度置信網(wǎng)絡(luò)2.改進(jìn)稀疏DBNs堆疊多層改進(jìn)的稀疏RBM模型,構(gòu)成一種新的稀疏深度信念網(wǎng)絡(luò)(sparseDBNs)。在對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),采用改進(jìn)稀疏RBM算法對(duì)底層的稀疏RBM模型進(jìn)行訓(xùn)練,得到一組參數(shù)、和

。用這組參數(shù)作為下一層稀疏RBM的輸入進(jìn)行訓(xùn)練。一個(gè)L層稀疏深度信念網(wǎng)絡(luò)的訓(xùn)練架構(gòu)如下:步驟1:訓(xùn)練第一層稀疏RBM并得到的權(quán)值矩陣

。步驟2:用上一層的隱含層數(shù)據(jù)以相同的方法訓(xùn)練下一層稀疏RBM并固定連接權(quán)值

,重復(fù)到第L-1層。步驟3:初始化權(quán)值,用數(shù)據(jù)的標(biāo)簽值作為輸出層。步驟4:用共軛梯度方法對(duì)得到的權(quán)值9.2Gamma深度置信網(wǎng)絡(luò)Gamma深度信念網(wǎng)絡(luò)由底層至頂層分別為觀測(cè)層,第1層隱含層、…、第L-1層隱含層,第L層頂層。最底層為觀測(cè)層,由觀測(cè)單元組成,利用Poisson因子分析,可將其表示為連接權(quán)重與下一層隱含單元的乘積:9.2.1Gamma深度信念網(wǎng)絡(luò)結(jié)構(gòu)式中,為連接權(quán)重,為第1層隱含層,表示服從參數(shù)的Poisson分布。9.2Gamma深度置信網(wǎng)絡(luò)由觀測(cè)層至頂層依次為第1,…,l,…L層隱含層,第1,…,l,…,L-1層可表示為式中,為連接權(quán)重,為第l層隱含層,為概率參數(shù),滿足9.2Gamma深度置信網(wǎng)絡(luò)表示服從形狀參數(shù)為,尺度參數(shù)為的Gamma分布。其概率密度函數(shù)為類似地,第L層可表示為對(duì)于頂層,為共享的Gamma分布形狀參數(shù);為尺度參數(shù)。9.2Gamma深度置信網(wǎng)絡(luò)為限制網(wǎng)絡(luò)復(fù)雜度、便于參數(shù)推斷,對(duì)的毎一列基于L1正則化,對(duì)于,使式中,表示服從參數(shù)為的Dirichlet分布。其概率密度函數(shù)為表示Dirichlet分布的歸一化常數(shù)9.2Gamma深度置信網(wǎng)絡(luò)式中,為的第i列,,服從Gamma分布:對(duì)于,有因此,行各隱含單元的關(guān)系可由的列向量

表示。式中,表示服從參數(shù)為的Beta分布,概率密度函數(shù)為9.2Gamma深度置信網(wǎng)絡(luò)由于網(wǎng)絡(luò)中Gamma分布形狀參數(shù)的共軛先驗(yàn)未知,計(jì)算條件后驗(yàn)推導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)存在困難,因此利用文獻(xiàn)中的數(shù)據(jù)增強(qiáng)算法簡(jiǎn)化計(jì)算進(jìn)行推導(dǎo),得在的單層網(wǎng)絡(luò)中,每層的隱含單元獨(dú)立于先驗(yàn),的深度網(wǎng)絡(luò)可以捕獲隱含單元的關(guān)聯(lián)性。對(duì),有然后,(時(shí)為觀測(cè)層,時(shí)為隱含層)可由與的乘積在層Poisson概率為上述公式式對(duì)成立,時(shí),有9.2Gamma深度置信網(wǎng)絡(luò)令表示k層中因子出現(xiàn)在觀察單元n的次數(shù),。然后邊緣化,得由以上Poisson概率中邊緣化Gamma分布,得9.2Gamma深度置信網(wǎng)絡(luò)Gibbs采樣難以直接對(duì)樣本采樣時(shí),從某一個(gè)多分量概率分布中近似抽樣樣本序列的算法。深度信念網(wǎng)絡(luò)中,受限玻爾茲曼機(jī)使用二維Gibbs采樣近似估計(jì)參數(shù),將可見向量的值映射到隱含單元,再基于隱含單元重建可見單元,不斷重復(fù)以上步驟進(jìn)行逐層訓(xùn)練。

類似地,Gamma信念網(wǎng)絡(luò),可以采用N維Gibbs算法估計(jì)隱變量,聯(lián)合訓(xùn)練網(wǎng)絡(luò)所有層,在每次迭代中對(duì)一層網(wǎng)絡(luò)進(jìn)行采樣,向上采樣服從Dirichlet分布的連接權(quán)重,向下采樣服從Gamma分布的隱含單元,將其記作Gibbs向上向下采樣。9.2.2Gibbs向上向下采樣9.2Gamma深度置信網(wǎng)絡(luò)對(duì)Gamma深度信念網(wǎng)絡(luò)中的每一層,迭代采樣如下:對(duì)采樣:由式(9.2.17),在所有層中對(duì)進(jìn)行采樣,但對(duì)第1層隱含層,可以將觀察單元看作是第n個(gè)狀態(tài)中第m個(gè)特征的序列,將逐個(gè)分配給隱含因子,并將與邊緣化,對(duì)

,有式中,是的特征標(biāo)簽,符號(hào)表示對(duì)應(yīng)標(biāo)簽的求和,如,

表示不考慮第n個(gè)狀態(tài)中特征j的計(jì)數(shù)序列。為簡(jiǎn)化模型,加入截?cái)嗖襟E,即如果,則限制隱含單元數(shù)量為,并令。對(duì)采樣:9.2Gamma深度置信網(wǎng)絡(luò)對(duì)采樣:對(duì)采樣,將替換為。對(duì)采樣:由式(9.2.13)及Gamma分布與Poisson分布的共軛性,對(duì)采樣:對(duì)a采樣:對(duì)

采樣:先對(duì)采樣,即再由式(9.2.17),得式中,9.3自適應(yīng)深度信念網(wǎng)絡(luò)經(jīng)典動(dòng)量將以前梯度的衰減和(與衰變常數(shù))累積成動(dòng)量向量,并用它代替真正的梯度,具有加速梯度下降學(xué)習(xí)沿著尺寸的優(yōu)點(diǎn),其中梯度在訓(xùn)練步驟中保持相對(duì)一致。其更新公式為9.3.1動(dòng)量更新規(guī)則式中,為梯度向量;為目標(biāo)函數(shù)。m為動(dòng)量向量(初始值為0);為衰變常數(shù);為學(xué)習(xí)率;k代表更新次數(shù)。將式(9.3.1)-式(9.3.3)展開,得可以看到,動(dòng)量沿著先前的動(dòng)量向量和當(dāng)前的梯度方向邁出一步。9.3自適應(yīng)深度信念網(wǎng)絡(luò)Nadam類似于帶有Nesterov動(dòng)量項(xiàng)的Adam算法。這里給Adam添加Nesterov動(dòng)量,類似采用前一個(gè)動(dòng)量向量代替以前的動(dòng)量向量。因此,在Adam算法中更新公式為9.3.2Nadam算法優(yōu)化DBN式中,、分別為梯度的一階矩估計(jì)和二階矩估計(jì),可視為對(duì)

和期望的估計(jì);、和為修正參數(shù)。9.3自適應(yīng)深度信念網(wǎng)絡(luò)大量實(shí)驗(yàn)表明,測(cè)試的機(jī)器學(xué)習(xí)問題參數(shù)的良好默認(rèn)設(shè)置為:,

,

,的作用是防止分母為0。展開得括號(hào)內(nèi)第1項(xiàng)只是前一時(shí)間步的動(dòng)量向量的偏差校正估計(jì)值,用代替。添加Nesterov動(dòng)量,直接應(yīng)用前瞻動(dòng)量向量來更新參數(shù),只需將上一個(gè)時(shí)間步的動(dòng)量向量的偏差校正估計(jì)值替換為當(dāng)前動(dòng)量向量的偏差校正估計(jì),所以Nadam更新公式為9.3自適應(yīng)深度信念網(wǎng)絡(luò)傳統(tǒng)的隨機(jī)梯度下降保持單一學(xué)習(xí)率更新所有權(quán)重,學(xué)習(xí)率在訓(xùn)練過程中并不會(huì)改變。而Nadam通過計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率。

可以看出,Nadam對(duì)學(xué)習(xí)率有了更強(qiáng)的約束,同時(shí)對(duì)梯度的更新也有更直接的影響。一般而言,在使用帶動(dòng)量的RMSprop或者Adam的地方,大多可以使用Nadam并取得更好的效果。

由于Nadam考慮了目標(biāo)函數(shù)的二階導(dǎo)數(shù)信息,相對(duì)于傳統(tǒng)的動(dòng)量方法,多了一個(gè)本次梯度相對(duì)上次梯度的變化量,這個(gè)變化量本質(zhì)上是目標(biāo)函數(shù)二階導(dǎo)數(shù)的近似,從而具有強(qiáng)大的自適應(yīng)性。9.4KPCA深度信念網(wǎng)絡(luò)模型核主成分分析法(kernelprincipalcomponentanalyses,KPCA)能有效減少樣本數(shù)據(jù)維度、消除數(shù)據(jù)間的非線性關(guān)聯(lián)。

將經(jīng)KPCA分析提取后的數(shù)據(jù)以及對(duì)應(yīng)的數(shù)據(jù)類型輸入到DBN網(wǎng)絡(luò)模型中,充分學(xué)習(xí)提取出樣本特征。9.4.1核主成分分析法

1.統(tǒng)計(jì)平滑法統(tǒng)計(jì)平滑法是建立在數(shù)理統(tǒng)計(jì)基礎(chǔ)上的一種平滑方法,用該方法可以減少測(cè)量的誤差。統(tǒng)計(jì)平滑法的定義為式中,為k時(shí)刻經(jīng)平滑法處理后的數(shù)據(jù);為k時(shí)刻的觀測(cè)值。在一組原始數(shù)據(jù)集中,與其他點(diǎn)存在較大程度差異的點(diǎn)記作為離群點(diǎn)。由于離群點(diǎn)與其他點(diǎn)存在顯著區(qū)別,其中可能會(huì)包含有重要的信息,所以不對(duì)離群點(diǎn)進(jìn)行平滑處理。9.4KPCA深度信念網(wǎng)絡(luò)模型將N個(gè)觀測(cè)數(shù)據(jù)按照測(cè)量時(shí)間先后順序進(jìn)行排列,構(gòu)成一個(gè)符合正態(tài)分布的隨機(jī)數(shù)據(jù)集。樣本的標(biāo)準(zhǔn)方差為根據(jù)置信準(zhǔn)則,若隨機(jī)序列中第個(gè)數(shù)據(jù)落在99.7%的置信區(qū)間內(nèi),則對(duì)數(shù)據(jù)進(jìn)行平滑處理;若數(shù)據(jù)不在內(nèi),則該數(shù)據(jù)為離群點(diǎn),保留原始數(shù)據(jù)不變。9.4KPCA深度信念網(wǎng)絡(luò)模型2.歸一化處理實(shí)際中,不同觀測(cè)參數(shù)單位不同,為了消除各個(gè)參數(shù)不同量綱的影響,需要對(duì)經(jīng)平滑法處理后的數(shù)據(jù)歸一化為式中,為原始測(cè)量值;和分別為樣本數(shù)據(jù)中的最大和最小測(cè)量值;為經(jīng)歸一化處理后的值,的取值范圍為。3.核主成分分析法在復(fù)雜多變的實(shí)驗(yàn)環(huán)境中,參數(shù)觀測(cè)值之間會(huì)存在著非線性相關(guān)性。為消除數(shù)據(jù)之間的非線性關(guān)聯(lián)性,降低數(shù)據(jù)維度,提出KPCA分析法。KPCA方法關(guān)鍵在于利用非線性映射函數(shù)將有關(guān)聯(lián)性的數(shù)據(jù)集映射到高維特征空間中,然后再進(jìn)行傳統(tǒng)的主成分分析,并用核矩陣替代高維特征空間中內(nèi)積矩陣。9.4KPCA深度信念網(wǎng)絡(luò)模型1)核函數(shù)設(shè)函數(shù)是將有關(guān)聯(lián)性的低維監(jiān)測(cè)數(shù)據(jù)映射到高維特征空間中的非線性函數(shù),低維特征空間中的向量經(jīng)過函數(shù)映射后的向量為。若在低維空間中存在函數(shù)符合要求,則稱該函數(shù)為核函數(shù)。如果高維空間中的矩陣

滿足式(9.4.3),即矩陣K中的元素均使用核函數(shù)表示,則稱矩陣K為核矩陣。式中,為核函數(shù);為映射到高維空間中的樣本矩陣;N表示樣本個(gè)數(shù)。9.4KPCA深度信念網(wǎng)絡(luò)模型由于不知道函數(shù)的具體形式,在對(duì)高維特征空間中的數(shù)據(jù)進(jìn)行主成分提取時(shí),通過核矩陣來替換高維特征空間中的內(nèi)積矩陣,只需要對(duì)K進(jìn)行分析。目前主要使用的核函數(shù)如下:①線性核函數(shù)②高斯核函數(shù)③多項(xiàng)式核函數(shù)④拉普拉斯核函數(shù)9.4KPCA深度信念網(wǎng)絡(luò)模型⑤Sigmoid型核函數(shù)式中,,和為函數(shù)表達(dá)式中的參數(shù);為冪指數(shù)。(3)核主元計(jì)算核主元計(jì)算就是把核主成分的提取轉(zhuǎn)變成計(jì)算核矩陣特征值及其特征向量相關(guān)的問題。核主成分分析計(jì)算流程如下:步驟1:觀測(cè)參數(shù)進(jìn)行N次觀測(cè)得到的樣本矩陣。通過分析選擇符合要求的核函數(shù),并根據(jù)核函數(shù)和樣本矩陣求得對(duì)應(yīng)的核矩陣K,即9.4KPCA深度信念網(wǎng)絡(luò)模型步驟2:將核主元分析是在假設(shè)向量為零均值的前提條件下進(jìn)行的,由于函數(shù)的具體表現(xiàn)形式?jīng)]有給出,因此,不能對(duì)核矩陣直接進(jìn)行中心化處理。通過公式中心化矩陣。式中,為維的數(shù)值全為1的矩陣,為經(jīng)過式(9.4.10)處理后的核矩陣。步驟3:求的特征值及相應(yīng)的特征向量。步驟4:求的核主元向量9.4KPCA深度信念網(wǎng)絡(luò)模型步驟5:計(jì)算方差貢獻(xiàn)率和累計(jì)貢獻(xiàn)率式中,為主元的方差;為主元的方差貢獻(xiàn)率;為個(gè)主元累計(jì)方差貢獻(xiàn)率。9.4KPCA深度信念網(wǎng)絡(luò)模型對(duì)觀測(cè)的原始數(shù)據(jù)進(jìn)行歸一化預(yù)處理后,再利用KPCA提取數(shù)據(jù)主要特征進(jìn)行降維,再將數(shù)據(jù)依次輸入第一個(gè)RBM的顯層中,利用訓(xùn)練RBM,通過貪婪逐層學(xué)習(xí),逐步地完成所有RBM的學(xué)習(xí)訓(xùn)練。9.4.2基于KPCA分析的DBN模型最后在DBN的頂層設(shè)置一個(gè)神經(jīng)網(wǎng)絡(luò)來完成分類,使用反向傳播算法,結(jié)合有標(biāo)簽的樣本對(duì)整體DBN網(wǎng)絡(luò)進(jìn)行參數(shù)的微調(diào)?;贙PCA分析的深度信念網(wǎng)絡(luò)模型,如圖所示。9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)對(duì)DBN進(jìn)行訓(xùn)練的過程主要有兩步:第一,使用無監(jiān)督學(xué)習(xí)方法訓(xùn)練每一層RBM,且每個(gè)RBM的輸入為上一個(gè)RBM的輸出,即每一層RBM都要單獨(dú)訓(xùn)練,確保特征向量映射到不同的特征空間時(shí),盡可能多的保留特征信息;第二,使用最后一層的BP網(wǎng)絡(luò)接收最后一個(gè)RBM的輸出,用有監(jiān)督的方式訓(xùn)練整個(gè)網(wǎng)絡(luò),對(duì)其進(jìn)行微調(diào)。對(duì)一個(gè)典型的由三個(gè)RBM堆疊成的DBN結(jié)構(gòu)模型(圖9.1),在無監(jiān)督前向堆疊RBM學(xué)習(xí)中,首先在可見層生成一個(gè)向量,將輸入數(shù)據(jù)從可見層傳到隱層。在這個(gè)過程中,可見層的輸入會(huì)被隨機(jī)選擇,用來嘗試重構(gòu)原始的輸入信號(hào);接著,新得到的可見層神經(jīng)元激活單元將繼續(xù)前向傳遞,來重構(gòu)隱層神經(jīng)元激活單元獲得;這些重復(fù)后退和前進(jìn)的步驟就是Gibbs采樣[186183]。整個(gè)過程中,權(quán)值更新的主要依據(jù)就是隱層激活單元與可見輸入信號(hào)之間的相關(guān)性差別。9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)對(duì)所有的隱含層單元計(jì)算式中,。對(duì)所有的隱含層單元計(jì)算式中,。對(duì)所有的隱含層單元計(jì)算式中,。9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)參數(shù)更新公式為按上述步驟完成迭代更新,并依次訓(xùn)練下一個(gè)RBM,最終得到DBN網(wǎng)絡(luò)的最后更新參數(shù)。9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)無監(jiān)督前向堆疊RBM學(xué)習(xí)完成后可以初始化RBM每層的參數(shù),相當(dāng)于為后續(xù)的監(jiān)督學(xué)習(xí)提供了輸入數(shù)據(jù)的先驗(yàn)知識(shí),然后使用有監(jiān)督后向微調(diào)算法對(duì)DBN的權(quán)值進(jìn)行微調(diào),接著利用輸出誤差值進(jìn)行輸出層與前一層之間的誤差估計(jì)。

同理,經(jīng)過逐層的反向傳播訓(xùn)練,來獲取其余各層之間的誤差,最后使用批梯度下降法計(jì)算并更新各節(jié)點(diǎn)權(quán)值,直到輸出誤差滿足要求。后向微調(diào)是從DBN網(wǎng)絡(luò)的最后一層出發(fā)的,微調(diào)公式為9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)DBN的BP算法只需要對(duì)權(quán)值參數(shù)空間進(jìn)行一個(gè)局部的搜索,這樣的權(quán)值微調(diào)算法克服了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)因隨機(jī)初始化權(quán)值參數(shù)而容易陷入局部最小和訓(xùn)練時(shí)間過長(zhǎng)的缺點(diǎn),只需在已知權(quán)值空間內(nèi)進(jìn)行微調(diào)即可,大大縮減了參數(shù)尋優(yōu)的收斂時(shí)間。其次,使用CD算法可進(jìn)行快速訓(xùn)練,將DBN整體框架簡(jiǎn)化為多個(gè)RBM結(jié)構(gòu),這樣避免了直接從整體上訓(xùn)練DBN的復(fù)雜度。采用這種方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,再使用傳統(tǒng)反向傳播算法進(jìn)行網(wǎng)絡(luò)微調(diào),大大提升了網(wǎng)絡(luò)的建模能力,使模型快速收斂到最優(yōu)。DBN模型中有兩個(gè)過程使用了學(xué)習(xí)率:RBM前向堆疊和后向微調(diào)過程。學(xué)習(xí)率能夠影響網(wǎng)絡(luò)的學(xué)習(xí)進(jìn)度,合適的學(xué)習(xí)速率是保證參數(shù)學(xué)習(xí)到最佳狀態(tài)的必要條件。9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)DBN模型中參數(shù)優(yōu)化,即權(quán)重與偏置的一般更新公式為式中,為迭代次的參數(shù)值;為迭代次的參數(shù)值,為學(xué)習(xí)率(步長(zhǎng));為定義在數(shù)據(jù)集上的損失函數(shù)的梯度。根據(jù)連接權(quán)重和偏置的不同特點(diǎn)和作用,這里給出一種全參數(shù)動(dòng)態(tài)學(xué)習(xí)策略,數(shù)學(xué)表達(dá)式如下:(1)RBM前向堆疊過程中參數(shù)的學(xué)習(xí)策略9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)式中,為連接權(quán)重下一回合的學(xué)習(xí)率;為當(dāng)前回合連接權(quán)重的學(xué)習(xí)率;取1;為一定比例的上一梯度和當(dāng)前梯度的平方和,為衰減因子,取值為0.9;和分別為迭代第次可見單元和隱含單元偏置的學(xué)習(xí)率;和分別為迭代第

次可見單元和隱含單元偏置的學(xué)習(xí)率;使用呈下降趨勢(shì)的冪指數(shù)函數(shù);為最大迭代次數(shù);q取0.75。(2)后向微調(diào)過程中參數(shù)的學(xué)習(xí)策略式中,為后向微調(diào)過程中連接權(quán)重下一回合的學(xué)習(xí)率;為當(dāng)前回合連接權(quán)重的學(xué)習(xí)率9.5全參數(shù)動(dòng)態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)該學(xué)習(xí)策略的思想是:對(duì)于權(quán)重而言,利用當(dāng)前學(xué)習(xí)率與最近兩個(gè)梯度平方和,自適應(yīng)調(diào)節(jié)下一回合的學(xué)習(xí)率。只使用最近兩個(gè)梯度的平方和,減少了歷史梯度的冗長(zhǎng)計(jì)算;同時(shí)學(xué)習(xí)率隨著迭代次數(shù)動(dòng)態(tài)變化,這樣都使模型的收斂速度有所加快。對(duì)于偏置而言,從減少計(jì)算量的角度出發(fā),為其設(shè)置了只與當(dāng)前學(xué)習(xí)率有關(guān)的冪指數(shù)函數(shù),這樣可以加快模型的收斂速度。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法傳統(tǒng)的深度信念網(wǎng)絡(luò)(DBN)參數(shù)訓(xùn)練方法存在一定的缺陷,在一定程度上影響了其特征提取能力和收斂速度。首先,網(wǎng)絡(luò)參數(shù)的隨機(jī)初始化使其淺層網(wǎng)絡(luò)在學(xué)習(xí)訓(xùn)練過程易陷入局部搜索,影響了DBN的特征提取能力。

其次,DBN在提取高維數(shù)據(jù)的底層特征時(shí),需將高維數(shù)據(jù)直接作為網(wǎng)絡(luò)的輸入,導(dǎo)致網(wǎng)絡(luò)參數(shù)大幅度增加,從而使網(wǎng)絡(luò)訓(xùn)練的收斂速度變慢。

為克服這些缺點(diǎn),可使用粒子群優(yōu)化算法確定DBN的最優(yōu)結(jié)構(gòu)、網(wǎng)絡(luò)連接權(quán)值和偏置;也可使用dropout技術(shù)訓(xùn)練DBN結(jié)構(gòu),在DBN訓(xùn)練過程中每次隨機(jī)去掉一部分隱含層節(jié)點(diǎn),避免了訓(xùn)練過程中可能出現(xiàn)的過擬合現(xiàn)象,但隨機(jī)去掉節(jié)點(diǎn)的過程中可能會(huì)造成一定的誤差。9.6.1混沌免疫算法優(yōu)化深度信念網(wǎng)絡(luò)9.6深度信念網(wǎng)絡(luò)優(yōu)化算法DBN的優(yōu)勢(shì)在于具有強(qiáng)大的特征提取能力,而其特征提取能力取決于網(wǎng)絡(luò)參數(shù)。DBN的網(wǎng)絡(luò)參數(shù)包括超參數(shù)和可訓(xùn)練獲得參數(shù)。超參數(shù)包括隱含層層數(shù)及節(jié)點(diǎn)數(shù)、學(xué)習(xí)率和動(dòng)量等;可訓(xùn)練獲得參數(shù)是指通過網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練獲得的DBN連接權(quán)值和偏置。人工免疫算法具有搜索能力強(qiáng)、尋優(yōu)速度快等特點(diǎn),被廣泛應(yīng)用于優(yōu)化神經(jīng)網(wǎng)絡(luò),以提高網(wǎng)絡(luò)的收斂速度和泛化性能。本節(jié)介紹一種利用改進(jìn)的混沌免疫算法進(jìn)行DBN參數(shù)優(yōu)化的方法。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法1.克隆選擇算法克隆選擇算法(cloneselectionalgorithm,CSA)借鑒了人工免疫系統(tǒng)中抗體克隆選擇的免疫機(jī)理,具有全局搜索能力強(qiáng)、尋優(yōu)速度快等優(yōu)點(diǎn),與其它智能算法相比能夠產(chǎn)生更有利于復(fù)雜優(yōu)化問題的最優(yōu)解。

將CSA應(yīng)用于復(fù)雜優(yōu)化問題時(shí),待優(yōu)化問題的解映射為抗體,待優(yōu)化問題的目標(biāo)函數(shù)映射為親和力,優(yōu)化解與目標(biāo)函數(shù)的匹配程度映射為抗原和抗體親和力,對(duì)具有較高親和力的抗體進(jìn)行克隆選擇,通過高頻變異和濃度抑制保持抗體多樣性,實(shí)現(xiàn)流程如圖所示。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法2.改進(jìn)的混沌免疫算法基本的CSA算法在抗體變異時(shí)由于變異的隨機(jī)性、無向性,尋優(yōu)過程中易陷入局部最優(yōu)值,影響算法的收斂速度。本節(jié)利用自適應(yīng)變異改善算法的全局搜索能力和局部搜索能力,利用螢火蟲優(yōu)化變異對(duì)抗體種群進(jìn)行定向搜索,混沌變異進(jìn)行全局搜索,邊界變異控制種群的搜索范圍。此外,CSA算法的時(shí)間復(fù)雜度為(T為進(jìn)化代數(shù),Ab為抗體規(guī)模),因此,對(duì)于低維解的優(yōu)化問題,抗體規(guī)模小,算法很快收斂;而對(duì)于高維參數(shù)的優(yōu)化問題,所需抗體規(guī)模異常龐大,算法收斂減慢。這里給出可變選擇算子,抗體選擇規(guī)模隨著進(jìn)化代數(shù)逐漸減小,加快算法的尋優(yōu)速度。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法(1)混沌初始化。引入混沌算法,用于初始化CSA抗體種群。采用Logistic映射的混沌公式,對(duì)抗體進(jìn)行快速搜索,混沌公式為(2)親和力計(jì)算。抗原和抗體親和力通過DBN的輸出誤差來衡量,DBN輸出誤差越小,親和力越小,抗原和抗體的匹配程度越高,計(jì)算公式為式中,為第n個(gè)訓(xùn)練樣本的網(wǎng)絡(luò)實(shí)際輸出,為第n個(gè)訓(xùn)練樣本的期望輸出,N為訓(xùn)練樣本數(shù)。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法(3)自適應(yīng)變異。螢火蟲優(yōu)化變異、混沌變異和邊界變異的自適應(yīng)變異在避免整個(gè)算法陷入局部最優(yōu)的同時(shí),能保證抗體向有益的方向進(jìn)化。

螢火蟲算法將每個(gè)個(gè)體視為一個(gè)具有一定感知能力的螢火蟲,在搜索范圍內(nèi)根據(jù)螢火蟲的熒光亮度和相互吸引度更新螢火蟲位置,熒光亮度弱的螢火蟲會(huì)被熒光亮強(qiáng)的螢火蟲所吸引,尋找最優(yōu)解的過程就是尋找最亮的螢火蟲的過程。

這里在變異過程中引入螢火蟲算法,首先,將每個(gè)抗體看作一個(gè)螢火蟲,抗原和抗體的親和力看作螢火蟲的熒光亮度,通過各螢火蟲的位置尋優(yōu)實(shí)現(xiàn)抗體的定向變異,其抗體更新公式為9.6深度信念網(wǎng)絡(luò)優(yōu)化算法式中,和分別為第i個(gè)抗體在第k+1代和第k代的位置,ζ為的隨機(jī)數(shù),為上服從正態(tài)分布的隨機(jī)因子,為最大吸引度,為吸收系數(shù),為抗體i與抗體j之間的距離。在螢火蟲優(yōu)化變異過程中,增加局部搜索計(jì)數(shù)器

,提出新的抗體更新機(jī)制如下:

計(jì)算每次迭代得到的抗體親和力與原抗體親和力差值,若大于設(shè)定閾值,則更新當(dāng)前抗體,否則,局部搜索計(jì)數(shù)器

。當(dāng)連續(xù)幾代抗體都沒有改變或改變很小,局部搜索計(jì)數(shù)器達(dá)到一定值,說明算法陷入了局部搜索,此時(shí)采用混沌變異,快速跳出局部最優(yōu)。同時(shí),為了避免尋優(yōu)過程中抗體偏離搜索范圍,引入邊界變異,當(dāng)抗體越過邊界時(shí),進(jìn)行邊界變異,抗體更新公式為式中,為搜索范圍最大值,為搜索范圍最小值,c=0.01。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法改進(jìn)的自適應(yīng)變異算法如下:算法9.1://自適應(yīng)變異算法輸入:初始抗體種群N0,抗體種群大小M,最大吸引度,吸收系數(shù),抗體搜索范圍x,局部搜索閾值和臨界值。輸出:變異后抗體種群T9.6深度信念網(wǎng)絡(luò)優(yōu)化算法9.6深度信念網(wǎng)絡(luò)優(yōu)化算法(4)可變選擇算子采用自適應(yīng)變異時(shí),抗體尋優(yōu)范圍會(huì)不斷向最優(yōu)抗體縮進(jìn),此時(shí)繼續(xù)保留固定值選擇抗體,不僅對(duì)尋優(yōu)無益,而且會(huì)減慢算法的收斂速度。

現(xiàn)對(duì)選擇算子進(jìn)行改進(jìn),將固定值改為可變值,進(jìn)化初期選擇算子較大,抗體被選擇規(guī)模大,隨著進(jìn)化逐漸達(dá)到收斂,選擇算子變小,抗體被選擇規(guī)模小。這樣做的好處是,降低了算法的時(shí)間復(fù)雜度,加快了算法的尋優(yōu)速度。選擇算子的調(diào)整公式如下式中,k和分別為當(dāng)前進(jìn)化代數(shù)和最大進(jìn)化代數(shù),為初始選擇規(guī)模。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法3.改進(jìn)的混沌免疫算法優(yōu)化DBN參數(shù)在傳統(tǒng)的DBN訓(xùn)練方法基礎(chǔ)上,加入改進(jìn)的混沌免疫算法優(yōu)化DBN參數(shù)。利用改進(jìn)的混沌免疫算法先對(duì)預(yù)訓(xùn)練得到的DBN參數(shù)進(jìn)行全局優(yōu)化,然后再進(jìn)行傳統(tǒng)的BP算法局部微調(diào)獲得最優(yōu)參數(shù)。

改進(jìn)混沌免疫算法的主體框架為克隆選擇算法,首先,將預(yù)訓(xùn)練得到的DBN連接權(quán)值和偏置作為抗體,并利用混沌公式初始化抗體種群。然后,每個(gè)抗體作為網(wǎng)絡(luò)參數(shù)確定一個(gè)唯一的DBN,得到其輸出響應(yīng)值,進(jìn)而計(jì)算各抗體親和力。根據(jù)各抗體的親和力,對(duì)抗體進(jìn)行不同程度的克隆變異,不斷得到新的抗體種群。最后,根據(jù)最優(yōu)抗體更新DBN參數(shù)。改進(jìn)的混沌免疫算法優(yōu)化DBN參數(shù)算法如下:9.6深度信念網(wǎng)絡(luò)優(yōu)化算法算法9.2://改進(jìn)的混沌免疫算法優(yōu)化DBN參數(shù)算法輸入:DBN連接權(quán)值和偏置,訓(xùn)練數(shù)據(jù)x,訓(xùn)練期望輸出y,改進(jìn)的混沌免疫算法參數(shù)k輸出:DBN全局最優(yōu)參數(shù)9.6深度信念網(wǎng)絡(luò)優(yōu)化算法9.6深度信念網(wǎng)絡(luò)優(yōu)化算法9.6深度信念網(wǎng)絡(luò)優(yōu)化算法深度置信網(wǎng)絡(luò)(DBN)網(wǎng)絡(luò)結(jié)構(gòu)、隱含層數(shù)量以及學(xué)習(xí)速率等,都會(huì)對(duì)DBN的分類結(jié)果產(chǎn)生很大的影響。目前,DBN大多是憑借經(jīng)驗(yàn)或者通過耗費(fèi)大量時(shí)間多次調(diào)參來確定網(wǎng)絡(luò)結(jié)構(gòu)?;诖?,本節(jié)給出一種基于粒子群優(yōu)化(ParticleSwarmOptimization,PSO)的DBN算法。

該模型利用PSO對(duì)DBN的幾個(gè)重要參數(shù)進(jìn)行學(xué)習(xí)訓(xùn)練,然后將訓(xùn)練得到的最優(yōu)參數(shù)賦給DBN網(wǎng)絡(luò),利用最優(yōu)結(jié)構(gòu)的DBN網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行特征提取。該模型采用自適應(yīng)時(shí)刻估計(jì)法(Adam)對(duì)所有連接權(quán)值進(jìn)行有效的微調(diào),進(jìn)一步提高了DBN的分類精度?;趦?yōu)化DBN算法主要包括兩部分:①DBN網(wǎng)絡(luò)初始化;②PSO優(yōu)化DBN網(wǎng)絡(luò)結(jié)構(gòu)。9.6.2粒子群算法優(yōu)化深度置信網(wǎng)絡(luò)9.6深度信念網(wǎng)絡(luò)優(yōu)化算法1.DBN網(wǎng)絡(luò)初始化DBN是由多個(gè)RBM堆疊而成,DBN的訓(xùn)練過程就是通過每一個(gè)RBM的依次順序訓(xùn)練完成,可以分為兩個(gè)階段:第一階段為前向堆疊RBM學(xué)習(xí)過程;第二階段為DBN的后向微調(diào)學(xué)習(xí)過程。第一階段學(xué)習(xí)過程每次只考慮單一RBM層進(jìn)行無監(jiān)督的訓(xùn)練,而第二階段有監(jiān)督的自適應(yīng)時(shí)刻估計(jì)法(AdaptiveMomentEstimation,Adam)對(duì)參數(shù)的微調(diào)卻同時(shí)考慮了所有的層。為了使RBM結(jié)構(gòu)下的概率分布盡可能的與訓(xùn)練樣本一致,文獻(xiàn)給出一種進(jìn)行參數(shù)微調(diào)來最大化RBM訓(xùn)練過程當(dāng)中產(chǎn)生的對(duì)數(shù)似然函數(shù)的方法,從而獲得合適的參數(shù)θ。在不失一般性的情況下,可見層的概率為9.6深度信念網(wǎng)絡(luò)優(yōu)化算法式中,θ可以根據(jù)求最大似然函數(shù)最大值得到合適的值,損失函數(shù)及其梯度為式中,代表偏導(dǎo)數(shù)在分布下的期望值。不容易求取,只能通過一些采樣方法來得到其近似值。正向是樣本數(shù)據(jù)可見狀態(tài)的期望,而反相由于配分函數(shù)的線性無法計(jì)算。此時(shí)通常會(huì)采用Gibbs抽樣來估計(jì)負(fù)相位。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法綜上,RBM訓(xùn)練可以歸結(jié)如下:首先將訓(xùn)練數(shù)據(jù)提供給可見層神經(jīng)元,然后由求得隱含層當(dāng)中某個(gè)單元被激活的概率。再次重復(fù)這個(gè)過程來更新可見層的神經(jīng)元,然后隱含層神經(jīng)元會(huì)進(jìn)一步“重構(gòu)”和的狀態(tài)。隨著數(shù)據(jù)的聯(lián)合似然函數(shù)的梯度變化,對(duì)可見層和隱含層之間的權(quán)重的更新規(guī)則為式中,表示訓(xùn)練數(shù)據(jù)的期望;表示重構(gòu)后模型分布下數(shù)據(jù)期望;η表示學(xué)習(xí)率,。學(xué)習(xí)率較大時(shí),算法收斂較快,但有可能引起算法的不穩(wěn)定;學(xué)習(xí)率較小時(shí),可避免不穩(wěn)定情況,但收斂變慢,影響計(jì)算時(shí)間。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法為解決這一問題,一般采用小批量梯度下降(MinBatchGradientDescent,MSGD)方法進(jìn)行參數(shù)更新。這種算法將本輪訓(xùn)練過程和上輪訓(xùn)練中的參數(shù)關(guān)聯(lián)起來,該算法能夠帶來很好的訓(xùn)練速度,一定程度上解決了收斂不穩(wěn)定的問題,但容易收斂到局部極小值,并且有可能被困在鞍點(diǎn)。因此,文獻(xiàn)采用Adam方法進(jìn)行參數(shù)更新。Adam的優(yōu)點(diǎn)主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個(gè)確定范圍,使得參數(shù)比較平穩(wěn)。算法公式為(9.3.5)-(9.3.9)。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法2.PSO訓(xùn)練DBN網(wǎng)絡(luò)結(jié)構(gòu)大量研究表明,包含多層隱含層的DBN網(wǎng)絡(luò)比只有一層的要好很多;深度神經(jīng)網(wǎng)絡(luò)模型隨著隱含層數(shù)的增加,分類錯(cuò)誤率會(huì)下降,但當(dāng)隱含層數(shù)增加至四層及以上時(shí),模型的分類錯(cuò)誤率會(huì)上升而且泛化性能下降。粒子群優(yōu)化算法(ParticleSwarmOptimization,PSO)是一種基于種群的隨機(jī)優(yōu)化算法。在PSO算法中,每個(gè)優(yōu)化問題的解都是搜索空間中的一個(gè)粒子。所有的粒子都有一個(gè)被優(yōu)化的函數(shù)決定的適應(yīng)度值,每個(gè)粒子還有一個(gè)速度V決定它們飛行的方向和距離。PSO初始化一群粒子,然后根據(jù)粒子群中當(dāng)前的最優(yōu)粒子在解空間中搜索最優(yōu)解。每次迭代中,粒子都是通過追蹤兩個(gè)“極值”來更新自己,一個(gè)是粒子自身找到的最優(yōu)解,稱為個(gè)體極值(pbest);另一個(gè)極值是整個(gè)群體找到的最優(yōu)解,稱為全局極值(gbest)。PSO算法需要調(diào)節(jié)的參數(shù)少,且簡(jiǎn)單易于實(shí)現(xiàn),適合在動(dòng)態(tài)、多目標(biāo)優(yōu)化環(huán)境中尋優(yōu),與傳統(tǒng)算法相比具有更快的計(jì)算速度和更好的全局搜索能力。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法對(duì)一個(gè)3層隱含層DBN,每層分別有、和個(gè)神經(jīng)元,學(xué)習(xí)率。對(duì)粒子群進(jìn)行編碼時(shí),設(shè)定PSO中的每一個(gè)粒子為一個(gè)四維向量。粒子種群數(shù)量為N,N一般取10~20。PSO的最大迭代次數(shù)為。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法步驟1:數(shù)據(jù)預(yù)處理對(duì)采集信號(hào)進(jìn)行預(yù)處理。為了保證原始數(shù)據(jù)相對(duì)不變形,采用進(jìn)行歸一化。如果采集的原始信號(hào)為高維信號(hào),直接進(jìn)行訓(xùn)練的時(shí)間和收斂性都受到很大的影響,所以需要進(jìn)行降維。在預(yù)處理時(shí),需用主成分分析法(PCA)進(jìn)行降維處理。步驟2:劃分?jǐn)?shù)據(jù)集將PCA降維后的數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集,另一個(gè)作為測(cè)試集。在訓(xùn)練集上訓(xùn)練出模型后,用測(cè)試集來評(píng)估其測(cè)試誤差,作為泛化誤差的估計(jì)。步驟3:初始化粒子群根據(jù)DBNs網(wǎng)絡(luò)的參數(shù)(連接權(quán)值和隱藏節(jié)點(diǎn)值)生成粒子群,并初始化這些粒子的位置和速度,即初始化粒子的位置、速度。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法步驟4:適應(yīng)度值計(jì)算根據(jù)初始化的粒子位置和速度,得到DBNs網(wǎng)絡(luò)的輸出響應(yīng)值后,按適應(yīng)度函數(shù)計(jì)算粒子群的適應(yīng)度值。式中,N為訓(xùn)練樣本,M為輸出神經(jīng)元個(gè)數(shù),和分別表示第i個(gè)樣本的第j個(gè)分量的輸出值和期望輸出值。步驟5:更新粒子的速度和位置根據(jù)步驟4計(jì)算得到粒子群的適應(yīng)度值,找到本輪粒子群最優(yōu)的粒子和搜索歷史上的最優(yōu)粒子。粒子的速度和位置的更新公式為9.6深度信念網(wǎng)絡(luò)優(yōu)化算法式中,ω表示慣性權(quán)重,取值介于[0,1],一般取ω=0.9;表示加速參數(shù),一般限定相等且取值范圍為[0,4],Shi和Eberhart經(jīng)過多次試驗(yàn),建議為了平衡隨機(jī)因素的作用,設(shè)置

最好;是兩個(gè)在[0,1]范圍變化的隨機(jī)值。步驟6:如果訓(xùn)練樣本的誤分類率滿足設(shè)定條件或者迭代次數(shù)等于M,則PSO優(yōu)化結(jié)束,否則轉(zhuǎn)到步驟4,k=k+1,重復(fù)執(zhí)行步驟5和步驟6,直到滿足判別條件。步驟7:利用訓(xùn)練好的DBN網(wǎng)絡(luò)訓(xùn)練測(cè)試數(shù)據(jù),輸出信號(hào)分類結(jié)果。9.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙1.深度置信網(wǎng)絡(luò)DBN實(shí)際上是由幾個(gè)受限玻爾茲曼機(jī)(RBMs)自底向上連接在一起的網(wǎng)絡(luò)。RBM是一種生成式隨機(jī)人工神經(jīng)網(wǎng)絡(luò),它可以學(xué)習(xí)其輸入集合上的概率分布。RBM是一種玻爾茲曼機(jī),其約束條件是神經(jīng)元必須形成二分圖,兩組神經(jīng)元分別構(gòu)成“可見”和“隱藏”層,并且一組內(nèi)的節(jié)點(diǎn)之間沒有任何連接。為了提高訓(xùn)練效率,采用了基于梯度的對(duì)比發(fā)散算法。RBM網(wǎng)絡(luò)結(jié)構(gòu),如圖所示。與傳統(tǒng)網(wǎng)絡(luò)相比,神經(jīng)元的可見層與隱含層之間的連接具有更高的可靠性。9.7.1基于貪婪方法的深度置信網(wǎng)絡(luò)和分別表示輸入向量和輸出向量。DBN由一堆RBM組成,如圖所示。圖中解釋了網(wǎng)絡(luò)的訓(xùn)練階段。9.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙用于生成輸出的RBM的概率分布為和分別稱為標(biāo)準(zhǔn)化因子和能量函數(shù),且9.6深度信念網(wǎng)絡(luò)優(yōu)化算法式中,函數(shù)定義為式中,和是可見和不可見的閾值變量;和是可見的和隱藏的變量,矩陣為節(jié)點(diǎn)間連接的權(quán)重。根據(jù)log梯度計(jì)算RBM網(wǎng)絡(luò)權(quán)值的更新準(zhǔn)則為式中,為訓(xùn)練樣本的期望值,為模型的期望值。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法2.一種貪婪訓(xùn)練算法為了用RBMs建立一個(gè)深層次模型,現(xiàn)用貪婪算法來訓(xùn)練一個(gè)多層的深網(wǎng)絡(luò)。首先,學(xué)習(xí)一個(gè)RBM作為DBN的第一層,權(quán)值矩陣為。然后,初始化第二層的權(quán)重()以確保DBN的兩個(gè)隱含層至少與RBM相等。通過生成第一層輸出,可以通過修改權(quán)重矩陣來改進(jìn)DBN,也可以用第二個(gè)RBM得到的向量來學(xué)習(xí)RBM的第三層。通過初始化,它保證了對(duì)數(shù)似然函數(shù)的下限得到改善。在迭代過程中,建立的深度層次模型實(shí)施步驟,如下所示。算法9.1步驟:步驟1:確定第一隱藏層的參數(shù),從而確定CD訓(xùn)練算法。步驟2:固定參數(shù)并使用作為輸入向量,以訓(xùn)練下一層的特征。步驟3:固定參數(shù),該參數(shù)定義屬性的第二層,并使用來自

的第個(gè)樣本作為第三層訓(xùn)練特征的數(shù)據(jù)。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法在最后一層,為了計(jì)算輸入的概率分布,使用了softmax層。softmax函數(shù)為式中,為神經(jīng)元j的可能值,是進(jìn)入每個(gè)神經(jīng)元的值。9.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙1.數(shù)據(jù)集訓(xùn)練和測(cè)試數(shù)據(jù)集由ADHD-200全球競(jìng)賽提供。紐約大學(xué)的訓(xùn)練數(shù)據(jù)集包括222個(gè)訓(xùn)練樣本和41個(gè)測(cè)試樣本。NeuroImage數(shù)據(jù)集包含48個(gè)訓(xùn)練樣本和25個(gè)測(cè)試樣本。參與研究的受試者年齡在7歲至21歲之間。深度置信網(wǎng)絡(luò)所用特征,如表所示。采用功能磁共振成像(fMRI)成像獲得所需數(shù)據(jù)。9.7.2基于貪婪方法的深度置信網(wǎng)絡(luò)說明特征病人的性別Gender病人喜歡用一只手而不是另一只手Handedness在不同的狀態(tài)下的個(gè)人智商IQmeasure患者服藥后出現(xiàn)的狀態(tài)medicationstatus控制個(gè)體的行為和狀態(tài)qualitycontrol從FMRI圖像中獲得的特征FMRIFeatures個(gè)體的注意力不集中程度Inattentive個(gè)體的過度活躍程度Hyper/Impulsive口語(yǔ)或口語(yǔ)智商VerbalIQ表現(xiàn)功能的智商PerformanceIQ服藥后出現(xiàn)的抑郁狀態(tài)medstatus9.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙第一次對(duì)人們休息時(shí)(最不活躍時(shí))的行為和情緒進(jìn)行質(zhì)量控制QC_Rest_1第二次對(duì)人們休息時(shí)(最不活躍時(shí))的行為和情緒進(jìn)行質(zhì)量控制QC_Rest_2第三次對(duì)人們休息時(shí)(最不活躍時(shí))的行為和情緒進(jìn)行質(zhì)量控制QC_Rest_3第四次對(duì)人們休息時(shí)(最不活躍時(shí))的行為和情緒進(jìn)行質(zhì)量控制QC_Rest_4首次對(duì)解剖狀態(tài)的質(zhì)量控制QC_Anatomical_1二次解剖狀態(tài)的質(zhì)量控制QC_Anatomical_29.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙2.文獻(xiàn)的方法與其他方法的比較利用貪婪訓(xùn)練算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),并對(duì)測(cè)試數(shù)據(jù)進(jìn)行評(píng)估。在NYU和NeuronImage的標(biāo)準(zhǔn)數(shù)據(jù)集上,分別對(duì)文獻(xiàn)的方法進(jìn)行了評(píng)價(jià)。文獻(xiàn)的方法是一種二元分類任務(wù),其中陽(yáng)性分類包括ADHD患者,陰性分類包括非ADHD患者。

評(píng)價(jià)結(jié)果,如表所示。在典型的分類問題中,有許多方法可以用于對(duì)數(shù)據(jù)集進(jìn)行過采樣。最常見的技術(shù)被稱為SMOTE。需要注意的是,在數(shù)據(jù)集上應(yīng)用SMOTE方法來緩解不平衡后,數(shù)據(jù)集變得均衡。數(shù)據(jù)集精度召回率F值(=0.5)PositiveNegativePositiveNegativePositiveNegativeNYU72%42%75%38%74%40%NeuroImage64%73%75%62%69%67%9.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙表9.3顯示了文獻(xiàn)[205202]的方法和ADHD-200全球競(jìng)賽引入的最佳方法以及SVM、RBF、RBF-SVM和決策樹算法的結(jié)果(Brown等人,2012年)。

準(zhǔn)確率NYU數(shù)據(jù)集NeuroImage數(shù)據(jù)集提出的方法63.6869.83ADHD-20035.1959.96RBFSVM64.264.2RBF51.948.2SVM55.161.2決策樹51.954.1表9.3表明,與NYU和NeuroImage數(shù)據(jù)集相比,文獻(xiàn)[205202]的方法分別提高了+12.04和27.81%。采用深度學(xué)習(xí)方法提取高效特征以及使用Softmax分類器是該方法相對(duì)于其他方法的優(yōu)勢(shì)。9.7實(shí)例10:基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動(dòng)障礙

綜上,注意缺陷多動(dòng)障礙(ADHD)已成為最常見的疾病之一,其早期診斷具有重要意義。文獻(xiàn)[205202]提出了一種基于深度置信網(wǎng)絡(luò)的方法,利用貪婪算法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行構(gòu)造和訓(xùn)練。在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,該方法比現(xiàn)有的方法具有明顯的優(yōu)勢(shì)。PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

10.1自編碼器10.2稀疏性自適應(yīng)編碼器10.3變分自編碼器10.4自編碼回聲狀態(tài)網(wǎng)絡(luò)10.5深度典型相關(guān)稀疏自編碼器10.6條件雙重對(duì)抗自編碼網(wǎng)絡(luò)10.7自編碼應(yīng)用模型第十章深度自編碼器10.8改進(jìn)LDA和自編碼器的調(diào)制識(shí)別算法7410.1自編碼器7410.1.1自編碼原理1.編碼-解碼圖中,輸入經(jīng)編碼器,得到編碼結(jié)果為編碼經(jīng)解碼器解碼或稱重構(gòu)為7510.1自編碼器75重構(gòu)的與輸入的接近程度,可以用損失函數(shù)來衡量。損失函數(shù)記為,用于測(cè)量重建的好壞,目標(biāo)是最小化的期望值??梢杂卸喾N多樣的定義,其中均方誤差是最常見的一種形式,即圖10.2顯示了重構(gòu)存在的誤差error。7610.1自編碼器76編碼器將高維原始輸入特征量映射到一個(gè)低維隱藏空間向量z(M維),解碼器再將z映射到一個(gè)N維輸出層,從而實(shí)現(xiàn)了對(duì)原始輸入特征量的復(fù)現(xiàn)。圖10.3也對(duì)應(yīng)于由輸入層、映射層(編碼層)、瓶頸層、解映射層(解碼層)和輸出層構(gòu)成的自編碼網(wǎng)絡(luò),如圖10.4所示。2.自編碼器自編碼器是深度學(xué)習(xí)中的一種無監(jiān)督學(xué)習(xí)模型,先通過編碼器將高維特征映射到低維度的隱藏表示,再通過解碼器將輸入特征量復(fù)現(xiàn),如圖10.3所示。7710.1自編碼器77圖(a)為5層結(jié)構(gòu),圖(b)簡(jiǎn)化為3層結(jié)構(gòu)。假設(shè)輸入層的輸入向量、編碼層的編碼函數(shù)、輸出層,解碼層的解碼函數(shù),N是輸入樣本和輸出樣本的維度,是隱含層的維度。隱含層與輸入層之間的映射關(guān)系為(a)五層結(jié)構(gòu)(b)三層結(jié)構(gòu)7810.1自編碼器78式中,為線性或非線性的激勵(lì)函數(shù),是權(quán)值矩陣,

是隱含層的偏置向量。同理,隱含層到輸出層也可以由一個(gè)函數(shù)g映射得到,關(guān)系為式中,為激勵(lì)函數(shù),是權(quán)值矩陣,是輸出層的偏置向量。AE的基本思想為:從網(wǎng)絡(luò)的輸入層到輸出層,學(xué)習(xí)一個(gè)函數(shù)使。激勵(lì)函數(shù)均選取sigmoid函數(shù),其形式為7910.1自編碼器79由于的值域在0到1之間,所以需要對(duì)數(shù)據(jù)進(jìn)行歸一化自動(dòng)編碼器的參數(shù)包括網(wǎng)絡(luò)權(quán)值和偏置向量,即

,可以通過最小化損失函數(shù)進(jìn)行求解。假設(shè)訓(xùn)練樣本為,N為樣本個(gè)數(shù),,則損失函數(shù)為8010.1自編碼器80基于以上假設(shè),反向傳播算法的步驟如下:

步驟1:計(jì)算前向傳播各層神經(jīng)元的激活值,即步驟2:計(jì)算第層(輸出層)第個(gè)輸出神經(jīng)元的梯度差,即步驟3:計(jì)算第層(隱含層)第個(gè)輸出神經(jīng)元的梯度差,即8110.1自編碼器81式中步驟4:計(jì)算最終網(wǎng)絡(luò)中的偏導(dǎo)數(shù)8210.2稀疏性自適應(yīng)編碼器82自編碼器要求輸出盡可能等于輸入,并且它的隱藏層必須滿足一定的稀疏性,即隱藏層不能攜帶太多信息。所以隱藏層對(duì)輸入進(jìn)行了壓縮,并在輸出層中解壓縮。整個(gè)過程肯定會(huì)丟失信息,但訓(xùn)練能夠使丟失的信息盡量少。稀疏自編碼網(wǎng)絡(luò)就是在自編碼網(wǎng)絡(luò)基礎(chǔ)上,對(duì)隱含層增加稀疏性限制,并且可以將多個(gè)自編碼網(wǎng)絡(luò)進(jìn)行堆疊[207204-208205]。

圖10.5為堆疊兩個(gè)自編碼網(wǎng)絡(luò)的稀疏自編碼網(wǎng)絡(luò),第一個(gè)自編碼網(wǎng)絡(luò)訓(xùn)練好后,取其隱含層作為下一個(gè)自編碼網(wǎng)絡(luò)的輸入與期望輸出。如此反復(fù)堆疊,直至達(dá)到預(yù)定網(wǎng)絡(luò)層數(shù)。最后進(jìn)入網(wǎng)絡(luò)微調(diào)過程,將輸入層、第一層隱含層、第二層隱含層以及之后所有的隱層整合為一個(gè)新的神經(jīng)網(wǎng)絡(luò),最后連接一個(gè)數(shù)據(jù)分類器,利用全部帶標(biāo)數(shù)據(jù)有監(jiān)督地重新調(diào)整網(wǎng)絡(luò)的參數(shù)。8310.2稀疏性自適應(yīng)編碼器83由于網(wǎng)絡(luò)常用的激活函數(shù)為sigmoid函數(shù),其輸出范圍是0到1,所以使第個(gè)隱含層第j個(gè)神經(jīng)元對(duì)第個(gè)隱含層所有神經(jīng)元激活平均值,即8410.2稀疏性自適應(yīng)編碼器84總接近一個(gè)比較小的實(shí)數(shù),即,表示稀疏度目標(biāo),就可保證網(wǎng)絡(luò)隱含層的稀疏性。為使兩值盡量接近,引入Kullback-Liebler散度(KL散度)。KL散度定義為式中,表示隱含層節(jié)點(diǎn)的數(shù)量。稀疏自編碼器(SparseAutoencoder,SAE)的總代價(jià)函數(shù)表示為式中,表示稀疏性懲罰項(xiàng)。通過最小化成本函數(shù),可以獲得最優(yōu)參數(shù)。因?yàn)榇鷥r(jià)函數(shù)多了一項(xiàng),所以梯度的表達(dá)式也有變化。8510.2稀疏性自適應(yīng)編碼器85為了方例起見,對(duì)稀疏性懲罰項(xiàng)只計(jì)算第1層參數(shù)參,令所以8610.2稀疏性自適應(yīng)編碼器86所以相當(dāng)于變成8710.3變分自編碼器8710.3.1變分自編碼理論變分自動(dòng)編碼器(VariationalAutocoder,VAE)[是自編碼器的一種,VAE能將高維原始特征量提取成低維的高階特征量而盡可能多地保留原本的信息。與一般的自編碼器不同,VAE基于變分貝葉斯推斷,通過尋找高階隱藏變量所滿足的高斯分布使映射得到的高階特征,具有更強(qiáng)的魯棒性,有利于增強(qiáng)分類器的泛化能力、減少噪聲來帶的干擾。

變分自編碼器通常由3層神經(jīng)網(wǎng)絡(luò)組成,包括輸入層、隱含層和輸出層。通過對(duì)輸入(D為樣本維數(shù),N為樣本數(shù))進(jìn)行編碼得到隱含層輸出(為隱含層空間維數(shù)),再通過解碼將隱含層輸出重構(gòu)回樣本原始空間維度,得到重構(gòu)樣本。自編碼器的訓(xùn)練是使輸出不斷地逼近輸入,進(jìn)而獲得能表征輸入樣本特性的隱含層特征。8810.3變分自編碼器88VAE作為一類生成模型,基本結(jié)構(gòu)如圖10.6所示。VAE利用隱變量表征原始數(shù)據(jù)集的分布,通過優(yōu)化生成參數(shù);利用隱變量生成數(shù)據(jù),使與原始數(shù)據(jù)高概率的相似,即最大化邊緣分布式中,表示由隱變量重構(gòu)原始數(shù)據(jù);表示隱變量的先驗(yàn)分布,這里采用高斯分布。由于沒有標(biāo)簽與對(duì)應(yīng),會(huì)導(dǎo)致利用生成的樣本不能與原始樣本相對(duì)應(yīng)。因此,采用表示由原始數(shù)據(jù)通過學(xué)習(xí)得到隱變量,從而建立與的關(guān)系。8910.3變分自編碼器89由于真實(shí)的后驗(yàn)分布很難計(jì)算,故采用服從高斯分布的近似后驗(yàn)代替真實(shí)后驗(yàn),兩個(gè)分布的Kullback-Leibler散度為

將式(10.3.2)進(jìn)行變換,得9010.3變分自編碼器90由于KL散度非負(fù),令式(10.3.3)右側(cè)等于,得。是需要最大化的對(duì)數(shù)似然函數(shù),而又希望近似后驗(yàn)分布接近真實(shí)后驗(yàn)分布,使接近于0,這里稱為的變分下界。為優(yōu)化和,可由似然函數(shù)的變分下界定義VAE的損失函數(shù),即

式中,表示正則化項(xiàng);表示重構(gòu)誤差。與自編碼器類似,可表示為一個(gè)變分參數(shù)為的編碼器,可表示為一個(gè)生成參數(shù)為的解碼器。9110.3變分自編碼器91通過假設(shè)服從,服從的高斯分布,計(jì)算式(10.3.4)的右側(cè)第1項(xiàng)

計(jì)算式(10.3.4)的右側(cè)第2項(xiàng),有式中,表示對(duì)采樣的次數(shù),一般=1。由于采樣過程不可導(dǎo),為避免無法直接對(duì)z進(jìn)行求導(dǎo),而不能通過梯度下降更新網(wǎng)絡(luò)參數(shù),利用重參數(shù)化技巧,對(duì)隨機(jī)變量進(jìn)行重參數(shù)化,令9210.3變分自編碼器92式中,為對(duì)N維獨(dú)立標(biāo)準(zhǔn)高斯分布的一次隨機(jī)采樣值,表示元素積,為均值、為方差。為計(jì)算式(10.3.6),一般選擇伯努利分布或者高斯分布。如果則有網(wǎng)絡(luò)的輸入信號(hào),為非二值型數(shù)據(jù),這里的分布選擇高斯分布,有

由此即可計(jì)算式(10.3.8),有由式(10.3.5)和式(10.8.8)計(jì)算,即可得VAE的損失函數(shù)。9310.3變分自編碼器根據(jù)式(10.3.7)~式(10.3.9),N維標(biāo)準(zhǔn)差向量;N維數(shù)學(xué)期望向量。這時(shí),圖10.6可以改畫為圖10.7。

9410.3變分自編碼器VAE模型訓(xùn)練的目標(biāo)是最小化重構(gòu)誤差和使盡可能地接近標(biāo)準(zhǔn)多元高斯分布。VAE的損失函數(shù)為

式中,為原始第i輸入特征量;為復(fù)現(xiàn)的第i維原始輸入特征量。損失函數(shù)由2部分組成:(1)交叉熵?fù)p失函數(shù),用來度量復(fù)現(xiàn)特征與原始輸入特征之間的差異程度;(2)為相對(duì)熵?fù)p失函數(shù),即KL(Kullback-Leibler)度,用來度量標(biāo)準(zhǔn)多元高斯分布之間的差異程度。9510.3變分自編碼器9510.3.2堆疊變分自動(dòng)編碼器1.堆疊變分自動(dòng)編碼器結(jié)構(gòu)堆疊變分自動(dòng)編碼器(stackedVariationalAutoencoder,SVAE)是將多個(gè)VAE堆疊構(gòu)成的深層網(wǎng)絡(luò)結(jié)構(gòu),SVAE逐層降低輸入特征的維度,提取高階特征。整個(gè)模型的訓(xùn)練過程分為無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)二個(gè)階段。評(píng)估模型的結(jié)構(gòu),如圖10.8所示[210207]。圖中,輸入層中的圓點(diǎn)表示神經(jīng)元為第k個(gè)VAE提取的高階特征值。9610.3變分自編碼器預(yù)訓(xùn)練階段,模型從最底層的VAE開始訓(xùn)練,當(dāng)充分完成對(duì)本層特征的學(xué)習(xí)之后,本層VAE輸出的高階特征將作為上一層VAE的輸入,繼續(xù)對(duì)上一層VAE進(jìn)行訓(xùn)練,直至所有VAE都得到了充分的訓(xùn)練。SVAE通過學(xué)習(xí)特征的分布情況,在訓(xùn)練時(shí)加入高斯噪聲,泛化能力強(qiáng)、提取的高階特征具有抗噪聲能力。與單個(gè)VAE直接提取特征相比,SVAE由于其深層的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于高維的非線性系統(tǒng)擁有更好的擬合能力,更適合復(fù)雜的分類任務(wù)。經(jīng)過SVAE提取后的高階特征輸入Logistic分類器,使用反向傳播算法對(duì)整個(gè)網(wǎng)絡(luò)的參數(shù)進(jìn)行有監(jiān)督的微調(diào),根據(jù)公式得到模型的最優(yōu)參數(shù)。

式中,函數(shù)為使函數(shù)取最小值時(shí)的取值;為模型參數(shù)矩陣;為訓(xùn)練樣本的期望標(biāo)簽值;為訓(xùn)練樣本的預(yù)測(cè)標(biāo)簽值。9710.3變分自編碼器2.L2正則化為了提高判別模型的泛化能力,引入L2正則化。加入L2正則化后的損失函數(shù)為式中,為原始的目標(biāo)函數(shù);為神經(jīng)元的權(quán)重值參數(shù);為所有神經(jīng)元的權(quán)重值集合;為懲罰系數(shù)。L2正則化通過在損失函數(shù)中加入L2正則化項(xiàng),使判別模型在訓(xùn)練時(shí)傾向于使用較小的權(quán)重值參數(shù),一定程度上減小模型的過擬合,增強(qiáng)泛化能力。9810.3變分自編碼器9810.3.3深度卷積變分自編碼器1.深度卷積變分自編碼器結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常由輸入層、卷積層、池化層、激活函數(shù)、全連接層和輸出層組成。

卷積層由多個(gè)特征面構(gòu)成,每個(gè)特征面由多個(gè)神經(jīng)元組成,當(dāng)前層神經(jīng)元的輸入是通過卷積核與上一層特征面的局部區(qū)域相連,利用連接權(quán)值和偏置進(jìn)行卷積操作,并采用激活函數(shù)激活得到當(dāng)前層神經(jīng)元的輸入值;連接權(quán)值的大小由卷積核的大小決定。池化層一般在卷積層之后,類似于下采樣操作,起到二次特征提取的作用。全連接層中的每個(gè)神經(jīng)元與上一層中的所有神經(jīng)元進(jìn)行全連接,可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息。9910.3變分自編碼器99VAE中的神經(jīng)網(wǎng)絡(luò)與多層感知器(Multi-layerperceptron,MLP)類似,采用的是全連接方式,文獻(xiàn)[211208]采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造VAE,以減小網(wǎng)絡(luò)復(fù)雜度,得到深度卷積變分自編碼器(DeepconvolutionalvariationalAutoencoder,DCVAE),如圖所示。10010.3變分自編碼器100DCVAE模型由兩部分組成,虛線框內(nèi)是VAE的編碼和解碼過程,虛線框外是一個(gè)多層卷積神經(jīng)網(wǎng)絡(luò)。通過VAE的無監(jiān)督學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)完成DCVAE模型的訓(xùn)練。

在VAE編碼階段,輸入層后連接第1個(gè)卷積層Convl,16@64×1表示16個(gè)特征面,64×1表示卷積核的大小為(64,1),Stride為(2,1),也即在特征面的縱向上滑動(dòng)步長(zhǎng)為2、橫向上為1不進(jìn)行滑動(dòng);將卷積層Conv1的輸出進(jìn)行BN歸一化,并作為池化層的輸入,用ReLU函數(shù)作激活函數(shù),其中,批量歸一化是對(duì)某一層的輸入的小批量樣本數(shù)據(jù)進(jìn)行歸一化處理,以減小每次輸入數(shù)據(jù)分布的變化,有利于網(wǎng)絡(luò)參數(shù)的訓(xùn)練,使網(wǎng)絡(luò)快速收斂,也能提高網(wǎng)絡(luò)的泛化能力。10110.3變分自編碼器101池化操作選擇最大池化(Maxpooling),步長(zhǎng)為2;將第1個(gè)池化層的輸出進(jìn)行Dropout操作,起到加入噪聲的作用,并將其作為第2個(gè)卷積層Conv2的輸入,同樣再進(jìn)行BN歸一化和最大池化處理,通過一個(gè)200個(gè)神經(jīng)元的全連接層,輸出隱含層的均值和方差的對(duì)數(shù),利用重參數(shù)化采樣得到隱含層的特征;由于VAE是無監(jiān)督學(xué)習(xí),需要利用解碼過程重構(gòu)輸入數(shù)據(jù)完成訓(xùn)練,解碼過程是編碼過程的反向操作,用反卷積替換卷積操作。10210.3變分自編碼器102完成對(duì)VAE的訓(xùn)練后,得到隱含變量,并將作為卷積神經(jīng)網(wǎng)絡(luò)中卷積層Conv3的輸入。卷積層Conv3有32個(gè)特征面,卷積核大小為(4,1),Stride步長(zhǎng)為1;將Conv3的輸出進(jìn)行BN歸一化,再采用最大池化處理,并進(jìn)入Dropout操作;Conv4有64個(gè)特征面,卷積核大小為(4,1),Stride步長(zhǎng)為1;將Conv4的輸出進(jìn)行BN歸一化,采用最大池化處理;池化層后連接一個(gè)100個(gè)神經(jīng)元的全連接層,并輸入到Softmax分類器。

利用交叉熵構(gòu)建多層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型的損失函數(shù),通過反向微調(diào)更新網(wǎng)絡(luò)參數(shù)。多次訓(xùn)練后,完成對(duì)DCVAE網(wǎng)絡(luò)的優(yōu)化學(xué)習(xí)。10310.3變分自編碼器103本節(jié)采用式(10.3.14)所示的變化的Dropout,其中,p值逐步減小,并且p值取較大值的次數(shù)大于取較小值的次數(shù)。當(dāng)值取較大值,用于學(xué)習(xí)數(shù)據(jù)的細(xì)節(jié)特征;當(dāng)值取較小值,用于學(xué)習(xí)數(shù)據(jù)魯棒的判別性特征,降低模型對(duì)微小擾動(dòng)的敏感性。如圖10.18所示,在DCVAE中,在VAE訓(xùn)練階段和多層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段的第1個(gè)Maxpooling層后均使用了Dropout。式中,為網(wǎng)絡(luò)迭代訓(xùn)練的次數(shù);為第次迭代訓(xùn)練;為第次訓(xùn)練超參數(shù)的取值。10410.3變分自編碼器1043.學(xué)習(xí)率更新學(xué)習(xí)率是一個(gè)重要的超參數(shù),控制著神經(jīng)網(wǎng)絡(luò)反向傳播權(quán)重更新的速度。學(xué)習(xí)率越大,沿著梯度下降的速度越快,網(wǎng)絡(luò)訓(xùn)練可能會(huì)錯(cuò)過局部最優(yōu)解;學(xué)習(xí)率越小,權(quán)重更新速度越慢,錯(cuò)過局部最優(yōu)解的概率越小,但網(wǎng)絡(luò)達(dá)到收斂所需要的時(shí)間相對(duì)更長(zhǎng)。

為加快網(wǎng)絡(luò)收斂,在訓(xùn)練開始時(shí),學(xué)習(xí)率取較大值;在接近最大訓(xùn)練次數(shù)時(shí),學(xué)習(xí)率可取較小值。現(xiàn)采用利用隨機(jī)梯度下降法(stochasticgradientdescent,SGD)更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率的取值為式中,為網(wǎng)絡(luò)迭代訓(xùn)練的次數(shù);為第次迭代訓(xùn)練;為第次迭代訓(xùn)練。10510.4自編碼回聲狀態(tài)網(wǎng)絡(luò)105回聲狀態(tài)網(wǎng)絡(luò)是一種具有新型結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)中特殊之處在于具有一個(gè)動(dòng)態(tài)神經(jīng)元儲(chǔ)備池(dynamicneuronsreservoir,DNR)。儲(chǔ)備池由很多的神經(jīng)元組成,具有時(shí)序記憶功能。儲(chǔ)備池中的節(jié)點(diǎn)是隨機(jī)大規(guī)模產(chǎn)生并采用稀疏連接(1%~5%連接),采用廣義逆方法求取輸出權(quán)重,可以獲得全局最優(yōu)解,學(xué)習(xí)速度快。然而,回聲狀態(tài)網(wǎng)絡(luò)在處理高維、復(fù)雜過程數(shù)據(jù)時(shí),儲(chǔ)備池需要配置大量的節(jié)點(diǎn)。樣本數(shù)據(jù)經(jīng)儲(chǔ)備池大量節(jié)點(diǎn)映射之后復(fù)雜度增大、維數(shù)升高,使網(wǎng)絡(luò)的計(jì)算量變大,進(jìn)一步影響回聲狀態(tài)網(wǎng)絡(luò)的精度。

另一方面,求解回聲狀態(tài)網(wǎng)絡(luò)輸出權(quán)值采用廣義逆或者最小二乘法,這在處理高維數(shù)據(jù)尤其是存在共線性的數(shù)據(jù)時(shí),求解的輸出權(quán)值不準(zhǔn)確。經(jīng)過儲(chǔ)備池大量節(jié)點(diǎn)的映射,儲(chǔ)備池輸出矩陣很容易存在共線性,從而影響輸出權(quán)值的求解,降低回聲狀態(tài)網(wǎng)絡(luò)模型的精度。10610.4自編碼回聲狀態(tài)網(wǎng)絡(luò)106為了解決該問題,對(duì)儲(chǔ)備池的輸出做降維處理。其中,自編碼神經(jīng)網(wǎng)絡(luò)就是一種有效的非線性特征提取方法。自編碼神經(jīng)網(wǎng)絡(luò)與自聯(lián)想神經(jīng)網(wǎng)絡(luò)模型具有相似的結(jié)構(gòu)和功能,都具有鏡像結(jié)構(gòu),輸入與輸出相同、中間層節(jié)點(diǎn)數(shù)目少于輸入輸出維度,因此,通過隱含層節(jié)點(diǎn)的映射可實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的壓縮。

自編碼神經(jīng)網(wǎng)絡(luò)中間瓶頸層在壓縮數(shù)據(jù)的同時(shí)能夠除去數(shù)據(jù)的噪聲,使得通過自編碼神經(jīng)網(wǎng)絡(luò)提取的特征既能實(shí)現(xiàn)降維又能去除噪聲。由于自編碼神經(jīng)網(wǎng)絡(luò)隱含層采用非線性激活函數(shù),從而保證了提取特征之間沒有共線性。10710.4自編碼回聲狀態(tài)網(wǎng)絡(luò)10710.4.1回聲狀態(tài)網(wǎng)絡(luò)回聲狀態(tài)網(wǎng)絡(luò)是一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論