單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀與挑戰(zhàn)_第1頁
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀與挑戰(zhàn)_第2頁
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀與挑戰(zhàn)_第3頁
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀與挑戰(zhàn)_第4頁
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀與挑戰(zhàn)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀與挑戰(zhàn)

1激勵函數(shù)連續(xù)、有界且不是常態(tài)函數(shù)單隱藏層前反饋神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)(slfn)之所以能在很多領(lǐng)域應(yīng)用,是因為它有很多好處:(1)它的學習能力可以接近復(fù)雜的非線性函數(shù)。(2)解決第一個參數(shù)方法無法解決的問題。另一方面,高速學習方法不足,這很難滿足大多數(shù)現(xiàn)實的需求。對于SLFN的學習能力,很多文獻分別從緊集(compactinputsets)和有限集(infiniteinputsets)兩種輸入情況進行了深入討論.Hornik研究表明:如果激勵函數(shù)連續(xù)、有界且不是常量函數(shù),那么SLFN能夠在緊集情況下逼近任何連續(xù)函數(shù);Leshno在Hornik基礎(chǔ)上的進一步研究表明:使用非多項式激勵函數(shù)的SLFN能夠逼近任何連續(xù)函數(shù).在實際應(yīng)用中,神經(jīng)網(wǎng)絡(luò)的輸入往往是有限集,對于有限集情況下SLFN的學習能力,Huang和Babri等進行了研究,結(jié)果表明:對于含有N個不同實例的有限集,一個具有非線性激勵函數(shù)的SLFN最多只需N個隱藏層結(jié)點,就可以無誤差地逼近這N個實例.這就是說,一個具有N個隱藏層結(jié)點的SLFN,即使輸入權(quán)值隨機取值,它也能夠準確擬合N個不同的實例,更明確地講就是:SLFN的學習能力只和隱藏層結(jié)點的數(shù)目有關(guān),而和輸入層的權(quán)值無關(guān).雖然這一點對于提出一種新的學習算法很有啟發(fā),但并未引起研究者的注意,迭代調(diào)整的思想一直堅持到現(xiàn)在,很多算法都只是圍繞這一思想進行技巧性的改進.不同于傳統(tǒng)的學習方法,Huang基于以上研究結(jié)論為SLFN提出了一種稱為極速學習機(ExtremeLearningMachine,ELM)的學習方法:設(shè)置合適的隱藏層結(jié)點數(shù),為輸入權(quán)和隱藏層偏差進行隨機賦值,然后輸出層權(quán)值通過最小二乘法得到.整個過程一次完成,無需迭代,與BP相比速度顯著提高(通常10倍以上).但是ELM是基于經(jīng)驗風險最小化原理,這可能會導(dǎo)致過度擬合問題.此外因為ELM不考慮誤差的權(quán)重,當數(shù)據(jù)集中存在離群點時,它的性能將會受到嚴重影響.為了克服這些缺點,我們結(jié)合結(jié)構(gòu)風險最小化理論以及加權(quán)最小二乘法對ELM算法進行改進,使得ELM在保持“快速”這一優(yōu)勢的前提下,泛化性能得到進一步的提高.2各隱藏層支點的輸出權(quán)值ls對于N個不同樣本(xi,ti),其中xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm,一個隱藏層結(jié)點數(shù)目為?ΝN?、激勵函數(shù)為g(x)的SLFN的統(tǒng)一模型為?Ν∑i=1βigi(xj)=?Ν∑i=1βig(ai·xj+bi)=tj,j=1,2,…,N(1)其中ai=[ai1,ai2,…,ain]T是連接第i個隱藏層結(jié)點的輸入權(quán)值;bi是i個隱藏層結(jié)點的偏差(bias);βi=[βi1,βi2,…,βim]T是連接i個隱藏層結(jié)點的輸出權(quán)值;ai·xj表示ai和xj的內(nèi)積.激勵函數(shù)g(x)可以是“Sigmoid”、“Sine”或“RBF”等.上述N個方程的矩陣形式可寫為Hβ=T,其中H(a1,…,a,b1,…,b,x1,…,xN)=[g(a1?x1+b1)?g(a?Ν?x1+b?Ν)???g(a1?xΝ+b1)?g(a?Ν?xΝ+b?Ν)]Ν×?Ν?β=[βΤ1?βΤ?Ν]?Ν×m?Τ=[tΤ1?tΤΝ]Ν×m.E(W)表示期望值和實際值之間的誤差平方和,問題求解就是尋找最優(yōu)的權(quán)值W=(a,b,β)使代價函數(shù)E(W)最小,其數(shù)學模型可表示為argminW=(a,b,β)E(W)=argminW=(a,b,β)∥ε∥2?s.t.?Ν∑i=1βig(ai·xj+bi)-tj=εj,j=1,2,…,N(2)其中εj=[εj1,εj2,…,εjm]是第j個樣本的誤差.為了方便討論,在后文中將以一維輸出(m=1)為例進行研究,但所得結(jié)論仍適用于多維情況.3梯度下降法bp由Rumelhart和McClelland提出的BP神經(jīng)網(wǎng)絡(luò)模型是目前應(yīng)用最廣泛的模型之一,BP訓練方法是通過反向誤差傳播原理不斷調(diào)整網(wǎng)絡(luò)權(quán)值使得實際輸出與期望輸出之間的誤差平方和達到最小或小于某個閾值.當H未知時,通常采用梯度下降法迭代調(diào)整W:Wk=Wk-1-η?E(W)?W,其中η代表學習速率.基于梯度下降法的BP存在以下缺點:(1)訓練速度慢.因為需要多次的迭代,所以時間消耗很長.(2)參數(shù)選擇很敏感,必須選取合適的η與W初值,才能取得理想的結(jié)果.若η太小,算法收斂很慢,而η太大,算法不太穩(wěn)定甚至不再收斂;(3)局部最小值.由于E(W)非凸,因此在下降過程中可能會陷入局部最小點,無法達到全局最小;(4)過渡擬合.在有限樣本上訓練時,僅以訓練誤差最小為目標的訓練可能導(dǎo)致過渡擬合.4在有機評析和一般假設(shè)下的訓練srfn為了解決以上問題,Huang基于以下定理為SLFN提出了ELM學習算法.定理1.對于任意N個不同樣本(xi,ti),其中xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm,N個隱藏層結(jié)點和一個任意區(qū)間無限可導(dǎo)的激活函數(shù)g:R→R,則SLFN在ai∈Rn和bi∈R任意賦值的情況下,所形成的隱藏層矩陣H可逆,即方程組有精確解,代價函數(shù)E(W)=0.定理2.給定任意N個不同樣本(xi,ti),任意小誤差e>0,及在任意區(qū)間無限可導(dǎo)的激活函數(shù)g:R→R,總存在一個包含?Ν(?Ν≤Ν)個隱藏層結(jié)點的SLFN,使得在ai∈Rn和bi∈R任意取值情況下,誤差E(W)≤e.定理1和定理2的詳細證明可參考文獻.定理表明:只要隱含層結(jié)點數(shù)足夠多,SLFN就能在輸入權(quán)隨機賦值情況下逼近任何連續(xù)函數(shù).但為了使SLFN具有良好的泛化性能,通常?Ν?Ν.當輸入權(quán)以隨機賦值的方式確定后,所得隱藏層矩陣H便是一個確定的矩陣,因此訓練SLFN就轉(zhuǎn)化為計算Hβ=T的最小二乘解問題.關(guān)于ELM的細節(jié)請參考文獻.與BP相比ELM需要調(diào)整的參數(shù)只有隱含層結(jié)點個數(shù)?Ν,目前雖沒有精確估計?Ν的方法,但?Ν?Ν大大縮小了搜索范圍,在實際應(yīng)用中?Ν可以通過交叉驗證的方式確定.在標準UCI數(shù)據(jù)集上的大量實驗表明ELM訓練速度快,泛化性能良好,但ELM仍有一些缺點:(1)ELM僅考慮經(jīng)驗風險,沒有考慮到結(jié)構(gòu)化風險,因此可能導(dǎo)致過度擬合問題;(2)ELM直接計算最小二乘解,用戶無法根據(jù)數(shù)據(jù)集的特征進行微調(diào),可控性差;(3)當數(shù)據(jù)集中存在離群點時,模型性能將會受到很大影響,魯棒性較差.為了克服這些缺點,我們把結(jié)構(gòu)風險最小化理論以及加權(quán)最小二乘法引入到ELM中,提出一種正則極速學習機(RegularizedExtremeLearningMachine,RELM).5規(guī)范約束反增效應(yīng)模型根據(jù)統(tǒng)計學理論可知,實際風險包括經(jīng)驗風險和結(jié)構(gòu)風險兩種成分.一個具有較好泛化性能的模型應(yīng)該能權(quán)衡這兩種風險,并取得最佳的折中.RELM將同時考慮這兩種風險因素,并通過參數(shù)γ調(diào)節(jié)兩種風險的比例,RELM的數(shù)學模型可表示為argminβE(W)=argminβ(12∥β∥2+12γ∥ε∥2)?s.t.?Ν∑i=1βig(ai·xj+bi)-tj=εj,j=1,2,…,N,其中,誤差的平方和‖ε‖2代表經(jīng)驗風險;‖β‖2代表結(jié)構(gòu)風險,它源于統(tǒng)計理論中邊緣距離最大化原理;而γ則是兩種風險的比例參數(shù),通過交叉驗證的方式確定γ來獲得兩種風險的最佳折中點.為了獲得一個抗干擾模型,我們?yōu)椴煌瑯颖镜恼`差進行加權(quán),‖ε‖2被擴展為‖Dε‖2.其中D=diag(v1,v2,…,vN)表示誤差的權(quán)值對角陣.RELM的模型進一步修正為argminβ(12∥β∥2+12γ∥Dε∥2),s.t.?Ν∑i=1βig(ai·xj+bi)-tj=εj,j=1,2,…,N.上式是條件極值問題,通過拉格朗日方程轉(zhuǎn)換為無條件極值問題進行求解:?(β,ε,α)=γ2∥Dε∥2+12∥β∥2-Ν∑j=1αj(g(ai?xj+bi)-tj-εj)=γ2∥Dε∥2+12∥β∥2-α(Ηβ-Τ-ε)(4)其中α=[α1,α2,…,αN];αj∈Rm(j=1,2,…,N)代表拉格朗日乘子.求拉格朗日方程的梯度并令其為0:{???β→βΤ=αΗ(5a)???ε→γεΤD2+α=0(5b)???α→Ηβ-Τ-ε=0(5c)把方程(5c)代入方程(5b)得α=-γ(Hβ-T)TD2(6)把式(6)代入方程(5a)得β=(Ιγ+ΗΤD2Η)?ΗΤD2Τ(7)表達式(7)只含有一個?Ν×?Ν(?Ν?Ν)矩陣的逆操作,所以計算β的速度非???5.1無權(quán)relm算法在實際應(yīng)用中,如果數(shù)據(jù)集中離群點很少,對模型沒有太大影響,那么為了加快訓練速度,可以認為每個樣本的誤差權(quán)值相同,此時矩陣D=diag(v1,v2,…,vN)將是一個單位陣,無須計算.我們稱這種情況的RELM為無權(quán)RELM,無權(quán)RELM算法可歸結(jié)如下:算法1.無權(quán)RELM.給定一個訓練集?={(xi,ti)|xi∈Rn,ti∈Rm,i=1,2,…,N}、激勵函數(shù)g(x)及隱藏層結(jié)點數(shù)?Ν,(1)隨機指定輸入權(quán)重值a和偏差bi(i=1,2,?,?Ν).(2)計算隱藏層的輸出矩陣Η=[g(a1?x1+b1)?g(a?Ν?x1+b?Ν)???g(a1?xΝ+b1)?g(a?Ν?xΝ+b?Ν)]Ν×?Ν.(3)未加權(quán)relm退化成elmβ:β=(Ιγ+ΗΤΗ)?ΗΤΤ.通過觀察不難看出,RELM與ELM計算量基本一樣.其實ELM是未加權(quán)RELM的一種特殊情況.定理3.當γ→∞時,未加權(quán)RELM將退化為ELM.證明.若γ→∞,則Ιγ→0,因此有β=(Ιγ+ΗΤΗ)?ΗΤΤ=(ΗΤΗ)?ΗΤΤ=Η?(ΗΤ)?ΗΤΤ=Η?Τ.證畢.5.2加權(quán)relm算法與無權(quán)RELM相反,如果數(shù)據(jù)含有離群點,那么使用加權(quán)RELM有一定的抗干擾能力,這可以從后面“SinC”數(shù)據(jù)集離群點加入前后的實驗對比中看出.加權(quán)RELM需要計算誤差的權(quán)值,權(quán)值計算已有很多論述,這里采用文獻提到的方法:vj={1,|εj/?s|≤c1c2-|εj/?s|c2-c1,c1≤|εj/?s|≤c210-4?其它,其中εj=-αjγ,它是無權(quán)RELM計算得到的樣本誤差,?s是誤差εj的標準偏差(standarddeviation)估計,可通過公式?s=1.483ΜAD(xj)計算.MAD(MedianAbsoluteDeviation)表示絕對中位差.根據(jù)高斯分布可知:基本不存在大于2.5?s的誤差,因此常量c1和c2通常被置為c1=2.5,c2=3.綜上所述,RELM算法可歸結(jié)如下:算法2.加權(quán)RELM.給定一個訓練集?={(xi,ti)|xi∈Rn,ti∈Rm,i=1,2,…,N}、激勵函數(shù)g(x)以及隱藏層結(jié)點數(shù)?Ν,(1)隨機指定輸入權(quán)值ai、偏差bi(i=1,2??,?Ν)并且計算隱藏層輸出矩陣H.(2)β=(Ιγ+ΗΤΗ)?ΗΤΤ.(3)α=-γ(Ηβ-Τ)Τ.(4)εi=αiγ(i=1,2,?,Ν).(5)?s=1.483ΜAD(xj).(6)D=diag(v1,v2,??vΝ):vj={1?|εj/?s|≤c1c2-|εj/?s|c2-c1?c1≤|εj/?s|≤c210-4?其它.(7)β=(Ιγ+ΗΤD2Η)?ΗΤD2Τ.加權(quán)RELM多了計算權(quán)值的過程,時間消耗有所延長,因此如果實際應(yīng)用中對訓練時間要求很強,那么用無權(quán)RELM比較合適.在下面的實驗中,除為了驗證RELM的魯棒性在“SinC”數(shù)據(jù)集上采用加權(quán)RELM和ELM進行比較外,其它數(shù)據(jù)集的實驗一律采用無權(quán)RELM和ELM進行比較.RELM與ELM相比,具有如下特點:(1)方程組的解是Hβ=T的一個加權(quán)最小二乘解:∥Η?β-Τ∥=∥Η(ΗΤD2Η)?ΗΤD2Τ-Τ∥=argminβ∥Ηβ-Τ∥.這個解不但可以達到最小的訓練誤差,同時對離群點具有一定的抗干擾能力.(2)通過引入調(diào)節(jié)參數(shù)γ,代價函數(shù)不僅包括經(jīng)驗風險,還包括結(jié)構(gòu)風險,這使得方程組的解不僅獲得盡可能小的訓練誤差,而且能使邊緣距離最大化,從而具有更好的泛化性能:|Η(Ιγ+ΗΤΗ)?ΗΤΤ-Τ|=argminβ(γ∥Ηβ-Τ∥+∥β∥2).6svm算法實驗這里我們通過實驗結(jié)果比較RELM、ELM、BP和支持向量機(SupportVectorMachine,SVM)的性能.RELM、ELM和BP的執(zhí)行環(huán)境是Matlab7.0,SVM的執(zhí)行環(huán)境是C語言.RELM由我們自己實現(xiàn),ELM的源代碼可以從Huang的個人主頁直接下載1,而BP算法已經(jīng)集成在Matlab自帶的神經(jīng)網(wǎng)絡(luò)工具箱中,可以直接使用.BP算法有很多變種,我們選擇最快的Levenberg-Marquardt算法來進行實驗.SVM算法我們采用C語言實現(xiàn)的SVM包:LibSVM2.RELM、ELM和BP的激勵函數(shù)都選擇“Sigmoid”函數(shù):g(x)=1/(1+exp(-x)),而SVM的核函數(shù)選擇徑向基函數(shù).實驗數(shù)據(jù)的輸入一律歸一化到范圍內(nèi),而輸出則歸一化到[-1,1]范圍內(nèi).值得指出的是,這里匯總的實驗結(jié)果都是每種算法能夠達到的最優(yōu)實驗結(jié)果.對于SVM,我們采用Hsu和Lin提出的排列組合方式選擇最優(yōu)的參數(shù)γ和C:γ=[24,23,…,2-10],C=[212,211,…,2-2].共有15×15=225種組合,對每一種組合(γ,C),進行50次隨機實驗,并對最佳平均值進行匯總.對于RELM,我們采用類似于SVM的方式選擇最優(yōu)的參數(shù)γ和隱藏層結(jié)點數(shù)?Ν:γ=[2-50,2-49,?,250]??Ν=[5,10,?,?Νmax](?Νmax根據(jù)具體數(shù)據(jù)集設(shè)定).對于所產(chǎn)生的每個組合(γ,?Ν),進行50次隨機實驗,并對最佳平均值進行匯總.對于ELM和BP,隱藏層結(jié)點的個數(shù)初始取5,每次遞增5,并基于5-折交叉驗證的方法選擇最優(yōu)(接近)的數(shù)目,然后進行50次實驗并將最佳平均結(jié)果進行匯總.6.1回歸問題6.1.1算法性能測試“SinC”函數(shù)表達式:y(x)={sinx/x,x≠01?x=0.數(shù)據(jù)產(chǎn)生方法:在區(qū)間(-10,10)內(nèi)隨機產(chǎn)生5000個訓練樣本和測試樣本,并在所有訓練樣本上附加取值范圍為[-0.2,0.2]的隨機噪聲,而測試數(shù)據(jù)無噪聲.各種算法的性能見表1.從表1可以看出RELM的RMSE(RootMeanSquareError,均方根誤差)比ELM小,分別為0.0078和0.0097;不過RELM訓練時間比ELM稍長;RELM的RMSE明顯比BP算法和SVM算法要小,而訓練時間卻比BP和SVM縮短了上百倍.由此可見在“SinC”數(shù)據(jù)集上,RELM綜合性能最好.為了比較RELM和ELM算法的魯棒性,“SinC”訓練集中加入了一些離群點后進行重新實驗.實驗結(jié)果見圖1,從圖中可以看出ELM的預(yù)測曲線明顯脫離實際曲線,說明其受到離群點的干擾很大.而RELM的預(yù)測曲線仍能完好地擬合實際曲線,說明RELM具有一定的抗干擾能力.6.1.2算法的時間消耗我們在13種真實數(shù)據(jù)集3上將RELM與ELM、BP、SVM進行比較,數(shù)據(jù)集信息見表2.4種算法的RMSE見表3.從表3可以看出,RELM在大多數(shù)據(jù)集上的測試RMSE比ELM、BP、SVM小,說明其有更好的泛化性能(如果兩種算法的RMSE相差大于0.005時,較好的RMSE加粗表示);表4匯總了4種算法的時間消耗,從表4可以看出RELM的訓練速度和ELM相差無幾,卻比BP和SVM快很多倍.但是由于BP具有最緊湊網(wǎng)絡(luò)結(jié)構(gòu)(隱藏層結(jié)點數(shù)最少),在4種算法中BP測試時間最短;表5匯總了4種算法的標準偏差.前面提到當γ→∞時,RELM將退化為ELM.為了說明這一點,我們以數(shù)據(jù)集“Triazines”為例展示RELM的性能(RMSE)隨γ變化情況.如圖2所示,可以看出RELM的性能首先隨著γ的增大不斷提高(越小越好),當γ=2-2時,RELM的性能達到最好,比ELM提高了0.05.之后,隨著γ的增大,RELM的性能不斷降低,并逐漸與ELM的性能曲線重疊在一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論