深度學習及其優(yōu)化方法_第1頁
深度學習及其優(yōu)化方法_第2頁
深度學習及其優(yōu)化方法_第3頁
深度學習及其優(yōu)化方法_第4頁
深度學習及其優(yōu)化方法_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

深度學習及其優(yōu)化方法第一頁,共五十一頁,編輯于2023年,星期日Outline深度學習基本介紹LossFunction一般形式及數(shù)學概念深度學習梯度優(yōu)化方法深度學習優(yōu)化方法2/25第二頁,共五十一頁,編輯于2023年,星期日深度學習的概念3/25什么是deeplearning?

深度學習:一種基于無監(jiān)督特征學習和特征層次結(jié)構(gòu)的學習方法。

本質(zhì):通過構(gòu)建多隱層的模型和海量訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類或預測的準確性。含多隱層的多層感知器就是一種深度學習結(jié)構(gòu)。第三頁,共五十一頁,編輯于2023年,星期日DL訓練過程4/25深度學習的基本思想:對于DeepLearning,需要自動地學習特征,假設有一堆輸入I,輸出是O,設計一個系統(tǒng)S(有n層),形象地表示為:I=>S1=>S2=>.....=>Sn=>O,通過調(diào)整系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I,那么就可以自動地獲取得到輸入I的一系列層次特征,即S1,...,Sn。用自下而上的無監(jiān)督學習1)逐層構(gòu)建單層神經(jīng)元。2)每層采用wake-sleep算法進行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。第四頁,共五十一頁,編輯于2023年,星期日5/25第二步:自頂向下的監(jiān)督學習

這一步是在第一步學習獲得各層參數(shù)進的基礎(chǔ)上,在最頂?shù)木幋a層添加一個分類器(如,SVM等),而后通過帶標簽數(shù)據(jù)的監(jiān)督學習,利用梯度下降法去微調(diào)整個網(wǎng)絡參數(shù)。DL訓練過程第五頁,共五十一頁,編輯于2023年,星期日6/25深度學習的具體模型及方法:1、自動編碼器(AutoEncoder)2、稀疏自動編碼器(SparseAutoEncoder)3、限制波爾茲曼機(RestrictedBoltzmannMachine)4、深信度網(wǎng)絡(DeepBeliefNetworks)5、卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks)DL訓練過程第六頁,共五十一頁,編輯于2023年,星期日自動編碼器7/251、自動編碼器(AutoEncoder)通過調(diào)整encoder和decoder的參數(shù),使得重構(gòu)誤差最小,就得到了輸入input信號的第一個表示了,也就是編碼code了。因為是無標簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。第七頁,共五十一頁,編輯于2023年,星期日稀疏自動編碼器8/25如上圖,其實就是限制每次得到的表達code盡量稀疏。因為稀疏的表達往往比其他的表達要有效。2、稀疏自動編碼器(SparseAutoEncoder)AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點中大部分都要為0,只有少數(shù)不為0),就可以得到SparseAutoEncoder法。第八頁,共五十一頁,編輯于2023年,星期日RBM9/253、限制波爾茲曼機(RBM)定義:假設有一個二部圖,同層節(jié)點之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設所有的節(jié)點都是隨機二值(0,1)變量節(jié)點,同時假設全概率分布p(v,h)滿足Boltzmann分布,稱這個模型是RBM。第九頁,共五十一頁,編輯于2023年,星期日RBM10/25給定隱層h的基礎(chǔ)上,可視層的概率確定:(可視層節(jié)點之間是條件獨立的)給定可視層v的基礎(chǔ)上,隱層的概率確定:給定一個滿足獨立同分布的樣本集:D={v(1),

v(2),…,

v(N)},我們需要學習參數(shù)θ={W,a,b}。

最大似然估計:對最大對數(shù)似然函數(shù)求導,就可以得到L最大時對應的參數(shù)W了。第十頁,共五十一頁,編輯于2023年,星期日DBN11/25DBNs由多個限制玻爾茲曼機(RBM)層組成,一個典型的神經(jīng)網(wǎng)絡類型如下圖所示。第十一頁,共五十一頁,編輯于2023年,星期日CNN12/255、卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks)卷積神經(jīng)網(wǎng)絡是一個多層的神經(jīng)網(wǎng)絡,每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。CNNs是第一個真正成功訓練多層網(wǎng)絡結(jié)構(gòu)的學習算法。核心思想:局部感受野、權(quán)值共享以及時間或空間子采樣這三種結(jié)構(gòu)思想結(jié)合起來獲得某種程度的位移、尺度、形變不變性。第十二頁,共五十一頁,編輯于2023年,星期日LossFunction一般形式13/25第十三頁,共五十一頁,編輯于2023年,星期日LossFunction一般形式14/25回歸函數(shù)及目標函數(shù)以均方誤差作為目標函數(shù)(損失函數(shù)),目的是使其值最小化,用于優(yōu)化上式。第十四頁,共五十一頁,編輯于2023年,星期日數(shù)學概念15/251、梯度(一階導數(shù))某一點的梯度方向是在該點坡度最陡的方向,而梯度的大小告訴我們坡度到底有多陡;對于一個含有n個變量的標量函數(shù),即函數(shù)輸入一個n維的向量,輸出一個數(shù)值,梯度可以定義為:第十五頁,共五十一頁,編輯于2023年,星期日數(shù)學概念16/252、Hesse矩陣(二階導數(shù))Hesse矩陣常被應用于牛頓法解決的大規(guī)模優(yōu)化問題,主要形式如下:當f(x)是下列形式:其中

x為列向量,A是n階對稱矩陣,b是n維列向量,c是常數(shù)。f(x)梯度是Ax+b,Hesse矩陣等于A。第十六頁,共五十一頁,編輯于2023年,星期日數(shù)學概念17/253、Jacobian矩陣Jacobian矩陣實際上是向量值函數(shù)的梯度矩陣,假設F:Rn→Rm是一個從n維歐氏空間轉(zhuǎn)換到m維歐氏空間的函數(shù)。這個函數(shù)由m個實函數(shù)組成:這些函數(shù)的偏導數(shù)(如果存在)可以組成一個m行n列的矩陣(mbyn),這就是所謂的雅可比矩陣:第十七頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法18/251、GradientDescentGradientdescent(steepestdescent),也叫批量梯度下降法BatchGradientDescent,BSD,利用一階的梯度信息找到函數(shù)局部最優(yōu)解的一種方法,主要迭代公式如下:其中,是第k次迭代我們選擇移動的方向,是第k次迭代用linesearch方法選擇移動的距離,每次移動的距離系數(shù)可以相同,也可以不同,有時候我們也叫學習率(learningrate)。第十八頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法19/251、GradientDescent該方法利用目標函數(shù)的局部性質(zhì),得到局部最優(yōu)解,具有一定的“盲目性”,如果目標函數(shù)是一個凸優(yōu)化問題,那么局部最優(yōu)解就是全局最優(yōu)解;每一次迭代的移動方向都與出發(fā)點的等高線垂直,此外,鋸齒現(xiàn)象(zig-zagging)將會導致收斂速度變慢:

第十九頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法20/252、Newton’smethod牛頓法則是利用局部的一階和二階偏導信息,推測整個目標函數(shù)的形狀;進而可以求得出近似函數(shù)的全局最小值,然后將當前的最小值設定近似函數(shù)的最小值;相比最速下降法,牛頓法帶有一定對全局的預測性,收斂性質(zhì)也更優(yōu)良。

第二十頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法21/252、Newton’smethod推導過程如下:利用Taylor級數(shù)求得原目標函數(shù)的二階近似:把

x看做自變量,所有帶有xk的項看做常量,令一階導數(shù)為0,即可求近似函數(shù)的最小值:即:將當前的最小值設定近似函數(shù)的最小值(或者乘以步長)。第二十一頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法22/252、Newton’smethod牛頓法主要存在的問題是:Hesse矩陣不可逆時無法計算;矩陣的逆計算復雜為n的立方,當問題規(guī)模比較大時,計算量很大;解決的辦法是采用擬牛頓法如BFGS,L-BFGS,DFP,Broyden’sAlgorithm進行近似;如果初始值離局部極小值太遠,Taylor展開并不能對原函數(shù)進行良好的近似。第二十二頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法23/252、Newton’smethod在牛頓法的迭代中,需要計算海賽矩陣的逆矩陣H-1這一計算比較復雜,考慮用一個n階矩陣來近似代替H-1,這就是擬牛頓法的基本思路。DFP(Davidon-Fletcher-Powell)使用一個n階矩陣Gk+1來近似H-1BFGS(Broyden-Fletcher-Goldfarb-Shanno)使用一個n階矩陣Bk來逼近HL-BFGS(Limited-BFGS):由于上述兩種擬牛頓法都要保存一個n階矩陣,對于內(nèi)存消耗非常大,因此在此基礎(chǔ)上提出了一種節(jié)約內(nèi)存的方法L-BFGS。第二十三頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法24/253、ConjugateGradients共軛梯度法是介于最速下降法與牛頓法之間的一個方法;它僅需利用一階導數(shù)信息,但克服了最速下降法收斂慢的缺點;避免牛頓法需要存儲和計算Hesse矩陣并求逆的缺點.共軛梯度法不僅是解決大型線性方程組最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。與最速梯度下降的不同,共軛梯度的優(yōu)點主要體現(xiàn)在選擇搜索方向上:第二十四頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法25/253、ConjugateGradients共軛方向:如上圖,d(1)方向與二次函數(shù)的等值線相切,d(1)

的共軛方向d(2)

則指向橢圓的中心。對于二維二次函數(shù),若在兩個共軛方向上進行一維搜索,經(jīng)過兩次迭代必然達到最小點。第二十五頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法26/253、ConjugateGradients確定了移動方向(GD:垂直于等值線,CG:共軛方向),并在該方向上搜索極小值點(恰好與該處的等值線相切),然后移動到最小值點,重復以上過程,過程如下圖:第二十六頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法27/254、隨機梯度下降算法(SGD)第二十七頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法28/254、隨機梯度下降算法(SGD)SGD是最速梯度下降法的變種,每次只使用一個樣本,迭代一次計算量為n2,當m很大的時候,隨機梯度下降迭代一次的速度要遠高于梯度下降:梯度下降需要把m個樣本全部帶入計算,迭代一次計算量為m*n2第二十八頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法29/255、

Mini-batchGradientDescent介于BSD和SGD之間的一種優(yōu)化算法,每次選取一定量的訓練樣本進行迭代;速度比BSD快,比SGD慢;精度比BSD低,比SGD高。選擇n個訓練樣本(n<m,m為總訓練集樣本數(shù))在這n個樣本中進行n次迭代,每次使用1個樣本對n次迭代得出的n個gradient進行加權(quán)平均再并求和,作為這一次mini-batch下降梯度;不斷在訓練集中重復以上步驟,直到收斂。第二十九頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法30/255、

Mini-batchGradientDescent其思想是:SGD就是每一次迭代計算mini-batch的梯度,然后對參數(shù)進行更新;其中,是學習率,是梯度,SGD完全依賴于當前batch的梯度,可理解為允許當前batch的梯度多大程度影響參數(shù)更新。第三十頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法31/255、

Mini-batchGradientDescent面臨的挑戰(zhàn):learningrate選取比較困難對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些;對于常出現(xiàn)的特征更新慢一些,這時候SGD就不太能滿足要求了;SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點

第三十一頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Momentum32/25momentum是模擬物理里動量的概念,積累之前的動量來替代真正的梯度:其中,是動量因子。

第三十二頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Momentum33/25

SGDwithoutmomentumSGDwithmomentum第三十三頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Momentum34/25特點:下降初期時,使用上一次參數(shù)更新,下降方向一致,乘上較大的能夠進行很好的加速;下降中后期時,在局部最小值來回震蕩的時候,,使得更新幅度增大,跳出陷阱;在梯度改變方向的時候,能夠減少更新;總之,momentum項能夠在相關(guān)方向加速SGD,抑制振蕩,從而加快收斂。

第三十四頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Nesterov35/25nesterov項在梯度更新時做一個校正,避免前進太快,同時提高靈敏度:并沒有直接改變當前梯度,所以Nesterov的改進就是讓之前的動量直接影響當前的梯度。即:因此,加上nesterov項后,梯度在大的跳躍后,進行計算對當前梯度進行校正。

第三十五頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Nesterov36/25momentum首先計算一個梯度(短的藍色向量),然后在加速更新梯度的方向進行一個大的跳躍(長的藍色向量),nesterov項首先在之前加速的梯度方向進行一個大的跳躍(棕色向量),計算梯度然后進行校正(綠色梯向量):momentum項和nesterov項都是為了使梯度更新更加靈活,對不同情況有針對性。第三十六頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adagrad37/25Adagrad其實是對學習率進行了一個約束,即:對從1到進行一個遞推形成一個約束項regularizer第三十七頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adagrad38/25特點:前期較小時候,regularizer較大,能夠放大梯度;后期較大的時候,regularizer較小,能夠約束梯度;適合處理稀疏梯度。缺點:仍依賴于人工設置一個全局學習率;設置過大的話,會使regularizer過于敏感,對梯度的調(diào)節(jié)太大;中后期,分母上梯度平方的累加將會越來越大,使

,訓練提前結(jié)束。

第三十八頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adadelta39/25Adadelta是對Adagrad的擴展,Adagrad會累加之前所有的梯度平方,而Adadelta只累加固定大小的項,并且也不直接存儲這些項,僅僅是近似計算對應的平均值。即:其實Adadelta還是依賴于全局學習率的,但作者做了一定處理,經(jīng)過近似牛頓迭代法之后:

此時Adadelta已經(jīng)不用依賴于全局學習率了第三十九頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adadelta40/25特點:

訓練初中期,加速效果不錯,很快;訓練后期,反復在局部最小值附近抖動。第四十頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-RMSprop41/25RMSprop可以算作Adadelta的一個特例:當時,就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù);如果再求根的話,就變成了RMS(均方根):此時,這個RMS就可以作為學習率的一個約束:

第四十一頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-RMSprop42/25RMSprop:其實RMSprop依然依賴于全局學習率;RMSprop算是Adagrad的一種發(fā)展,和Adadelta的變體,效果趨于二者之間;適合處理非平穩(wěn)目標-對于RNN效果很好。

第四十二頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adam43/25Adam(AdaptiveMomentEstimation)本質(zhì)上是帶有動量項的RMSprop,它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學習率;Adam的優(yōu)點主要在于經(jīng)過偏置校正后,每一次迭代學習率都有個確定范圍,使得參數(shù)比較平穩(wěn)。

第四十三頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adam44/25公式如下:其中,、分別是對梯度的一階矩估計和二階矩估計,可以看作對期望、的估計;、是對、的校正,這樣可以近似為對期望的無偏估計。對學習率形成一個動態(tài)約束,而且有明確的范圍。第四十四頁,共五十一頁,編輯于2023年,星期日優(yōu)化方法-Adam45/25特點:結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論