《深度學(xué)習(xí)》課件第四章深度學(xué)習(xí)中的正則化_第1頁(yè)
《深度學(xué)習(xí)》課件第四章深度學(xué)習(xí)中的正則化_第2頁(yè)
《深度學(xué)習(xí)》課件第四章深度學(xué)習(xí)中的正則化_第3頁(yè)
《深度學(xué)習(xí)》課件第四章深度學(xué)習(xí)中的正則化_第4頁(yè)
《深度學(xué)習(xí)》課件第四章深度學(xué)習(xí)中的正則化_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章深度學(xué)習(xí)中的正則化4.2

參數(shù)范數(shù)懲罰4.3

參數(shù)綁定與參數(shù)共享of3114.4提前終止和Bagging4.1

正則化的概念與意義4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of3121.什么是正則化?反演計(jì)算中必須面對(duì)的問題:

如果一個(gè)問題的解不存在、不唯一、不穩(wěn)定,那么求解得到的結(jié)果可信嗎?解決的辦法之一:

前蘇聯(lián)Tikonov(吉洪諾夫)等學(xué)者提出的解決線性不適定問題的正則化方法

主要思想:將問題限定在某個(gè)較小的范圍內(nèi),以“鄰近”的適定問題的解去逼近原問題的解。4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of3131.什么是正則化?機(jī)器學(xué)習(xí)中算法的一個(gè)核心問題:算法的設(shè)計(jì),不僅在訓(xùn)練數(shù)據(jù)上表現(xiàn)好,并且能在新輸入上泛化好。正則化:顯式地設(shè)計(jì)為減少測(cè)試誤差的學(xué)習(xí)策略。可能會(huì)以增大訓(xùn)練誤差為代價(jià)。

在深度學(xué)習(xí)的背景下,大多數(shù)正則化策略都會(huì)對(duì)損失估計(jì)進(jìn)行正則化。損失估計(jì)的正則化以偏差的增加換取方差的減少。一個(gè)有效的正則化是有利的“交易”,也就是能顯著減少方差而不過度增加偏差。4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of314

樣本含噪問題:用足夠高階的模型,有可能將含噪的樣本無(wú)誤差地?cái)M合起來(lái),但得到的結(jié)果與真值差距很大。其結(jié)果是,階數(shù)越高誤差越小但模型的泛化性能越差。以函數(shù)插值為例,考慮樣本數(shù)據(jù)的個(gè)數(shù)與待定系數(shù)的個(gè)數(shù)相等時(shí)的插值問題。2.正則化用來(lái)干嘛的?深刻理解過擬合問題(Overfitting/Overdetermined

)4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of315

樣本不含噪問題:用足夠高階的模型,有可能可將的樣本無(wú)誤差地?cái)M合起來(lái),但對(duì)于與插值樣本差異較大的新樣本,得到的結(jié)果與真值差距可能很大。其結(jié)果是,階數(shù)越高誤差越小但模型的泛化性能越差。龍格(Runge)現(xiàn)象4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of316過擬合問題(Overfitting/Overdetermined

)的本質(zhì):模型的階數(shù)大于系統(tǒng)的實(shí)際階數(shù)。4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of317分類情形欠擬合

恰好

過擬合正則化策略:就是為了防止過擬合?。?!高偏差

高方差4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of318系統(tǒng)輸入:理想輸出:擬合函數(shù):標(biāo)準(zhǔn)差項(xiàng):顯然,只用Es(F)作為目標(biāo)函數(shù)進(jìn)行優(yōu)化,可以得到誤差最小的擬合函數(shù),但無(wú)法避免過擬合問題。為此,Tikhonov提出了“正則項(xiàng)”:

正則項(xiàng):式中:D是線性微分算子Ec(F)減小即擬合函數(shù)F

的梯度減小,意味著在滿足誤差最小的同時(shí)還要求擬合結(jié)果足夠“平坦”,因此,正則項(xiàng)也稱為“平滑項(xiàng)”。3.Tikhonov正則化4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of319正則化問題:尋找使目標(biāo)函數(shù):達(dá)到最小的函數(shù)F(X)。

自變量是函數(shù)F(X),故函數(shù)E(F)

是一個(gè)泛函。l用于在平滑性和誤差之間權(quán)衡:(1)大的l得到的擬合函數(shù)更加平滑但擬合誤差大;(2)小的l擬合誤差小但擬合函數(shù)不夠平滑。4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of3110用于分類。取不同的l值,對(duì)比“覆蓋”誤差和面積的區(qū)別兩類分類作為曲面擬合問題

給定兩類二維樣本的采樣點(diǎn)(100點(diǎn))如圖所示。第一類樣本(紅)的類別取值為+1;第二類樣本(綠)的類別取值為-1。

4.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of3111用于輸入為2維的數(shù)據(jù)進(jìn)行分類。加上正則想,取不同的l值,對(duì)比“覆蓋”誤差和面積的區(qū)別。l=0.1l=0.34.1正則化的概念與意義第四章深度學(xué)習(xí)中的正則化of3112參數(shù)范數(shù)懲罰(ParameterNormPenalties)、約束優(yōu)化的范數(shù)懲罰(NormPenaltiesasConstrainedOptimization)數(shù)據(jù)集擴(kuò)充(DatasetAugmentation)噪聲穩(wěn)健性(NoiseRobustness)半任務(wù)學(xué)習(xí)(Semi-TaskLearning)多任務(wù)學(xué)習(xí)(Multi-TaskLearning)提早結(jié)束(EarlyStopping)參數(shù)嘗試和參數(shù)共享(ParameterTryingandParameterSharing)稀疏表示SparseRepresentations)Dropout對(duì)抗訓(xùn)練(AdversarialTraining)流形切線(ManifoldTangent)套裝和其他綜合方法(BaggingandOtherEnsembleMethods),等等。深度學(xué)習(xí)中的正則化形式:第四章深度學(xué)習(xí)中的正則化4.1

正則化的概念與意義4.3

參數(shù)綁定與參數(shù)共享of31134.4提前終止和Bagging4.2

參數(shù)范數(shù)懲罰of31144.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化1.L2參數(shù)正則化

假設(shè)不存在偏置參數(shù),

就是w,目標(biāo)函數(shù)為

梯度為of31154.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化使用梯度下降更新權(quán)重,得即可見,由于L2正則項(xiàng)的加入,在梯度更新之前,都會(huì)收縮權(quán)重向量權(quán)重衰減的方式會(huì)給整個(gè)訓(xùn)練過程帶來(lái)什么樣的影響?of31164.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化沒有L2正則化的情況下,設(shè)目標(biāo)函數(shù)取最小訓(xùn)練誤差時(shí)的權(quán)重向量為w*,即of31174.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化解得設(shè)H有特征值分解:of31184.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化即L2正則化,使Hessian的特征值分布變?yōu)槠骄彛钥朔?yōu)化問題的病態(tài)問題,并使權(quán)重w取值范圍得到約束,可以防止過擬合。L2參數(shù)正則化優(yōu)化解效果參數(shù)在原優(yōu)化目標(biāo)函數(shù)等高線與L2球的相切處求得最優(yōu)解可見,參數(shù)向量沿著由H的特征向量所對(duì)應(yīng)的軸進(jìn)行縮放??s放因子:of31194.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化1.L1參數(shù)正則化與L2一樣分析of31204.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化of31214.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化of31224.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化of31234.2參數(shù)范數(shù)懲罰第四章深度學(xué)習(xí)中的正則化L2正則化:L1正則化:第四章深度學(xué)習(xí)中的正則化4.1

正則化的概念與意義4.2參數(shù)范數(shù)懲罰of31244.4提前終止和Bagging4.3參數(shù)綁定與參數(shù)共享4.3參數(shù)綁定與參數(shù)共享of3125

參數(shù)范數(shù)懲罰:正則化參數(shù)使其彼此接近,即對(duì)模型參數(shù)之間的相關(guān)性進(jìn)行懲罰,而更流行的方法是強(qiáng)迫某些參數(shù)相等。由于我們將各種模型或模型組件解釋為共享唯一的一組參數(shù),這種正則化方法通常被稱為參數(shù)共享(parametersharing)。如深度卷積神經(jīng)網(wǎng)絡(luò)。參數(shù)共享的一個(gè)顯著優(yōu)點(diǎn)是,只有參數(shù)(唯一一個(gè)集合)的子集需要被存儲(chǔ)在內(nèi)存中??赡芸梢燥@著減少模型所占用的內(nèi)存。第四章深度學(xué)習(xí)中的正則化第四章深度學(xué)習(xí)中的正則化4.1

正則化的概念與意義4.2參數(shù)范數(shù)懲罰4.3參數(shù)綁定與參數(shù)共享of31264.4

提前終止和Bagging4.4提前終止和Baggingof3127第四章深度學(xué)習(xí)中的正則化(1)提前終止

提前終止的目的是為了防止過擬合,當(dāng)網(wǎng)絡(luò)訓(xùn)練到某個(gè)epoch后,測(cè)試誤差又有了小幅度的增大。這說明此時(shí)發(fā)生了過擬合。提前終止:在測(cè)試誤差開始上升之前,就停止訓(xùn)練,即使此時(shí)訓(xùn)練尚未收斂(即訓(xùn)練誤差未達(dá)到最小值)。4.4提前終止和Baggingof3128第四章深度學(xué)習(xí)中的正則化(2)Bagging算法Bagging是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)?;舅枷耄簩?duì)于一個(gè)復(fù)雜的學(xué)習(xí)任務(wù),我們首先構(gòu)造多個(gè)簡(jiǎn)單的學(xué)習(xí)模型,然后再把這些簡(jiǎn)單模型組合成一個(gè)高效的學(xué)習(xí)模型(表決)。(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論