《深度學(xué)習(xí)原理及應(yīng)用》課件 第3章 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法_第1頁
《深度學(xué)習(xí)原理及應(yīng)用》課件 第3章 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法_第2頁
《深度學(xué)習(xí)原理及應(yīng)用》課件 第3章 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法_第3頁
《深度學(xué)習(xí)原理及應(yīng)用》課件 第3章 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法_第4頁
《深度學(xué)習(xí)原理及應(yīng)用》課件 第3章 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法目錄01參數(shù)的更新03正則化04超參數(shù)的驗證02權(quán)重的初始值01參數(shù)的更新神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目的是找到使損失函數(shù)值盡可能小的參數(shù)。這一過程被稱為最優(yōu)化,旨在尋找最優(yōu)參數(shù)。然而,神經(jīng)網(wǎng)絡(luò)的最優(yōu)化問題相當復(fù)雜,主要源于參數(shù)空間的復(fù)雜性,這使得無法簡單地通過解析數(shù)學(xué)方法直接求得最小值。此外,深度神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量龐大,進一步加劇了這一優(yōu)化問題的復(fù)雜性。為了找到最優(yōu)參數(shù),通常利用參數(shù)的梯度(導(dǎo)數(shù))作為指導(dǎo)。通過沿著梯度方向更新參數(shù),并重復(fù)這一過程多次,可以逐漸接近最優(yōu)參數(shù),這一方法稱為隨機梯度下降法(StochasticGradientDescent,簡稱SGD)。SGD是一種相對簡單的方法,相比于隨意搜索參數(shù)空間,已經(jīng)算是一種“聰明”的選擇。然而,根據(jù)不同的問題類型,也存在比SGD更有效的優(yōu)化方法。本節(jié)將探討SGD的缺點,并介紹其他的最優(yōu)化方法。3.1參數(shù)的更新3.1.1SGD3.1參數(shù)的更新3.1.1SGD3.1參數(shù)的更新3.1.1SGD3.1參數(shù)的更新3.1.2SGD的缺點盡管

SGD方法簡單且易于實現(xiàn),但在解決某些問題時可能效率不高。SGD的更新過程往往呈現(xiàn)“之”字形移動,形成一種相當?shù)托У乃阉髀窂?。當損失函數(shù)的形狀不均勻,尤其是呈現(xiàn)拉伸狀時,搜索路徑將變得非常低效。因此,需要比單純沿梯度方向前進的SGD更為智能的方法。SGD低效的根本原因在于,梯度的方向并不總是指向最小值的方向。為了克服

SGD的缺點,接下來將介紹三種優(yōu)化方法:Momentum、AdaGrad和Adam,以取代SGD。3.1參數(shù)的更新3.1.2SGD的缺點盡管

SGD方法簡單且易于實現(xiàn),但在解決某些問題時可能效率不高。SGD的更新過程往往呈現(xiàn)“之”字形移動,形成一種相當?shù)托У乃阉髀窂?。當損失函數(shù)的形狀不均勻,尤其是呈現(xiàn)拉伸狀時,搜索路徑將變得非常低效。因此,需要比單純沿梯度方向前進的SGD更為智能的方法。SGD低效的根本原因在于,梯度的方向并不總是指向最小值的方向。為了克服

SGD的缺點,接下來將介紹三種優(yōu)化方法:Momentum、AdaGrad和Adam,以取代SGD。3.1參數(shù)的更新3.1.3MomentumclassMomentum:

def__init__(self,lr=0.01,momentum=0.9):

self.lr=lr

self.momentum=momentum

self.v=None

defupdate(self,params,grads):

ifself.visNone:

self.v={}

forkey,valinparams.items():

self.v[key]=np.zeros_like(val)

forkeyinparams.keys():

self.v[key]=self.momentum*self.v[key]-self.lr*grads[key]

params[key]+=self.v[key]3.1參數(shù)的更新3.1.4AdaGrad在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中,學(xué)習(xí)率的選擇至關(guān)重要。若學(xué)習(xí)率設(shè)置過小,模型的學(xué)習(xí)過程將會非常緩慢,導(dǎo)致訓(xùn)練時間的顯著增加;反之,如果學(xué)習(xí)率過大,則可能導(dǎo)致模型發(fā)散,從而無法正確收斂到最優(yōu)解。因此,合理設(shè)置學(xué)習(xí)率是優(yōu)化算法成功的關(guān)鍵。在學(xué)習(xí)率管理的有效技巧中,有一種稱為學(xué)習(xí)率衰減的方法。這種方法的核心思想是隨著訓(xùn)練的進行,逐漸減小學(xué)習(xí)率。實際上,這種策略可以理解為在訓(xùn)練初期采用較高的學(xué)習(xí)率以加快收斂速度,然后在接近最優(yōu)解時逐步降低學(xué)習(xí)率,允許模型以更精細的步伐進行調(diào)整。這種“多學(xué)”到“少學(xué)”的策略在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中被廣泛應(yīng)用,能夠有效提高模型的性能。逐漸減小學(xué)習(xí)率的想法相當于將所有參數(shù)的學(xué)習(xí)率整體降低。然而,AdaGrad進一步發(fā)展了這一思路,為每個參數(shù)提供了“定制”的學(xué)習(xí)率。具體來說,AdaGrad會根據(jù)每個參數(shù)的歷史梯度信息,動態(tài)調(diào)整其學(xué)習(xí)率。這樣一來,頻繁更新的參數(shù)會獲得更小的學(xué)習(xí)率,而不常更新的參數(shù)則會保持相對較大的學(xué)習(xí)率。這種適應(yīng)性調(diào)整使得AdaGrad在處理稀疏數(shù)據(jù)和具有不同特征規(guī)模的情況下表現(xiàn)得更加高效。3.1參數(shù)的更新3.1.4AdaGrad3.1參數(shù)的更新3.1.5AdamMomentum方法可以類比為小球在碗中滾動的物理規(guī)則,而AdaGrad則為每個參數(shù)的元素適當?shù)卣{(diào)整更新步伐。如果將這兩種方法融合在一起,會產(chǎn)生什么效果呢?這正是Adam方法的基本思路。Adam(AdaptiveMomentEstimation)是一種在2015年提出的新優(yōu)化算法,其理論相對復(fù)雜,但可以直觀地理解為Momentum和AdaGrad的結(jié)合。通過結(jié)合這兩種方法的優(yōu)點,Adam旨在實現(xiàn)參數(shù)空間的高效搜索,并且特別引入了超參數(shù)的“偏置校正”機制,進一步提高了優(yōu)化的穩(wěn)定性。在

Adam的更新過程中,參數(shù)的調(diào)整類似于小球在碗中滾動的方式。雖然Momentum也具有類似的移動特性,但相比之下,Adam的小球在左右搖晃的幅度上有所減輕,這得益于其學(xué)習(xí)更新的步伐得到了適當?shù)卣{(diào)整。通過動態(tài)調(diào)整學(xué)習(xí)率和引入動量,Adam能夠更好地適應(yīng)不同的參數(shù)更新需求,從而在訓(xùn)練過程中實現(xiàn)更快的收斂和更好的性能。近年來,Adam方法因其結(jié)合了動量和自適應(yīng)學(xué)習(xí)率的優(yōu)點而受到眾多研究人員和技術(shù)人員的青睞,成為優(yōu)化算法中的熱門選擇。每種方法的選擇應(yīng)根據(jù)具體問題的特性和需求進行相應(yīng)的調(diào)整,以達到最佳的優(yōu)化效果。3.2權(quán)重的初始值在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中,權(quán)重的初始值極為重要。實際上,權(quán)重初始值的選擇往往直接關(guān)系到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的成功與否。如果初始權(quán)重設(shè)置不當,可能導(dǎo)致梯度消失或爆炸現(xiàn)象,從而阻礙網(wǎng)絡(luò)的有效訓(xùn)練。因此,合理設(shè)置權(quán)重初始值對于加速收斂和提升模型性能至關(guān)重要。3.2權(quán)重的初始值3.2.1可以將權(quán)重初始值設(shè)為0嗎?在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中,權(quán)重的初始值設(shè)定至關(guān)重要。后面將介紹一種抑制過擬合、提高泛化能力的技巧——權(quán)值衰減。權(quán)值衰減的核心思想是通過減小權(quán)重參數(shù)的值來抑制過擬合的發(fā)生。為了有效實現(xiàn)這一目標,權(quán)重的初始值應(yīng)該設(shè)定為較小的隨機值。例如,常見的做法是使用類似于0.01*np.random.randn(10,100)的形式,從標準差為0.01的高斯分布中生成權(quán)重初始值。既然可設(shè)定為較小的隨機值,將權(quán)重初始值設(shè)為

0是否可以呢?雖然可以將權(quán)重初始值設(shè)定為較小的隨機值,但將其設(shè)為0并不是一個好主意。當所有權(quán)重初始化為0時,網(wǎng)絡(luò)中的每個神經(jīng)元在正向傳播時僅依賴于偏置項,從而產(chǎn)生相同的輸出。這種情況使得各個神經(jīng)元無法學(xué)習(xí)到不同的特征,因為它們的計算過程完全一致。在反向傳播過程中,所有權(quán)重的更新也將是相同的,這導(dǎo)致它們保持相同的值,嚴重限制了網(wǎng)絡(luò)的學(xué)習(xí)能力和表達能力。由于神經(jīng)元的輸出沒有差異,網(wǎng)絡(luò)無法有效擬合輸入與輸出之間的復(fù)雜關(guān)系,進而可能陷入局部最優(yōu)解,影響訓(xùn)練效果。因此,為了確保神經(jīng)網(wǎng)絡(luò)能夠獨立學(xué)習(xí)每個參數(shù)并提高模型的性能,權(quán)重的初始值應(yīng)設(shè)定為小的隨機值,以打破對稱性并促進有效學(xué)習(xí)。將權(quán)重設(shè)置為相同的值并不是一個好的做法,原因與將權(quán)重初始化為0類似。因此,為了防止“權(quán)重均一化”,必須隨機生成初始權(quán)重值。通過引入隨機性,可以打破對稱性,確保網(wǎng)絡(luò)中的每個神經(jīng)元能夠獨立學(xué)習(xí),從而提高模型的表達能力和學(xué)習(xí)效果。3.2權(quán)重的初始值3.2.2隱藏層的激活值的分布隱藏層激活值的分布在神經(jīng)網(wǎng)絡(luò)中具有重要意義,它直接影響信息的傳遞和模型的學(xué)習(xí)能力。各層的激活值需要具備適當?shù)膹V度,以便通過層間傳遞多樣性的數(shù)據(jù),從而支持神經(jīng)網(wǎng)絡(luò)的高效學(xué)習(xí)。相反,如果傳遞的是偏向性數(shù)據(jù),就可能導(dǎo)致梯度消失或者“表現(xiàn)力受限”的問題,從而使學(xué)習(xí)過程難以順利進行。因此,選擇合適的激活函數(shù)和權(quán)重初始化方法至關(guān)重要。當激活函數(shù)為ReLU時,權(quán)重參數(shù)通常使用He初始化;而當采用Sigmoid或Tanh等S型激活函數(shù)時,權(quán)重參數(shù)推薦使用Xavier初始化。這些做法被廣泛認為是最佳實踐,有助于提升網(wǎng)絡(luò)的訓(xùn)練效率和最終性能。激活值反映了輸入數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)處理后的狀態(tài),良好的激活值分布能夠有效促進梯度的計算與傳播,從而避免梯度消失或爆炸的問題。如果激活值過于集中或分散,可能會導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過程中難以學(xué)習(xí)到有用的特征,從而影響模型的整體性能。3.2權(quán)重的初始值3.2.2隱藏層的激活值的分布隱藏層激活值的分布在神經(jīng)網(wǎng)絡(luò)中具有重要意義,它直接影響信息的傳遞和模型的學(xué)習(xí)能力。各層的激活值需要具備適當?shù)膹V度,以便通過層間傳遞多樣性的數(shù)據(jù),從而支持神經(jīng)網(wǎng)絡(luò)的高效學(xué)習(xí)。相反,如果傳遞的是偏向性數(shù)據(jù),就可能導(dǎo)致梯度消失或者“表現(xiàn)力受限”的問題,從而使學(xué)習(xí)過程難以順利進行。因此,選擇合適的激活函數(shù)和權(quán)重初始化方法至關(guān)重要。當激活函數(shù)為ReLU時,權(quán)重參數(shù)通常使用He初始化;而當采用Sigmoid或Tanh等S型激活函數(shù)時,權(quán)重參數(shù)推薦使用Xavier初始化。這些做法被廣泛認為是最佳實踐,有助于提升網(wǎng)絡(luò)的訓(xùn)練效率和最終性能。激活值反映了輸入數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)處理后的狀態(tài),良好的激活值分布能夠有效促進梯度的計算與傳播,從而避免梯度消失或爆炸的問題。如果激活值過于集中或分散,可能會導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過程中難以學(xué)習(xí)到有用的特征,從而影響模型的整體性能。3.3BatchNormalization為什么BN如此引人注目呢?首先,BN能夠增大學(xué)習(xí)率,從而使模型更快收斂,縮短訓(xùn)練時間。其次,使用BN后,模型對權(quán)重初始值的敏感性降低,使得訓(xùn)練過程更加穩(wěn)定。此外,BN通過規(guī)范化激活值,有效減少了對Dropout等正則化方法的依賴,從而降低了過擬合的風險。BN的思路是調(diào)整各層的激活值分布使其擁有適當?shù)膹V度。為此,要向神經(jīng)網(wǎng)絡(luò)中插入對數(shù)據(jù)分布進行正規(guī)化的層,即BN層。具體如圖3-1所示。3.3BatchNormalization3.4正則化在機器學(xué)習(xí)中,過擬合是一個非常常見的問題。過擬合指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未包含在訓(xùn)練數(shù)據(jù)中的其他數(shù)據(jù)上卻無法有效擬合。機器學(xué)習(xí)的目標是提高模型的泛化能力,即使面對未觀測的數(shù)據(jù),模型也能做出正確的預(yù)測。雖然可以構(gòu)建復(fù)雜且表現(xiàn)力強的模型,但同樣重要的是采用有效的技巧來抑制過擬合。發(fā)生過擬合的原因,主要有以下兩個:1、模型擁有大量參數(shù),表現(xiàn)力強;2、訓(xùn)練數(shù)據(jù)少。3.4正則化在機器學(xué)習(xí)中,過擬合是一個非常常見的問題。過擬合指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未包含在訓(xùn)練數(shù)據(jù)中的其他數(shù)據(jù)上卻無法有效擬合。機器學(xué)習(xí)的目標是提高模型的泛化能力,即使面對未觀測的數(shù)據(jù),模型也能做出正確的預(yù)測。雖然可以構(gòu)建復(fù)雜且表現(xiàn)力強的模型,但同樣重要的是采用有效的技巧來抑制過擬合。發(fā)生過擬合的原因,主要有以下兩個:1、模型擁有大量參數(shù),表現(xiàn)力強;2、訓(xùn)練數(shù)據(jù)少。3.4.1過擬合3.4正則化3.4.2權(quán)值衰減權(quán)值衰減是一種常用的抑制過擬合的方法。該方法通過在學(xué)習(xí)過程中對較大的權(quán)重施加懲罰,從而抑制過擬合現(xiàn)象。許多過擬合的情況往往是由于權(quán)重參數(shù)取值過大所導(dǎo)致的,因此,通過控制權(quán)重的大小,權(quán)值衰減可以有效提高模型的泛化能力。3.4正則化3.4.3Dropout當網(wǎng)絡(luò)模型變得非常復(fù)雜時,僅依靠權(quán)值衰減可能難以有效控制過擬合。在這種情況下,通常會采用Dropout方法。Dropout是一種在訓(xùn)練過程中隨機刪除神經(jīng)元的技術(shù)。具體而言,在每次訓(xùn)練時,隨機選擇一定比例的隱藏神經(jīng)元,并將其“刪除”,即這些神經(jīng)元在該次前向傳播中不參與信號的傳播。這意味著被刪除的神經(jīng)元不會對后續(xù)層的計算產(chǎn)生影響。在訓(xùn)練過程中,每次數(shù)據(jù)傳遞時,都會隨機選擇要刪除的神經(jīng)元。這樣可以促使模型學(xué)習(xí)到更加魯棒的特征,減少對特定神經(jīng)元的依賴。當模型進入測試階段時,所有神經(jīng)元都會參與信號傳播,但為了保持一致性,輸出會乘以訓(xùn)練時的刪除比例,以確保模型的輸出在訓(xùn)練和測試階段之間保持平衡。3.5超參數(shù)的驗證在神經(jīng)網(wǎng)絡(luò)中,除了權(quán)重和偏置等模型參數(shù)外,超參數(shù)的設(shè)置同樣至關(guān)重要。這里所提到的超參數(shù)包括各層的神經(jīng)元數(shù)量、批量大小、學(xué)習(xí)率、權(quán)值衰減等。如果這些超參數(shù)沒有設(shè)置合理,模型的性能可能會顯著下降。盡管超參數(shù)的選擇對模型的表現(xiàn)至關(guān)重要,但在確定超參數(shù)的過程中通常需要經(jīng)歷大量的試錯過程。為了提高超參數(shù)搜索的效率,本節(jié)將介紹一些方法和策略,幫助更高效地尋找最佳的超參數(shù)值。通過合理的超參數(shù)調(diào)整,可以顯著提升模型的性能和訓(xùn)練效果。3.5超參數(shù)的驗證3.5.1驗證數(shù)據(jù)為什么不能用測試數(shù)據(jù)來評估超參數(shù)的性能呢?原因在于,如果使用測試數(shù)據(jù)來調(diào)整超參數(shù),超參數(shù)的值可能會對測試數(shù)據(jù)發(fā)生過擬合。換句話說,用測試數(shù)據(jù)來確認超參

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論