深學(xué)習(xí)備課資料

上傳人：快*** IP屬地：上海上傳時間：2023-04-17 格式：PPTX 頁數(shù)：50 大小：5.10MB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩45頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

深學(xué)習(xí)備課資料第1頁/共50頁提前終止的目的是為了防止過擬合，從右側(cè)學(xué)習(xí)曲線中可以看出，測試誤差在前幾個epoch中逐漸減小，但是訓(xùn)練到某個epoch后，測試誤差又有了小幅度的增大。這說明此時發(fā)生了過擬合。

如果我們只要返回使驗證誤差最低的參數(shù)，就可以獲得驗證集誤差更低的模型。第2頁/共50頁提前終止：在測試誤差開始上升之前，就停止訓(xùn)練,即使此時訓(xùn)練尚未收斂(即訓(xùn)練誤差未達到最小值)。

首先我們要保存好現(xiàn)在的模型(網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值),訓(xùn)練num_batch次(即一個epoch)，得到新的模型。將測試集作為新模型的輸入,進行測試。如果我們發(fā)現(xiàn)測試誤差比上次得到的測試誤差大，我們并不會馬上終止測試，而是再繼續(xù)進行幾個epoch的訓(xùn)練與測試，如果測試誤差依舊沒有減小，那么我們就認為該試驗在上一次達到最低測試誤差時停下來。第3頁/共50頁第4頁/共50頁由于提前終止需要驗證集，這意味著某些訓(xùn)練數(shù)據(jù)不能被饋送到模型，因此為了更好的利用數(shù)據(jù)，有兩種解決策略。第一種策略是再次初始化模型，利用第一輪提前終止訓(xùn)練的最佳步數(shù)i*，重新使用全部數(shù)據(jù)再次訓(xùn)練i*步。第二種策略是將第一輪提前終止時的損失函數(shù)作為參考目標值，用全部數(shù)據(jù)進行第二輪提前終止，直到驗證集的平均損失函數(shù)低于參考目標值。（不能保證終止）第5頁/共50頁提前終止相當于L^2正則化第6頁/共50頁第7頁/共50頁

第8頁/共50頁提前終止的優(yōu)點：由于限制了訓(xùn)練迭代次數(shù)，減少訓(xùn)練時的計算成本。具有正則化效果而不需要添加懲罰項或計算其梯度。第9頁/共50頁9.參數(shù)綁定與參數(shù)共享目前討論對參數(shù)添加約束或懲罰的時候，一直是相對于固定的區(qū)域或點。例如L^2正則化對參數(shù)偏離零的固定值進行懲罰。根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識，得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性，需要對模型參數(shù)之間的相關(guān)性進行懲罰，使模型參數(shù)盡量接近或者強迫某些參數(shù)相等。舉例：第10頁/共50頁參數(shù)共享：強迫模型某些參數(shù)相等主要應(yīng)用：卷積神經(jīng)網(wǎng)絡(luò)（CNN）（9章會詳細介紹）舉例：貓的照片向右邊移動了一個像素仍然能探測出貓。優(yōu)點：顯著降低了卷積神經(jīng)網(wǎng)絡(luò)CNN的參數(shù)個數(shù)（CNN模型的參數(shù)通常是千萬量級以上），減少模型占用的內(nèi)存，并且顯著的增加了網(wǎng)絡(luò)的大小而不需要增加訓(xùn)練數(shù)據(jù)。第11頁/共50頁10.稀疏表示稀疏表示也是卷積網(wǎng)絡(luò)常用到的正則化的方法。前文所述的權(quán)重衰減直接懲罰模型參數(shù)，如L^1正則化會誘導(dǎo)稀疏參數(shù)，使得許多參數(shù)為0，而稀疏表示是懲罰神經(jīng)網(wǎng)絡(luò)中的激活單元，稀疏化激活單元。換言之，稀疏表示的是得神經(jīng)元的輸入單元變得稀疏，很多輸入是0.第12頁/共50頁第一個表達式是參數(shù)稀疏的線性回歸模型的例子。

第二個表達式是數(shù)據(jù)x具有稀疏表示h的線性回歸。

也就是說，h是x的一個函數(shù)，在某種意義上表示存在于x中的信息，但只是用一個稀疏向量表示。

第13頁/共50頁字典學(xué)習(xí)：假設(shè)我們用一個m*n的矩陣表示數(shù)據(jù)集X，每一行代表一個樣本，每一列代表樣本的一個特征，一般而言，該矩陣是稠密的，即大多數(shù)元素不為0。

稀疏表示的含義是，尋找一個系數(shù)矩陣A（k*n）以及一個字典矩陣B（m*k），使得B*A盡可能的還原X，且A盡可能的稀疏。A便是X的稀疏表示。第14頁/共50頁“為普通稠密表達的樣本找到合適的字典，將樣本轉(zhuǎn)化為合適的稀疏表達形式，從而使學(xué)習(xí)任務(wù)得以簡化，模型復(fù)雜度得以降低，通常稱為‘字典學(xué)習(xí)’”字典學(xué)習(xí)的最簡單形式為：其中xi為第i個樣本，B為字典矩陣，alphai為xi的稀疏表示，lambda為大于0參數(shù)。

上式中第一個累加項說明了字典學(xué)習(xí)的第一個目標是字典矩陣與稀疏表示的線性組合盡可能的還原樣本；第二個累加項說明了alphai應(yīng)該盡可能的稀疏。之所以用L1范式是因為L1范式正則化更容易獲得稀疏解。第15頁/共50頁如何獲得表示稀疏從任意一個字典中為原始信號尋找最稀疏的表示常用的方法分類兩類：①貪婪算法，比如匹配追蹤（MP）、正交匹配追蹤（OMP）、弱匹配追蹤（WMP）、閾值方法等；（速度快，精度相對較低）②松弛算法，比如迭代加權(quán)最小二乘（Iterative-Reweighed-Least-Squares，IRLS）、基追蹤（BP）等。（松弛算法是精度高，但速度慢）第16頁/共50頁匹配追蹤（Matchingpursuit)

第17頁/共50頁如何建立這個詞典DefficientsparsecodingalgorithmNIPS06;K-SVDtsp06;Onlinedictionarylearningforsparsecoding,ICML09&JMLR10

第18頁/共50頁字典學(xué)習(xí)的好處它實質(zhì)上是對于龐大數(shù)據(jù)集的一種降維表示；第二，字典學(xué)習(xí)總是嘗試學(xué)習(xí)蘊藏在樣本背后最質(zhì)樸的特征。稀疏表示的本質(zhì)：用盡可能少的資源表示盡可能多的知識，這種表示還能帶來一個附加的好處，即計算速度快。第19頁/共50頁11.Bagging算法Bagging是通過結(jié)合幾個模型降低泛化誤差的技術(shù)?；舅枷耄簩τ谝粋€復(fù)雜的學(xué)習(xí)任務(wù)，我們首先構(gòu)造多個簡單的學(xué)習(xí)模型，然后再把這些簡單模型組合成一個高效的學(xué)習(xí)模型。（“三個臭皮匠頂個諸葛亮”）采用該策略的技術(shù)被稱為集成方法，廣泛用于分類和回歸任務(wù)。不同集成方法以不同方式構(gòu)建集成模型。例如每個成員可以使用不同算法和目標函數(shù)訓(xùn)練成完全不同的模型。第20頁/共50頁大多數(shù)集成方法使用單一的基本學(xué)習(xí)算法來生成均勻基礎(chǔ)學(xué)習(xí)器，但也有一些方法使用多種學(xué)習(xí)算法來生成異構(gòu)學(xué)習(xí)器。通常情況下，集合是分兩步構(gòu)建的。首先，生成許多基礎(chǔ)學(xué)習(xí)器，這些基礎(chǔ)學(xué)習(xí)器可以以并行樣式或序列樣式生成，序列樣式即基礎(chǔ)學(xué)習(xí)器的生成影響后續(xù)學(xué)習(xí)器的生成。然后，將基礎(chǔ)學(xué)習(xí)器結(jié)合使用，其中最流行的組合方案是用于分類的多數(shù)投票和用于回歸的加權(quán)平均。第21頁/共50頁為什么集合優(yōu)于單個第一個原因是，訓(xùn)練數(shù)據(jù)可能無法提供足夠的信息來選擇單一的最佳學(xué)習(xí)器。例如，可能有許多學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)同樣出色。因此，結(jié)合這些學(xué)習(xí)器可能是更好的選擇。第二個原因是，學(xué)習(xí)算法的搜索過程可能不完善。例如，即使存在唯一的最佳假設(shè)，也可能難以實現(xiàn)，因為運行算法會導(dǎo)致次優(yōu)假設(shè)。因此，集合可以彌補這種不完善的搜索過程。第三個原因是，被搜索的假設(shè)空間可能不包含真正的目標函數(shù)，而集合可以給出一些很好的近似值。例如，眾所周知，決策樹的分類邊界是與坐標軸平行的線段。如果目標分類邊界是一條光滑的對角線，則使用單個決策樹不能產(chǎn)生良好的結(jié)果，但通過組合一組決策樹可以實現(xiàn)良好的近似。——Dietterich

第22頁/共50頁

模型平均如何奏效：不同模型不會在測試集上產(chǎn)生完全相同的誤差。第23頁/共50頁bagging（裝袋）方法Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標函數(shù)的方法。①根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）每個抽樣生成的自助樣本集上，訓(xùn)練一個基分類器；對訓(xùn)練過的分類器進行投票，將測試樣本指派到得票最高的類中。②每個自助樣本集都和原數(shù)據(jù)一樣大③有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次，一些可能被忽略。（每個數(shù)據(jù)集包含原始數(shù)據(jù)2/3的實例）第24頁/共50頁算法步驟：1.從數(shù)據(jù)集S中取樣（放回選樣），總共執(zhí)行t次2.針對每一次取樣訓(xùn)練得到得到t個模型H1…Ht3.如果是分類算法，則t個模型投出最多票數(shù)的類別或者類別之一為最終類別；如果是回歸算法，t個模型得到的回歸結(jié)果進行算術(shù)平均得到的值為最終的模型輸出。

第25頁/共50頁第26頁/共50頁模型平均是減少泛化誤差非常強大可靠的方法，可以適用于任何機器學(xué)習(xí)算法中，但是以增加計算和儲存為代價。Bagging可以視為比較傳統(tǒng)的集成學(xué)習(xí)思路?，F(xiàn)在常用的RandomForest，GBDT（迭代決策樹），GBRank其實都是更加精細化，效果更好的方法。第27頁/共50頁12.dropout深度學(xué)習(xí)領(lǐng)域大神Hinton，在2012年文獻：《Improvingneuralnetworksbypreventing

co-adaptationoffeaturedetectors》提出了，在每次訓(xùn)練的時候，讓一部分的特征檢測器停止工作，這樣可以提高網(wǎng)絡(luò)的泛化能力，Hinton又把它稱之為dropout。Hinton認為過擬合，可以通過阻止某些特征的協(xié)同作用來緩解。在每次訓(xùn)練的時候，每個神經(jīng)元有一定的概率被移除，這樣可以讓一個神經(jīng)元的出現(xiàn)不應(yīng)該依賴于另外一個神經(jīng)元。第28頁/共50頁12.dropout模型訓(xùn)練時，在一次循環(huán)中我們先隨機選擇神經(jīng)層中的一些單元并將其臨時隱藏，然后再進行該次循環(huán)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化過程。在下一次循環(huán)中，我們又將隱藏另外一些神經(jīng)元，如此直至訓(xùn)練結(jié)束。Dropout訓(xùn)練的集成包括所有從基礎(chǔ)網(wǎng)絡(luò)除去神經(jīng)元（非輸出單元）后形成的子網(wǎng)絡(luò)。只需要將一些單元的輸出乘零就能有效的刪除（暫時地）一個單元。假如基本網(wǎng)絡(luò)有n個非輸出神經(jīng)元，那么就有2^n個子網(wǎng)絡(luò)。第29頁/共50頁Dropout說的簡單一點就是我們讓在前向傳導(dǎo)的時候，讓某個神經(jīng)元的激活值以一定的概率p，讓其停止工作，示意圖如下：第30頁/共50頁第31頁/共50頁在訓(xùn)練時，每個神經(jīng)單元以概率p被保留(dropout丟棄率為1-p)；在測試階段，每個神經(jīng)單元都是存在的，權(quán)重參數(shù)w要乘以p，成為：pw。測試時需要乘上p的原因：考慮第一隱藏層的一個神經(jīng)元在dropout之前的輸出是x，那么dropout之后的期望值是E=px+(1?p)0=px，在測試時該神經(jīng)元總是激活，為了保持同樣的輸出期望值并使下一層也得到同樣的結(jié)果，需要調(diào)整x→px.其中p是Bernoulli分布（0-1分布）中值為1的概率。第32頁/共50頁Left:Aunitattrainingtimethatispresentwithprobabilitypandisconnectedtounitsinthenextlayerwithweightsw.Right:Attesttime,theunitisalwayspresentandtheweightsaremultipliedbyp.Theoutputattesttimeissameastheexpectedoutputattrainingtime.第33頁/共50頁通常為了提高測試的性能(減少測試時的運算時間),可以將縮放的工作轉(zhuǎn)移到訓(xùn)練階段，而測試階段與不使用dropout時相同,稱為

inverteddropout

:將前向傳播dropout時保留下來的神經(jīng)元的權(quán)重乘上1/p在架構(gòu)中添加invertedDropout這一改動僅會影響訓(xùn)練過程，而并不影響測試過程。第34頁/共50頁第35頁/共50頁ModelDescription第36頁/共50頁有Dropout的神經(jīng)網(wǎng)絡(luò)上面公式中Bernoulli函數(shù)，是為了以概率p，隨機生成一個0、1的向量。沒有Dropout的神經(jīng)網(wǎng)絡(luò)第37頁/共50頁Dropout如何具有正則化效果：ImageNetClassificationwithDeepConvolutionalNeuralNetworks,byAlexKrizhevsky,IlyaSutskever,andGeoffreyHinton(2012).的解釋是：這種技術(shù)減少了神經(jīng)元之間復(fù)雜的共適性。因為一個神經(jīng)元不能依賴其他特定的神經(jīng)元。因此，不得不去學(xué)習(xí)隨機子集神經(jīng)元間的魯棒性的有用連接。換句話說。想象我們的神經(jīng)元作為要給預(yù)測的模型，dropout是一種方式可以確保我們的模型在丟失一個個體線索的情況下保持健壯的模型。在這種情況下，可以說他的作用和L1和L2范式正則化是相同的。都是來減少權(quán)重連接，然后增加網(wǎng)絡(luò)模型在缺失個體連接信息情況下的魯棒性。第38頁/共50頁Dropout是通過隨機行為訓(xùn)練網(wǎng)絡(luò)并平均多個隨機過程決定進行預(yù)測，實現(xiàn)了一種參數(shù)共享的bagging。Dropout與Bagging對比Bagging和Dropout的目的是一樣的，都是為了防止模型過擬合。Bagging是每次訓(xùn)練的時候從原訓(xùn)練集中隨機抽取樣本，然后對該樣本進行訓(xùn)練。多次反復(fù)后，對最后的結(jié)果取均值。Dropout是在構(gòu)建神經(jīng)網(wǎng)絡(luò)的時候，隨機的丟掉一些節(jié)點和邊，這就是相當于對特征進行了隨機選擇。Bagging情況下每個模型都是獨立的；Dropout情況下，所有模型共享參數(shù)，其中每個模型繼承父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。第39頁/共50頁第40頁/共50頁《Improvingneuralnetworksbypreventingco-adaptationoffeatureDetectors》《Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting》——NitishSrivastava、GeoffreyHinton、uAlex、Ilya、RuslanSalakhutdinov第41頁/共50頁13.對抗訓(xùn)練對抗樣本是指對原樣本產(chǎn)生一些微小的擾動（甚至人眼都可能無法察覺），然而分類器卻產(chǎn)生了完全不一樣的結(jié)果，甚至以高置信度錯誤分類。第42頁/共50頁為何對抗樣本能產(chǎn)生很大的作用：

第43頁/共50頁Szegedy的文章《Intriguingpropertiesofneuralnetworks》表明將對抗樣本和普通樣本一起給模型訓(xùn)練能夠使模型正則化。訓(xùn)練對抗樣本和普通的數(shù)據(jù)增加不一樣：

通常我們通過對數(shù)據(jù)進行變形來增加數(shù)據(jù)，這樣變形后的數(shù)據(jù)是可能出現(xiàn)在測試集里的。而對抗樣本這種數(shù)據(jù)通常不可能自然地出現(xiàn)在測試集中，但是它們可以揭露出模型的缺陷。第44頁/共50頁如何生成這些對抗樣本？一種最簡單的攻擊方法叫做快速梯度法（見右圖），給定一張圖像，輸入給神經(jīng)網(wǎng)絡(luò)，得到預(yù)測結(jié)果，然后用梯度下降法修改一下原圖使得預(yù)測結(jié)果變差。一個推廣的方法叫做迭代梯度法，就是對剛才的過程進行多次重復(fù)。這種攻擊稱作白盒攻擊，因為假設(shè)攻擊者已經(jīng)知道了要被攻擊的模型的所有細節(jié)。而與之相對的就是黑盒攻擊，顧名思義，攻擊者事先不知道要攻擊網(wǎng)絡(luò)的模型和具體細節(jié)。第45頁/共50頁如何防御這些對抗樣本《ThreatofAdversarialAttacksonDeepLearninginComputerVision:ASurvey》修改訓(xùn)練樣本：通過添加更多的對抗樣本到訓(xùn)練集中可以有效避免一部分攻擊，但這更像是一種無奈的做法，當擴大樣本集的時候，其實分類邊界有可能也在隨之擴大。修改訓(xùn)練網(wǎng)絡(luò)：這類方法會對訓(xùn)練網(wǎng)絡(luò)做出一定調(diào)整，其中有一種方式是模擬生物學(xué)在最后一層使用更加非線性

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深學(xué)習(xí)備課資料

文檔簡介

溫馨提示

最新文檔

評論

深學(xué)習(xí)備課資料

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔