深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型

上傳人：L*** IP屬地：江蘇上傳時(shí)間：2025-07-25 格式：DOCX 頁數(shù)：38 大?。?.54MB 積分：30 舉報(bào) 版權(quán)申訴

深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第2頁

深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第3頁

深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第4頁

深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第5頁

已閱讀5頁，還剩33頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

來源來源作者：VarunGodboleGeorgeE.DahlJustinGilmerChristopherJ.Shallue?,ZacharyNado組織：GoogleGoogleBrainHarvardUniversity時(shí)間：April9,來源來源來源來源（或看到出錯(cuò)例如，一份關(guān)于如何調(diào)試和如何減少訓(xùn)練失敗的文檔在兩年前是不可能寫出來的，因?yàn)樗@得基于最近的結(jié)果我們不知道最好的深度學(xué)習(xí)秘訣，但在大眾開始記錄它并討論各個(gè)步驟之前，我們不能指望找到它。為此，我們鼓勵(lì)發(fā)現(xiàn)我們的建議存在問題的讀者提出替代建議以及令人信服的證據(jù)，以便我們更新建議。我們也希望看??表情符號(hào)的地方是我們要進(jìn)一步調(diào)查的地方。只有在嘗試編寫這本plybook之后，我們才完全清楚在深度學(xué)習(xí)從業(yè)者的工作流程中可以找到多少有趣及被忽視的研究問題。來源來源 1選擇模型架構(gòu)選擇優(yōu)化器BatchSize BatchSize并估計(jì)訓(xùn)練吞吐量............................ BatchSize以最小化訓(xùn)練時(shí)間............................ BatchSize以最小化資源消耗............................ BatchSize需要重新調(diào)整大多數(shù)超參數(shù)........................... BatchNormBatchSize的選擇造成什么影響？.......................選擇初始配置2增量調(diào)整策略探索與利用選擇下一輪實(shí)驗(yàn)的目標(biāo)設(shè)計(jì)下一輪實(shí)驗(yàn) 識(shí)別目標(biāo)超參數(shù)、冗余超參數(shù)和固定超參數(shù)........................... 創(chuàng)建一組研究平衡實(shí)驗(yàn)的信息量和成本從實(shí)驗(yàn)結(jié)果中獲取經(jīng)驗(yàn) 識(shí)別錯(cuò)誤的搜索空間邊界沒有在搜索空間中采樣足夠的點(diǎn)................................. 檢查訓(xùn)練曲線 isolation圖檢測更改是否有用................................ 自動(dòng)化常用的繪圖確定是否采用此訓(xùn)練工作流更改或超參數(shù)配置..............................探索結(jié)束后3當(dāng)訓(xùn)練不受計(jì)算限制時(shí)如何決定該訓(xùn)練多久............................... max_train_steps的初始值.....................當(dāng)訓(xùn)練受計(jì)算限制時(shí)如何決定該訓(xùn)練多久................................ 第一輪第二輪4優(yōu)化輸入管道評(píng)估模型性能評(píng)估設(shè)置來源來源 5最好的學(xué)習(xí)率衰減方案是什么我應(yīng)該使用哪種學(xué)習(xí)率衰減方案作為默認(rèn)值？..............................為什么有些論文有復(fù)雜的學(xué)習(xí)率衰減方案？...............................Adam的超參數(shù)應(yīng)該如何調(diào)整？Quasi-Random-Search而不是更復(fù)雜的黑盒優(yōu)化算法？........Quasi-Random-Search的實(shí)現(xiàn)？.............................Quasi-Random-Search獲得較好的結(jié)果？..................如何調(diào)試和緩解優(yōu)化失敗識(shí)別不穩(wěn)定的訓(xùn)練任務(wù) 常見不穩(wěn)定模式的潛在修復(fù)方式................................. 學(xué)習(xí)率預(yù)熱梯度截?cái)? Stochasticgradientdescent(SGD).................................Momentum.............................................Nesterov..............................................RMSProp..............................................ADAM...............................................NADAM..............................................來源來源第1章已經(jīng)有一個(gè)工作流設(shè)置用來進(jìn)行訓(xùn)練和評(píng)估，并且可以很容易地為各種感興趣的模型執(zhí)行訓(xùn)練和預(yù)測工因此，選擇架構(gòu)實(shí)際上意味著選擇一整個(gè)系列的各種模型（每個(gè)模型都有不同的超參數(shù)設(shè)置?！罴选容^優(yōu)化器的我們建議堅(jiān)持使用成熟、流行的優(yōu)化器，尤其是在開始新項(xiàng)目時(shí)。理想情況下，選擇用于同類問題的最常用優(yōu)化器。β2Adam，之后可以切換到更通用的優(yōu)化器。常用且較為完善的優(yōu)化器包括（但不限于：AdamandNAdamSGD更通用。請(qǐng)注意，Adam4個(gè)可調(diào)超參數(shù)，他們都很重選擇BatchSize是較為理想的數(shù)值。來源減少開發(fā)周期的延遲，能更多地測試新想法。BatchSizeBatchSize讓資源消耗增加、減少或是保持不變都有都能獲得相同的最終性能（Shallueetal.確定可行的BatchSizeBatchSize的增加，每步的時(shí)間應(yīng)該是恒定的（或至少接近恒定的。I/O或計(jì)算節(jié)點(diǎn)間的同步。有必要在開始下一BatchSize）BatchSizeBatchSize選擇合適的BatchSize對(duì)于所有可行的BatchSize(實(shí)際上，增加BatchSize通常會(huì)產(chǎn)生超參數(shù)；Shallueetal.2018。BatchSize在臨界值之前，超過該臨界總步數(shù)的減少效果將會(huì)下降。BatchSize不會(huì)再使訓(xùn)練步數(shù)減少（永遠(yuǎn)不會(huì)增加。1.41.4來源BatchSize取決于數(shù)據(jù)集、模型和優(yōu)化器，除了通過實(shí)驗(yàn)為每個(gè)新問題找到它之外，如何計(jì)算它是一BatchSize(epoch)預(yù)算（運(yùn)行所有實(shí)驗(yàn)，固定訓(xùn)練樣本的數(shù)量達(dá)到設(shè)定的效果BatchSizeBatchSize仍可能通BatchSizeBatchSize。因此，一個(gè)好的經(jīng)驗(yàn)法則（不運(yùn)行任何實(shí)驗(yàn)）BatchSize。選擇合適的BatchSize如果增加bathsize實(shí)施多機(jī)并行訓(xùn)練程序可能會(huì)引入錯(cuò)誤和一些棘手的細(xì)節(jié)，所以無論如何，一開始最好是用一個(gè)比較簡單的工作流。(另一方面，當(dāng)需要進(jìn)行大量的調(diào)優(yōu)實(shí)驗(yàn)時(shí)，訓(xùn)練時(shí)間的大幅加速可能會(huì)在過程的早期非常有利。我們把總的使用成本（可能包括多種不同類型的成本）稱為資源消耗”。我們可以將資源消耗分解為以下每步的資源消耗x總步數(shù)batchsizebatchsizebatchsize相同batchsizebatchsize增加一倍，所需的步驟數(shù)減少一半，GPU數(shù)量增加一倍，總消耗量（GPU小時(shí)計(jì)）將不會(huì)改變。增加batchsize可能會(huì)增加資源消耗。例如，如果增加batchsize需要升級(jí)硬件，那么每步消耗的增加更改BatchSizeBatchSize交互最強(qiáng)烈的超參數(shù)是優(yōu)化器超參數(shù)（學(xué)習(xí)率、動(dòng)量等）和正則化超參數(shù)，所以有必要對(duì)于BatchSize單獨(dú)調(diào)整它們。在項(xiàng)目開始時(shí)選擇BatchSize時(shí)請(qǐng)記住，如果您以后需要切換到不同的BatchSize，則為新的BatchSize重BatchNorm會(huì)對(duì)BatchSizeBatchnormbatchsize來計(jì)算統(tǒng)計(jì)數(shù)據(jù)(像GhostBatchNorm采batchsize)。有關(guān)詳細(xì)討論，請(qǐng)參閱BatchNorm的實(shí)現(xiàn)細(xì)節(jié)(2)如學(xué)習(xí)率，以及(3)訓(xùn)練步數(shù)。1.41.4來源來源“簡單意味著盡可能避免花里胡哨的東西；這些總是可以在以后添加。即使花里胡哨的東西在未來被例如，在添加花哨的衰減方案之前以恒定的學(xué)習(xí)率開始?！昂侠怼毙阅苋Q于問題，但至少意味著經(jīng)過訓(xùn)練的模型在驗(yàn)證集上的性能比隨機(jī)機(jī)會(huì)好得多（盡管2018來源來源第2章在其他情況下，我們希望無限期地改進(jìn)模型（例如，不斷改進(jìn)生產(chǎn)中使用的模型。大多數(shù)自動(dòng)搜索算法依賴于人工設(shè)計(jì)的搜索空間，這些搜索空間往往非常重要。“最佳”模型將不斷改進(jìn)。對(duì)于每次上線，我們必須確保更改是有據(jù)可循的——而不僅僅是碰運(yùn)氣找到的配置——以避免給訓(xùn)確定無效的方向并將其刪除，從而降低后續(xù)實(shí)驗(yàn)的復(fù)雜度。來源了解特定模型超參數(shù)（例如激活函數(shù)）的影響對(duì)于給定的目標(biāo)，所有超參數(shù)都將是目標(biāo)超參數(shù)、冗余超參數(shù)或固定超參數(shù)。目標(biāo)超參數(shù)是指，我們希望測量出其對(duì)于模型由何種影響的參數(shù)。比如，激活函數(shù)的選擇可以是一個(gè)目標(biāo)超參數(shù)（對(duì)于當(dāng)前問題，ReLU或tanh超參數(shù)（ReLU構(gòu)成的網(wǎng)絡(luò)，在特定位置添加批標(biāo)準(zhǔn)化是否有幫助。在設(shè)計(jì)新一輪實(shí)驗(yàn)時(shí)，我們根據(jù)實(shí)驗(yàn)?zāi)康拇_定目標(biāo)超參數(shù)。在此階段，我們將所有其他超參數(shù)視為冗余超參數(shù)。來源當(dāng)我們判斷將一個(gè)冗余超參數(shù)轉(zhuǎn)換為固定超參數(shù)所帶來的限制少于調(diào)優(yōu)它所需的計(jì)算資源時(shí)，我們?cè)诟鞣N優(yōu)化器超參數(shù)（例如學(xué)習(xí)率、動(dòng)量、學(xué)習(xí)率調(diào)度參數(shù)、Adam優(yōu)化器的beta等）中，至少有一”·此外，我們沒有優(yōu)化器超參數(shù)值的先驗(yàn)傾向（例如，它們通常不會(huì)以任何方式影響前向傳遞如果我們的實(shí)驗(yàn)?zāi)繕?biāo)涉及在兩個(gè)或多個(gè)不同的優(yōu)化器之間進(jìn)行公平比較（“確定哪個(gè)優(yōu)化器”或者，我們可能出于各種原因?qū)⑵湓O(shè)為固定超參數(shù)，包括（1）先前的實(shí)驗(yàn)表明最好的優(yōu)化器和例如，假設(shè)我們想知道Nesterovmomentum和Adam中哪個(gè)優(yōu)化器的驗(yàn)證錯(cuò)誤率更低。目標(biāo)超參數(shù)是入了冗余/固定超參數(shù){learning_rate,momentum}optimizer="Adam"引入了冗余/固定超參數(shù){learning_rate,beta1,beta2,epsilon}。learning_rateoptimizer="Nesterov_momentum"optimizer="Adam"是不同的條件超參數(shù).它在兩種算法“研究或一系列研究，以朝著實(shí)驗(yàn)?zāi)繕?biāo)取得進(jìn)展?！霸囼?yàn)”。2.52.5來源”，Nesterov、momentumAdam中選擇最佳優(yōu)化器，我們可以創(chuàng)建一個(gè)研究，并設(shè)置optimizer="Nesterov_momentum"和冗余超參數(shù)為{learning_rate,momentum}。然后創(chuàng)建另一項(xiàng)研究，并設(shè)置optimizer="Adam"和冗余超參數(shù)為{learning_rate,beta1,beta2,epsilon}我們可以使用任何無梯度優(yōu)化算法，包括貝葉斯優(yōu)化或進(jìn)化算法等方法，來優(yōu)化冗余超參數(shù)。但是，在這種情況下，我們更加偏好Quasi-Random-Search算法，因?yàn)樗_保我們能相對(duì)均勻的采樣目包括盡可能多的有冗余超參數(shù)，并允許每個(gè)冗余超參數(shù)有盡可能大的值域。這樣我們更有信心相信，對(duì)于一個(gè)目標(biāo)超參數(shù)配置，在當(dāng)前搜索空間中，存在“好的”冗余參數(shù)。盡可能密集地對(duì)冗余超參數(shù)采樣，也能讓我們更加有信心相信搜索流程能夠找到好的冗余超參數(shù)配每個(gè)問題都有自己的特性和計(jì)算資源限制，因此如何在這三個(gè)需求之間分配資源需要一定程度的領(lǐng)在分析一組給定的實(shí)驗(yàn)以朝著最初的目標(biāo)取得進(jìn)展之前，我們應(yīng)該問自己以下額外的問題：搜索空間夠大嗎？？在某些情況下，大量不可行點(diǎn)可能表示訓(xùn)練代碼中存在錯(cuò)誤。模型是否存在優(yōu)化問題？每次試驗(yàn)的驗(yàn)證目標(biāo)值通常應(yīng)該是它在訓(xùn)練期間達(dá)到的最佳值。如果所有試驗(yàn)對(duì)于大于某個(gè)閾值的學(xué)習(xí)率都是不可行的，并且如果表現(xiàn)最好的試驗(yàn)在該區(qū)域的邊緣運(yùn)行更多的試驗(yàn)當(dāng)然更好，但代價(jià)是顯而易見的。“好”區(qū)域。在檢查訓(xùn)練曲線時(shí)，我們對(duì)以下問題感興趣。是否有任何試驗(yàn)顯示過擬合？在試驗(yàn)中(我們對(duì)目標(biāo)超參數(shù)的不同設(shè)置選取最佳試驗(yàn)效果的試驗(yàn)[這實(shí)際上優(yōu)化了冗余超參數(shù)])，我·如果目標(biāo)超參數(shù)包括正則化參數(shù)，這可能不適用，因?yàn)槿绻@些正則化參數(shù)的低強(qiáng)度設(shè)置導(dǎo)“隱藏層數(shù)”，當(dāng)使用最大隱藏層數(shù)的最佳試驗(yàn)表現(xiàn)出過擬合問題，“壞”值的方式選擇。如果是這樣，這可能會(huì)干擾我們比較目標(biāo)超參數(shù)的不同值的能力（因?yàn)槊總€(gè)試驗(yàn)都隨機(jī)地在”幸運(yùn)”研究中那樣在”幸運(yùn)”一步上結(jié)束。訓(xùn)練結(jié)束時(shí)試驗(yàn)是否仍能改進(jìn)？訓(xùn)練集和驗(yàn)證集的性能在最后的訓(xùn)練步驟之前很久就飽和了嗎？使用isolationisolation圖是基本超參數(shù)軸圖的特例。isolation圖上的每個(gè)點(diǎn)對(duì)應(yīng)著在優(yōu)化某些（或全部）冗余超參數(shù)上例如，2.2ImageNetResNet-50(學(xué)習(xí)率下產(chǎn)生最佳驗(yàn)證性能的權(quán)重衰減來源 line進(jìn)行比較。為了公平比較，Baseline的學(xué)習(xí)率也應(yīng)該同樣得到很好的調(diào)整。isolationQuasi-Random-Search(近似隨(GeoffreyHinton)的話，“每次設(shè)計(jì)新事物時(shí)，您都會(huì)學(xué)到新事物?！眘huffles、dropout掩碼、數(shù)據(jù)增強(qiáng)操作的模式和并行運(yùn)算N次，以估計(jì)訓(xùn)練方差。因此，如果一個(gè)新的超參數(shù)點(diǎn)（或其他變化）Baseline更好的結(jié)果（Baseline的再訓(xùn)練方差Baseline為以后的比較。來源來源

2.7在這個(gè)時(shí)候，我們的優(yōu)先事項(xiàng)將從學(xué)習(xí)更多優(yōu)化經(jīng)驗(yàn)轉(zhuǎn)向產(chǎn)生一個(gè)最佳配置來啟動(dòng)或以其他方式使用。如果搜索空間包含大量發(fā)散點(diǎn)（獲得NaN訓(xùn)練損失或比平均值差很多標(biāo)準(zhǔn)差的訓(xùn)練誤差的點(diǎn)這只適用于未來不會(huì)有這種特定工作需求的情況（Kaggle競賽。來源來源第3章在這種情況下，如果我們能以某種方式延長訓(xùn)練時(shí)間或提高訓(xùn)練效率，我們應(yīng)該看到較低的訓(xùn)練損換句話說，加快訓(xùn)練速度就等于改善訓(xùn)練效果，而最佳訓(xùn)練時(shí)間總是我們?cè)敢獾却臅r(shí)間范圍在這種情況下，我們應(yīng)該期望能夠訓(xùn)練到非常低的訓(xùn)練誤差，訓(xùn)練時(shí)間更長可能會(huì)略微減少訓(xùn)練誤當(dāng)訓(xùn)練不受計(jì)算限制時(shí)，慷慨的訓(xùn)練時(shí)間預(yù)算可以使調(diào)整更容易，特別是在調(diào)整學(xué)習(xí)率衰減計(jì)劃時(shí)，不管一個(gè)給定的工作負(fù)載是否是計(jì)算約束，使用增加梯度方差（Batch）的方法通常會(huì)導(dǎo)致較慢的訓(xùn)練BatchSize不要在訓(xùn)練中調(diào)整max_train_steps以獲得更好的效果。我們只需要選擇一個(gè)值并將其用于所有試驗(yàn)。從steps，以優(yōu)化max_train_steps的數(shù)值。step25%中，我們可能可以在增加訓(xùn)練時(shí)間和重新(max_train_steps相關(guān))。下面我們將描述如何根據(jù)使用恒定學(xué)習(xí)率“完全擬合訓(xùn)練集所需的step數(shù)，為max_train_steps選擇初“完美擬合訓(xùn)練集”。它只是一個(gè)非正式的limits0“完全擬合”訓(xùn)練集。來源gradientnoise(UmutSimsekletal)增大時(shí)，則max_train_steps可能如果訓(xùn)練過程以某種方式改進(jìn)，可能會(huì)減少max_train_steps。使用學(xué)習(xí)率搜索算法來確定max_train_stepsmax_train_steps到這個(gè)值作為max_train_stepsd的起點(diǎn)Nmax_train_steps的初步猜測。通過運(yùn)行更多的短時(shí)間的實(shí)驗(yàn)，我們可以更快地找到最佳的模型和優(yōu)化器超參數(shù)，而不必浪費(fèi)大量(”productionlength”指模型在生產(chǎn)環(huán)境中運(yùn)行的時(shí)間,也就是預(yù)期的長時(shí)間訓(xùn)練)的實(shí)驗(yàn)來在最佳超參數(shù)點(diǎn)上獲得最終模型。這樣，我們就可以更有效地使用我們的資源來調(diào)整最有可能在生產(chǎn)環(huán)境中表現(xiàn)良好的模型。我們的訓(xùn)練時(shí)間越長，我們對(duì)模型的理解就會(huì)越深入，這樣我們就可以更好的了解模型的性能和限~10%productionlength時(shí)，我們可能能夠回答很多問題，但是在這個(gè)時(shí)間限制下的來源Roundi→Roundi+1的最大問題是如何調(diào)整學(xué)習(xí)率衰減計(jì)劃?？赡苻D(zhuǎn)移模型架構(gòu)上的顯著勝利通常會(huì)轉(zhuǎn)移，但可能有很多例外?？赡軙?huì)轉(zhuǎn)移優(yōu)化算法/優(yōu)化器超參數(shù)——我們認(rèn)為這將松散轉(zhuǎn)移。它明顯比上面的東西弱。數(shù)據(jù)增強(qiáng)方法不太可能轉(zhuǎn)移lr期。lr并像Chinchillamax_train_steps。我們已經(jīng)描述了如何從第一輪第二輪進(jìn)行轉(zhuǎn)換。如果我們不關(guān)心分析時(shí)間，并且計(jì)算效率是關(guān)鍵來源來源來源來源第4章使用適當(dāng)?shù)男阅芊治龉ぞ邅碓\性能受限的輸入管道，例如，用于JAX的Perfetto或用于TensorFlow的Ten-sorFlowprofiler。數(shù)據(jù)未與訓(xùn)練進(jìn)程存放在同一位置，從而導(dǎo)致I/O延遲(通過網(wǎng)絡(luò)讀取訓(xùn)練數(shù)據(jù)時(shí)可能會(huì)發(fā)生這種情無意間的同步屏障干擾數(shù)據(jù)管道預(yù)讀取。例如，在CommonLoopUtils(link中同步設(shè)備和主機(jī)之間的tf.data.Dataset.prefetch之類的工具對(duì)輸入管道預(yù)讀取數(shù)據(jù)。盡可能早地在管道中刪除不必要的特征和元數(shù)據(jù)。100epoch10分鐘評(píng)估一次。定期評(píng)估-(或)離線評(píng)估中使用的數(shù)據(jù)的子根據(jù)問題的不同，離線評(píng)估可能會(huì)相當(dāng)復(fù)雜，并且計(jì)算成本很高。定期評(píng)估是最實(shí)際和最經(jīng)濟(jì)的選擇，但可能不能完全代表生產(chǎn)環(huán)境。來源batchsizebatchsize大小一樣大，因?yàn)樵谠u(píng)估有效/(當(dāng)使用打亂后的訓(xùn)練/確認(rèn)/測試分割時(shí))可以指出某些實(shí)現(xiàn)錯(cuò)誤，例如測batchsizebatch的情況。確保填充的數(shù)據(jù)被正確地加權(quán)，以防在構(gòu)建采樣數(shù)據(jù)集時(shí)，我們會(huì)考慮以下因素：樣本量確保定期作業(yè)使用的采樣數(shù)據(jù)集的性能與整個(gè)離線評(píng)估集的性能相似，確保采樣集與完整數(shù)據(jù)用于定期評(píng)估的數(shù)據(jù)集應(yīng)該足夠小，以便很容易生成整個(gè)模型的預(yù)測，但也應(yīng)該足夠大，以便(即不被大量標(biāo)簽噪聲影響)。它應(yīng)該足夠大，以適應(yīng)順序試驗(yàn)中的多個(gè)這樣的評(píng)估，并仍然產(chǎn)生準(zhǔn)確的估計(jì)。也就是說，避對(duì)于每個(gè)類別只有少量樣本的數(shù)據(jù)集，記錄正確預(yù)測樣本的數(shù)量，可以更深入地了解準(zhǔn)確性改(.05靈敏度改進(jìn)聽起來很令人興奮，但它只是因?yàn)楦嗟臉颖颈徽_預(yù)測了嗎？)最佳檢查點(diǎn)并不一定是最后一個(gè)檢查點(diǎn)，尤其是當(dāng)驗(yàn)證集性能不會(huì)隨時(shí)間持續(xù)增加而是圍繞特定值波動(dòng)回顧性最佳檢查點(diǎn)選擇。來源來源

我們發(fā)現(xiàn)，在電子表格中跟蹤實(shí)驗(yàn)結(jié)果有助于我們解決各種建模問題。它通常有以下列：實(shí)驗(yàn)名稱實(shí)驗(yàn)配置存儲(chǔ)位置的鏈接實(shí)驗(yàn)的注釋或簡短描述運(yùn)行次數(shù)最佳模型在驗(yàn)證集上的表現(xiàn)BatchNormBatchnorm使用當(dāng)前批次的均值和方差對(duì)激活值進(jìn)行歸一化，但在多設(shè)備設(shè)置中，除非明確同步處理，否據(jù)說（主要在ImageNet上）64個(gè)樣本計(jì)算這些歸一化統(tǒng)計(jì)數(shù)據(jù)在實(shí)際應(yīng)用中效果更好（請(qǐng)參閱GhostBatchNorm。Ghostbatchnorm>虛擬批次大小的情況。在這種情況下，我(EMA）EMA只需要在將EMA，并只保存第一個(gè)設(shè)備EMA。(用于模型初始化)(用于數(shù)據(jù)混洗和預(yù)處理)是非常重要的，因此請(qǐng)確保合適地標(biāo)記它們來源來源第5章LR衰減方案是什么。雖然我們不知道最好的方案是什么，但我們相信嘗試一些（非恒定的）方案很重要并且調(diào)整它很重要。LR衰減方案（或更小的恒定學(xué)習(xí)率）恢復(fù)它。重復(fù)此過程，直到會(huì)議/發(fā)布截止日期。最好復(fù)制生成衰減方案的算法，盡管在人為判斷生成的衰減方案時(shí)這幾乎不可能。Adam正如之前討論的那樣對(duì)搜索空間以及應(yīng)該從搜索空間中采樣數(shù)量做出概括性陳述是非常困難的。請(qǐng)注意，Adam“預(yù)算”。1025β1進(jìn)行調(diào)整。25次以上，那么需要對(duì)學(xué)習(xí)率、β1?進(jìn)行調(diào)整。25β2。為什么在優(yōu)化的探索階段使用Quasi-Random-Search而不是更復(fù)雜的黑來源Quasi-Random-Search“抖動(dòng)的、打亂的網(wǎng)格搜索”，因?yàn)樗y(tǒng)例如，我們通常希望根據(jù)任何訓(xùn)練點(diǎn)上達(dá)到的驗(yàn)證誤差來找到最佳試驗(yàn)。但是Quasi-Random-Searh的非自適應(yīng)性質(zhì)使得我們可以基于最終驗(yàn)證誤差、訓(xùn)練誤差或某些替代評(píng)估指標(biāo)來找到(而不是使用驗(yàn)證誤差，而是使用訓(xùn)練誤差(可能你在解決某種模型需求)。由于你使用的是非自適應(yīng)隨機(jī)搜索，因此你可以在不重新運(yùn)行實(shí)驗(yàn)的情況下，使用已經(jīng)運(yùn)行的實(shí)驗(yàn)中的數(shù)據(jù)來評(píng)估每一組超參數(shù)的訓(xùn)練誤差。這樣你就可以找到最優(yōu)的超參數(shù)組合，并可以使用訓(xùn)練誤差作為評(píng)估指標(biāo)。這樣的好處在于，你可以在不重新運(yùn)行實(shí)驗(yàn)的情況下，使用不同的評(píng)估指標(biāo)來評(píng)估這些結(jié)果，從而找到最優(yōu)的實(shí)驗(yàn)。相比之下，如果我們使用自適應(yīng)隨機(jī)搜索來調(diào)參，我們會(huì)根據(jù)之前實(shí)驗(yàn)的結(jié)果來動(dòng)態(tài)調(diào)整采樣策略這導(dǎo)致我們不能隨意的更換目標(biāo)，因?yàn)椴蓸涌臻g已經(jīng)變化)即使在搜索算法實(shí)現(xiàn)發(fā)生變化的情況下，只要它保持相同的均勻性，就應(yīng)該可以重現(xiàn)六個(gè)月前Quasi-Random-Searh（但不是萬無一失的這一節(jié)(這種誤差會(huì)造成優(yōu)化效果變差)。如果沒有貝葉斯優(yōu)化和其他高級(jí)黑盒優(yōu)化方法方面的專業(yè)知識(shí)，我們可能無法獲得它們理論上2倍預(yù)算的隨機(jī)搜索在哪里可以找到Quasi-Random-Search我們可以使用這個(gè)實(shí)現(xiàn)（旨在按照/abs/1706.03200建議來實(shí)現(xiàn)移位的、加擾的Halton序列。Quasi-Random-Search算法不可用，則可以換成偽隨機(jī)均勻搜索，雖然這可能效率2012需要多少次試驗(yàn)才能通過Quasi-Random-Search5.1:ResNet-50ImageNet100次試驗(yàn)調(diào)整。通過自舉，模擬了不同數(shù)量的調(diào)整預(yù)算。上面繪制了這個(gè)問題沒有辦法籠統(tǒng)地回答，但是我們可以看具體的例子。0.1%的驗(yàn)證誤差的概率23%。5.85.8來源5.2:WideResnet(2x21x1)中的步幅會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。這不會(huì)降低在低學(xué)習(xí)率下的0.1的最大學(xué)習(xí)率進(jìn)行穩(wěn)定訓(xùn)練。(說明我們最佳的學(xué)習(xí)率比較臨界)。L2范數(shù)異常值非常大，這可能表明模型參數(shù)在某一時(shí)刻發(fā)生了非常大的變化，導(dǎo)為了檢查出這一問題，我們可以使用lr=2*currentbest500次訓(xùn)練的計(jì)劃，但每嘗試使用新的優(yōu)化器AdamMomentum無法處理的不穩(wěn)定影響。這也是該領(lǐng)域的一個(gè)活躍研究領(lǐng)域。確保使用最佳實(shí)踐/初始化：歸一化應(yīng)該是殘差之前的最后一個(gè)操作。例如，x+Norm(f(x))。f(x)歸一化有助于降低不穩(wěn)定性)0（例如，ReZeroinit所示）xi+1=xi+αiF(xi).5.5展示的是一個(gè)超參數(shù)軸圖，該圖表明模型正在經(jīng)歷訓(xùn)練不穩(wěn)定，因?yàn)樽罴褜W(xué)習(xí)率恰好位于可行的邊5.5:表現(xiàn)出訓(xùn)練不穩(wěn)定性的模型的超參數(shù)軸圖示例。最佳學(xué)習(xí)率處于可行的邊緣?！安豢尚性囼?yàn)被定義為產(chǎn)NaN或異常高的損失值的試驗(yàn)。5.6:unstable_base_learning_rate。0提升到某個(gè)穩(wěn)定的base_learning_rate，這至少比unstable_base_learning_rate默認(rèn)設(shè)置是嘗試使用unstable_base_learning_rate10倍大小的base_learning_rate對(duì)于使用例如100倍unstable_base_learning_rate這樣的數(shù)值，那么可能需要重新運(yùn)行整個(gè)過程。具體安排如下：在warmup_steps0base_learning_rate。我們的目標(biāo)是找到最少的warmup_steps，以此來讓我們獲得遠(yuǎn)高于unstable_base_learning_rate的base_learning_ratewarmup_steps以及post_warmup_steps進(jìn)行post_warmup_steps設(shè)定為warmup_steps的兩倍就可以了。warmup_steps[10,103,104,105]這樣的數(shù)量級(jí)進(jìn)行嘗試。最大的搜索值不應(yīng)超過max_train_steps10%。base_learning_rate進(jìn)行訓(xùn)練的warmup_stepsBaseline模進(jìn)行比較。例如，如果我們一開始的max_train_stepswarmup_step（max_train_steps的5%max_train_steps4Transformer類。: 來源“典型的梯度范數(shù)。下面是一個(gè)關(guān)于如何進(jìn)行梯度截?cái)嗟陌咐簗g|λ，g′=λ×gg′在訓(xùn)練期間記錄下未截?cái)嗵荻确稊?shù)。默認(rèn)情況下會(huì)生成:梯度范數(shù)與步驟數(shù)量的關(guān)系圖90%是一個(gè)很好的選擇。但如果這個(gè)奏效，那么可以對(duì)其進(jìn)行調(diào)參數(shù)。“超參數(shù)”的參數(shù)都是對(duì)術(shù)語的一種濫用?！霸獏?shù)這個(gè)術(shù)語來表示學(xué)習(xí)率、架構(gòu)參數(shù)以及我們?cè)谏疃葘W(xué)習(xí)中調(diào)整的所有其他參數(shù)，因?yàn)樗?/p>

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型

文檔簡介

溫馨提示

最新文檔

評(píng)論

深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔