深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第1頁
深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第2頁
深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第3頁
深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第4頁
深度學(xué)習(xí)調(diào)參指南中文版-系統(tǒng)性優(yōu)化模型_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

來源來源作者:VarunGodboleGeorgeE.DahlJustinGilmerChristopherJ.Shallue?,ZacharyNado組織:GoogleGoogleBrainHarvardUniversity時(shí)間:April9,來源來源來源來源(或看到出錯(cuò)例如,一份關(guān)于如何調(diào)試和如何減少訓(xùn)練失敗的文檔在兩年前是不可能寫出來的,因?yàn)樗@得基于最近的結(jié)果我們不知道最好的深度學(xué)習(xí)秘訣,但在大眾開始記錄它并討論各個(gè)步驟之前,我們不能指望找到它。為此,我們鼓勵(lì)發(fā)現(xiàn)我們的建議存在問題的讀者提出替代建議以及令人信服的證據(jù),以便我們更新建議。我們也希望看??表情符號(hào)的地方是我們要進(jìn)一步調(diào)查的地方。只有在嘗試編寫這本plybook之后,我們才完全清楚在深度學(xué)習(xí)從業(yè)者的工作流程中可以找到多少有趣及被忽視的研究問題。來源來源 1選擇模型架構(gòu)選擇優(yōu)化器BatchSize BatchSize并估計(jì)訓(xùn)練吞吐量............................ BatchSize以最小化訓(xùn)練時(shí)間............................ BatchSize以最小化資源消耗............................ BatchSize需要重新調(diào)整大多數(shù)超參數(shù)........................... BatchNormBatchSize的選擇造成什么影響?.......................選擇初始配置2增量調(diào)整策略探索與利用選擇下一輪實(shí)驗(yàn)的目標(biāo)設(shè)計(jì)下一輪實(shí)驗(yàn) 識(shí)別目標(biāo)超參數(shù)、冗余超參數(shù)和固定超參數(shù)........................... 創(chuàng)建一組研究 平衡實(shí)驗(yàn)的信息量和成本從實(shí)驗(yàn)結(jié)果中獲取經(jīng)驗(yàn) 識(shí)別錯(cuò)誤的搜索空間邊界 沒有在搜索空間中采樣足夠的點(diǎn)................................. 檢查訓(xùn)練曲線 isolation圖檢測更改是否有用................................ 自動(dòng)化常用的繪圖確定是否采用此訓(xùn)練工作流更改或超參數(shù)配置..............................探索結(jié)束后3當(dāng)訓(xùn)練不受計(jì)算限制時(shí)如何決定該訓(xùn)練多久............................... max_train_steps的初始值.....................當(dāng)訓(xùn)練受計(jì)算限制時(shí)如何決定該訓(xùn)練多久................................ 第一輪 第二輪4優(yōu)化輸入管道評(píng)估模型性能 評(píng)估設(shè)置來源來源 5最好的學(xué)習(xí)率衰減方案是什么我應(yīng)該使用哪種學(xué)習(xí)率衰減方案作為默認(rèn)值?..............................為什么有些論文有復(fù)雜的學(xué)習(xí)率衰減方案?...............................Adam的超參數(shù)應(yīng)該如何調(diào)整?Quasi-Random-Search而不是更復(fù)雜的黑盒優(yōu)化算法?........Quasi-Random-Search的實(shí)現(xiàn)?.............................Quasi-Random-Search獲得較好的結(jié)果?..................如何調(diào)試和緩解優(yōu)化失敗 識(shí)別不穩(wěn)定的訓(xùn)練任務(wù) 常見不穩(wěn)定模式的潛在修復(fù)方式................................. 學(xué)習(xí)率預(yù)熱 梯度截?cái)? Stochasticgradientdescent(SGD).................................Momentum.............................................Nesterov..............................................RMSProp..............................................ADAM...............................................NADAM..............................................來源來源第1章已經(jīng)有一個(gè)工作流設(shè)置用來進(jìn)行訓(xùn)練和評(píng)估,并且可以很容易地為各種感興趣的模型執(zhí)行訓(xùn)練和預(yù)測工因此,選擇架構(gòu)實(shí)際上意味著選擇一整個(gè)系列的各種模型(每個(gè)模型都有不同的超參數(shù)設(shè)置?!罴选容^優(yōu)化器的我們建議堅(jiān)持使用成熟、流行的優(yōu)化器,尤其是在開始新項(xiàng)目時(shí)。理想情況下,選擇用于同類問題的最常用優(yōu)化器。β2Adam,之后可以切換到更通用的優(yōu)化器。常用且較為完善的優(yōu)化器包括(但不限于:AdamandNAdamSGD更通用。請(qǐng)注意,Adam4個(gè)可調(diào)超參數(shù),他們都很重選擇BatchSize是較為理想的數(shù)值。來源減少開發(fā)周期的延遲,能更多地測試新想法。BatchSizeBatchSize讓資源消耗增加、減少或是保持不變都有都能獲得相同的最終性能(Shallueetal.確定可行的BatchSizeBatchSize的增加,每步的時(shí)間應(yīng)該是恒定的(或至少接近恒定的。I/O或計(jì)算節(jié)點(diǎn)間的同步。有必要在開始下一BatchSize)BatchSizeBatchSize選擇合適的BatchSize對(duì)于所有可行的BatchSize(實(shí)際上,增加BatchSize通常會(huì)產(chǎn)生超參數(shù);Shallueetal.2018。BatchSize在臨界值之前,超過該臨界總步數(shù)的減少效果將會(huì)下降。BatchSize不會(huì)再使訓(xùn)練步數(shù)減少(永遠(yuǎn)不會(huì)增加。1.41.4來源BatchSize取決于數(shù)據(jù)集、模型和優(yōu)化器,除了通過實(shí)驗(yàn)為每個(gè)新問題找到它之外,如何計(jì)算它是一BatchSize(epoch)預(yù)算(運(yùn)行所有實(shí)驗(yàn),固定訓(xùn)練樣本的數(shù)量達(dá)到設(shè)定的效果BatchSizeBatchSize仍可能通BatchSizeBatchSize。因此,一個(gè)好的經(jīng)驗(yàn)法則(不運(yùn)行任何實(shí)驗(yàn))BatchSize。選擇合適的BatchSize如果增加bathsize實(shí)施多機(jī)并行訓(xùn)練程序可能會(huì)引入錯(cuò)誤和一些棘手的細(xì)節(jié),所以無論如何,一開始最好是用一個(gè)比較簡單的工作流。(另一方面,當(dāng)需要進(jìn)行大量的調(diào)優(yōu)實(shí)驗(yàn)時(shí),訓(xùn)練時(shí)間的大幅加速可能會(huì)在過程的早期非常有利。我們把總的使用成本(可能包括多種不同類型的成本)稱為資源消耗”。我們可以將資源消耗分解為以下每步的資源消耗x總步數(shù)batchsizebatchsizebatchsize相同batchsizebatchsize增加一倍,所需的步驟數(shù)減少一半,GPU數(shù)量增加一倍,總消耗量(GPU小時(shí)計(jì))將不會(huì)改變。增加batchsize可能會(huì)增加資源消耗。例如,如果增加batchsize需要升級(jí)硬件,那么每步消耗的增加更改BatchSizeBatchSize交互最強(qiáng)烈的超參數(shù)是優(yōu)化器超參數(shù)(學(xué)習(xí)率、動(dòng)量等)和正則化超參數(shù),所以有必要對(duì)于BatchSize單獨(dú)調(diào)整它們。在項(xiàng)目開始時(shí)選擇BatchSize時(shí)請(qǐng)記住,如果您以后需要切換到不同的BatchSize,則為新的BatchSize重BatchNorm會(huì)對(duì)BatchSizeBatchnormbatchsize來計(jì)算統(tǒng)計(jì)數(shù)據(jù)(像GhostBatchNorm采batchsize)。有關(guān)詳細(xì)討論,請(qǐng)參閱BatchNorm的實(shí)現(xiàn)細(xì)節(jié)(2)如學(xué)習(xí)率,以及(3)訓(xùn)練步數(shù)。1.41.4來源來源“簡單意味著盡可能避免花里胡哨的東西;這些總是可以在以后添加。即使花里胡哨的東西在未來被例如,在添加花哨的衰減方案之前以恒定的學(xué)習(xí)率開始?!昂侠怼毙阅苋Q于問題,但至少意味著經(jīng)過訓(xùn)練的模型在驗(yàn)證集上的性能比隨機(jī)機(jī)會(huì)好得多(盡管2018來源來源第2章在其他情況下,我們希望無限期地改進(jìn)模型(例如,不斷改進(jìn)生產(chǎn)中使用的模型。大多數(shù)自動(dòng)搜索算法依賴于人工設(shè)計(jì)的搜索空間,這些搜索空間往往非常重要。“最佳”模型將不斷改進(jìn)。對(duì)于每次上線,我們必須確保更改是有據(jù)可循的——而不僅僅是碰運(yùn)氣找到的配置——以避免給訓(xùn)確定無效的方向并將其刪除,從而降低后續(xù)實(shí)驗(yàn)的復(fù)雜度。來源了解特定模型超參數(shù)(例如激活函數(shù))的影響對(duì)于給定的目標(biāo),所有超參數(shù)都將是目標(biāo)超參數(shù)、冗余超參數(shù)或固定超參數(shù)。目標(biāo)超參數(shù)是指,我們希望測量出其對(duì)于模型由何種影響的參數(shù)。比如,激活函數(shù)的選擇可以是一個(gè)目標(biāo)超參數(shù)(對(duì)于當(dāng)前問題,ReLU或tanh超參數(shù)(ReLU構(gòu)成的網(wǎng)絡(luò),在特定位置添加批標(biāo)準(zhǔn)化是否有幫助。在設(shè)計(jì)新一輪實(shí)驗(yàn)時(shí),我們根據(jù)實(shí)驗(yàn)?zāi)康拇_定目標(biāo)超參數(shù)。在此階段,我們將所有其他超參數(shù)視為冗余超參數(shù)。來源當(dāng)我們判斷將一個(gè)冗余超參數(shù)轉(zhuǎn)換為固定超參數(shù)所帶來的限制少于調(diào)優(yōu)它所需的計(jì)算資源時(shí),我們?cè)诟鞣N優(yōu)化器超參數(shù)(例如學(xué)習(xí)率、動(dòng)量、學(xué)習(xí)率調(diào)度參數(shù)、Adam優(yōu)化器的beta等)中,至少有一”·此外,我們沒有優(yōu)化器超參數(shù)值的先驗(yàn)傾向(例如,它們通常不會(huì)以任何方式影響前向傳遞如果我們的實(shí)驗(yàn)?zāi)繕?biāo)涉及在兩個(gè)或多個(gè)不同的優(yōu)化器之間進(jìn)行公平比較(“確定哪個(gè)優(yōu)化器”或者,我們可能出于各種原因?qū)⑵湓O(shè)為固定超參數(shù),包括(1)先前的實(shí)驗(yàn)表明最好的優(yōu)化器和例如,假設(shè)我們想知道Nesterovmomentum和Adam中哪個(gè)優(yōu)化器的驗(yàn)證錯(cuò)誤率更低。目標(biāo)超參數(shù)是入了冗余/固定超參數(shù){learning_rate,momentum}optimizer="Adam"引入了冗余/固定超參數(shù){learning_rate,beta1,beta2,epsilon}。learning_rateoptimizer="Nesterov_momentum"optimizer="Adam"是不同的條件超參數(shù).它在兩種算法“研究或一系列研究,以朝著實(shí)驗(yàn)?zāi)繕?biāo)取得進(jìn)展?!霸囼?yàn)”。2.52.5來源”,Nesterov、momentumAdam中選擇最佳優(yōu)化器,我們可以創(chuàng)建一個(gè)研究,并設(shè)置optimizer="Nesterov_momentum"和冗余超參數(shù)為{learning_rate,momentum}。然后創(chuàng)建另一項(xiàng)研究,并設(shè)置optimizer="Adam"和冗余超參數(shù)為{learning_rate,beta1,beta2,epsilon}我們可以使用任何無梯度優(yōu)化算法,包括貝葉斯優(yōu)化或進(jìn)化算法等方法,來優(yōu)化冗余超參數(shù)。但是,在這種情況下,我們更加偏好Quasi-Random-Search算法,因?yàn)樗_保我們能相對(duì)均勻的采樣目包括盡可能多的有冗余超參數(shù),并允許每個(gè)冗余超參數(shù)有盡可能大的值域。這樣我們更有信心相信,對(duì)于一個(gè)目標(biāo)超參數(shù)配置,在當(dāng)前搜索空間中,存在“好的”冗余參數(shù)。盡可能密集地對(duì)冗余超參數(shù)采樣,也能讓我們更加有信心相信搜索流程能夠找到好的冗余超參數(shù)配每個(gè)問題都有自己的特性和計(jì)算資源限制,因此如何在這三個(gè)需求之間分配資源需要一定程度的領(lǐng)在分析一組給定的實(shí)驗(yàn)以朝著最初的目標(biāo)取得進(jìn)展之前,我們應(yīng)該問自己以下額外的問題:搜索空間夠大嗎??在某些情況下,大量不可行點(diǎn)可能表示訓(xùn)練代碼中存在錯(cuò)誤。模型是否存在優(yōu)化問題?每次試驗(yàn)的驗(yàn)證目標(biāo)值通常應(yīng)該是它在訓(xùn)練期間達(dá)到的最佳值。如果所有試驗(yàn)對(duì)于大于某個(gè)閾值的學(xué)習(xí)率都是不可行的,并且如果表現(xiàn)最好的試驗(yàn)在該區(qū)域的邊緣 運(yùn)行更多的試驗(yàn)當(dāng)然更好,但代價(jià)是顯而易見的。“好”區(qū)域。在檢查訓(xùn)練曲線時(shí),我們對(duì)以下問題感興趣。是否有任何試驗(yàn)顯示過擬合?在試驗(yàn)中(我們對(duì)目標(biāo)超參數(shù)的不同設(shè)置選取最佳試驗(yàn)效果的試驗(yàn)[這實(shí)際上優(yōu)化了冗余超參數(shù)]),我·如果目標(biāo)超參數(shù)包括正則化參數(shù),這可能不適用,因?yàn)槿绻@些正則化參數(shù)的低強(qiáng)度設(shè)置導(dǎo)“隱藏層數(shù)”,當(dāng)使用最大隱藏層數(shù)的最佳試驗(yàn)表現(xiàn)出過擬合問題,“壞”值的方式選擇。如果是這樣,這可能會(huì)干擾我們比較目標(biāo)超參數(shù)的不同值的能力(因?yàn)槊總€(gè)試驗(yàn)都隨機(jī)地在”幸運(yùn)”研究中那樣在”幸運(yùn)”一步上結(jié)束。訓(xùn)練結(jié)束時(shí)試驗(yàn)是否仍能改進(jìn)?訓(xùn)練集和驗(yàn)證集的性能在最后的訓(xùn)練步驟之前很久就飽和了嗎?使用isolationisolation圖是基本超參數(shù)軸圖的特例。isolation圖上的每個(gè)點(diǎn)對(duì)應(yīng)著在優(yōu)化某些(或全部)冗余超參數(shù)上例如,2.2ImageNetResNet-50(學(xué)習(xí)率下產(chǎn)生最佳驗(yàn)證性能的權(quán)重衰減來源 line進(jìn)行比較。為了公平比較,Baseline的學(xué)習(xí)率也應(yīng)該同樣得到很好的調(diào)整。isolationQuasi-Random-Search(近似隨(GeoffreyHinton)的話,“每次設(shè)計(jì)新事物時(shí),您都會(huì)學(xué)到新事物?!眘huffles、dropout掩碼、數(shù)據(jù)增強(qiáng)操作的模式和并行運(yùn)算N次,以估計(jì)訓(xùn)練方差。因此,如果一個(gè)新的超參數(shù)點(diǎn)(或其他變化)Baseline更好的結(jié)果(Baseline的再訓(xùn)練方差Baseline為以后的比較。來源來源

2.7在這個(gè)時(shí)候,我們的優(yōu)先事項(xiàng)將從學(xué)習(xí)更多優(yōu)化經(jīng)驗(yàn)轉(zhuǎn)向產(chǎn)生一個(gè)最佳配置來啟動(dòng)或以其他方式使用。如果搜索空間包含大量發(fā)散點(diǎn)(獲得NaN訓(xùn)練損失或比平均值差很多標(biāo)準(zhǔn)差的訓(xùn)練誤差的點(diǎn)這只適用于未來不會(huì)有這種特定工作需求的情況(Kaggle競賽。來源來源第3章在這種情況下,如果我們能以某種方式延長訓(xùn)練時(shí)間或提高訓(xùn)練效率,我們應(yīng)該看到較低的訓(xùn)練損換句話說,加快訓(xùn)練速度就等于改善訓(xùn)練效果,而最佳訓(xùn)練時(shí)間總是我們?cè)敢獾却臅r(shí)間范圍在這種情況下,我們應(yīng)該期望能夠訓(xùn)練到非常低的訓(xùn)練誤差,訓(xùn)練時(shí)間更長可能會(huì)略微減少訓(xùn)練誤當(dāng)訓(xùn)練不受計(jì)算限制時(shí),慷慨的訓(xùn)練時(shí)間預(yù)算可以使調(diào)整更容易,特別是在調(diào)整學(xué)習(xí)率衰減計(jì)劃時(shí),不管一個(gè)給定的工作負(fù)載是否是計(jì)算約束,使用增加梯度方差(Batch)的方法通常會(huì)導(dǎo)致較慢的訓(xùn)練BatchSize不要在訓(xùn)練中調(diào)整max_train_steps以獲得更好的效果。我們只需要選擇一個(gè)值并將其用于所有試驗(yàn)。從steps,以優(yōu)化max_train_steps的數(shù)值。step25%中,我們可能可以在增加訓(xùn)練時(shí)間和重新(max_train_steps相關(guān))。下面我們將描述如何根據(jù)使用恒定學(xué)習(xí)率“完全擬合訓(xùn)練集所需的step數(shù),為max_train_steps選擇初“完美擬合訓(xùn)練集”。它只是一個(gè)非正式的limits0“完全擬合”訓(xùn)練集。 來源gradientnoise(UmutSimsekletal)增大時(shí),則max_train_steps可能如果訓(xùn)練過程以某種方式改進(jìn),可能會(huì)減少max_train_steps。使用學(xué)習(xí)率搜索算法來確定max_train_stepsmax_train_steps到這個(gè)值作為max_train_stepsd的起點(diǎn)Nmax_train_steps的初步猜測。通過運(yùn)行更多的短時(shí)間的實(shí)驗(yàn),我們可以更快地找到最佳的模型和優(yōu)化器超參數(shù),而不必浪費(fèi)大量(”productionlength”指模型在生產(chǎn)環(huán)境中運(yùn)行的時(shí)間,也就是預(yù)期的長時(shí)間訓(xùn)練)的實(shí)驗(yàn)來在最佳超參數(shù)點(diǎn)上獲得最終模型。這樣,我們就可以更有效地使用我們的資源來調(diào)整最有可能在生產(chǎn)環(huán)境中表現(xiàn)良好的模型。我們的訓(xùn)練時(shí)間越長,我們對(duì)模型的理解就會(huì)越深入,這樣我們就可以更好的了解模型的性能和限~10%productionlength時(shí),我們可能能夠回答很多問題,但是在這個(gè)時(shí)間限制下的 來源Roundi→Roundi+1的最大問題是如何調(diào)整學(xué)習(xí)率衰減計(jì)劃??赡苻D(zhuǎn)移模型架構(gòu)上的顯著勝利通常會(huì)轉(zhuǎn)移,但可能有很多例外??赡軙?huì)轉(zhuǎn)移優(yōu)化算法/優(yōu)化器超參數(shù)——我們認(rèn)為這將松散轉(zhuǎn)移。它明顯比上面的東西弱。數(shù)據(jù)增強(qiáng)方法不太可能轉(zhuǎn)移lr期。lr并像Chinchillamax_train_steps。我們已經(jīng)描述了如何從第一輪第二輪進(jìn)行轉(zhuǎn)換。如果我們不關(guān)心分析時(shí)間,并且計(jì)算效率是關(guān)鍵 來源來源來源來源第4章使用適當(dāng)?shù)男阅芊治龉ぞ邅碓\性能受限的輸入管道,例如,用于JAX的Perfetto或用于TensorFlow的Ten-sorFlowprofiler。數(shù)據(jù)未與訓(xùn)練進(jìn)程存放在同一位置,從而導(dǎo)致I/O延遲(通過網(wǎng)絡(luò)讀取訓(xùn)練數(shù)據(jù)時(shí)可能會(huì)發(fā)生這種情無意間的同步屏障干擾數(shù)據(jù)管道預(yù)讀取。例如,在CommonLoopUtils(link中同步設(shè)備和主機(jī)之間的tf.data.Dataset.prefetch之類的工具對(duì)輸入管道預(yù)讀取數(shù)據(jù)。盡可能早地在管道中刪除不必要的特征和元數(shù)據(jù)。100epoch10分鐘評(píng)估一次。定期評(píng)估-(或)離線評(píng)估中使用的數(shù)據(jù)的子根據(jù)問題的不同,離線評(píng)估可能會(huì)相當(dāng)復(fù)雜,并且計(jì)算成本很高。定期評(píng)估是最實(shí)際和最經(jīng)濟(jì)的選擇,但可能不能完全代表生產(chǎn)環(huán)境。來源batchsizebatchsize大小一樣大,因?yàn)樵谠u(píng)估有效/(當(dāng)使用打亂后的訓(xùn)練/確認(rèn)/測試分割時(shí))可以指出某些實(shí)現(xiàn)錯(cuò)誤,例如測batchsizebatch的情況。確保填充的數(shù)據(jù)被正確地加權(quán),以防在構(gòu)建采樣數(shù)據(jù)集時(shí),我們會(huì)考慮以下因素:樣本量確保定期作業(yè)使用的采樣數(shù)據(jù)集的性能與整個(gè)離線評(píng)估集的性能相似,確保采樣集與完整數(shù)據(jù)用于定期評(píng)估的數(shù)據(jù)集應(yīng)該足夠小,以便很容易生成整個(gè)模型的預(yù)測,但也應(yīng)該足夠大,以便(即不被大量標(biāo)簽噪聲影響)。它應(yīng)該足夠大,以適應(yīng)順序試驗(yàn)中的多個(gè)這樣的評(píng)估,并仍然產(chǎn)生準(zhǔn)確的估計(jì)。也就是說,避對(duì)于每個(gè)類別只有少量樣本的數(shù)據(jù)集,記錄正確預(yù)測樣本的數(shù)量,可以更深入地了解準(zhǔn)確性改(.05靈敏度改進(jìn)聽起來很令人興奮,但它只是因?yàn)楦嗟臉颖颈徽_預(yù)測了嗎?)最佳檢查點(diǎn)并不一定是最后一個(gè)檢查點(diǎn),尤其是當(dāng)驗(yàn)證集性能不會(huì)隨時(shí)間持續(xù)增加而是圍繞特定值波動(dòng)回顧性最佳檢查點(diǎn)選擇。來源來源

我們發(fā)現(xiàn),在電子表格中跟蹤實(shí)驗(yàn)結(jié)果有助于我們解決各種建模問題。它通常有以下列:實(shí)驗(yàn)名稱實(shí)驗(yàn)配置存儲(chǔ)位置的鏈接實(shí)驗(yàn)的注釋或簡短描述運(yùn)行次數(shù)最佳模型在驗(yàn)證集上的表現(xiàn)BatchNormBatchnorm使用當(dāng)前批次的均值和方差對(duì)激活值進(jìn)行歸一化,但在多設(shè)備設(shè)置中,除非明確同步處理,否據(jù)說(主要在ImageNet上)64個(gè)樣本計(jì)算這些歸一化統(tǒng)計(jì)數(shù)據(jù)在實(shí)際應(yīng)用中效果更好(請(qǐng)參閱GhostBatchNorm。Ghostbatchnorm>虛擬批次大小的情況。在這種情況下,我(EMA)EMA只需要在將EMA,并只保存第一個(gè)設(shè)備EMA。(用于模型初始化)(用于數(shù)據(jù)混洗和預(yù)處理)是非常重要的,因此請(qǐng)確保合適地標(biāo)記它們來源來源第5章LR衰減方案是什么。雖然我們不知道最好的方案是什么,但我們相信嘗試一些(非恒定的)方案很重要并且調(diào)整它很重要。LR衰減方案(或更小的恒定學(xué)習(xí)率)恢復(fù)它。重復(fù)此過程,直到會(huì)議/發(fā)布截止日期。最好復(fù)制生成衰減方案的算法,盡管在人為判斷生成的衰減方案時(shí)這幾乎不可能。Adam正如之前討論的那樣對(duì)搜索空間以及應(yīng)該從搜索空間中采樣數(shù)量做出概括性陳述是非常困難的。請(qǐng)注意,Adam“預(yù)算”。1025β1進(jìn)行調(diào)整。25次以上,那么需要對(duì)學(xué)習(xí)率、β1?進(jìn)行調(diào)整。25β2。為什么在優(yōu)化的探索階段使用Quasi-Random-Search而不是更復(fù)雜的黑 來源Quasi-Random-Search“抖動(dòng)的、打亂的網(wǎng)格搜索”,因?yàn)樗y(tǒng)例如,我們通常希望根據(jù)任何訓(xùn)練點(diǎn)上達(dá)到的驗(yàn)證誤差來找到最佳試驗(yàn)。但是Quasi-Random-Searh的非自適應(yīng)性質(zhì)使得我們可以基于最終驗(yàn)證誤差、訓(xùn)練誤差或某些替代評(píng)估指標(biāo)來找到(而不是使用驗(yàn)證誤差,而是使用訓(xùn)練誤差(可能你在解決某種模型需求)。由于你使用的是非自適應(yīng)隨機(jī)搜索,因此你可以在不重新運(yùn)行實(shí)驗(yàn)的情況下,使用已經(jīng)運(yùn)行的實(shí)驗(yàn)中的數(shù)據(jù)來評(píng)估每一組超參數(shù)的訓(xùn)練誤差。這樣你就可以找到最優(yōu)的超參數(shù)組合,并可以使用訓(xùn)練誤差作為評(píng)估指標(biāo)。這樣的好處在于,你可以在不重新運(yùn)行實(shí)驗(yàn)的情況下,使用不同的評(píng)估指標(biāo)來評(píng)估這些結(jié)果,從而找到最優(yōu)的實(shí)驗(yàn)。相比之下,如果我們使用自適應(yīng)隨機(jī)搜索來調(diào)參,我們會(huì)根據(jù)之前實(shí)驗(yàn)的結(jié)果來動(dòng)態(tài)調(diào)整采樣策略這導(dǎo)致我們不能隨意的更換目標(biāo),因?yàn)椴蓸涌臻g已經(jīng)變化)即使在搜索算法實(shí)現(xiàn)發(fā)生變化的情況下,只要它保持相同的均勻性,就應(yīng)該可以重現(xiàn)六個(gè)月前Quasi-Random-Searh(但不是萬無一失的這一節(jié)(這種誤差會(huì)造成優(yōu)化效果變差)。如果沒有貝葉斯優(yōu)化和其他高級(jí)黑盒優(yōu)化方法方面的專業(yè)知識(shí),我們可能無法獲得它們理論上2倍預(yù)算的隨機(jī)搜索在哪里可以找到Quasi-Random-Search我們可以使用這個(gè)實(shí)現(xiàn)(旨在按照/abs/1706.03200建議來實(shí)現(xiàn)移位的、加擾的Halton序列。Quasi-Random-Search算法不可用,則可以換成偽隨機(jī)均勻搜索,雖然這可能效率2012需要多少次試驗(yàn)才能通過Quasi-Random-Search5.1:ResNet-50ImageNet100次試驗(yàn)調(diào)整。通過自舉,模擬了不同數(shù)量的調(diào)整預(yù)算。上面繪制了這個(gè)問題沒有辦法籠統(tǒng)地回答,但是我們可以看具體的例子。0.1%的驗(yàn)證誤差的概率23%。5.85.8來源5.2:WideResnet(2x21x1)中的步幅會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。這不會(huì)降低在低學(xué)習(xí)率下的0.1的最大學(xué)習(xí)率進(jìn)行穩(wěn)定訓(xùn)練。(說明我們最佳的學(xué)習(xí)率比較臨界)。L2范數(shù)異常值非常大,這可能表明模型參數(shù)在某一時(shí)刻發(fā)生了非常大的變化,導(dǎo)為了檢查出這一問題,我們可以使用lr=2*currentbest500次訓(xùn)練的計(jì)劃,但每嘗試使用新的優(yōu)化器AdamMomentum無法處理的不穩(wěn)定影響。這也是該領(lǐng)域的一個(gè)活躍研究領(lǐng)域。確保使用最佳實(shí)踐/初始化:歸一化應(yīng)該是殘差之前的最后一個(gè)操作。例如,x+Norm(f(x))。f(x)歸一化有助于降低不穩(wěn)定性)0(例如,ReZeroinit所示)xi+1=xi+αiF(xi).5.5展示的是一個(gè)超參數(shù)軸圖,該圖表明模型正在經(jīng)歷訓(xùn)練不穩(wěn)定,因?yàn)樽罴褜W(xué)習(xí)率恰好位于可行的邊5.5:表現(xiàn)出訓(xùn)練不穩(wěn)定性的模型的超參數(shù)軸圖示例。最佳學(xué)習(xí)率處于可行的邊緣?!安豢尚性囼?yàn)被定義為產(chǎn)NaN或異常高的損失值的試驗(yàn)。5.6:unstable_base_learning_rate。0提升到某個(gè)穩(wěn)定的base_learning_rate,這至少比unstable_base_learning_rate默認(rèn)設(shè)置是嘗試使用unstable_base_learning_rate10倍大小的base_learning_rate對(duì)于使用例如100倍unstable_base_learning_rate這樣的數(shù)值,那么可能需要重新運(yùn)行整個(gè)過程。具體安排如下:在warmup_steps0base_learning_rate。我們的目標(biāo)是找到最少的warmup_steps,以此來讓我們獲得遠(yuǎn)高于unstable_base_learning_rate的base_learning_ratewarmup_steps以及post_warmup_steps進(jìn)行post_warmup_steps設(shè)定為warmup_steps的兩倍就可以了。warmup_steps[10,103,104,105]這樣的數(shù)量級(jí)進(jìn)行嘗試。最大的搜索值不應(yīng)超過max_train_steps10%。base_learning_rate進(jìn)行訓(xùn)練的warmup_stepsBaseline模進(jìn)行比較。例如,如果我們一開始的max_train_stepswarmup_step(max_train_steps的5%max_train_steps4Transformer類。: 來源“典型的梯度范數(shù)。下面是一個(gè)關(guān)于如何進(jìn)行梯度截?cái)嗟陌咐簗g|λ,g′=λ×gg′在訓(xùn)練期間記錄下未截?cái)嗵荻确稊?shù)。默認(rèn)情況下會(huì)生成:梯度范數(shù)與步驟數(shù)量的關(guān)系圖90%是一個(gè)很好的選擇。但如果這個(gè)奏效,那么可以對(duì)其進(jìn)行調(diào)參數(shù)。“超參數(shù)”的參數(shù)都是對(duì)術(shù)語的一種濫用?!霸獏?shù)這個(gè)術(shù)語來表示學(xué)習(xí)率、架構(gòu)參數(shù)以及我們?cè)谏疃葘W(xué)習(xí)中調(diào)整的所有其他參數(shù),因?yàn)樗?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論