機(jī)器模式識(shí)別 7_第1頁(yè)
機(jī)器模式識(shí)別 7_第2頁(yè)
機(jī)器模式識(shí)別 7_第3頁(yè)
機(jī)器模式識(shí)別 7_第4頁(yè)
機(jī)器模式識(shí)別 7_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)與模式識(shí)別第七章模型從評(píng)估與優(yōu)化第七章模型評(píng)估與優(yōu)化

7.1交叉驗(yàn)證

7.2模型選擇

7.3參數(shù)調(diào)優(yōu)27.1交叉驗(yàn)證-數(shù)據(jù)集劃分

3訓(xùn)練集:擬合模型、學(xué)習(xí)數(shù)據(jù)特征、計(jì)算模型梯度、更新權(quán)重驗(yàn)證集:訓(xùn)練過(guò)程中評(píng)估模型性能測(cè)試集:完全不參與訓(xùn)練的數(shù)據(jù)。訓(xùn)練后評(píng)估模型泛化能力,即模型在從未見(jiàn)過(guò)的數(shù)據(jù)上的表現(xiàn)。7.1交叉驗(yàn)證-數(shù)據(jù)集劃分

4fromsklearn.model_selectionimporttrain_test_splitx_train_temp,x_test,y_train_temp,y_test=train_test_split(x,y,test_size=0.2,random_state=42)x_train,x_val,y_train,y_val=train_test_split(x_train_temp,y_train_temp,test_size=0.25,random_state=42)可使用python第三方庫(kù)sklearn快速實(shí)現(xiàn):將數(shù)據(jù)集劃分為訓(xùn)練集(80%)和測(cè)試集(20%)將訓(xùn)練集聯(lián)合體進(jìn)一步劃分為訓(xùn)練集和驗(yàn)證集x_train/y_train用于訓(xùn)練,x_val/y_val用于驗(yàn)證,x_test/y_test用于測(cè)試7.1交叉驗(yàn)證-模型擬合與驗(yàn)證5過(guò)擬合:模型在訓(xùn)練集上表現(xiàn)過(guò)于出色,過(guò)度學(xué)習(xí)了訓(xùn)練集中的細(xì)節(jié),包括噪聲和異常點(diǎn)等,而在測(cè)試集或驗(yàn)證集上的性能表現(xiàn)較差欠擬合:模型未能充分學(xué)習(xí)訓(xùn)練集中的關(guān)鍵結(jié)構(gòu)和規(guī)律,導(dǎo)致在訓(xùn)練集、測(cè)試集和驗(yàn)證集上的表現(xiàn)都比較差只有訓(xùn)練集、測(cè)試集和驗(yàn)證集上模型的正確率都比較高時(shí)才算成功地訓(xùn)練出了一個(gè)性能較為優(yōu)秀的機(jī)器學(xué)習(xí)模型7.1交叉驗(yàn)證的原理-常見(jiàn)交叉驗(yàn)證6將數(shù)據(jù)集劃分為幾“折”,重復(fù)地使用這些子集來(lái)訓(xùn)練和驗(yàn)證模型每次訓(xùn)練選擇一部分子集作為訓(xùn)練集,另一部分子集作為驗(yàn)證集。通過(guò)多次迭代訓(xùn)練,

每個(gè)子集都有機(jī)會(huì)作為驗(yàn)證集,從而更全面地評(píng)估模型在不同數(shù)據(jù)上的表現(xiàn)7.1簡(jiǎn)單交叉驗(yàn)證(Hold-Out)7也稱(chēng)為留出法將原始數(shù)據(jù)集進(jìn)行一次切分,隨機(jī)按比例劃分成訓(xùn)練集和驗(yàn)證集兩部分常見(jiàn)的數(shù)據(jù)集劃分比例為7∶3交叉驗(yàn)證的雛形7.1簡(jiǎn)單交叉驗(yàn)證8fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLogisticRegressiondata_set=load_iris()x=data_set.datay=data_set.targetlogre=LogisticRegression()x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=42)logre.fit(x_train,y_train)predict=logre.predict(x_test)導(dǎo)入鳶尾花數(shù)據(jù)和邏輯回歸模型簡(jiǎn)單交叉驗(yàn)證劃分?jǐn)?shù)據(jù),70%用作訓(xùn)練集,訓(xùn)練一次不需要?jiǎng)澐衷u(píng)估集模型擬合及預(yù)測(cè)7.1交叉驗(yàn)證的原理-分層采樣9數(shù)據(jù)集劃分要注意保持?jǐn)?shù)據(jù)分布的一致性如果訓(xùn)練集和驗(yàn)證集中的樣本類(lèi)別比例差異過(guò)大,那么評(píng)估結(jié)果可能會(huì)因?yàn)橛?xùn)練、驗(yàn)證數(shù)據(jù)分布的不一致而產(chǎn)生很大的偏差,可以使用分層采樣的方法來(lái)處理類(lèi)似的問(wèn)題7.1K折交叉驗(yàn)證10將數(shù)據(jù)集隨機(jī)劃分K份,每次隨機(jī)選擇K-1份作為訓(xùn)練集,剩下1份作為驗(yàn)證集平均K次的結(jié)果作為最后泛化誤差的估計(jì),模型最終精度由預(yù)留出的測(cè)試集計(jì)算得出最常用的是5折和10折交叉驗(yàn)證。7.1K折交叉驗(yàn)證fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimportcross_val_score,KFoldfromsklearn.linear_modelimportLogisticRegressiondata_set=load_iris()x=data_set.datay=data_set.targetlogre=LogisticRegression()kf=KFold(n_splits=5)score=cross_val_score(logre,x,y,cv=kf)11導(dǎo)入鳶尾花數(shù)據(jù)集和邏輯回歸算法實(shí)現(xiàn)5折交叉驗(yàn)證并評(píng)估7.1留一交叉驗(yàn)證(Leave-one-out)12保留單個(gè)樣本作為驗(yàn)證集,剩余n-1個(gè)樣本作為訓(xùn)練集不斷重復(fù),直到數(shù)據(jù)集的每個(gè)樣本都被作為驗(yàn)證集所使用適用于樣本數(shù)量n小于50時(shí)7.1留一交叉驗(yàn)證fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimportcross_val_score,LeaveOneOutfromsklearn.ensembleimportRandomForestClassifierdata_set=load_iris()data_set=iris.datadata_set=iris.targetloo=LeaveOneOut()tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)score=cross_val_score(tree,x,y,cv=loo)13導(dǎo)入鳶尾花數(shù)據(jù)集隨機(jī)森林分類(lèi)器實(shí)現(xiàn)留一交叉驗(yàn)證并評(píng)估7.1時(shí)間序列交叉驗(yàn)證14處理時(shí)間序列數(shù)據(jù),存在時(shí)間相關(guān)性前K個(gè)時(shí)間段數(shù)據(jù)作為訓(xùn)練集,緊接著第(K+1)個(gè)時(shí)間段數(shù)據(jù)作為測(cè)試集隨著K值的增加,訓(xùn)練集會(huì)逐漸擴(kuò)大并包含之前所有時(shí)間段的數(shù)據(jù)7.1時(shí)間序列交叉驗(yàn)證importnumpyasnpfromsklearn.model_selectionimportTimeSeriesSplit

x=np.array([[1,2],[3,4],[1,2],[3,4],[1,2],[3,4]])y=np.array([1,2,3,4,5,6])tscv=TimeSeriesSplit(n_splits=3)TimeSeriesSplit(max_train_size=none,n_splits=3)15導(dǎo)入時(shí)間序列模型實(shí)現(xiàn)時(shí)間序列交叉驗(yàn)證7.2模型選擇-算法選擇策略16觀察數(shù)據(jù)集的大小和性質(zhì)分清問(wèn)題類(lèi)型,加入候選模型權(quán)衡模型可解釋性和準(zhǔn)確性7.2模型選擇-模型評(píng)估指標(biāo)17分類(lèi)模型常用混淆矩陣,包括模型預(yù)測(cè)值與真實(shí)值的差別列代表模型預(yù)測(cè)類(lèi)別,行代表樣本真實(shí)類(lèi)別簡(jiǎn)單二分類(lèi)可以歸納為以下四種類(lèi)型7.2模型選擇-模型評(píng)估指標(biāo)18真陽(yáng)率(TruePositiveRate,TPR):預(yù)測(cè)為陽(yáng)性的陽(yáng)性樣本數(shù)和陽(yáng)性樣本實(shí)際數(shù)的比值真陰率(TrueNegativeRate,TNR):預(yù)測(cè)為陰性的陰性樣本數(shù)和陰性樣本實(shí)際數(shù)的比值假陽(yáng)率(FalsePositiveRate,FPR):預(yù)測(cè)為陽(yáng)性的陰性樣本數(shù)和陰性樣本實(shí)際數(shù)的比值假陰率(FalseNegativeRate,FNR):預(yù)測(cè)為陰性的陽(yáng)性樣本數(shù)和陽(yáng)性樣本實(shí)際數(shù)的比值

7.2模型選擇-模型評(píng)估指標(biāo)19準(zhǔn)確率(Accuracy):正確預(yù)測(cè)的實(shí)例數(shù)與數(shù)據(jù)集中總實(shí)例數(shù)量比值精確率(Precision):正確預(yù)測(cè)的陽(yáng)性樣本占所有預(yù)測(cè)為陽(yáng)性樣本的比例,在不均衡數(shù)據(jù)上表現(xiàn)更好召回率(Recall):樣本中被正確預(yù)測(cè)的樣本比例

7.2模型選擇-模型評(píng)估指標(biāo)20調(diào)和平均值:β調(diào)整精確率和召回率的權(quán)重,β越大,召回率的權(quán)重越大;反之精確率權(quán)重越大F1分?jǐn)?shù)(F1score):當(dāng)β=1時(shí)稱(chēng)為F1分?jǐn)?shù),是精確率和召回率的調(diào)和平均數(shù),兩者權(quán)重相同F(xiàn)1score的值是從0到1的,1是最好,0是最差

7.2模型選擇-模型評(píng)估指標(biāo)21ROC曲線:以真陽(yáng)率(TPR)、假陽(yáng)率(FPR)兩個(gè)指標(biāo)分別為縱橫坐標(biāo)繪制的圖形,虛線為基準(zhǔn)線,曲線是ROC曲線應(yīng)盡可能靠近圖形的左上角AUC值:ROC曲線下方部分面積大小,AUC值大于0.75比較合理。7.2模型選擇-模型評(píng)估指標(biāo)22回歸模型評(píng)估指標(biāo):均方誤差(MeanSquaredError,MSE):真實(shí)值與預(yù)測(cè)值之差,平方之后求和平均均方根誤差(RootMeanSquareError,RMSE):均方誤差算術(shù)平方根,與數(shù)據(jù)量級(jí)是一個(gè)級(jí)別,更容易去感知數(shù)據(jù)

7.2模型選擇-模型評(píng)估指標(biāo)23平均絕對(duì)誤差(MeanAbsoluteError,MAE):預(yù)測(cè)值與真實(shí)值偏差的絕對(duì)值的平均決定系數(shù)(R^2):在統(tǒng)計(jì)學(xué)中通常使用決定系數(shù)對(duì)回歸模型進(jìn)行評(píng)價(jià)。用y_i表示真實(shí)觀測(cè)值,y?表示真實(shí)觀測(cè)值的平均值,使用y?_i表示預(yù)測(cè)值,可以得到SSR、SSE和SST

7.2模型選擇-模型評(píng)估指標(biāo)24SSR(回歸平方和):預(yù)測(cè)值與平均值的誤差,反映自變量與因變量相關(guān)程度的偏差平方和SSE(殘差平方和):預(yù)測(cè)值與真實(shí)值的誤差,反映模型擬合程度SST

(總平方和):總體數(shù)據(jù)的離散程度

7.2模型選擇-模型評(píng)估指標(biāo)25聚類(lèi)模型評(píng)估指標(biāo):分為內(nèi)部指標(biāo)和外部指標(biāo)兩類(lèi)DB指數(shù):簇內(nèi)距離與簇間距離之比,值越小則類(lèi)間相似度越低,效果越好k是聚類(lèi)數(shù)量,Wi、Wj為類(lèi)Ci中所有樣本到其聚類(lèi)中心和到類(lèi)Cj中心的平均距離,Cij為類(lèi)Ci和Cj中心之間的距離。

7.2模型選擇-模型評(píng)估指標(biāo)26輪廓系數(shù):結(jié)合內(nèi)聚度和分離度,同類(lèi)距離越近,不同類(lèi)距離越遠(yuǎn),分?jǐn)?shù)越高。S_i接近1,樣本聚類(lèi)合理S_i接近-1,樣本聚類(lèi)不合理更應(yīng)該分類(lèi)到其他類(lèi)中S_i接近0,樣本在兩個(gè)類(lèi)的邊界上

7.2模型選擇-模型評(píng)估指標(biāo)27純度(Purity):正確聚類(lèi)樣本數(shù)占總樣本數(shù)的比例蘭德指數(shù)(RandIndex,RI):使用混淆矩陣的方式實(shí)現(xiàn)

7.3參數(shù)調(diào)優(yōu)28超參數(shù)(Hyperparameter):需要基于經(jīng)驗(yàn)、實(shí)驗(yàn)或?qū)<抑R(shí)在模型訓(xùn)練前人為設(shè)定的參數(shù),不具備通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)的能力,“調(diào)參”實(shí)際上指的是調(diào)整超參數(shù)模型參數(shù)(Parameter):模型內(nèi)部通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的變量,如線性回歸中的斜率和截距。7.3參數(shù)調(diào)優(yōu)29超參數(shù)優(yōu)化需要:具有目標(biāo)函數(shù)的模型(回歸或分類(lèi)等)搜索空間用于查找超參數(shù)組合的搜索或優(yōu)化方法用于比較不同超參數(shù)配置的性能評(píng)估函數(shù)可直接調(diào)用常見(jiàn)的超參數(shù)優(yōu)化庫(kù),如scikit-Optimize、Hyperopt、Optuna、KerasTuner等7.3參數(shù)調(diào)優(yōu)-網(wǎng)格搜索30網(wǎng)格搜索:使用窮舉法遍歷超參數(shù)的所有可能組合。以選擇支持向量機(jī)(SVM)模型的最佳超參數(shù)為例,步驟如下:1.確定超參數(shù)和候選值:SVM需要兩個(gè)超參數(shù):C(正則化參數(shù))候選值:[0.1,1,10];kernel(核函數(shù))候選值:['linear','rbf’]。2.生成超參數(shù)組合網(wǎng)格:候選值進(jìn)行笛卡爾積運(yùn)算如:(C=0.1,kernel='linear')。7.3參數(shù)調(diào)優(yōu)-網(wǎng)格搜索313.模型訓(xùn)練、評(píng)估:對(duì)每個(gè)超參數(shù)組合,使用交叉驗(yàn)證方法評(píng)估模型泛化能力,然后記錄評(píng)分,

重復(fù)直到遍歷所有參數(shù)組合。4.選擇最優(yōu)超參數(shù):根據(jù)性能評(píng)估結(jié)果,選擇性能最佳的超參數(shù)組合,構(gòu)建最終的SVM模型缺點(diǎn)是計(jì)算量較大,搜索效率低下7.3參數(shù)調(diào)優(yōu)-隨機(jī)搜索32隨機(jī)搜索優(yōu)化法:在定義的區(qū)間內(nèi)隨機(jī)選擇預(yù)定義數(shù)量的樣本作為候選超參數(shù)值。然后訓(xùn)練這些候選值,直到定義的預(yù)算(如時(shí)間、迭代次數(shù)等)耗盡。7.3參數(shù)調(diào)優(yōu)-貝葉斯優(yōu)化33貝葉斯優(yōu)化-貝葉斯概率:對(duì)不確定性的量化評(píng)估,根據(jù)新證據(jù)更新先驗(yàn)概率(之前的判斷),從而得到后驗(yàn)概率(更新后的判斷)先驗(yàn)概率分布P(w)表示對(duì)參數(shù)(或事件)w的假設(shè)。觀測(cè)數(shù)據(jù)集D={t1,…,tN}。獲得觀測(cè)數(shù)據(jù)集D后,用后驗(yàn)概率P(D|w)(似然函數(shù))評(píng)估參數(shù)w的不確定性

7.3參數(shù)調(diào)優(yōu)-貝葉斯優(yōu)化34貝葉斯優(yōu)化包含:概率代理模型(probabilisticsurrogatemodel):模擬未知目標(biāo)函數(shù)的工具,常見(jiàn)方法是利用已有觀測(cè)數(shù)據(jù)訓(xùn)練一個(gè)高斯過(guò)程回歸模型,用以擬合優(yōu)化目標(biāo)函數(shù)。采集函數(shù)(AcquisitionFunction):基于后驗(yàn)概率分布F(x)|F(x1:n)=f(x1:n)構(gòu)建的,用于指導(dǎo)選擇下一個(gè)相對(duì)最優(yōu)的評(píng)估點(diǎn),常見(jiàn)的是提升概率(ProbabilityOfImprovement,POI)策略,保證選擇的評(píng)估點(diǎn)序列使得總損失最小7.3參數(shù)調(diào)優(yōu)-貝葉斯優(yōu)化35概率代理模型-高斯過(guò)程:由均值函數(shù)μ和協(xié)方差函數(shù)σ2(又稱(chēng)核函數(shù))確定的函數(shù)F(x),其預(yù)測(cè)遵循正態(tài)分布D是超參數(shù)配置空間,y=F(x)是每個(gè)超參數(shù)值x的評(píng)估結(jié)果。

7.3參數(shù)調(diào)優(yōu)-建立高斯過(guò)程回歸

361.定義高斯過(guò)程F(x)的先驗(yàn)分布,即指定均值函數(shù)和協(xié)方差函數(shù)2.選擇n個(gè)采樣點(diǎn)x_1,…,x_n(記為x_(1:n)),得到目標(biāo)函數(shù)的觀測(cè)值f(x_1),…,f(x_n)記為f(x_(1:n)),同樣也是高斯過(guò)程里對(duì)應(yīng)的觀測(cè)值記為F(x_(1:n))3.根據(jù)觀測(cè)值調(diào)整均值函數(shù)和協(xié)方差函數(shù)里的參數(shù),確定最終高斯過(guò)程,完成對(duì)函數(shù)f(x)的擬合7.3參數(shù)調(diào)優(yōu)-建立高斯過(guò)程回歸

37用最大后驗(yàn)估計(jì)方法實(shí)現(xiàn)訓(xùn)練高斯過(guò)程回歸模型里的參數(shù)(均值函數(shù)和核函數(shù)里的參數(shù)),選擇在已知觀測(cè)值下最可能的參數(shù)值η為參數(shù)集合,P[η|F(x1:n)=f(x1:n)]為在得到所有觀測(cè)值的情況下,參數(shù)的概率分布,只需最大化分子對(duì)任意給定的x都可計(jì)算出其預(yù)測(cè)值如圖:

7.3參數(shù)調(diào)優(yōu)-貝葉斯優(yōu)化387.3參數(shù)調(diào)優(yōu)-采集函數(shù)39采集函數(shù):基于后驗(yàn)概率分布,輸入每個(gè)采樣點(diǎn)x并進(jìn)行打分,分?jǐn)?shù)越高越值得被采樣,更新代理模型的后驗(yàn)分布基于提升的策略(POI):偏好于當(dāng)前最優(yōu)目標(biāo)函數(shù)值有所提升(提升指比當(dāng)前目標(biāo)函數(shù)值小)的位置作為評(píng)估點(diǎn)量化了x的觀測(cè)值可能提升當(dāng)前最優(yōu)目標(biāo)函數(shù)值的概率。ν*為當(dāng)前最優(yōu)函數(shù)值,?(·)為標(biāo)準(zhǔn)正態(tài)分布累積密度函數(shù),ξ為平衡參數(shù)

7.3參數(shù)調(diào)優(yōu)40POI策略把所有提升看成是等量的,只反映了提升的概率而沒(méi)有反映提升量的大小莫庫(kù)斯等人提出一種新的基于提升的策略:EI(expectedimprovement)?(·)為標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)。包含POI公式,既整合了提升概率又體現(xiàn)了不同的提升量。

7.3參數(shù)調(diào)優(yōu)-初始化41參數(shù)的初始化方法有:固定初始化隨機(jī)初始化

固定方差初始化 Xavier初始化 He初始化固定初始化:針對(duì)一些特殊的參數(shù)如偏置(Bias),根據(jù)經(jīng)驗(yàn)選擇將偏置或其他參數(shù)初始化為一個(gè)固定的常數(shù)如果所有單元(例如神經(jīng)元)的初始狀態(tài)完全相同,這可能會(huì)導(dǎo)致模型在訓(xùn)練開(kāi)始時(shí)表現(xiàn)出對(duì)稱(chēng)性,從而影響其學(xué)習(xí)不同特征的能力7.3參數(shù)調(diào)優(yōu)-初始化42高斯分布初始化:用高斯分布N(0,σ2)對(duì)每個(gè)參數(shù)進(jìn)行隨機(jī)初始化,均值為0,方差為σ2設(shè)置r=3σ2時(shí),可均勻分布在區(qū)間[-r,r]內(nèi)采樣,并且這個(gè)分布的方差大致等于某個(gè)給定的σ2

7.3參數(shù)調(diào)優(yōu)-初始化43Xavier初始化:將權(quán)重初始化為一個(gè)高斯分布或者均勻分布的隨機(jī)數(shù)He初始化(Kaiming初始化):針對(duì)ReLU及其變種(如Leaky-ReLU、P-ReLU等)激活函數(shù),在輸入小于0時(shí)輸出為0,導(dǎo)致神經(jīng)元在訓(xùn)練過(guò)程中可能出現(xiàn)“死亡”的情況設(shè)計(jì)的權(quán)重初始化方法若使用高斯分布則其理想方差σ2=2Ml-1,其中Ml-1是上一層神經(jīng)元的數(shù)量;若采用區(qū)間為[-r,r]的均勻分布則r=6Ml-1。7.3參數(shù)調(diào)優(yōu)-批次大小與學(xué)習(xí)率44批次大?。好看蔚挥?jì)算一小部分(一個(gè)批次)訓(xùn)練樣本上的梯度來(lái)更新模型參數(shù)。影響小批量梯度下降法的主要因素有:批量大小、學(xué)習(xí)率和梯度估計(jì)。

學(xué)習(xí)率:與批量大小通常是正相關(guān)。通常用“迭代”(Iteration)“合”(Epoch)來(lái)描述訓(xùn)練的進(jìn)度。每一個(gè)小批量更新算是一次迭代,而整個(gè)訓(xùn)練集的所有樣本都被使用一次則稱(chēng)為一個(gè)回合。關(guān)系可以表示為:7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整45學(xué)習(xí)率調(diào)整:隨機(jī)梯度下降(StochasticGradientDescent,SGD):每次迭代隨機(jī)選擇一個(gè)樣本來(lái)計(jì)算損失函數(shù)關(guān)于模型參數(shù)的梯度,并據(jù)此來(lái)更新模型參數(shù),計(jì)算公式與梯度下降算法相同α是學(xué)習(xí)率,gt是梯度方向,Δθt是損失函的優(yōu)化量,包含優(yōu)化迭代方向和步長(zhǎng),優(yōu)化變量的更新公式為:

7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整46AdaGrad算法:梯度下降法變體,為每個(gè)模型參數(shù)動(dòng)態(tài)地調(diào)整學(xué)習(xí)率。對(duì)于更新頻繁(梯度較大)的參數(shù),給予較小的學(xué)習(xí)率;對(duì)于更新不頻繁(梯度較小)的參數(shù),給予較大的學(xué)習(xí)率。整體學(xué)習(xí)率是逐漸縮小1.累積梯度平方的累積值nt:nt=nt-1+g2t,其中g(shù)t是當(dāng)前梯度方向。2.更新模型參數(shù)θt:Δθt=α×gt,α是學(xué)習(xí)率,ε是一個(gè)很小的正數(shù),用于避免nt+ε除以零錯(cuò)誤,并確保數(shù)值穩(wěn)定性。7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整47RMSProp:AdaGrad的一個(gè)擴(kuò)展,解決AdaGrad訓(xùn)練后期學(xué)習(xí)率變得非常小(梯度平方和累積過(guò)大)的問(wèn)題。引入超參數(shù)γ控制梯度平方的累積衰減速度

7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整48動(dòng)量法:引入動(dòng)量因子加速優(yōu)化訓(xùn)練過(guò)程,減少在收斂值附近的振蕩,利用之前積累的動(dòng)量來(lái)替代當(dāng)前時(shí)刻的梯度在第t次迭代時(shí),參數(shù)更新方向是基于之前所有梯度的一個(gè)“加權(quán)移動(dòng)平均”來(lái)計(jì)算的ρ是動(dòng)量因子,通常設(shè)置為接近1的值,如0.9;α是學(xué)習(xí)率;gt是當(dāng)前時(shí)刻的梯度

7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整49Adam算法:結(jié)合動(dòng)量法和RMSProp算法優(yōu)點(diǎn),能自適應(yīng)地調(diào)整學(xué)習(xí)率,并使用動(dòng)量作為參數(shù)更新方向1.計(jì)算梯度的一階矩估計(jì)(類(lèi)似于動(dòng)量法中的動(dòng)量項(xiàng))其中mt是梯度的一階矩估計(jì)(帶有動(dòng)量的梯度),β1是一階矩估計(jì)的指數(shù)衰減率(通常接近1,如0.9),gt是當(dāng)前時(shí)刻的梯度。

7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整502.計(jì)算梯度的二階矩估計(jì)(類(lèi)似于RMSProp中的梯度平方累積)其中nt是梯度的二階矩估計(jì)(梯度平方的累積),β2是二階矩估計(jì)的指數(shù)衰減率(通常接近1但小于β1),g2t是當(dāng)前時(shí)刻梯度的平方。

7.3參數(shù)調(diào)優(yōu)-學(xué)習(xí)率調(diào)整513.對(duì)一階矩估計(jì)和二階矩估計(jì)進(jìn)行偏差修正,以補(bǔ)償初始

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論