【《基于EfficientNet的垃圾分類(lèi)算法分析案例》7500字】_第1頁(yè)
【《基于EfficientNet的垃圾分類(lèi)算法分析案例》7500字】_第2頁(yè)
【《基于EfficientNet的垃圾分類(lèi)算法分析案例》7500字】_第3頁(yè)
【《基于EfficientNet的垃圾分類(lèi)算法分析案例》7500字】_第4頁(yè)
【《基于EfficientNet的垃圾分類(lèi)算法分析案例》7500字】_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于EfficientNet的垃圾分類(lèi)算法分析案例目錄TOC\o"1-3"\h\u9351基于EfficientNet的垃圾分類(lèi)算法分析案例 120231.1EfficientNet神經(jīng)網(wǎng)絡(luò)模型分析 1284931.2EfficientNet網(wǎng)絡(luò)模型的改進(jìn)與優(yōu)化 833181.2.1網(wǎng)絡(luò)模型結(jié)構(gòu)的改進(jìn) 8243481.2.2網(wǎng)絡(luò)模型的其他優(yōu)化 121.1EfficientNet神經(jīng)網(wǎng)絡(luò)模型分析EfficientNet網(wǎng)絡(luò)是現(xiàn)在比較高效的網(wǎng)絡(luò)之一,它針對(duì)現(xiàn)在模型的縮放提出了一種新的策略,這種策略相較于其他方法要高效準(zhǔn)確。在之前的神經(jīng)網(wǎng)絡(luò)擴(kuò)展研究中,研究者通常在原有網(wǎng)絡(luò)上進(jìn)行部分結(jié)構(gòu)的重復(fù),將網(wǎng)絡(luò)中的某一部分在深度、寬度或者圖像的分辨率三個(gè)維度進(jìn)行調(diào)節(jié),例如ResNet就將自身網(wǎng)絡(luò)的層數(shù)進(jìn)行不同數(shù)量的增加,比如18層和101層,形成不同版本的網(wǎng)絡(luò),來(lái)適應(yīng)不同的需求,同時(shí)取得了更好的識(shí)別效果,提高了準(zhǔn)確度。又比如Gpipe在原有基線網(wǎng)絡(luò)的基礎(chǔ)上,進(jìn)行了四倍的擴(kuò)展,取得了不錯(cuò)的成效,在ImageNet上的識(shí)別準(zhǔn)確率達(dá)到了84.3%[42]。不過(guò)從大量的擴(kuò)展方法上來(lái)看,其都是以其中一個(gè)維度來(lái)進(jìn)行擴(kuò)展,但是這種方式的實(shí)驗(yàn)準(zhǔn)確率在80%的時(shí)候迅速飽和,具有一定的局限性。EfficientNet總體結(jié)合使用以上三個(gè)維度的擴(kuò)展,形成一套復(fù)合縮放策略,也就是Scaleup策略。其依據(jù)的原理在于,圖像擴(kuò)充分辨率時(shí),需要提高其感受野的廣度,即擴(kuò)展網(wǎng)絡(luò)深度和寬度,加寬網(wǎng)絡(luò)為的是獲得更多的細(xì)粒度特征。當(dāng)然,我們不能隨意對(duì)其中的某一維度來(lái)進(jìn)行隨意的擴(kuò)展,我們需要通過(guò)一個(gè)固定的比例來(lái)實(shí)現(xiàn)三者的平衡。如下圖3-1所示,圖中a表示一個(gè)基線網(wǎng)絡(luò),而圖b顯示的是對(duì)于基線網(wǎng)絡(luò)a的寬度進(jìn)行擴(kuò)展,也就是增加了基線網(wǎng)絡(luò)中通道的數(shù)量,增加了其方向上的維度,能夠加強(qiáng)對(duì)細(xì)粒度特征的捕獲,讓訓(xùn)練能夠更加容易;圖c中是對(duì)a的深度進(jìn)行擴(kuò)展,增加卷積層數(shù)量,這樣能夠捕獲到更加豐富,更加復(fù)雜的特征,不過(guò)根據(jù)以往學(xué)者的實(shí)驗(yàn)研究來(lái)看,設(shè)置過(guò)多的卷積層數(shù)量會(huì)導(dǎo)致模型出現(xiàn)梯度彌散、梯度爆炸等問(wèn)題,并且能導(dǎo)致訓(xùn)練難度更大;圖c是增加了a的分辨率,也能夠增強(qiáng)細(xì)粒度特征的捕獲能力。圖d所示的網(wǎng)絡(luò)為EfficientNet的復(fù)合縮放策略,其對(duì)三個(gè)維度分別都進(jìn)行了擴(kuò)展。a)基線網(wǎng)絡(luò) b)寬度縮放 c)深度縮放d)特征圖尺寸縮放 e)復(fù)合縮放策略圖3-1不同維度的網(wǎng)絡(luò)擴(kuò)展策略及scaleup策略Fig.3-1DifferentDimensionsofNetworkExpansionStrategyandScaleUpStrategy關(guān)于Scaleup策略的算法公式,首先我們可以將卷積層表示為公式3-1所示一個(gè)函數(shù):Y其中,F(xiàn)i是卷積操作,Yi是輸出層的感知器,Xi是輸入層的感知器,Xi的shape為<Hi,WN=卷積神經(jīng)網(wǎng)絡(luò)一般可以劃分為幾個(gè)stage,它們組成了網(wǎng)絡(luò)整體,每個(gè)stage可以不斷重復(fù),而在每個(gè)相同的stage中的重復(fù)block都具有不同的結(jié)構(gòu),因此我們可以將公式3-2進(jìn)一步表示為公式3-3:N=其中,i表示第i個(gè)stage,Li表示Fi被重復(fù)了Li次,結(jié)合我們之前提到過(guò)的網(wǎng)絡(luò)擴(kuò)展的三個(gè)維度:擴(kuò)展寬度就相當(dāng)于增大通道數(shù)Ci,擴(kuò)展網(wǎng)絡(luò)深度就相當(dāng)于增大卷積層的重復(fù)次數(shù)對(duì)公式3-3所示的這樣一個(gè)卷積神經(jīng)網(wǎng)絡(luò),我們要對(duì)其進(jìn)行三個(gè)維度的擴(kuò)展,并不是讓每個(gè)維度按任意大小來(lái)隨意的擴(kuò)大,而是要找到一個(gè)合適的比例,來(lái)作用于三個(gè)維度進(jìn)行復(fù)合擴(kuò)展。復(fù)合擴(kuò)展的目標(biāo)如下公式3-4所示:maxd,w,r其中,Memory?(N)表示該網(wǎng)絡(luò)所占用的內(nèi)存大小,F(xiàn)LOPS?(N)表示該網(wǎng)絡(luò)每秒浮點(diǎn)運(yùn)算次數(shù),兩者都對(duì)其進(jìn)行了限制,在該條件下來(lái)求取網(wǎng)絡(luò)N的最大準(zhǔn)確度。針對(duì)三個(gè)維度如何去確定,我們做了如下的設(shè)置,如式3-5所示,其中?是常數(shù),與計(jì)算資源有關(guān),a、β、depth:d=根據(jù)研究者的實(shí)驗(yàn),當(dāng)α=1.2,β=1.1、γ=1.15時(shí),復(fù)合擴(kuò)展策略下的網(wǎng)絡(luò)能力最好,三個(gè)維度達(dá)到了最佳的平衡。進(jìn)一步的可以固定α,β和γ,通過(guò)修改?的值來(lái)獲得規(guī)模更大的卷積神經(jīng)網(wǎng)絡(luò)模型,例如EfficientNet的B0至B7網(wǎng)絡(luò),本實(shí)驗(yàn)采用EfficientNet-B0網(wǎng)絡(luò)。EfficientNet-B0網(wǎng)絡(luò)結(jié)構(gòu)如下圖3-2所示,其結(jié)構(gòu)較為復(fù)雜,但是基本是由多個(gè)不同尺寸的MBConv模塊組成,其包含了1個(gè)3×3的Conv,1個(gè)3×3的MBConv1,6個(gè)3×3的MBConv6,9個(gè)5×5的MBConv6和1個(gè)1×1的Conv,在網(wǎng)絡(luò)的最后使用了全局平均池化層、1000個(gè)神經(jīng)元的全連接層和用于分類(lèi)的Softmax層。圖3-2EfficientNet-B0網(wǎng)絡(luò)結(jié)構(gòu)Fig.3-2EfficientNet-B0NetworkStructureEfficientNet網(wǎng)絡(luò)各block主要是借鑒了MobileNetV2,其主要組成部分就是MBConv,即移動(dòng)翻轉(zhuǎn)瓶頸卷積,其利用深度可分離卷積,并且在此基礎(chǔ)上加入了SE模塊以及基于ResNet的殘差連接結(jié)構(gòu),下圖3-3展示了MBConv的結(jié)構(gòu)組成,可以清晰的看到其各個(gè)組成部分。圖3-3MBConv模塊結(jié)構(gòu)組成Fig.3-3StructureofMbconvModule下面針對(duì)該部分的三個(gè)組成來(lái)進(jìn)行介紹:(1)深度可分離卷積深度可分離卷積對(duì)于深度學(xué)習(xí)的發(fā)展起到了促進(jìn)作用。通常意義上的卷積神經(jīng)網(wǎng)絡(luò)研究會(huì)將通道維和空間維看作不可分的整體,認(rèn)為其必須相互結(jié)合使用,但是Inception證明了這兩個(gè)部分是可以分離的,也就是說(shuō)兩個(gè)部分之間的關(guān)聯(lián)并不是很緊密,耦合度低,因此我們可以對(duì)兩個(gè)部分分開(kāi)映射調(diào)節(jié)。由此產(chǎn)生的深度可分離的優(yōu)點(diǎn)是,網(wǎng)絡(luò)訓(xùn)練的效果與原來(lái)相同,但是能夠大大減少計(jì)算參數(shù)量。如圖3-4所示的傳統(tǒng)卷積,假設(shè)輸入層有一張三通道彩色圖片,其經(jīng)過(guò)4個(gè)卷積核的卷積操作之后,生成特征圖,數(shù)量為4,另外該特征圖的尺寸要和原輸入的圖像一樣。而在圖3-5所示的深度可分離卷積在處理圖像中,首先使用Depthwise卷積的3×3×N卷積核對(duì)輸入的圖片做卷積操作,卷積核的數(shù)量N與上一層的通道數(shù)相同,因此可以得到3個(gè)特征圖,但是這一步?jīng)]有有效利用不同特征圖在相同位置上的信息。因此在下一步的Pointwise卷積操作中,使用4個(gè)1×1×3的卷積核將特征圖沿著特征圖數(shù)量方向進(jìn)行加權(quán)組合,這項(xiàng)操作的特征圖數(shù)量仍然為4,對(duì)比來(lái)看,這兩步操作與常規(guī)卷積結(jié)果相同,但是在總共的參數(shù)數(shù)量上會(huì)比常規(guī)卷積少很多,約減少了三分之一,因此我們可以得到更輕更快的模型。圖3-4傳統(tǒng)卷積操作過(guò)程Fig.3-4TraditionalConvolutionOperationProcessa)Depthwise卷積操作b)Pointwise卷積操作圖3-5深度可分離卷積過(guò)程Fig.3-5DepthSeparableConvolutionProcess(2)SE模塊SE模塊即Squeeze-and-Excitation,由Momenta公司的SENet網(wǎng)絡(luò)中提出,其目標(biāo)是讓網(wǎng)絡(luò)學(xué)習(xí)到不同通道間的相互依賴關(guān)系和重要程度,以此獲得每個(gè)特征通道的重要程度。SE模塊是一種注意力機(jī)制,是模仿人本身對(duì)于圖像的關(guān)注點(diǎn)而來(lái)的,專(zhuān)注于重要的特征細(xì)節(jié),該細(xì)節(jié)是否重要取決于實(shí)際的模型場(chǎng)景。其通過(guò)計(jì)算判定網(wǎng)絡(luò)中某層生成的幾個(gè)特征圖的重要性,同時(shí)根據(jù)這一點(diǎn)進(jìn)行排序,增強(qiáng)有用特征的比例而降低不重要的特征圖比例,實(shí)現(xiàn)隱式的注意力機(jī)制。下圖3-6展示了該模塊的結(jié)構(gòu)圖,主要分為Squeeze,Excitation和Scale操作。圖3-6SE模塊結(jié)構(gòu)示意圖Fig.3-6StructureDiagramofSqueeze-and-ExcitationModule首先是Squeeze操作,該操作全局平均池化后得到該特征圖的特征壓縮向量,向量中的每個(gè)值代表了每層的特征圖全局分布。向量的長(zhǎng)度等于特征圖數(shù)。其次是Excitation操作,通過(guò)全連接層得到特征圖的每層權(quán)重,用于下一步生成加權(quán)特征圖。在這個(gè)過(guò)程中加入了激活函數(shù),添加非線性元素。最后是Scale操作,這步操作將權(quán)重與原特征每層對(duì)應(yīng)做乘法,也就是對(duì)原特征圖的重要性進(jìn)行標(biāo)明。(3)殘差連接殘差連接來(lái)源于由何凱明等人構(gòu)建的ResNet網(wǎng)絡(luò),現(xiàn)在很多網(wǎng)絡(luò)中都有其應(yīng)用。通常的卷積神經(jīng)網(wǎng)絡(luò)要實(shí)現(xiàn)更好的識(shí)別能力,會(huì)增加網(wǎng)絡(luò)寬度、深度,一般來(lái)說(shuō)深度的網(wǎng)絡(luò)要比淺的網(wǎng)絡(luò)要好,例如VGG就加大網(wǎng)絡(luò)的深度以此提高性能。但是研究表明,網(wǎng)絡(luò)無(wú)限制的增加會(huì)導(dǎo)致梯度彌散的問(wèn)題,Loss率反而會(huì)有可能上升,而殘差塊很大程度上解決了這一問(wèn)題,一個(gè)殘差塊的公式如3-6所示:xl+1一個(gè)1×1殘差塊的組成如下圖3-7所示,圖3-7殘差塊組成示意圖Fig.3-7SchematicDiagramofResidualBlockComposition殘差塊分為直接映射和殘差部分,hxl是直接映射,如圖中左邊直線;xl+1其中hx(4)Swish激活函數(shù)MBConv塊乃至整個(gè)EfficientNet網(wǎng)絡(luò)中所使用的激活函數(shù)為Swish,其相對(duì)傳統(tǒng)的ReLU函數(shù)來(lái)說(shuō),在準(zhǔn)確率方面要高。其公式如下式3-8所示,函數(shù)曲線為圖3-8所示。f(x)=x?圖3-8Swish函數(shù)示意圖Fig.3-8SwishFunctionDiagramEfficientNet網(wǎng)絡(luò)在很大程度上對(duì)網(wǎng)絡(luò)進(jìn)行了擴(kuò)展,基于MBConv的組成,包含了以上介紹的深度可分離卷積、SE模塊、殘差塊、Swish函數(shù)等先進(jìn)的設(shè)計(jì)來(lái)達(dá)到一個(gè)對(duì)特征的高效提取,該網(wǎng)絡(luò)的準(zhǔn)確率大大提升,超過(guò)了一些經(jīng)典網(wǎng)絡(luò)。本實(shí)驗(yàn)將EfficientNet的B0版本作為基線模型,同時(shí)進(jìn)行以下改進(jìn)和優(yōu)化以符合論文實(shí)驗(yàn)要求。1.2EfficientNet網(wǎng)絡(luò)模型的改進(jìn)與優(yōu)化1.2.1網(wǎng)絡(luò)模型結(jié)構(gòu)的改進(jìn)EfficientNet網(wǎng)絡(luò)對(duì)于本次的實(shí)驗(yàn)仍有不足,因?yàn)樵摼W(wǎng)絡(luò)的層數(shù)眾多,組成模塊相對(duì)復(fù)雜,消耗的計(jì)算資源也非常大,適用于百萬(wàn)級(jí)別的數(shù)據(jù)集,相對(duì)于本次實(shí)驗(yàn)的數(shù)據(jù)集量并不是非常實(shí)用,會(huì)產(chǎn)生不必要的計(jì)算需求。另外其對(duì)實(shí)驗(yàn)中模型訓(xùn)練所搭建的計(jì)算機(jī)硬件環(huán)境的要求更高,可能現(xiàn)有硬件環(huán)境仍不能滿足其計(jì)算能力,我們需要提升網(wǎng)絡(luò)的性能和效率。所以我們需要對(duì)EfficientNet網(wǎng)絡(luò)做一些精簡(jiǎn),并將網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)上的替換和改進(jìn),其過(guò)程如下:(1)簡(jiǎn)化網(wǎng)絡(luò)模塊對(duì)EfficientNet網(wǎng)絡(luò)的MBConv模塊的數(shù)量進(jìn)行精簡(jiǎn),去掉多個(gè)MBConv,保留最核心的結(jié)構(gòu),將原本EfficientNet中每個(gè)stage的MBConv塊的重復(fù)次數(shù)設(shè)置為1,使之包含2個(gè)Conv塊,4個(gè)3×3的MBConv塊,3個(gè)5×5的MBConv塊,每一個(gè)stage生成的特征圖尺寸與原網(wǎng)絡(luò)相同。這樣能使改進(jìn)后的結(jié)構(gòu)滿足實(shí)驗(yàn)數(shù)據(jù)集量的要求,減少計(jì)算量和不必要的計(jì)算需求,降低對(duì)計(jì)算機(jī)硬件的要求。(2)使用SK模塊來(lái)替換MBConv中的SE模塊SK模塊來(lái)源于SKNet,SKNet是SENet的增強(qiáng)版。在注意力研究方面,SE模塊關(guān)注通道,而SK模塊關(guān)注卷積核,在SE模塊基礎(chǔ)上添加了多個(gè)卷積分支,而這些分支采用了不同尺寸的核,形成多個(gè)特征圖。因?yàn)镾K模塊考慮的是,對(duì)特征圖的不同核的特征提取,能夠獲得不同感受野的結(jié)果,而針對(duì)特征圖也可以決定卷積核的重要性,含有SK模塊的網(wǎng)絡(luò)可以根據(jù)輸入圖像自主調(diào)節(jié)有效特征域大小,減少無(wú)效特征。對(duì)于SE模塊而言,其自主提取特征的能力進(jìn)一步加強(qiáng)了。通過(guò)實(shí)驗(yàn)證明,該模塊應(yīng)用在其他網(wǎng)絡(luò)模型上有良好的表現(xiàn),如圖3-9所示,在主流的網(wǎng)絡(luò)中,加入SK模塊都要比加入SE模塊的準(zhǔn)確率高一些,證明SK模塊要優(yōu)于SE模塊。圖3-9SK模塊與SE模塊的識(shí)別提升對(duì)比Fig.3-9TheComparisonofSKModuleandSeModuleinRecognitionPromotion下圖3-10展示了SK模塊的結(jié)構(gòu)圖。圖3-10SK模塊示意圖Fig.3-10SchematicDiagramofSelectiveKernelConvolution相對(duì)于SE模塊,SK模塊也包含了三方面的操作,分別是:1、SplitSplit操作是對(duì)原有的單一卷積過(guò)程添加多個(gè)卷積分支,也就是不同核分別卷積,例如圖中使用的是兩個(gè)尺寸的卷積核,當(dāng)然也可以有多個(gè)分支,得到特征圖U和U。該操作也可以使用深度可分離卷積等。2、Fuse該操作主要是計(jì)算卷積核的權(quán)重。首先將得到的U和U按元素求和,得到U,其次通過(guò)全局平均池化函數(shù)?gp將每層特征圖變?yōu)閷?shí)數(shù),得到一維的實(shí)數(shù)列s∈?C,其計(jì)算公式如3-9所示,然后經(jīng)過(guò)?fc的降維后升維的全連接生成緊湊的權(quán)重,即矩陣as3、Select該操作根據(jù)上一步生成的權(quán)重矩陣ac和bV我們將SK模塊應(yīng)用于EfficientNet網(wǎng)絡(luò),將所有MBConv模塊中的SE模塊替換為該結(jié)構(gòu),也就是在3×3或5×5的深度分離卷積之后加入SK塊,以提高識(shí)別準(zhǔn)確度。(3)加入特征融合機(jī)制在EfficientNet網(wǎng)絡(luò)的特征提取過(guò)程中,高層次的featuremap所包含的抽象信息往往很豐富,而低層次的featuremap會(huì)包含更多的分辨率信息,這種情況會(huì)使不同層次的featuremap內(nèi)的特征不全,進(jìn)而使網(wǎng)絡(luò)對(duì)于小目標(biāo)的檢測(cè)進(jìn)度降低。為了優(yōu)化對(duì)垃圾圖像的不用層次featuremap的特征提取,我們需要優(yōu)化EfficientNet,對(duì)其加入特征融合機(jī)制,將不同層次的featuremap中的特征進(jìn)行局部以及全局的融合,對(duì)于高層擁有的抽象信息與低層所含的分辨率信息做融合操作,實(shí)現(xiàn)上下文信息互用。另外,本論文提出了一種針對(duì)不同尺寸特征圖的融合策略,即使用不同尺寸的池化核對(duì)高層不同尺寸featuremap進(jìn)行池化操作,之后再進(jìn)行融合,設(shè)計(jì)的特征融合策略如下圖3-11所示。圖3-11特征融合策略示意圖Fig.3-11SchematicDiagramofFeatureFusionStrategy在該操作過(guò)程中,模塊將池化分為了三個(gè)不同的分支,分別使用了1×1、2×2、4×4的池化核,對(duì)于featuremap上的信息,我們可以通過(guò)此操作獲取到更多的特征信息。在不同大小的核池化操作后,將低層的小尺寸featuremap上采樣至其上個(gè)池化分支的尺寸,然后與上個(gè)分支進(jìn)行融合。之后再將融合后的featuremap與上一分支進(jìn)行相同的融合操作,若還有其它池化分支,就以此循環(huán)操作,最終實(shí)現(xiàn)所有分支的特征融合。將以上三種觀點(diǎn)對(duì)EfficientNet網(wǎng)絡(luò)進(jìn)行改進(jìn),表3-1示出了改進(jìn)后的網(wǎng)絡(luò)的結(jié)構(gòu)表。最終的結(jié)構(gòu)為下圖3-12(a)所示。改進(jìn)后的網(wǎng)絡(luò)包含的模塊數(shù)量已經(jīng)減少,針對(duì)MBConv的改進(jìn)如圖3-12(b),另外還加入了特征融合機(jī)制。改進(jìn)后,網(wǎng)絡(luò)總的參數(shù)量能夠減少,使得計(jì)算量減少,計(jì)算速度也能夠有所提升。表3-1改進(jìn)后的EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)表Tab.3-1ImprovedEficientNetNetworkStructureTable網(wǎng)絡(luò)層卷積核尺寸步長(zhǎng)輸出尺寸Input224×224×3Conv/GN3×3×32×2112×112×32MBConv13×31×1112×112×16MBConv63×32×256×56×24MBConv65×52×228×28×40MBConv63×32×214×14×80MBConv65×51×114×14×112MBConv65×52×27×7×192MBConv63×31×17×7×320Conv/GN1×1×3201×17×7×1280GAP1×1280FC1×1000Softmax1×4a)整體網(wǎng)絡(luò)結(jié)構(gòu)圖b)含SK模塊的MBConvblock結(jié)構(gòu)圖3-12改進(jìn)后的EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3-12ImprovedEfficientNetNetworkStructure1.2.2網(wǎng)絡(luò)模型的其他優(yōu)化(1)組歸一化替代EfficientNet中的批量歸一化BN對(duì)圖像做歸一化就是通過(guò)對(duì)網(wǎng)絡(luò)中輸入的圖像轉(zhuǎn)化為一種標(biāo)準(zhǔn)的形式。我們需要找出圖像之間存的一個(gè)不變量,通過(guò)這個(gè)不變量我們就能對(duì)圖像進(jìn)行歸類(lèi),將他們規(guī)范到一個(gè)系列。這樣有利于模型收斂,加快目標(biāo)函數(shù)全局最小值的查找速度,另外還能夠抵御幾何變換的影響。在EfficientNet中所使用的是批量歸一化BN,其優(yōu)點(diǎn)是能使數(shù)據(jù)形成正態(tài)分布,使得數(shù)據(jù)不僅分布一致,而且避免梯度消失,加速訓(xùn)練。但是其仍有一個(gè)缺點(diǎn),當(dāng)batchsize過(guò)小時(shí),訓(xùn)練的效率會(huì)降低,而且現(xiàn)象明顯,增加模型的錯(cuò)誤率。而組歸一化GN在進(jìn)行操作時(shí),能夠按照通道進(jìn)行分組。將多個(gè)通道合并在一起進(jìn)行處理,計(jì)算每一組通道內(nèi)的均值和方差,將特征歸一化。批量大小并不影響其計(jì)算,其準(zhǔn)確率也非常穩(wěn)定。誤差率也相對(duì)于BN而言大大降低。組歸一化的公式如式3-11所示。Si其中,C/G表示每一組的通道數(shù),kC針對(duì)本次實(shí)驗(yàn),我們將網(wǎng)絡(luò)中的批量歸一化BN替換為組歸一化GN,能夠有效解決在batchsize過(guò)小的時(shí)候產(chǎn)生的訓(xùn)練性能下降的問(wèn)題,主要是在Conv塊之后和MBConv塊中的BN替換為GN。(2)使用帶有Warmup的余弦退火學(xué)習(xí)率學(xué)習(xí)率在神經(jīng)網(wǎng)絡(luò)中是一個(gè)基礎(chǔ)參數(shù),在目標(biāo)函數(shù)的優(yōu)化以及尋找全局最小值方面起著重要作用。梯度下降法能夠幫助我們不斷逼近全局最小值,但是在這一過(guò)程中找到最小值并不容易,如下圖3-13示出了目標(biāo)函數(shù)尋找最小值的大致過(guò)程。其在大多數(shù)情況下會(huì)產(chǎn)生多個(gè)低谷,每個(gè)低谷的最底處還存在一個(gè)局部極小值,我們?cè)诰W(wǎng)絡(luò)訓(xùn)練時(shí)一般會(huì)找到極小值卻往往忽略了其是否屬于全局的最小值。圖3-13梯度下降算法尋找目標(biāo)優(yōu)化函數(shù)最小值Fig.3-13GradientDescentAlgorithmtoFindtheMinimumofObjectiveOptimizationFunction函數(shù)值曲線趨勢(shì)為先緩后急,下降速度并不均衡,中間會(huì)立刻以大角度下降,最終速度變?yōu)榫徛?。我們可以利用這種特點(diǎn),防止陷入局部極小值,在下降的階段突然提高學(xué)習(xí)率跳出,最終找到全局最小值。余弦退火的公式如式3-12所示。ηt其中,i表示第幾次訓(xùn)練,ηmaxi和ηmini分別是學(xué)習(xí)率的最大值和最小值,Tcur學(xué)習(xí)率的設(shè)定尤為關(guān)鍵,但是不容易把握,因?yàn)槠溥^(guò)大時(shí)會(huì)讓模型產(chǎn)生震蕩。Warmup方式能夠較好的有助于學(xué)習(xí)率的預(yù)熱,其原理就是先將學(xué)習(xí)率設(shè)定為小值,之后慢慢加大,最終達(dá)到原先想要的初值為止,然后按照正常流程訓(xùn)練。采用Warmup的余弦退火學(xué)習(xí)率與通常的逐步衰減學(xué)習(xí)率的方式進(jìn)行對(duì)比,結(jié)果如下圖3-14。雖然從準(zhǔn)確率上來(lái)看,兩者最終都能達(dá)到一致,但是逐步衰減學(xué)習(xí)率的方式有一定的隨機(jī)性,step不容易確定,當(dāng)學(xué)習(xí)率衰減的時(shí)候,其跳躍變化較大,帶來(lái)的是較大的動(dòng)量。a)學(xué)習(xí)率對(duì)比b)驗(yàn)證集準(zhǔn)確率圖3-14帶Warmup的余弦退火學(xué)習(xí)率與通常逐步衰減學(xué)習(xí)率方式對(duì)比圖Fig.3-14ComparisonofCosineAnnea

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論