版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
XXXV改進(jìn)SSD的車輛行人檢測方法案例目錄TOC\o"1-3"\h\u26336改進(jìn)SSD的車輛行人檢測方法案例 129651.1SSD目標(biāo)檢測算法 122221.1.1SSD網(wǎng)絡(luò)結(jié)構(gòu) 115151.1.2SSD默認(rèn)框 2199761.1.3SSD損失函數(shù) 376471.1.4SSD存在的問題 3160661.2雙向特征金字塔特征融合 3204991.2.1反卷積 342591.2.2特征融合方式 4164091.3改進(jìn)的雙注意力模塊 5128561.1.1自編碼的空間注意力 678101.1.2通道注意力 713151.4優(yōu)化損失函數(shù) 8134311.4.1分類損失函數(shù)FocalLoss 830141.4.2使用CIoU作邊界框損失 8269191.5實(shí)驗(yàn)結(jié)果與分析 10116561.5.1實(shí)驗(yàn)數(shù)據(jù)集 10306011.5.2實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置 1135901.5.3實(shí)驗(yàn)結(jié)果與分析 111.1SSD目標(biāo)檢測算法1.1.1SSD網(wǎng)絡(luò)結(jié)構(gòu)SSD算法是直接在輸入的整張圖像進(jìn)行卷積,利用金字塔結(jié)構(gòu)的多尺度特征層來預(yù)測目標(biāo)邊框的坐標(biāo)位置和目標(biāo)所屬類別。SSD算法使用VGG作為基礎(chǔ)特征提取網(wǎng)絡(luò),之后使用一組卷積進(jìn)行多尺度特征圖預(yù)測,可以檢測出大小不同的目標(biāo)。輸入圖像的大小為300×300或者512×512。SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖3-1所示,VGG網(wǎng)絡(luò)模型總共16層,包括5組卷積(前兩組卷積分別是2個(gè)卷積層,后面的3組卷積分別是3個(gè)卷積層)和3個(gè)全連接層。SSD模型去掉了VGG網(wǎng)絡(luò)的全連接層FC6和FC7,換用卷積層Conv6和Conv7。在特征提取后額外加入Conv8_2、Conv9_2、Conv10_2和Conv11_2卷積,SSD網(wǎng)絡(luò)檢測層是通過1×1的卷積核降維,3×3的卷積核提取特征,與前面的特征層構(gòu)成特征金字塔進(jìn)行多尺度特征預(yù)測目標(biāo)的邊框和類別。最后,在非極大抑制算法NMS處理下輸出結(jié)果。每一組卷積之后都跟著一個(gè)最大池化層,作用是使特征圖的尺寸縮小,降低特征圖的維數(shù),減少模型的計(jì)算量。SSD模型中的卷積層比較多,每一層中的卷積核數(shù)量不一樣,隨著提取的特征越來越深入,后面卷積層的卷積核數(shù)量增多,卷積核的數(shù)量依次是64,128,256,512,512。卷積層和池化層的使用降低了參數(shù)量,非線性變換次數(shù)也變多,模型學(xué)習(xí)到的特征更明顯。圖3-1SSD網(wǎng)絡(luò)結(jié)構(gòu)Fig.3-1SSDnetworkstructure1.1.2SSD默認(rèn)框SSD算法選擇了6個(gè)特征輸出層,不同尺度的特征圖來預(yù)測目標(biāo),SSD默認(rèn)框從Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2這6層特征圖生成。Conv4_3這一層的特征圖的大小是38×38,Conv7這一層特征圖的大小是19×19,Conv8_2這一層的特征圖的大小是10×10,Conv9_2、Conv10_2和Conv11_2的特征圖依次是5×5、3×3、1×1。每個(gè)特征圖上的特征像素中心點(diǎn)生成k個(gè)默認(rèn)框,SSD在每個(gè)中心點(diǎn)上生成4個(gè)或6個(gè)默認(rèn)框,在SSD300中生成默認(rèn)邊界框個(gè)數(shù)是8732。這些默認(rèn)框具有不同的尺度與不同的長寬比。每個(gè)默認(rèn)框都會(huì)預(yù)測出c個(gè)類別的分?jǐn)?shù)和4個(gè)坐標(biāo)的位置偏移值。SSD目標(biāo)檢測算法采用了anchors機(jī)制,設(shè)置一些尺度和長寬比不同的默認(rèn)框。每一層特征層都需要計(jì)算,對(duì)SSD產(chǎn)生的默認(rèn)框的尺寸大小計(jì)算如式(3-1)所示,m表示的是特征圖的數(shù)量,和表示的是默認(rèn)框的最大最小尺度的參數(shù)。表示第k個(gè)用于預(yù)測的特征圖的默認(rèn)框和原來圖像尺寸的比例。(3-1)一般是設(shè)置了6種不同長寬比的默認(rèn)框,比例分別為(1:1)、(2:1)、(1:2)、(1:1)、(1:3)和(3:1),其中有兩個(gè)大小不同但是長寬比都是1的默認(rèn)框。特征圖的默認(rèn)框的尺寸和寬高的計(jì)算公式如式(3-2)所示。,(3-2)1.1.3SSD損失函數(shù)SSD算法在不同的特征圖上生成默認(rèn)框后分別輸出預(yù)測結(jié)果,完成目標(biāo)分類和邊框回歸。所以損失函數(shù)有兩部分組成,類別置信度損失和邊框回歸損失。SSD的損失函數(shù)表示成二者的加權(quán)和,計(jì)算公式如式(3-3)所示。(3-3)邊框回歸損失用的是SmoothL1損失函數(shù),代表預(yù)測框和真實(shí)框位置的誤差,SmoothL1損失函數(shù)公式如式(3-4)所示。(3-4)SSD中類別置信度損失,用的是交叉熵?fù)p失函數(shù),具體公式如式(3-5)所示。(3-5)1.1.4SSD存在的問題SSD模型的基礎(chǔ)特征提取網(wǎng)絡(luò)是VGG,在不同的特征層上多尺度檢測,但是特征層之間是相互沒有聯(lián)系的,特征沒有互相補(bǔ)充。低層的特征提取不全面,圖像的語義表達(dá)不豐富,所以不利于小目標(biāo)的檢測,效果不好。高層的特征圖在多次卷積下特征提取充分,但是丟失了一些細(xì)節(jié)信息,對(duì)目標(biāo)檢測結(jié)果有影響。而且在模型中,非極大抑制算法是通過IoU計(jì)算,IoU存在缺點(diǎn),不能真實(shí)反映預(yù)測框和真實(shí)框相交的關(guān)系,無法解決兩框不相交的問題。所以,在以下章節(jié)詳細(xì)講述改進(jìn)SSD的方法。1.2雙向特征金字塔特征融合1.2.1反卷積反卷積[38-39]是指可以改變圖像分辨率的操作,它的作用是放大特征圖像。反卷積過程如圖3-2所示。反卷積和卷積不同,反卷積對(duì)輸入的特征圖經(jīng)過零填充操作,在反卷積核的作用下得到放大后的特征圖。卷積神經(jīng)網(wǎng)絡(luò)中,上采樣有多種方法,本文用到的是反卷積。圖3-2反卷積示意圖Fig.3-2DeconvolutionSchematicDiagram反卷積之后的特征圖保留輸入的特征信息,特征圖的尺寸被放大,不同的特征圖進(jìn)行融合需要保證特征圖尺寸一樣。反卷積操作為之后的特征融合做好準(zhǔn)備工作。1.2.2特征融合方式(1)特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,FPN)FPN[40]是2017年提出的多尺度目標(biāo)檢測算法,通過反向傳播跨層連接的方式,自頂向下進(jìn)行多尺度特征融合,F(xiàn)PN的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3-3所示,F(xiàn)PN模型通過自上而下的路徑和橫向連接,將低層語義豐富的特征和高層語義上較弱的特征融合,在多個(gè)不同尺度的融合特征上進(jìn)行預(yù)測。圖3-3特征金字塔示意圖Fig.3-3SchematicdiagramofFeaturePyramidNetworkFPN存在的缺點(diǎn)是在特征融合過程中,不同尺度特征不一致,而且很多對(duì)目標(biāo)檢測沒有用的信息也會(huì)融合進(jìn)來。在FPN中淺層特征提取不充分,也沒有被充分利用起來,淺層特征對(duì)小目標(biāo)的檢測十分重要。(2)雙向特征金字塔網(wǎng)絡(luò)為了解決FPN的問題,高效地進(jìn)行特征的融合,保留有用的特征,增強(qiáng)特征的表達(dá),去掉冗余的特征[41]。使用雙向特征金字塔,對(duì)FPN做了改進(jìn),如圖3-4所示,它有兩個(gè)自底向上路徑和一個(gè)自上向下路徑。它有以下幾個(gè)改進(jìn):在原來的FPN上增加了自底向上的路徑,解決了FPN對(duì)淺層特征不能充分利用的問題,應(yīng)用自頂向下,自下向上雙向的多尺度特征融合成一個(gè)模塊,特征在傳遞同時(shí)增強(qiáng)了信息的融合。在雙向特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)中,C1,C2,C3表示各層上不同分辨率的特征,在自頂向下的路徑中,對(duì)高層特征通過上采樣,然后利用自底向上路徑將淺層的細(xì)節(jié)信息傳遞到高層,對(duì)S1,S2,S3進(jìn)行上采樣,對(duì)特征進(jìn)行增強(qiáng)。使用卷積核為1×1的卷積層的橫向連接來使得特征維數(shù)相同,以便進(jìn)行特征融合。圖3-4雙向特征金字塔示意圖Fig.3-4Bi-directionalfeaturepyramid1.3改進(jìn)的雙注意力模塊注意機(jī)制的應(yīng)用,使得特征圖中的每個(gè)元素可以自適應(yīng)地學(xué)習(xí)其相應(yīng)的權(quán)重,這可以充分增強(qiáng)算法模型對(duì)目標(biāo)特征的充分表達(dá),可以獲取特征圖更豐富的語義信息。受注意力機(jī)制的啟發(fā),針對(duì)原來SSD特征融合過程中沒有考慮特征圖在不同路徑下產(chǎn)生的影響不同。傳統(tǒng)的注意力機(jī)制通常只注意特征在空間上的權(quán)重,根據(jù)權(quán)重判別特征中哪些是關(guān)鍵部分,但是特征圖中不同通道之間的聯(lián)系不被關(guān)注。為了解決這個(gè)問題,本章在前一節(jié)的特征融合過程中將引入雙注意力模塊,如圖3-5所示,雙注意力由空間注意力和通道注意力組成,在自頂向下和自上而下的路徑中加入通道注意力,在橫向路徑中加入空間注意力,二者通過簡單加法獲得的特征圖可以通過特征圖中元素權(quán)重的學(xué)習(xí)來獲得語義信息顯著增強(qiáng)的特征圖。提高了原始特征圖的語義表示能力,特征圖的重要程度更加明顯,更多有用的信息來增強(qiáng)生成的特征,生成的特征更加具有表達(dá)能力,尤其是對(duì)小目標(biāo)很重要,可以提升小目標(biāo)檢測的準(zhǔn)確性。采用雙向特征金字塔網(wǎng)絡(luò)為構(gòu)架,結(jié)合通道注意力和空間注意力做融合。雙注意力模型作為各個(gè)基本特征之間融合的橋梁,穿插在雙向的特征金字塔網(wǎng)絡(luò)上。最后將由深到淺和由淺到深兩個(gè)方向上生成的特征圖做特征融合,獲得語義更加準(zhǔn)確的特征。圖3-5雙注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.3-5Networkstructureofdualattentionmodel1.1.1自編碼的空間注意力空間注意力[42]模塊的目的是在提取的各層特征上,進(jìn)一步獲得不同區(qū)域特征的上下文聯(lián)系,得到各區(qū)域的重要性權(quán)重,可以增強(qiáng)區(qū)域之間的相關(guān)性??臻g注意力通過獲取空間內(nèi)各像素之間的關(guān)聯(lián)性,形成一個(gè)空間上下文關(guān)聯(lián)的關(guān)系,特征圖的每個(gè)像素位置的分配的權(quán)重是不同的,用于突出空間內(nèi)的有效特征、抑制無效特征,從而達(dá)到對(duì)特征進(jìn)行選擇和融合的作用。空間注意力模塊,本文使用自編碼器的操作來實(shí)現(xiàn)空間注意力,自編碼網(wǎng)絡(luò)結(jié)構(gòu)由兩部分構(gòu)成,一個(gè)是編碼層,一個(gè)是解碼層。網(wǎng)絡(luò)結(jié)構(gòu)中用到簡單的卷積和反卷積。具體實(shí)現(xiàn)過程如圖3-6所示:首先使用1×1的卷積核(padding=0,stride=1)的卷積層將C維的原始特征映射到1維。在進(jìn)入自動(dòng)編碼器之前,需要將特征圖轉(zhuǎn)換為單通道的特征圖,以聚合通道信息。通過ReLu激活函數(shù)后,我們使用3×3的卷積核(padding=1,stride=2)的卷積層,將特征圖在空間上縮小。之后再通過反卷積的卷積層來把特征映射恢復(fù)到之前的大小。特征映射的權(quán)重通過Sigmoid的對(duì)應(yīng)區(qū)域,通過瓶頸的結(jié)構(gòu)得到空間層次上的特征圖的相關(guān)性。圖3-6自編碼空間注意力Fig.3-6Autocodedspatialattention1.1.2通道注意力卷積神經(jīng)網(wǎng)絡(luò)中,不同通道的特征不同。通道注意力[43]就是基于原始提取的特征,利用不同通道維度的重要性,然后對(duì)特征進(jìn)行重新加權(quán)標(biāo)定,獲得通道之間的相互關(guān)系。不同通道的特征所提取到的信息是不同的,通道注意力機(jī)制關(guān)注重要的通道特征,過濾無用的通道特征,是一個(gè)對(duì)特征進(jìn)行重新標(biāo)定的過程,添加通道注意力模塊來加權(quán)特征圖的每個(gè)通道。本文的通道注意力的輸入為特征圖F,表示為H×W×C,C、H和W分別是特征圖的通道數(shù)、高度和寬度,如圖3-7所示,我們首先對(duì)輸入的特征圖使用全局池化(Globalpooling)來聚合所有特征通道的全局信息,在空間層面將原始特征映射壓縮到1×1的大小,通道數(shù)還是C,得到大小為1×1×C的特征圖。為了生成通道注意力的權(quán)重,經(jīng)過大小為1×1的卷積層和一個(gè)ReLu激活層,生成新的特征圖,通道數(shù)變?yōu)镃/r。然后,通過1×1卷積核的卷積層(padding=0,stride=1),將特征圖的維數(shù)從C/r恢復(fù)到C。網(wǎng)絡(luò)最終經(jīng)過Sigmoid歸一化操作得到每個(gè)特征圖通道間的權(quán)重,從而獲得特征圖在特征通道的相關(guān)性。通道注意力機(jī)制的計(jì)算公式如式(3-6)所示。(3-6)是表示1×1卷積的權(quán)重,表示全局池化(Globalpooling),表示激活函數(shù),激活函數(shù)。圖3-7通道注意力示意圖Fig.3-7Schematicdiagramofchannelattention1.4優(yōu)化損失函數(shù)1.4.1分類損失函數(shù)FocalLossSSD目標(biāo)檢測算法分類損失使用的是交叉熵?fù)p失函數(shù),應(yīng)用在行人車輛檢測方面,正負(fù)樣本分布嚴(yán)重不平衡,負(fù)樣本目標(biāo)遠(yuǎn)多于正樣本目標(biāo),負(fù)樣本的損失較小,易分類的負(fù)樣本太多,在訓(xùn)練過程中會(huì)影響損失,數(shù)量少的正樣本在損失函數(shù)發(fā)揮的作用不大,所以會(huì)導(dǎo)致模型訓(xùn)練的效果不好。FocalLoss[44]這種新的損失函數(shù)的提出,對(duì)交叉熵?fù)p失增加權(quán)重,用它來代替原網(wǎng)絡(luò)中分類的交叉熵?fù)p失函數(shù)。為了解決數(shù)據(jù)集中正負(fù)樣本非平衡問題,F(xiàn)ocalLoss損失函數(shù)在交叉熵?fù)p失中改進(jìn),加入修正系數(shù),該系數(shù)與概率是反比的關(guān)系,計(jì)算公式如式(3-7)所示。正樣本雖然數(shù)量少,但是權(quán)重系數(shù)也大,對(duì)模型來說有效的信息也多,相反負(fù)樣本數(shù)量較多,但它的權(quán)重系數(shù)較小,對(duì)模型的貢獻(xiàn)度少,因而,訓(xùn)練模型的損失函數(shù)更好。加入權(quán)重系數(shù)后的交叉熵?fù)p失函數(shù)中,y為類別標(biāo)簽,是輸出概率。(3-7)為了模型能更好地訓(xùn)練困難的樣本,在FocalLoss計(jì)算中,引入了一個(gè)新的參數(shù)γ,FocalLoss的計(jì)算公式如式(3-8)所示。(3-8)FocalLoss函數(shù)中新加入的參數(shù)α以及γ,目的是可以調(diào)節(jié)正負(fù)樣本占的權(quán)重和難易分類樣本占的權(quán)重,F(xiàn)ocalLoss通過增強(qiáng)難分類樣本的損失值,易分類樣本的損失值降低,這樣模型就可以有效訓(xùn)練難分類樣本,對(duì)難分類樣本的檢測效果更好,因而能夠提高模型的整個(gè)檢測準(zhǔn)確率。損失函數(shù)如式(3-9)所示。(3-9)1.4.2使用CIoU作邊界框損失原SSD計(jì)算邊界框回歸損失時(shí),使用的預(yù)測框主要是通過交并比(IoU)回歸得到的。IoU計(jì)算公式如式(3-10)所示,交并比(IoU)在目標(biāo)檢測中是常用的評(píng)價(jià)目標(biāo)位置準(zhǔn)確性的指標(biāo),用來表示真實(shí)框和預(yù)測框的重合度,表示兩個(gè)框的交集和并集的比值。比較IoU的值,可以得到重合程度。但I(xiàn)oU只關(guān)注目標(biāo)真實(shí)邊框和預(yù)測框的重疊部分。當(dāng)兩個(gè)框互相包含或者沒有重疊的部分,IoU就看不到效果。IoU只有在邊界框有重疊時(shí)才有效果,在沒有重疊部分的情況下,不能向任何梯度反向傳播。所以,當(dāng)兩個(gè)框沒有相交時(shí),不管距離是多少,IoU值都是零,梯度也是0,網(wǎng)絡(luò)不能繼續(xù)學(xué)習(xí)和訓(xùn)練,影響后面參數(shù)的更新。(3-10)而廣義交叉并交比(GIoU)[45]損失考慮兩個(gè)邊界框的最小外接矩形,解決了IoU無法優(yōu)化預(yù)測框和真實(shí)框在不相交時(shí)的方向問題,尤其是沒有重疊部分下梯度消失的問題得以解決。GIoU有一個(gè)優(yōu)點(diǎn)就是它作為損失,能夠在兩個(gè)框所有可能出現(xiàn)的情況下都有梯度,可以提高檢測精度和訓(xùn)練模型的收斂速度,但還是存在收斂慢以及回歸不夠精確的問題。GIoU通過擴(kuò)展預(yù)測框直到與真實(shí)框相交,當(dāng)兩個(gè)框相交時(shí),GIoU也就變成了IoU。因此,GIoU不能準(zhǔn)確表示預(yù)測框和真實(shí)框之間的重疊部分,也不能給出一個(gè)框被另一個(gè)框包圍時(shí)的方向該如何優(yōu)化。距離交叉比(DIoU)[46]可以考慮目標(biāo)與中心點(diǎn)之間的距離,重疊部分和比例,然后避免諸如IoU和GIoU等訓(xùn)練過程中發(fā)散的問題。DIoU損失最大程度地縮短了兩個(gè)框中心點(diǎn)之間的距離,從而加速收斂。DIoU可以很好地實(shí)現(xiàn)預(yù)測位置的回歸,但是當(dāng)預(yù)測框的中心與真實(shí)框的中心重合時(shí),不能繼續(xù)優(yōu)化。為了實(shí)現(xiàn)更全面的優(yōu)化,提出了Complete-IoU[47]損失函數(shù),CIoU損失函數(shù)的計(jì)算公式如式(3-11)所示,該函數(shù)綜合考慮了兩個(gè)框的重疊部分,CIoU損失引入了預(yù)測框與真實(shí)框的長寬比,可以進(jìn)一步加速收斂并提高性能。CIoU函數(shù)直接使得預(yù)測框與真實(shí)框之間的歸一化距離達(dá)到最小,加快收斂,且對(duì)尺度具有不變形,解決了IoU不能準(zhǔn)確反映兩個(gè)框的重疊度的問題,使回歸在真實(shí)框與目標(biāo)框有重疊甚至包含時(shí)更準(zhǔn)確、更快。本文使用CIoU代替原始的邊界框損失函數(shù)IoU來直接優(yōu)化,以使邊界框檢測更加準(zhǔn)確,加快了回歸的速度。因此,把CIoU損失函數(shù)應(yīng)用在本文改進(jìn)的方法中。(3-11)l表示預(yù)測框和真實(shí)框的中心點(diǎn)之間的歐幾里得距離,和表示真實(shí)框和預(yù)測框的中心,α是平衡因子參數(shù),C表示預(yù)測框和真實(shí)框的最小外圍矩形的對(duì)角線距離,υ是形狀懲罰,用于測量長寬比比例的相似度參數(shù),是用來衡量真實(shí)框和預(yù)測框。α和v的計(jì)算方法如式(3-12)和(3-13)所示。(3-12)(3-13)1.5實(shí)驗(yàn)結(jié)果與分析1.5.1實(shí)驗(yàn)數(shù)據(jù)集因?yàn)楸疚氖菍?duì)交通場景下的車輛行人檢測,在數(shù)據(jù)集的選擇上要考慮交通場景及應(yīng)用。數(shù)據(jù)圖像也廣泛多樣化。因此,選擇了KITTI數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),該數(shù)據(jù)集是由德國的卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院共同創(chuàng)建的,是基于智能自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)集,計(jì)算機(jī)視覺技術(shù)如目標(biāo)檢測、目標(biāo)跟蹤和目標(biāo)分割都用該數(shù)據(jù)集測評(píng)[48]。而且數(shù)據(jù)集中的圖片提供了各種真實(shí)的駕駛場景,如圖3-8所示,包括了街道、高速公路、鄉(xiāng)村和市區(qū)等不同場景。數(shù)據(jù)集圖片中汽車車輛的數(shù)量較多且車輛目標(biāo)的尺寸比較大,而行人目標(biāo)的尺寸比較小,檢測存在的問題是車輛行人目標(biāo)的在圖片中占的比重較小,目標(biāo)多尺度變化、目標(biāo)間容易互相遮擋,難檢測。圖3-8KITTI數(shù)據(jù)集圖片示例圖Fig.3-8SamplePictureofKITTIDataSet本文實(shí)驗(yàn)使用的是用于目標(biāo)檢測的KITTI2D數(shù)據(jù)集,含有標(biāo)注信息的有7481張訓(xùn)練圖片,每張圖片里面包含車輛,行人,還有騎行者,圖片的尺寸大小通常是1242×375。數(shù)據(jù)集中一共8個(gè)類別,有Car,Van,Truck,Pedestrian等,本文研究車輛行人檢測,所以對(duì)數(shù)據(jù)集進(jìn)行篩選,將Van、Truck、Tram標(biāo)記為Car,與Car類進(jìn)行合并。不考慮騎行者,忽略其他無關(guān)因素。將KITTI數(shù)據(jù)集按照VOC數(shù)據(jù)集的格式轉(zhuǎn)化,最后的實(shí)驗(yàn)數(shù)據(jù)集有2個(gè)目標(biāo)類別,車輛和行人。數(shù)據(jù)集中的7481張有標(biāo)注的圖片分為5000張的訓(xùn)練數(shù)據(jù),2481張圖片作為測試數(shù)據(jù)。1.5.2實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置本文的實(shí)驗(yàn)環(huán)境如表3-1所示。表3-1實(shí)驗(yàn)環(huán)境Table3-1Experimentalenvironment實(shí)驗(yàn)環(huán)境配置操作系統(tǒng)Windows10CPUIntel(R)Core(TM)i7-6100GPUNVIDIAGeForceGTX1080Ti內(nèi)存64GB深度學(xué)習(xí)框架PyTorch編程語言Python1.6實(shí)驗(yàn)的參數(shù)設(shè)置:輸入圖片的大小是300×300,批處理大小設(shè)置為8,使用隨機(jī)梯度下降方法進(jìn)行優(yōu)化參數(shù),權(quán)重衰減設(shè)為0.0005,動(dòng)量設(shè)置成0.9;訓(xùn)練的初始學(xué)習(xí)率設(shè)為0.001,在KITTI數(shù)據(jù)集上總迭代10000次,模型訓(xùn)練迭代到5000次時(shí),將學(xué)習(xí)率降為0.0005,模型繼續(xù)收斂,迭代到8000次時(shí),將學(xué)習(xí)率設(shè)置為0.0001,繼續(xù)迭代直到學(xué)習(xí)率衰減成0.00001,迭代到10000次訓(xùn)練結(jié)束。1.5.3實(shí)驗(yàn)結(jié)果與分析(1)本文算法與其他算法對(duì)比為了進(jìn)一步驗(yàn)證本文方法的性能,將其他的方法FSSD[49],YOLOV3[50]與本文算法在KITTI數(shù)據(jù)集進(jìn)行對(duì)比,對(duì)比的結(jié)果如表3-2所示。表3-2各種算法性能比較Table3-2Performancecomparisonofvariousalgorithms模型Precision%Recall%mAP%FPSSSD88.566.175.541FSSD87.367.475.830YOLOV388.169.178.437本章方法89.269.678.844通過表3-2可以看出,本章改進(jìn)SSD的方法,模型中加入雙注意力模塊的雙向特征金字塔,發(fā)現(xiàn)模型的準(zhǔn)確率是89.2%,召回率是69.6%。相對(duì)于SSD模型的88.5%和66.1%,準(zhǔn)確率上升了0.7%,召回率也上升了1.5%。本文方法和FSSD模型對(duì)比,準(zhǔn)確率上升了1.9%,召回率上升了2.2%。這表明本章改進(jìn)的方法能有效提升車輛行人目標(biāo)檢測的準(zhǔn)確率,通過改變特征融合的方式,本章改進(jìn)的方法的mAP平均精度達(dá)到了78.8%,檢測精度對(duì)比其他方法都提高了。與YOLOV3模型相比,本文方法準(zhǔn)確率也從88.1%提升到了89.2%了,由于使用了CIoU損失函數(shù)和引入了FocalLoss損失函數(shù),檢測精度也明顯提高了,比YOLOV3提升了0.4個(gè)百分點(diǎn)。從速度上看,原SSD的速度為41幀每秒,本文的檢測速度達(dá)到了43幀每秒。通過本章改進(jìn)的雙注意力模塊的雙向特征金字塔特征融合方法有效的增強(qiáng)了特征的表達(dá),證明了改進(jìn)方法在車輛行人檢測上的性能良好。(2)消融實(shí)驗(yàn)結(jié)果本章改進(jìn)的方法添加了雙注意力模塊的雙向特征金字塔特征融合策略,和改進(jìn)的損失函數(shù),進(jìn)一步討論分析二者對(duì)車輛行人檢測的結(jié)果的影響。在KITTI數(shù)據(jù)集上進(jìn)行測試,將本章方法分為4組實(shí)驗(yàn)進(jìn)行。實(shí)驗(yàn)結(jié)果如表3-3所示。表3-3消融實(shí)驗(yàn)結(jié)果Table3-3Ablationtest
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026福建水投集團(tuán)泰寧水務(wù)有限公司招聘2人考試重點(diǎn)題庫及答案解析
- 2026年齊齊哈爾高等師范專科學(xué)校單招綜合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026年鄭州電子信息職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考題庫含詳細(xì)答案解析
- 2026年江西旅游商貿(mào)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫及答案詳細(xì)解析
- 2026年上海杉達(dá)學(xué)院單招職業(yè)技能考試備考題庫含詳細(xì)答案解析
- 2026年江西科技學(xué)院單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026年湖北生物科技職業(yè)學(xué)院單招綜合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026山西省人民醫(yī)院招聘博士研究生50人考試參考試題及答案解析
- 2026年湖南國防工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026年麗江師范高等專科學(xué)校單招職業(yè)技能考試參考題庫含詳細(xì)答案解析
- 仁愛科普版(2024)八年級(jí)上冊(cè)英語Unit1~Unit6單元話題作文練習(xí)題(含答案+范文)
- 2025天津市水務(wù)規(guī)劃勘測設(shè)計(jì)有限公司招聘18人筆試歷年參考題庫附帶答案詳解
- 安徽寧馬投資有限責(zé)任公司2025年招聘派遣制工作人員考試筆試模擬試題及答案解析
- 2024-2025學(xué)年云南省昆明市五華區(qū)高一上學(xué)期期末質(zhì)量監(jiān)測歷史試題(解析版)
- 建筑坍塌應(yīng)急救援規(guī)程
- 胰腺常見囊性腫瘤的CT診斷
- 房屋尾款交付合同(標(biāo)準(zhǔn)版)
- 檢測設(shè)備集成優(yōu)化方案
- 2025數(shù)據(jù)中心液冷系統(tǒng)技術(shù)規(guī)程
- 2021-2025年河南省中考英語試題分類匯編:短文選詞填空(學(xué)生版)
- 2025年江蘇醫(yī)藥行業(yè)分析報(bào)告及未來發(fā)展趨勢預(yù)測
評(píng)論
0/150
提交評(píng)論