【《基于Yolov3的車輛目標(biāo)檢測算法設(shè)計》16000字(論文)】_第1頁
【《基于Yolov3的車輛目標(biāo)檢測算法設(shè)計》16000字(論文)】_第2頁
【《基于Yolov3的車輛目標(biāo)檢測算法設(shè)計》16000字(論文)】_第3頁
【《基于Yolov3的車輛目標(biāo)檢測算法設(shè)計》16000字(論文)】_第4頁
【《基于Yolov3的車輛目標(biāo)檢測算法設(shè)計》16000字(論文)】_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于Yolov3的車輛目標(biāo)檢測算法設(shè)計摘要近年來,隨著經(jīng)濟的發(fā)展,城市汽車保有量大幅提升,造成了嚴(yán)重的交通問題。同時隨著人工智能、深度學(xué)習(xí)技術(shù)的發(fā)展,自動駕駛技術(shù)也開始逐漸出現(xiàn)。而汽車目標(biāo)檢測這項技術(shù)正是對上述最不可或缺的技術(shù)支持。傳統(tǒng)的汽車目標(biāo)檢測技術(shù)有著速度慢、檢測精度低、適應(yīng)性差、對分類器設(shè)計人要求高等特點,不太適宜與于現(xiàn)在汽車目標(biāo)檢測的要求。而基于深度學(xué)習(xí)的汽車目標(biāo)檢測卻有著速度快、精度高、易遷移、使用要求低等特點。本論文基于深度學(xué)習(xí)的目標(biāo)檢測方法仿真通過對FasterRCNN與YOLOv3兩個網(wǎng)絡(luò)的研究,改善其網(wǎng)絡(luò)中的卷積神經(jīng)網(wǎng)絡(luò),同時通過重新聚類的方式形成了新的錨框,提升了檢測精度、速度和見笑了模型體積。同時還對比了兩個網(wǎng)絡(luò)地優(yōu)缺點,分析了其產(chǎn)生的原因。關(guān)鍵詞:FasterRCNN;YOLOv3;卷積神經(jīng)網(wǎng)絡(luò);錨框目錄232521引言 1246921.1汽車目標(biāo)檢測研究背景 1245991.2本文有關(guān)工作 1176212概述 2276762.1汽車目標(biāo)檢測概述 2134312.2汽車目標(biāo)檢測關(guān)鍵任務(wù)、難點及技術(shù)指標(biāo) 294122.3現(xiàn)有研究成果 3112472.4本文組織結(jié)構(gòu) 4127133基于FasterRCNN的車輛目標(biāo)檢測算法設(shè)計 693403.1兩級目標(biāo)檢測算法原理 6324913.2FasterRCNN算法原理 6230643.2.1特征提取網(wǎng)絡(luò) 6162733.2.2區(qū)域產(chǎn)生網(wǎng)絡(luò) 7181373.2.3目標(biāo)檢測網(wǎng)絡(luò) 9296583.3本章小結(jié) 1098464基于Yolov3的車輛目標(biāo)檢測算法設(shè)計 1169644.1單級目標(biāo)檢測算法原理 11109994.2yolov3檢測原理 11139944.2.1候選區(qū)域產(chǎn)生 1150734.2.2特征提取網(wǎng)絡(luò) 13102504.2.3損失函數(shù)建立 1489634.3本章小結(jié) 1569425實驗及結(jié)果分析 1620265.1實驗環(huán)境與模型訓(xùn)練 16208955.1.1使用深度學(xué)習(xí)框架介紹 16219905.1.2數(shù)據(jù)集介紹 17122375.1.3實驗環(huán)境配置介紹 1733425.2車輛檢測結(jié)果分析 1858515.2.1改進(jìn)特征提取網(wǎng)絡(luò)分析 18116405.2.2錨框重新設(shè)置性能分析 21172845.2.3兩算法對比分析 23209705.3本章小結(jié) 25231756本文工作總結(jié) 26299366.1本文總結(jié) 26230146.2展望 267437參考文獻(xiàn) 28-PAGE1-1引言1.1汽車目標(biāo)檢測研究背景隨著社會經(jīng)濟的發(fā)展,城市化進(jìn)程的推進(jìn),人民生活水準(zhǔn)不斷提高,擁有一輛汽車成為了人民群眾生活富裕的標(biāo)志。在這一觀念的影響下,我國汽車保有量不斷增加。僅僅只是2020一年,我國新領(lǐng)證駕駛?cè)诉_(dá)2231萬人、新注冊登記機動車3328萬輛,與去年同期相比增加114萬輛。而據(jù)公安部統(tǒng)計,截止2020年,全國汽車保有量已達(dá)2.81億輛;汽車駕駛?cè)艘堰_(dá)4.18億人。ADDINEN.CITE<EndNote><Cite><Author>陳志炳</Author><Year>2021-1-18</Year><RecNum>21</RecNum><DisplayText><styleface="superscript">[1]</style></DisplayText><record><rec-number>21</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1620395346">21</key></foreign-keys><ref-typename="OnlineDatabase">45</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">陳志炳</style></author></authors></contributors><titles><title><styleface="normal"font="default"size="100%">2020</style><styleface="normal"font="default"charset="134"size="100%">年中國汽車保有量數(shù)據(jù)報告</style></title></titles><dates><year>2021-1-18</year></dates><urls><related-urls><url>/data/reports/specil/202118/36598.html</url></related-urls></urls></record></Cite></EndNote>[1]從這組數(shù)據(jù)從可以看出,一方面汽車保有量已達(dá)到相當(dāng)龐大的數(shù)字,另一方面,汽車駕駛?cè)藬?shù)與汽車保有量之間存在這巨大的差距,汽車駕駛?cè)藬?shù)遠(yuǎn)遠(yuǎn)多于汽車擁有量,兩者相差1.3億多,這反映出未來汽車保有量仍會急劇提升。越發(fā)增多的汽車保有量與有限的城市道路交通空間成為了當(dāng)今交通建設(shè)的主要矛盾,出現(xiàn)了道路擁擠甚至交通事故頻發(fā)等問題。近年來,隨著人工智能、深度學(xué)習(xí)技術(shù)的發(fā)展,技術(shù)人員通過“互聯(lián)網(wǎng)+交通”這一組有機結(jié)合,提出了智慧交通系統(tǒng)ADDINEN.CITE<EndNote><Cite><Author>金茂菁</Author><Year>2012</Year><RecNum>22</RecNum><DisplayText><styleface="superscript">[2]</style></DisplayText><record><rec-number>22</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1620397303">22</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">金茂菁</style></author></authors></contributors><auth-address><styleface="normal"font="default"charset="134"size="100%">科學(xué)技術(shù)部高技術(shù)研究發(fā)展中心</style><styleface="normal"font="default"size="100%">;</style></auth-address><titles><title><styleface="normal"font="default"charset="134"size="100%">我國智能交通系統(tǒng)技術(shù)發(fā)展現(xiàn)狀及展望</style><styleface="normal"font="default"size="100%"></style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">交通信息與安全</style></secondary-title></titles><periodical><full-title>交通信息與安全</full-title></periodical><pages>1-5</pages><volume>30</volume><number>05</number><keywords><keyword>智能交通系統(tǒng)</keyword><keyword>交通運輸</keyword><keyword>技術(shù)現(xiàn)狀</keyword><keyword>發(fā)展趨勢</keyword></keywords><dates><year>2012</year></dates><isbn>1674-4861</isbn><call-num>42-1781/U</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[2]這一概念,基于這一概念在城市交通場景中實際實施,降低了道路交通擁堵率、減少了交通事故的發(fā)生,大大緩解了車與路之間的矛盾,為我國智慧城市治理提供了強大助力。而在這一系統(tǒng)中,如何利用汽車目標(biāo)檢測技術(shù),對汽車在不同環(huán)境、不同情況進(jìn)行高效且準(zhǔn)確的目標(biāo)檢測,成為了重要基礎(chǔ)、關(guān)鍵所在。傳統(tǒng)的目標(biāo)檢測基于統(tǒng)計學(xué)方法,針對目標(biāo)數(shù)據(jù)集,首先通過窮舉策略進(jìn)行區(qū)域選擇,一般采用滑動窗口,且設(shè)置不同的大??;其次根據(jù)檢測目標(biāo)進(jìn)行特征提??;然后訓(xùn)練所有目標(biāo)數(shù)據(jù),得到最佳分類器;最后再通過滑動窗口和分類器相結(jié)合的方式對圖像檢測識別。一方面,由于在區(qū)域選擇中采取了滑動窗口策略,針對不同的長寬比對圖像進(jìn)行遍歷,時間復(fù)雜度高,耗費時間長;另一方面,針對目標(biāo)進(jìn)行特征提取,面臨著形態(tài)多樣性、光照變化多樣性、背景多樣性等多方面難題,使得特征魯棒性差。這使得對目標(biāo)檢測的分類器設(shè)置有極高的要求,設(shè)計者需要具有長期的工作經(jīng)驗與總結(jié)能力,才能減少車輛大小與其他目標(biāo)的分辨不一致,環(huán)境如光照、攝像頭角度不同的影響,從而提升系統(tǒng)的魯棒性與泛用性。相比與傳統(tǒng)目標(biāo)檢測,當(dāng)下新的目標(biāo)檢測有了很大的進(jìn)步。這是因為近年來,隨著目標(biāo)檢測理論更進(jìn)一步的得研究,諸多學(xué)者提出了一系列優(yōu)秀的算法。與此同時,硬件設(shè)備計算性能大幅提升、價格也逐步下降,硬件性價比提升顯著。正是基于當(dāng)下的大環(huán)境,本文所采用的基于深度學(xué)習(xí)的目標(biāo)檢測,采用卷積神經(jīng)網(wǎng)絡(luò),大大提升了檢測的準(zhǔn)確性以及速度,適合當(dāng)下對汽車目標(biāo)檢測的需要。1.2本文有關(guān)工作本畢業(yè)設(shè)計內(nèi)容為基于深度學(xué)習(xí)的汽車目標(biāo)檢測。其主要內(nèi)容為利用卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取能力,提升速度以及準(zhǔn)確性。同時研究兩種目標(biāo)檢測算法,一種是以Yolov3為代表的One-stage(單級目標(biāo)檢測算法),另一種是以Faster-Rcnn為代表的Two-stage(兩級目標(biāo)檢測算法)。最后對兩種目標(biāo)檢測效果進(jìn)行分析。本文的主要研究內(nèi)容包括:對兩級目標(biāo)檢測算法原理、Faster-Rcnn檢測算法進(jìn)行分析對單級目標(biāo)檢測算法原理、Yolov3檢測算法進(jìn)行分析改進(jìn)優(yōu)化兩個算法特征提取網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò),并對兩個算法的性能、優(yōu)缺點進(jìn)行分析對比2概述2.1汽車目標(biāo)檢測概述汽車目標(biāo)檢測的目標(biāo)是從圖像或是視頻中檢測出汽車位置并框選出來。具體來說,就是通過大量訓(xùn)練,做到在檢測到圖像或視頻中有汽車時,實時返回汽車的坐標(biāo)。目前應(yīng)用于汽車目標(biāo)檢測的深度學(xué)習(xí)算法大致分為兩個方向,分別是基于候選窗口的雙階段目標(biāo)檢測算法和基于回歸運算的單階段目標(biāo)檢測算法。ADDINEN.CITE<EndNote><Cite><Author>吳帥</Author><Year>2018</Year><RecNum>27</RecNum><DisplayText><styleface="superscript">[3]</style></DisplayText><record><rec-number>27</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621157029">27</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">吳帥</style></author><author><styleface="normal"font="default"charset="134"size="100%">徐勇</style></author><author><styleface="normal"font="default"charset="134"size="100%">趙東寧</style><styleface="normal"font="default"size="100%"></style></author></authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測綜述</style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">模式識別與人工智能</style></secondary-title></titles><periodical><full-title>模式識別與人工智能</full-title></periodical><pages>335-346</pages><volume>31</volume><number>04</number><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[3]兩者最主要的區(qū)別是雙階段目標(biāo)檢測算法需要在圖像上提取候選框,然后再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識別,而單階段目標(biāo)檢測算法不需要產(chǎn)生候選框,而是直接將目標(biāo)檢測當(dāng)作一個單一的回歸任務(wù)。前者主要的典型算法有R-CNNADDINEN.CITE<EndNote><Cite><Author>Girshick</Author><Year>2013</Year><RecNum>23</RecNum><DisplayText><styleface="superscript">[4]</style></DisplayText><record><rec-number>23</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621133911">23</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Girshick,R.</author><author>Donahue,J.</author><author>Darrell,T.</author><author>Malik,J.%JIEEEComputerSociety</author></authors></contributors><titles><title>RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation</title><secondary-title>IEEEComputerSociety</secondary-title></titles><periodical><full-title>IEEEComputerSociety</full-title></periodical><dates><year>2013</year></dates><urls></urls></record></Cite></EndNote>[4]、FasterR-CNNADDINEN.CITE<EndNote><Cite><Author>Ren</Author><Year>2017</Year><RecNum>24</RecNum><DisplayText><styleface="superscript">[5]</style></DisplayText><record><rec-number>24</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621134296">24</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Ren,S.</author><author>He,K.</author><author>Girshick,R.</author><author>Sun,J.%JIEEETransactionsonPatternAnalysis</author><author>MachineIntelligence</author></authors></contributors><titles><title>FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks</title><secondary-title>IEEETransactionsonPatternAnalysis&MachineIntelligence</secondary-title></titles><periodical><full-title>IEEETransactionsonPatternAnalysis&MachineIntelligence</full-title></periodical><pages>1137-1149</pages><volume>39</volume><number>6</number><dates><year>2017</year></dates><urls></urls></record></Cite></EndNote>[5]算法等,這些方法都是使用區(qū)域推薦產(chǎn)生候選目標(biāo),隨后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。由于需要產(chǎn)生候選框,此類方法在精度上有很大地提升,但是速度上卻不太理想;后者主要的典型算法有YOLOADDINEN.CITE<EndNote><Cite><Author>Redmon</Author><Year>2016</Year><RecNum>25</RecNum><DisplayText><styleface="superscript">[6]</style></DisplayText><record><rec-number>25</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621155725">25</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Redmon,J.</author><author>Divvala,S.</author><author>Girshick,R.</author><author>Farhadi,A.%JIEEE</author></authors></contributors><titles><title>YouOnlyLookOnce:Unified,Real-TimeObjectDetection</title><secondary-title>IEEE</secondary-title></titles><periodical><full-title>IEEE</full-title></periodical><dates><year>2016</year></dates><urls></urls></record></Cite></EndNote>[6]系列、SSDADDINEN.CITE<EndNote><Cite><Author>Liu</Author><Year>2016</Year><RecNum>26</RecNum><DisplayText><styleface="superscript">[7]</style></DisplayText><record><rec-number>26</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621155919">26</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Liu,W.</author><author>Anguelov,D.</author><author>Erhan,D.</author><author>Szegedy,C.</author><author>Reed,S.</author><author>Fu,C.Y.</author><author>Berg,A.C.%JEuropeanConferenceonComputerVision</author></authors></contributors><titles><title>SSD:SingleShotMultiBoxDetector</title><secondary-title>EuropeanConferenceonComputerVision</secondary-title></titles><periodical><full-title>EuropeanConferenceonComputerVision</full-title></periodical><dates><year>2016</year></dates><urls></urls></record></Cite></EndNote>[7]算法等,這些算法不需要區(qū)域推薦直接對目標(biāo)邊框進(jìn)行回歸運算。單階段檢測算法具有很好的檢測速度但是檢測精度卻不如雙階段算法。本論文選擇了FasterR-CNN算法作為雙階段檢測算法的代表,選擇了YOLOV3算法作為單階段檢測算法的代表。2.2汽車目標(biāo)檢測關(guān)鍵任務(wù)、難點及技術(shù)指標(biāo)汽車目標(biāo)檢測的關(guān)鍵任務(wù)便是快速準(zhǔn)確的檢測出圖像中的車輛。但是受限于環(huán)境的變化、硬件設(shè)備的限制、現(xiàn)有算法的約束,對于小目標(biāo)物體檢測、實時性檢測、目標(biāo)重疊問題、物體部分遮擋問題,仍然有十分大的難度。本論文嘗試通過優(yōu)化特征提取網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò),特定環(huán)境下的參數(shù)調(diào)整來解決一部分上述問題。在介紹本論文技術(shù)指標(biāo)之前,首先需要了解四個常見的評價術(shù)語:(1)Truepositives(TP),即正樣本被正確分為正樣本的數(shù)量。(2)Falsepositives(FP),即負(fù)樣本被錯誤分為正樣本的數(shù)量。(3)Falsenegatives(FN),即正樣本被錯誤分為負(fù)樣本的數(shù)量。(4)Truenegatives(TN),即負(fù)樣本被正確分為負(fù)樣本的數(shù)量。評估檢測算法性能有三個常用標(biāo)準(zhǔn):(1)準(zhǔn)確率(Precision),即預(yù)測正確的部分占預(yù)測結(jié)果的比例,簡稱為。(2)召回率(recall),即預(yù)測正確的部分占被分為正樣本的比例,Recall。而將召回率和準(zhǔn)確率作為橫、縱坐標(biāo),并選定一個固定的閾值,得到的二維曲線被稱為P-R曲線。P-R曲線圍起來的面積被稱為平均精確度(AveragePrecision,AP)。將多個不同的對象求平均AP值被稱為mAP(MeanAveragePrecision)。mAP值越高,檢測效果越好。(3)每秒幀率(FramePerSecond,F(xiàn)PS),即每秒內(nèi)可以處理圖像幀數(shù)。同時,還有兩個概念也經(jīng)常出現(xiàn)在目標(biāo)檢測中:(1)交并比(IntersectionofUnion,IoU),即候選框與人工標(biāo)注框之間的重合度,兩個框可以看成兩個像素的集合,它們的交并比等于兩個框重合部分的面積除以它們合并起來的面積。(2)非極大值抑制(NonMaximumSuppression,NMS),即抑制不是極大值的元素,搜索局部的極大值。目標(biāo)檢測會從一張圖片中找出很多個可能是物體的矩形框,然后為每個矩形框為做類別分類概率,通過特定算法找到最適合的框。如圖2-1所示。圖2-1NMS去冗余框2.3現(xiàn)有研究成果2012年深度學(xué)習(xí)逐漸興起。學(xué)術(shù)界發(fā)現(xiàn)通過卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行分類有較好的效果。于是在2014年,R.Girshick等人第一次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測上并且獲得了比只使用HOG特征更高的準(zhǔn)確率。該網(wǎng)絡(luò)稱為RCNN。后續(xù)為了讓RCNN效果更加好,R.Girshick等人在2015年通過改善特征提取網(wǎng)絡(luò),提出了FastRCNN。而ShaoqingRen等人在Fast-Rcnn的基礎(chǔ)上提出一種采用新的區(qū)域生成網(wǎng)絡(luò)的FasterRCNN。相比于上述算法耗時這類通病,JosephRedmon等人在2015年提出了YOLO模型,該模型具有運行速度快,泛化能力強等優(yōu)點。但同時也產(chǎn)生了小物體不易檢測、物體定位不準(zhǔn)等問題。為了解決這類問題,研究人員對YOLO網(wǎng)絡(luò)進(jìn)行了不同改善,產(chǎn)生了YOLOv2,YOLOv3,SSD等網(wǎng)絡(luò)。ADDINEN.CITE<EndNote><Cite><Author>Zou</Author><Year>2019</Year><RecNum>28</RecNum><DisplayText><styleface="superscript">[8]</style></DisplayText><record><rec-number>28</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621176647">28</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Zou,Z.</author><author>Shi,Z.</author><author>Guo,Y.</author><author>Ye,J.</author></authors></contributors><titles><title>ObjectDetectionin20Years:ASurvey</title></titles><dates><year>2019</year></dates><urls></urls></record></Cite></EndNote>[8]圖2-2目標(biāo)檢測歷史國內(nèi)對汽車目標(biāo)檢測研究起步略晚,但也取得了不錯的成績。朱茂桃等人在2018年發(fā)表基于RCNN的車輛檢測方法研究。主要為使用TensorFlow框架構(gòu)建FasterRCNN算法,并在檢測的準(zhǔn)確率和速度上與RCNN,SPPnet,FastRCNN進(jìn)行對比。ADDINEN.CITE<EndNote><Cite><Author>朱茂桃</Author><Year>2018</Year><RecNum>31</RecNum><DisplayText><styleface="superscript">[9]</style></DisplayText><record><rec-number>31</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621259898">31</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">朱茂桃</style></author><author><styleface="normal"font="default"charset="134"size="100%">張鴻翔</style></author><author><styleface="normal"font="default"charset="134"size="100%">方瑞華</style></author></authors></contributors><auth-address><styleface="normal"font="default"charset="134"size="100%">江蘇大學(xué)汽車與交通工程學(xué)院</style><styleface="normal"font="default"size="100%">;</style><styleface="normal"font="default"charset="134"size="100%">上海干巷車鏡實業(yè)有限公司</style><styleface="normal"font="default"size="100%">;</style></auth-address><titles><title><styleface="normal"font="default"charset="134"size="100%">基于</style><styleface="normal"font="default"size="100%">RCNN</style><styleface="normal"font="default"charset="134"size="100%">的車輛檢測方法研究</style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">機電工程</style></secondary-title></titles><periodical><full-title>機電工程</full-title></periodical><pages>880-885</pages><volume>35</volume><number>08</number><keywords><keyword>汽車工程</keyword><keyword>輔助駕駛</keyword><keyword>車輛檢測</keyword><keyword>深度學(xué)習(xí)</keyword><keyword>區(qū)域提議網(wǎng)絡(luò)</keyword><keyword>卷積神經(jīng)網(wǎng)絡(luò)</keyword></keywords><dates><year>2018</year></dates><isbn>1001-4551</isbn><call-num>33-1088/TH</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[9]史凱靜等人在2018年發(fā)表基于FasterRCNN的智能車道路前方車輛檢測方法。將FasterRCNN模型與ZF、VGG_CNN_M_1024、VGG-16三種網(wǎng)絡(luò)相結(jié)合,提出的改進(jìn)算法提高了檢測的準(zhǔn)確性和魯棒性。ADDINEN.CITE<EndNote><Cite><Author>史凱靜</Author><Year>2018</Year><RecNum>32</RecNum><DisplayText><styleface="superscript">[10]</style></DisplayText><record><rec-number>32</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621259997">32</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">史凱靜</style></author><author><styleface="normal"font="default"charset="134"size="100%">鮑泓</style></author><author><styleface="normal"font="default"charset="134"size="100%">徐冰心</style></author><author><styleface="normal"font="default"charset="134"size="100%">潘衛(wèi)國</style></author><author><styleface="normal"font="default"charset="134"size="100%">鄭穎</style></author></authors></contributors><auth-address><styleface="normal"font="default"charset="134"size="100%">北京聯(lián)合大學(xué)北京市信息服務(wù)工程重點實驗室</style><styleface="normal"font="default"size="100%">;</style></auth-address><titles><title><styleface="normal"font="default"charset="134"size="100%">基于</style><styleface="normal"font="default"size="100%">FasterRCNN</style><styleface="normal"font="default"charset="134"size="100%">的智能車道路前方車輛檢測方法</style><styleface="normal"font="default"size="100%"></style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">計算機工程</style></secondary-title></titles><periodical><full-title>計算機工程</full-title></periodical><pages>36-41</pages><volume>44</volume><number>07</number><keywords><keyword>智能車</keyword><keyword>前方車輛</keyword><keyword>深度卷積神經(jīng)網(wǎng)絡(luò)</keyword><keyword>訓(xùn)練模型</keyword><keyword>準(zhǔn)確率</keyword></keywords><dates><year>2018</year></dates><isbn>1000-3428</isbn><call-num>31-1289/TP</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[10]張富凱等人在2019年發(fā)表基于改進(jìn)YOLOv3的快速車輛檢測方法。在YOLOv3的基礎(chǔ)上,將六個尺度的卷積特征圖和殘差網(wǎng)絡(luò)提取出的特征進(jìn)行融合,提出一種單階段DF-YOLOv3算法。ADDINEN.CITE<EndNote><Cite><Author>張富凱</Author><Year>2019</Year><RecNum>33</RecNum><DisplayText><styleface="superscript">[11]</style></DisplayText><record><rec-number>33</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621260084">33</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">張富凱</style></author><author><styleface="normal"font="default"charset="134"size="100%">楊峰</style></author><author><styleface="normal"font="default"charset="134"size="100%">李策</style></author></authors></contributors><auth-address><styleface="normal"font="default"charset="134"size="100%">中國礦業(yè)大學(xué)</style><styleface="normal"font="default"size="100%">(</style><styleface="normal"font="default"charset="134"size="100%">北京</style><styleface="normal"font="default"size="100%">)</style><styleface="normal"font="default"charset="134"size="100%">機電與信息工程學(xué)院</style><styleface="normal"font="default"size="100%">;</style></auth-address><titles><title><styleface="normal"font="default"charset="134"size="100%">基于改進(jìn)</style><styleface="normal"font="default"size="100%">YOLOv3</style><styleface="normal"font="default"charset="134"size="100%">的快速車輛檢測方法</style></title><secondary-title><styleface="normal"font="default"charset="134"size="100%">計算機工程與應(yīng)用</style></secondary-title></titles><periodical><full-title>計算機工程與應(yīng)用</full-title></periodical><pages>12-20</pages><volume>55</volume><number>02</number><keywords><keyword>車輛檢測</keyword><keyword>特征融合</keyword><keyword>卷積神經(jīng)網(wǎng)絡(luò)</keyword><keyword>實時檢測</keyword><keyword>YOLOv3</keyword></keywords><dates><year>2019</year></dates><isbn>1002-8331</isbn><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[11]鄭冬等人在2019年發(fā)表基于輕量化SSD的車輛及行人檢測網(wǎng)絡(luò)。首先使用MobilNetv2代替VGG進(jìn)行特征提取,再使用SSDLite代替SSD。提出了基于輕量化SSD的LVP-DN模型,實現(xiàn)了模型的輕量化。ADDINEN.CITEADDINEN.CITE.DATA[12]2.4本文組織結(jié)構(gòu)本文組織結(jié)構(gòu)主要由六章組成:第一章為引言,介紹了汽車目標(biāo)檢測研究背景和有關(guān)工作。第二章為概述,介紹了汽車目標(biāo)檢測的大致原理、技術(shù)難點與評判標(biāo)準(zhǔn),進(jìn)而介紹了目標(biāo)檢測和汽車目標(biāo)檢測的國內(nèi)外研究現(xiàn)狀。第三章主要介紹兩級目標(biāo)檢測以及為代表的FasterRCNN目標(biāo)檢測算法。分析了其主要網(wǎng)絡(luò)架構(gòu),并對其特征提取網(wǎng)絡(luò)與區(qū)域生成網(wǎng)絡(luò)進(jìn)行改進(jìn)。第四章主要介紹單級目標(biāo)檢測以及為代表的YOLOv3目標(biāo)檢測算法。分析了其主要網(wǎng)絡(luò)架構(gòu),并對其特征提取網(wǎng)絡(luò)與區(qū)域生成網(wǎng)絡(luò)進(jìn)行改進(jìn)。第五章首先介紹了使用的深度學(xué)習(xí)框架百度飛槳框架與PaddleDetection目標(biāo)檢測庫以及使用的汽車數(shù)據(jù)集。最后對改善后的兩個算法框架性能進(jìn)行分析,并比較兩算法的優(yōu)缺點、特性。第六章為本文總結(jié),總結(jié)文章的不足之處和進(jìn)一步研究計劃。

3基于FasterRCNN的車輛目標(biāo)檢測算法設(shè)計3.1兩級目標(biāo)檢測算法原理基于兩級目標(biāo)檢測的車輛檢測方法分兩步,第一步通過專用模塊去生成候選框,尋找物體以及調(diào)整候選框。第二步再基于滑動窗口思想將多個候選區(qū)域圖像按照相同尺寸輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類以及回歸操作。其特點是檢測剛準(zhǔn)確,但也相對耗時間。3.2FasterRCNN算法原理FasterRCNN網(wǎng)絡(luò)架構(gòu)由3個網(wǎng)絡(luò)組成,分別是特征提取(FeatureExtraction)網(wǎng)絡(luò)、區(qū)域產(chǎn)生(RegionProducedNetwork,RPN)網(wǎng)絡(luò)和目標(biāo)檢測分類和識別(ROIHead)網(wǎng)絡(luò),如圖3-1所示。特征提取模塊也就是我們深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò),用來提取圖像特征。區(qū)域產(chǎn)生網(wǎng)絡(luò)是該算法的創(chuàng)新部分,與前兩代網(wǎng)絡(luò)采用SelectiveSearch算法滑動窗口不同,這里采用了對特征圖中的每個點作為中心點生成多個大小比例不同的錨框的方式。RoiHead模塊和FastRCNN一致是用來對所生成的候選區(qū)進(jìn)行目標(biāo)分類以及位置的修正回歸??偟腇asterR-CNN算法流程可分為3個步驟:(1)將圖像輸入網(wǎng)絡(luò)得到相應(yīng)的特征圖(2)使用RPN結(jié)構(gòu)生成候選框,將RPN生成的候選框投影到特征圖上獲得相應(yīng)的特征矩陣(3)將每個特征矩陣通過ROIpooling層縮放到7x7大小的特征圖,接著將特征圖展平通過一系列全連接層得到預(yù)測結(jié)果。圖3-1FasterRCNN網(wǎng)絡(luò)3.2.1特征提取網(wǎng)絡(luò)特征提取網(wǎng)絡(luò)即卷積神經(jīng)網(wǎng)絡(luò),一般選擇被廣泛使用的網(wǎng)絡(luò)架構(gòu)來實現(xiàn)圖像特征的提取,在目標(biāo)檢測中特征提取網(wǎng)絡(luò)又稱為backbone。在FasterRCNN中采用了VGG16網(wǎng)絡(luò)。VGG16網(wǎng)絡(luò)具有良好的適配性,可以針對許多數(shù)據(jù)集。這一網(wǎng)絡(luò)含有13個卷基層,13個激活函數(shù)層和4個池化層。ADDINEN.CITE<EndNote><Cite><Author>Simonyan</Author><Year>2014</Year><RecNum>29</RecNum><DisplayText><styleface="superscript">[13]</style></DisplayText><record><rec-number>29</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621258674">29</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Simonyan,K.</author><author>Zisserman,A.%JComputerScience</author></authors></contributors><titles><title>VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition</title><secondary-title>ComputerScience</secondary-title></titles><periodical><full-title>ComputerScience</full-title></periodical><dates><year>2014</year></dates><urls></urls></record></Cite></EndNote>[13]如圖3-2所示。特征提取網(wǎng)絡(luò)提取出的特征可以說是整個網(wǎng)絡(luò)最基礎(chǔ)的一步,由于特征將被傳輸?shù)絉PN生成目標(biāo)候選區(qū)與ROIHead網(wǎng)絡(luò)進(jìn)行圖像中的目標(biāo)分類與位置回歸,可以說特征質(zhì)量的好壞決定了一個算法實際落地時能否達(dá)到我們要求的標(biāo)準(zhǔn)。當(dāng)然,與VGG16特征提取網(wǎng)絡(luò)不同,當(dāng)下的學(xué)界也提出了眾多種類的特征提取網(wǎng)絡(luò),相比VGG16有了更大的進(jìn)步。這將在第五章進(jìn)行講解。圖3-2VGG16結(jié)構(gòu)圖3.2.2區(qū)域產(chǎn)生網(wǎng)絡(luò)區(qū)域生成網(wǎng)絡(luò)分為兩部分。首先是錨框生成部分,通過將特征圖像的每個像素點作為中心點,生成若干個大小比例不同的邊界框(anchor)。在該算法中,特征圖每個位置生成若干個個錨框,一般為9個。見圖3-3所示。圖中紅色、藍(lán)色和綠色代表三種anchor,它們的大小不同。每種anchor又分成了長寬比為1:2、1:1.2:1的三個Anchor。原文的anchor對于車輛目標(biāo)檢測不具備針對性,將在第五章對anchor進(jìn)行重新聚類,改進(jìn)。圖3-3錨框生成示意圖上述得到的錨框?qū)⑴c真實框進(jìn)行對比,通過取定IoU的閾值來標(biāo)定這些anchorbox的正負(fù)。這里的正負(fù)樣本表示anchor是否含有物體。一般來說,正樣本為與某一真實框IoU最大的anchor(避免anchor與真實框的IoU都小于0.7情況)或是與任意真實框IoU〉0.7的anchor。而負(fù)樣本是與所有真實框的IoU〈0.3的anchor。于是,傳入RPN網(wǎng)絡(luò)的樣本數(shù)據(jù)被整理為anchorbox(坐標(biāo))給回歸分支和每個anchorbox是否有物體(二分類標(biāo)簽,這里將正樣本幅值為1,表示為物體,負(fù)樣本賦值為0,表示為背景)給分類分支。在回歸分支中,得到的是anchor到真實框的偏移量。具體為:RPN網(wǎng)絡(luò)將每個樣本映射為一個概率值和四個坐標(biāo)值,概率值反應(yīng)這個anchorbox有物體的概率,四個坐標(biāo)值定義物體的位置用于回歸分支。最后將二分類和坐標(biāo)回歸的損失統(tǒng)一起來,作為RPN網(wǎng)絡(luò)的目標(biāo)訓(xùn)練。通過RPN得到的損失函數(shù)來調(diào)整建議框,獲取最后的預(yù)測框。損失函數(shù)為:其中:表示第i個anchor預(yù)測為真實標(biāo)簽的概率當(dāng)為正樣本時為1,當(dāng)為負(fù)樣本時為0表示預(yù)測第i個anchor的邊界框回歸參數(shù)表示第i個anchor對應(yīng)的GTBox的邊界框回歸參數(shù)表示一個mini-batch中的所有樣本數(shù)量256表示anchor位置的個數(shù)(不是anchor個數(shù))約2400為平衡參數(shù),具體為10(這里的256與2400是以ZF網(wǎng)絡(luò)生成的固定大小為256d的特征圖)由RPN得到預(yù)測框在根據(jù)概率值篩選后經(jīng)過類似的標(biāo)記過程,將被傳入目標(biāo)檢測網(wǎng)絡(luò)。總的區(qū)域生成網(wǎng)絡(luò)見圖3-4圖3-4區(qū)域產(chǎn)生網(wǎng)絡(luò)結(jié)構(gòu)3.2.3目標(biāo)檢測網(wǎng)絡(luò)目標(biāo)檢測網(wǎng)絡(luò)主要實現(xiàn)對RPN網(wǎng)絡(luò)產(chǎn)生的區(qū)域進(jìn)行目標(biāo)分類以及位置修正。主要分為感興趣區(qū)域(RolPooling)與檢測頭(BBoxHead,含有Denselayer以及上面兩個分支)。其中,感興趣區(qū)域核心思想便是候選框共享特征圖特征,并保持輸出大小一致。具體為候選框分為若干子區(qū)域,將每個區(qū)域?qū)?yīng)到輸入特征圖上,取每個區(qū)域內(nèi)的最大值作為該區(qū)域地輸出。在訓(xùn)練階段,檢測頭通過得到的特征圖經(jīng)過兩個FC作為分類分支和回歸分支的預(yù)測,計算損失函數(shù)。其中分類分支學(xué)習(xí)每個預(yù)測框類別,回歸分支學(xué)習(xí)每個Roi到真實框的偏移量,損失函數(shù)公式與RPN損失函數(shù)一致。在預(yù)測階段,將檢測頭得到的數(shù)出和RPN網(wǎng)絡(luò)數(shù)出的ROI解碼得到預(yù)測框,再進(jìn)行NMS得到最終預(yù)測結(jié)果。見圖3-5所示。圖3-5訓(xùn)練以及預(yù)測階段3.3本章小結(jié)本章首先介紹了雙階段目標(biāo)檢測的過程。然后詳細(xì)介紹了FasterRCNN特征提取網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò)以及目標(biāo)檢測網(wǎng)絡(luò)。特別是對區(qū)域生成網(wǎng)絡(luò)中的RPN部分進(jìn)行的詳細(xì)介紹。同時也提到了特征提取網(wǎng)絡(luò)以及區(qū)域生成網(wǎng)絡(luò)的一些不足。在第五章中,將對這些不足做出改進(jìn)4基于Yolov3的車輛目標(biāo)檢測算法設(shè)計4.1單級目標(biāo)檢測算法原理基于單級目標(biāo)檢測的車輛檢測方法是基于錨框直接進(jìn)行分類以及調(diào)整邊界框。其優(yōu)點是檢測速度快,缺點是檢測精度低,特別是在小目標(biāo)檢測中檢測效果差。4.2yolov3檢測原理JosephRedmon等人在2015年提出YOLO算法,通常也被稱為YOLOv1;2016年,他們又提出YOLOv2版本;2018年發(fā)展出YOLOv3版本ADDINEN.CITE<EndNote><Cite><Author>Redmon</Author><Year>2018</Year><RecNum>7</RecNum><DisplayText><styleface="superscript">[14]</style></DisplayText><record><rec-number>7</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1615392690">7</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Redmon,Joseph</author><author>Farhadi,Ali</author></authors></contributors><titles><title>YOLOv3:AnIncrementalImprovement</title><secondary-title>arXive-prints</secondary-title></titles><periodical><full-title>arXive-prints</full-title></periodical><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[14]。YOLOv3算法思想可分為兩個部分:(1)按一定規(guī)則在圖片上產(chǎn)生一系列的候選區(qū)域,然后根據(jù)這些候選區(qū)域與圖片上物體真實框之間的位置關(guān)系對候選區(qū)域進(jìn)行標(biāo)注。跟真實框足夠接近的那些候選區(qū)域會被標(biāo)注為正樣本,同時將真實框的位置作為正樣本的位置目標(biāo)。偏離真實框較大的那些候選區(qū)域則會被標(biāo)注為負(fù)樣本,負(fù)樣本不需要預(yù)測位置或者類別。(2)使用卷積神經(jīng)網(wǎng)絡(luò)提取圖片特征并對候選區(qū)域的位置和類別進(jìn)行預(yù)測。這樣每個預(yù)測框就可以看成一個樣本,根據(jù)真實框相對它的位置和類別進(jìn)行了標(biāo)注而獲得標(biāo)簽值,通過網(wǎng)絡(luò)模型預(yù)測其位置和類別,將網(wǎng)絡(luò)預(yù)測值和標(biāo)簽值進(jìn)行比較,就可以建立起損失函數(shù)。而預(yù)測時直接通過特征提取網(wǎng)絡(luò)與預(yù)測框比較,通過NMS輸出分類以及回歸結(jié)果。YOLOv3訓(xùn)練以及檢測模型見4-1。圖4-1YOLOv3訓(xùn)練以及檢測4.2.1候選區(qū)域產(chǎn)生對輸入圖片(H*W)進(jìn)行下采樣(采樣數(shù)為k,一般為大中小三個采樣),將圖片分割成H/k,W/k形式。在每個區(qū)域中心(這里的區(qū)域中心是一個點,下面以C表示),生成一系列對應(yīng)于大中小感受野不同的錨框。見圖4-2所示。圖4-2劃分網(wǎng)絡(luò)不同的錨框基本上不可能剛好與物體邊界框重合,所以需要在錨框的基礎(chǔ)上進(jìn)行位置的微調(diào)以生成預(yù)測框。通過中心點偏移:寬高拉伸:實現(xiàn)從錨框到預(yù)測框的過程。其中由將點按真實框位置帶入求解所得。見圖4-3所示。圖4-3錨框到預(yù)測框調(diào)整在完成上述后,需要對候選區(qū)域進(jìn)行標(biāo)注。首先是標(biāo)注錨框是否含有物體。每個區(qū)域可以產(chǎn)生3種不同形狀的錨框,每個錨框都是一個可能的候選區(qū)域,對這些候選區(qū)域首先計算錨框與真實框的IOU,從一組9個錨框中選出IoU最大的錨框,將它所對應(yīng)的預(yù)測框的Pobj標(biāo)簽設(shè)置為1,其所包括的物體類別就是真實框里面的物體所屬類別。由于每個真實框只對應(yīng)一個Pobj標(biāo)簽為正的預(yù)測框,如果有些預(yù)測框跟真實框之間的IoU很大,但并不是最大的那個,那么直接將其Pobj標(biāo)簽設(shè)置為0當(dāng)作負(fù)樣本,可能并不妥當(dāng)。為了避免這種情況,YOLOv3算法設(shè)置了一個IoU閾值iou_threshold,當(dāng)預(yù)測框的Pobj不為1,但是其與某個真實框的IoU大于iou_threshold時,就將其Pobj標(biāo)簽設(shè)置為-1,不參與損失函數(shù)的計算。所有其他的預(yù)測框,其Pobj標(biāo)簽均設(shè)置為0,表示負(fù)類。對于Pobj=1的預(yù)測框,需要進(jìn)一步確定其位置和包含物體的具體分類標(biāo)簽,但是對于Pobj=0或者-1的預(yù)測框,則不用管他們的位置和類別。其次是標(biāo)注預(yù)測框的位置坐標(biāo)標(biāo)簽,當(dāng)錨框objectness=1時,需要確定預(yù)測框位置相對于它微調(diào)的幅度,也就是錨框的位置標(biāo)簽。同時還需要判斷出錨框所屬物體類別,YOLOv3使用one-hot向量來表示類別標(biāo)簽label。比如一共有10個分類,而真實框里面包含的物體類別是第2類,則label為(0,1,0,0,0,0,0,0,0,0)。由此,真實框信息得以標(biāo)注。所以,每個區(qū)域中心C含有多個信息:具體見圖4-4所示。圖4-4特征圖中的信息數(shù)4.2.2特征提取網(wǎng)絡(luò)整個特征提取網(wǎng)絡(luò)見圖4-5。其中YOLOv3采用了Darknet53網(wǎng)絡(luò)作為其主要特征提取部分。該網(wǎng)絡(luò)有兩個特點。一是參考了殘差網(wǎng)絡(luò)的理念,使用了許多尺寸為3*3和1*1的卷積層,去掉了池化層和全連接層,因此在網(wǎng)絡(luò)前向傳播的過程中,特征的尺寸變化是通過改變卷積核的卷積步長實現(xiàn)的。ADDINEN.CITE<EndNote><Cite><Author>鄭佳卉</Author><Year>2019</Year><RecNum>6</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>6</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1615392271">6</key></foreign-keys><ref-typename="Thesis">32</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">鄭佳卉</style></author></authors><tertiary-authors><author><styleface="normal"font="default"charset="134"size="100%">郭杰</style><styleface="normal"font="default"size="100%">,</style></author><author><styleface="normal"font="default"charset="134"size="100%">李郜偉</style><styleface="normal"font="default"size="100%">,</style></author></tertiary-authors></contributors><titles><title><styleface="normal"font="default"charset="134"size="100%">基于</style><styleface="normal"font="default"size="100%">YOLOv3</style><styleface="normal"font="default"charset="134"size="100%">的行人視頻目標(biāo)檢測方法</style></title></titles><keywords><keyword>行人檢測</keyword><keyword>YOLOv3</keyword><keyword>k-means</keyword><keyword>多尺度檢測</keyword><keyword>視頻標(biāo)注</keyword></keywords><dates><year>2019</year></dates><publisher><styleface="normal"font="default"charset="134"size="100%">西安電子科技大學(xué)</style></publisher><work-type><styleface="normal"font="default"charset="134"size="100%">碩士</style></work-type><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[15]二是網(wǎng)絡(luò)不再使用softmax進(jìn)行分類,而是使用邏輯分類,這使得每個候選框中可以用多標(biāo)記分類來預(yù)測其中含有的物體類別。如果僅僅使用softmax來分類,只會預(yù)測加強一種物體的推論,這顯然是有缺陷的。同時,在Darknet53之外的其他網(wǎng)絡(luò),還采用了多尺度預(yù)測,也就是幾個上采樣后產(chǎn)生的特征圖。如果只產(chǎn)生一個32采樣特征圖,這個特征圖的尺寸比較小,像素點數(shù)目比較少,每個像素點的感受野很大,具有非常豐富的高層級語義信息,可能比較容易檢測到較大的目標(biāo)。但為了檢測尺寸較小的目標(biāo),就需要在尺寸較大的特征圖上面建立預(yù)測輸出。通過將高層級的特征圖尺寸放大之后(上采樣)跟低層級的特征圖進(jìn)行融合,得到的新特征圖既能包含豐富的語義信息,又具有較多的像素點,能夠描述更加精細(xì)的結(jié)構(gòu)。圖4-5YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)示意圖4.2.3損失函數(shù)建立以32采樣圖為例,其他16采樣、8采樣過程與之一樣。經(jīng)過多次卷積核池化之后,特征圖變?yōu)榇笮。℉/k,W/k),這恰好與通過32采樣分割成的小方塊數(shù)目(H/k)*(W/k)一一對應(yīng),也就是說特征圖上每個像素點分別跟原圖上一個小方塊區(qū)域?qū)?yīng)。見圖4-6所示。圖4-6特征圖與小方塊區(qū)域形狀對比為了將像素點(i,j)與第i行第j列的小方塊區(qū)域所需要的預(yù)測值關(guān)聯(lián)起來,每個小方塊區(qū)域產(chǎn)生K個預(yù)測框,每個預(yù)測框需要(5+C)個實數(shù)預(yù)測值,則每個像素點相對應(yīng)的要有K(5+C)個實數(shù)。為了解決這一問題,對特征圖進(jìn)行多次卷積,并將最終地輸出通道數(shù)設(shè)置為K(5+C),即可將生成的特征圖與每個預(yù)測框所需要的預(yù)測值巧妙的對應(yīng)起來。之后將生成的特征圖輸出通道數(shù)數(shù)據(jù)與真實標(biāo)注框的數(shù)據(jù)進(jìn)行計算,得到損失函數(shù)。其中損失函數(shù)由置信度損失、分類損失與定位損失之和組成。首先通過計算K個置信度損失,將其中計算得到的置信度最大的一組實數(shù)保留,作為最后得到的損失函數(shù)。具體損失函數(shù)為:4.3本章小結(jié)本章首先介紹了單階段目標(biāo)檢測的過程。然后詳細(xì)介紹了YOLOv3候選區(qū)域產(chǎn)生網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)與損失函數(shù)。同時也提到了候選區(qū)域產(chǎn)生網(wǎng)絡(luò)以及特征提取網(wǎng)絡(luò)的一些不足。在第五章中,將對這些不足做出改進(jìn)5實驗及結(jié)果分析5.1實驗環(huán)境與模型訓(xùn)練5.1.1使用深度學(xué)習(xí)框架介紹深度學(xué)習(xí)框架最初主要用于深度學(xué)習(xí)的科研工作,代表性開源深度學(xué)習(xí)框架包括谷歌于2015年提出的TensorFlow框架,臉書于2017年提出的PyTorch框架。百度從2012年開始研發(fā)完全具備自主知識產(chǎn)權(quán)的深度學(xué)習(xí)框架,并在2016年度開源了國內(nèi)首個功能完備的開源深度學(xué)習(xí)平臺飛槳(PaddlePaddle)ADDINEN.CITE<EndNote><Cite><Author>馬艷軍</Author><Year>2019</Year><RecNum>35</RecNum><DisplayText><styleface="superscript">[16]</style></DisplayText><record><rec-number>35</rec-number><foreign-keys><keyapp="EN"db-id="5t9pfd9xkppsfyep0zsx9etkdzzrtvvx2vtt"timestamp="1621429955">35</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author><styleface="normal"font="default"charset="134"size="100%">馬艷軍</style></author><author><styleface="normal"font="default"charset="134"size="100%">于佃海</style></author><author><styleface="normal"font="default"charset="134"size="100%">吳甜</style></author><aut

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論