【《基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析》8700字】_第1頁
【《基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析》8700字】_第2頁
【《基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析》8700字】_第3頁
【《基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析》8700字】_第4頁
【《基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析》8700字】_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析目錄TOC\o"1-3"\h\u1022基于卷積神經(jīng)網(wǎng)絡的目標檢測模型案例分析 1300281.1檢測模型的類別 1199051.1.1基于分類的模型 181211.1.2基于回歸的模型 5139451.2輕量化神經(jīng)網(wǎng)絡 11123371.3評價指標 14檢測模型的類別基于分類的模型基于分類的目標檢測模型又稱為基于候選區(qū)域的模型。此類模型將目標檢測任務的處理分為了兩個階段處理,所以也可稱為兩階段的檢測模型,代表作有R-CNN、FastR-CNN、FasterR-CNN、MaskR-CNNADDINZOTERO_ITEMCSL_CITATION{"citationID":"Et2L52JV","properties":{"formattedCitation":"\\super[34]\\nosupersub{}","plainCitation":"[34]","noteIndex":0},"citationItems":[{"id":313,"uris":["/users/local/hvrdmomw/items/8AW4L22C"],"uri":["/users/local/hvrdmomw/items/8AW4L22C"],"itemData":{"id":313,"type":"article-journal","container-title":"CoRR","note":"_eprint:1703.06870","title":"MaskR-CNN","URL":"/abs/1703.06870","volume":"abs/1703.06870","author":[{"family":"He","given":"Kaiming"},{"family":"Gkioxari","given":"Georgia"},{"family":"Dollár","given":"Piotr"},{"family":"Girshick","given":"RossB."}],"issued":{"date-parts":[["2017"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[34]、TridentNetADDINZOTERO_ITEMCSL_CITATION{"citationID":"jB04Xt5h","properties":{"formattedCitation":"\\super[35]\\nosupersub{}","plainCitation":"[35]","noteIndex":0},"citationItems":[{"id":314,"uris":["/users/local/hvrdmomw/items/CVS329KK"],"uri":["/users/local/hvrdmomw/items/CVS329KK"],"itemData":{"id":314,"type":"article-journal","container-title":"CoRR","note":"_eprint:1901.01892","title":"Scale-AwareTridentNetworksforObjectDetection","URL":"/abs/1901.01892","volume":"abs/1901.01892","author":[{"family":"Li","given":"Yanghao"},{"family":"Chen","given":"Yuntao"},{"family":"Wang","given":"Naiyan"},{"family":"Zhang","given":"Zhaoxiang"}],"issued":{"date-parts":[["2019"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[35]等。Grishick等人在2014年提出了模型R-CNN,該模型成為了目標檢測任務需求和CNN優(yōu)勢結合的先例。使用CNN之前的檢測模型主要依賴一些特殊算子進行特征的提取,例如方向梯度直方圖(HOG)、尺度不變特征變換(SITF)等算法,這一局面隨著CNN的使用很快就被打破了。R-CNN接收到輸入后,會對其進行候選區(qū)域的生成,采用的方法是選擇性搜索算法(SelectiveSearch),大概有2000個候選框由此算法得出。但是在送入神經(jīng)網(wǎng)絡之前,還需要對其尺寸做進一步的變換,達到滿足輸入維度的目的。AlexNet作為典型的網(wǎng)絡,被運用到了R-CNN中,負責特征提取,特征向量獲取好后,需要進一步送入到SVM分類,以及全連接層進行定位。分類分類CNN圖2.1R-CNN工作流程從R-CNN的工作流程可以看到,對于候選區(qū)域的選取,每一個都是對立進行的,而對里面的交疊信息,不可避免地造成了工作的重復。SPPNet的出現(xiàn),為候選區(qū)域的選擇提供了新思路。它會首先將輸入看做候選區(qū)域的整體,在一次卷積過后,再以此為基礎進行區(qū)域的選擇工作,候選區(qū)域不必再次重復的計算,有效地節(jié)省了計算量。R-CNN中送入卷積神經(jīng)網(wǎng)絡的特征圖需要強制變換為統(tǒng)一的尺寸,形變會造成一定程度的信息丟失,SPP中的空間金字塔池化層可以輸出固定尺寸的特征,方便了特征的處理操作。outputoutput4×256-dinput256-d16×256-dCNN圖2.2空間金字塔池化 FastR-CNN的作者受到SPP的啟發(fā),對其作出了簡化改進工作,于是便有了RoI(RegionofInterest)層,隨后和R-CNN結合在一起組建成了FastR-CNN。利用RoI的優(yōu)勢,模型能夠從特征圖中獲得固定尺寸的特征向量,隨后用全連接(FC)層接收處理這些向量,最后連接到兩個同級輸出層。兩個輸出層各自負責目標的類別和定位。分類層會對目標的所有類別輸出每個RoI的相應概率,即是利用softmax產(chǎn)生。負責定位的輸出層會為每個目標類別輸出需要的坐標值,每4個值編碼k個類中的每個類的精確邊界框位置。損失函數(shù)則采用了多任務的損失度量。DeepconvDeepconvRoIprojectionFCFCFCsRoIpoolinglayersoftmaxbboxregressor圖2.3FastR-CNN結構即使獲得了模型性能的大幅提升,但就端到端的檢測模型而言,F(xiàn)astR-CNN還未達到,候選區(qū)域的生成和整個模型后期處理時分離的,所以模型的結構還需要調整。FasterR-CNN的提出,很好地解決了前作所存在的問題。選擇性搜索算法費時耗力,卷積神經(jīng)網(wǎng)絡則不同,利用其高效地優(yōu)勢可以很好的解決候選區(qū)域的生成問題,也即是FasterR-CNN中的RPN網(wǎng)絡。利用此網(wǎng)絡可以將候選區(qū)域的生成、特征提取甚至是目標的分類和位置回歸聚合在一個模型中處理,由于RPN的使用使得該模型達到了端到端訓練的目的。intermediatelayerintermediatelayerclslayerreglayer2kscores4kcorrdinates256-dkanchorboxesconvfeaturemap圖2.4區(qū)域生成網(wǎng)絡RPNFasterR-CNN是RPN和FastR-CNN的有力結合。RPN采用的是類似滑動窗口的做法,只不過使用窗口的大小是多樣的,這也是該模型中錨框anchor的思想,通過在特征圖上的每個位置布置不同尺度和比例的矩形框,達到高效提取候選區(qū)域的目的。RPNRPNconvlayerfeaturemapsproposalsRoIpooling圖2.5FasterR-CNN結構FasterR-CNN的整個檢測結構和思想是比較完備的,作為卷積神經(jīng)網(wǎng)絡在目標檢測模型中的應用,其當之無愧成為了里程碑之作。RPN的使用使得整個檢測模型都可以依賴卷積神經(jīng)網(wǎng)絡來實現(xiàn),有效地提高了模型的檢測性能。但是FasterR-CNN也存在待完善的地方,包括RoIPooling層的使用帶來的定位準確性問題和檢測速度問題,在小目標上的檢測效果等問題。RoIsRoIsconvfeaturesmapsRPNpoolvoteinputoutput圖2.6R-FCN結構2016年,Dai等人提出了R-FCNADDINZOTERO_ITEMCSL_CITATION{"citationID":"GvfAh9Xw","properties":{"formattedCitation":"\\super[36]\\nosupersub{}","plainCitation":"[36]","noteIndex":0},"citationItems":[{"id":334,"uris":["/users/local/hvrdmomw/items/FLFN354K"],"uri":["/users/local/hvrdmomw/items/FLFN354K"],"itemData":{"id":334,"type":"article-journal","container-title":"arXivpreprintarXiv:1605.06409","title":"R-fcn:Objectdetectionviaregion-basedfullyconvolutionalnetworks","author":[{"family":"Dai","given":"Jifeng"},{"family":"Li","given":"Yi"},{"family":"He","given":"Kaiming"},{"family":"Sun","given":"Jian"}],"issued":{"date-parts":[["2016"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[36]。R-FCN沿用了FasterR-CNN的結構,但是使用了性能更優(yōu)的ResNet作為特征提取網(wǎng)絡,提高了特征提取與分類的效果,并且使用了全卷積神經(jīng)網(wǎng)絡,避免了全連接層帶來的大量參數(shù)量和計算量。此外在分類和回歸問題上,R-FCN使用了一種名為位置敏感得分圖的方式,此方式有效地解決了位置平移敏感性的問題。He等人在2017年提出了MaskR-CNN,該模型是在FasterR-CNN的基礎上改進而來。MaskR-CNN的設計目的是為了實例分割,但是其結構的通用性和性能的優(yōu)勢使得其在目標檢測中的表現(xiàn)也不錯。MaskR-CNN中新設計了用于預測掩碼的分支,并且RoI池化層升級到RoIAlign層,將候選區(qū)域到原圖的映射更加準確,是對RoI池化的一大改進。convconvB0B1B2B3C1C2C3H1H2H3Ipoolpoolpool圖2.7CascadeR-CNN結構在FasterR-CNN中,需要預先設置固定的閾值來進行正負樣本的劃分,致使選取的候選框不太準確,從而給目標檢測帶來一定的噪聲干擾。針對此問題,2018年,Cai等人提出了一種級聯(lián)結構的檢測器CascadeR-CNNADDINZOTERO_ITEMCSL_CITATION{"citationID":"NXlgjWaO","properties":{"formattedCitation":"\\super[37]\\nosupersub{}","plainCitation":"[37]","noteIndex":0},"citationItems":[{"id":333,"uris":["/users/local/hvrdmomw/items/E5AH9B6A"],"uri":["/users/local/hvrdmomw/items/E5AH9B6A"],"itemData":{"id":333,"type":"article-journal","container-title":"IEEEtransactionsonpatternanalysisandmachineintelligence","note":"publisher:IEEE","title":"CascadeR-CNN:highqualityobjectdetectionandinstancesegmentation","author":[{"family":"Cai","given":"Zhaowei"},{"family":"Vasconcelos","given":"Nuno"}],"issued":{"date-parts":[["2019"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[37]。CascadeR-CNN譯為級聯(lián)的R-CNN,這也是其內部結構采用了逐層遞進的檢測模式,將檢測器內部劃分為多個子階段,每一段設置不同的我IoU閾值,越靠后的階段其閾值也就越高,就像篩子層層篩選出了更優(yōu)質的樣本,所以模型的整體檢測精度提高不少。NMSNMS圖2.8TridentNet結構2019年,Li等提出了新的目標檢測模型TridentNet,該模型以ResNet101為骨干網(wǎng)絡,論文首先通過實驗證明了感受野的大小對檢測性能的影響,對于尺度不同的目標,更大的感受野對大尺寸目標性能會更好,更小的感受野對小尺寸目標性能更好。TridentNet提出的依托是膨脹卷積,并且在其結構內部使用了不同的膨脹卷積方式。TridentNet使用了三個分支而非單個支路,更重要的是在每個之路上面,使用膨脹率不同的膨脹卷積。既然采取了多分支的結構,TridentNet就讓每個分支僅僅負責一定尺度范圍的樣本,而非對所有尺寸的樣本計算。TridentNet中的多分支結構同時使用了參數(shù)共享的方式,并且訓練時和測試時采用了不同的分支數(shù)量,加快了模型在推理時的檢測速度?;诨貧w的模型基于回歸的模型在檢測時,不像分類模型那樣經(jīng)過一個候選區(qū)域的生成網(wǎng)絡,而是直接經(jīng)過一個網(wǎng)絡,輸出待檢目標的類別信息和位置信息,所以也可以稱為一階檢測模型。與兩階段檢測模型相比,一階段檢測模型的優(yōu)勢在于其檢測速度,不用候選區(qū)域生成網(wǎng)絡的后果也造成了檢測準確度的下降ADDINZOTERO_ITEMCSL_CITATION{"citationID":"wj8opLRL","properties":{"formattedCitation":"\\super[38]\\nosupersub{}","plainCitation":"[38]","noteIndex":0},"citationItems":[{"id":338,"uris":["/users/local/hvrdmomw/items/EP5YGL2M"],"uri":["/users/local/hvrdmomw/items/EP5YGL2M"],"itemData":{"id":338,"type":"article-journal","abstract":"目標檢測是計算機視覺中的核心任務之一,在智能視頻監(jiān)控、自動化監(jiān)測、工業(yè)檢測等領域應用廣泛。近些年來,隨著深度學習的快速發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡的目標檢測算法逐漸替代了傳統(tǒng)的目標檢測算法,成為了該領域的主流算法。介紹了目標檢測算法的常用數(shù)據(jù)集和性能評價指標,介紹了卷積神經(jīng)網(wǎng)絡的發(fā)展,重點分析比較了兩階段目標檢測算法和單階段目標檢測算法,展望了基于深度卷積神經(jīng)網(wǎng)絡的目標檢測算法未來的發(fā)展。","archive_location":"CNKI","container-title":"計算機工程與應用","issue":"17","note":"ISBN:1002-8331","page":"12-23","title":"深度卷積神經(jīng)網(wǎng)絡的目標檢測算法綜述","volume":"56","author":[{"family":"黃健","given":""},{"family":"張鋼","given":""}],"issued":{"date-parts":[["2020"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[38]。一階段檢測算法主要包括有YOLO系列,SSD系列,RetinaNet,CornerNet、RFBNetADDINZOTERO_ITEMCSL_CITATION{"citationID":"2v7zt2Cv","properties":{"formattedCitation":"\\super[39]\\nosupersub{}","plainCitation":"[39]","noteIndex":0},"citationItems":[{"id":400,"uris":["/users/local/hvrdmomw/items/TW4DNA4Q"],"uri":["/users/local/hvrdmomw/items/TW4DNA4Q"],"itemData":{"id":400,"type":"paper-conference","container-title":"ProceedingsoftheEuropeanConferenceonComputerVision(ECCV)","page":"385–400","title":"Receptivefieldblocknetforaccurateandfastobjectdetection","author":[{"family":"Liu","given":"Songtao"},{"family":"Huang","given":"Di"},{"literal":"others"}],"issued":{"date-parts":[["2018"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[39]、CenterNet以及ExtremeNet等。基于回歸的檢測模型中,YOLOv1算是其中的先驅,它的提出可以追溯到2016年。YOLOv1只需要對輸入圖像進行一次處理,即可同時得到目標的位置和類別。YOLOv1的主要優(yōu)點是目標檢測速度很快,遠遠超過兩階段目標檢測器,由于網(wǎng)絡對圖片進行全局處理使得背景錯誤相對比較少,同時其泛化性能較好。YOLOv1檢測模型如圖2.9所示,YOLOv1接收處理固定尺寸的輸入圖像,所以需要對輸入圖像的尺寸進行變換到目的尺寸,變換完成后就可以用卷積神經(jīng)網(wǎng)絡來做特征提取工作,而目標的類別、位置等數(shù)值的計算都由卷積神經(jīng)網(wǎng)絡來完成,為了去除模型選擇的許多冗余框,這時需要遇到NMS算法對其做進一步的處理。YOLOv1為目標檢測模型的檢測模式提供了新的思路,為后期的眾多檢測模型提供了典范。inputinputCNNresizeimageNMSoutput圖2.9YOLOv1檢測模型YOLOv1中省略了候選區(qū)域生成的結構,引起的顯而易見的結果就是檢測速度的提升,相比于當時較慢的兩階段模型,它的速度達到了每秒45幀。但是YOLOv1劃分圖片網(wǎng)格較為粗糙,每個網(wǎng)格生成的邊界框個數(shù)較少,使該網(wǎng)絡對小尺寸目標和鄰近目標的檢測效果較差,而且YOLOv1產(chǎn)生了更多的定位誤差,導致其整體檢測精度較低。2017年,Redmon等人繼續(xù)深入研究,吸收了當時的SSD中的優(yōu)勢,提出了YOLOv2。YOLOv2的改進點首先是批歸一化的使用,將其添加到了卷積層的后面,其次是將Dropout抹去,因為批歸一化的使用能夠起到類似的作用。最后是在模型中借鑒了錨框的思想,當時的SSD同樣采取了這樣的思想,并且都出自FasterR-CNN,模型的骨干網(wǎng)絡也發(fā)生了改變,采用了分類效果更好的Darknet-19。YOLOv2的檢測精度相比前作有了很大的提升,在VOC2007測試集上的精度從第一版的63.4%增長至78.6%。2018年,Redmon等人繼續(xù)將YOLO發(fā)展了下去,提出了性能更優(yōu)的YOLOv3。YOLOv3的主要改進點包括:骨干網(wǎng)絡、特征融合和損失函數(shù)等。YOLOv3使用性能更好的Darknet-53作為骨干網(wǎng)絡,Darknet-53的精度和ResNet-101相當,但速度更快。YOLOv3使用了特征金字塔的策略,將來自不同尺寸的特征圖進行了融合,此種金字塔融合的方式對于小目標的檢測效果有著加大的改進作用。在YOLOv3中,損失函數(shù)改用為二元交叉熵,能夠達到對一個邊界框進行多類別預測的目的。圖2.10YOLOv3結構GuassianYOLOv3ADDINZOTERO_ITEMCSL_CITATION{"citationID":"ZHJd1z7i","properties":{"formattedCitation":"\\super[40]\\nosupersub{}","plainCitation":"[40]","noteIndex":0},"citationItems":[{"id":335,"uris":["/users/local/hvrdmomw/items/IMX4FHFJ"],"uri":["/users/local/hvrdmomw/items/IMX4FHFJ"],"itemData":{"id":335,"type":"paper-conference","container-title":"ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision","page":"502–511","title":"Gaussianyolov3:Anaccurateandfastobjectdetectorusinglocalizationuncertaintyforautonomousdriving","author":[{"family":"Choi","given":"Jiwoong"},{"family":"Chun","given":"Dayoung"},{"family":"Kim","given":"Hyun"},{"family":"Lee","given":"Hyuk-Jae"}],"issued":{"date-parts":[["2019"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[40]在2019年被提出,作為YOLOv3的一個升級版本,兩者最大的不同之處在于預測邊界框的坐標輸出個數(shù),前者能夠輸出8個維度的坐標,后者僅僅有4個,同時GaussianYOLOv3還對模型的損失函數(shù)做出了改進,這些改進使得該網(wǎng)絡在KITTI數(shù)據(jù)集上的準確率相比YOLOv3提高了3%。2020年,Bochkovskiy等人提出了YOLOv4,CSPDarknet53作為該模型中使用的骨干網(wǎng)絡,其優(yōu)勢在于可以獲得較大的感受野,同時將SPP模塊嵌入到了CSPDarknet53中,采用了一種新的特征融合方式PANet,PANet在特征信息的融合上面取得的效果要比FPN更好,此外YOLOv4中還融合了一系列的調優(yōu)技巧。SSD是2016年由Liu等人提出的,該網(wǎng)絡是在YOLOv1基礎上進行改進的。SSD采用了多尺度的特征預測思想,將六個不同尺寸的特征圖輸出送入到最終的檢測網(wǎng)絡,優(yōu)于特征圖的尺寸不一,所包含的信息也是不同的,處在低層的特征圖可以用來預測小目標,而高層的特征圖,在獲得更深層的特征后可以用來預測大尺寸目標。SSD同時使用了anchor的設計思路,在待檢特征圖上使用多尺寸的默認框,模型在訓練時使用了放大和縮小兩種數(shù)據(jù)增強技術。得益于SSD的設計理念優(yōu)勢,在VOC2007測試集上檢驗時獲得了76.8%的檢測精度,且速度也達到了每秒59幀。采用多尺度預測輸出的方法,為SSD帶來好處的同時也引起了一些問題。直接好處就是可以讓檢測器適應不同尺度變化的目標類別,同類目標的樣本尺寸變化可能出在較大的變化范圍,或者經(jīng)過卷積處理后,在不同層級的輸出特性表現(xiàn)出差異,所以多尺度的預測可以提供更好的平衡性和包容性。但是SSD的多級輸出特征之間是互不相干的,對于同一個目標會出現(xiàn)重復檢測的后果,造成不必要的計算浪費,此外SSD的低檢測層輸出,包含的信息不足以支撐起小目標的特征描述,而高層的特征更可能丟失小目標的信息,所以該模型在小目標上的檢測效果也不好。圖2.11DSSD結構Jeong等人后期提出了SSD的改進版R-SSDADDINZOTERO_ITEMCSL_CITATION{"citationID":"cBJV7yLP","properties":{"formattedCitation":"\\super[41]\\nosupersub{}","plainCitation":"[41]","noteIndex":0},"citationItems":[{"id":315,"uris":["/users/local/hvrdmomw/items/GPJF7CQE"],"uri":["/users/local/hvrdmomw/items/GPJF7CQE"],"itemData":{"id":315,"type":"article-journal","container-title":"CoRR","note":"_eprint:1705.09587","title":"EnhancementofSSDbyconcatenatingfeaturemapsforobjectdetection","URL":"/abs/1705.09587","volume":"abs/1705.09587","author":[{"family":"Jeong","given":"Jisoo"},{"family":"Park","given":"Hyojin"},{"family":"Kwak","given":"Nojun"}],"issued":{"date-parts":[["2017"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[41],期待解決SSD存在的問題。R-SSD將先將不同層的特征輸出關聯(lián)了起來,使其相互之間的交流能夠起到避免生成過多重疊框的作用,此外R-SSD使用了一種深層和淺層特征融合的方式,增加了特征圖的通道數(shù),提升其對小尺寸物體的檢測效果。這些改進使得R-SSD在VOC2007數(shù)據(jù)集上達到了78.5%的準確率。在SSD的研究基礎上,2017年Fu等人提出的DSSDADDINZOTERO_ITEMCSL_CITATION{"citationID":"kxQmopOc","properties":{"formattedCitation":"\\super[42]\\nosupersub{}","plainCitation":"[42]","noteIndex":0},"citationItems":[{"id":316,"uris":["/users/local/hvrdmomw/items/5DBJTA8S"],"uri":["/users/local/hvrdmomw/items/5DBJTA8S"],"itemData":{"id":316,"type":"article-journal","container-title":"arXivpreprintarXiv:1701.06659","title":"Dssd:Deconvolutionalsingleshotdetector","author":[{"family":"Fu","given":"Cheng-Yang"},{"family":"Liu","given":"Wei"},{"family":"Ranga","given":"Ananth"},{"family":"Tyagi","given":"Ambrish"},{"family":"Berg","given":"AlexanderC"}],"issued":{"date-parts":[["2017"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[42],采用了效果更好的ResNet-101作為骨干網(wǎng)絡,以提高特征提取能力;同時反卷積層的使用使得DSSD可以更好地檢測小尺寸物體,進一步提升了網(wǎng)絡的檢測精度,其在VOC2007數(shù)據(jù)集上,當輸入尺寸為321×321時準確率達到78.6%。DenseNet的密集連接提高特征復用的思想也被用到了SSD中,即使Shen等人提出的DSODADDINZOTERO_ITEMCSL_CITATION{"citationID":"fVam5SxU","properties":{"formattedCitation":"\\super[43]\\nosupersub{}","plainCitation":"[43]","noteIndex":0},"citationItems":[{"id":318,"uris":["/users/local/hvrdmomw/items/UVJ2HEH8"],"uri":["/users/local/hvrdmomw/items/UVJ2HEH8"],"itemData":{"id":318,"type":"paper-conference","container-title":"2017IEEEInternationalConferenceonComputerVision(ICCV)","DOI":"10.1109/ICCV.2017.212","page":"1937-1945","title":"DSOD:LearningDeeplySupervisedObjectDetectorsfromScratch","author":[{"family":"Shen","given":"Z."},{"family":"Liu","given":"Z."},{"family":"Li","given":"J."},{"family":"Jiang","given":"Y."},{"family":"Chen","given":"Y."},{"family":"Xue","given":"X."}],"issued":{"date-parts":[["2017"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[43],由于改造了一些特征層的輸入,使得DSOD的參數(shù)數(shù)量相比SSD得到了大幅度降低,此外DSOD還嘗試了一種舍棄預訓練模型訓練方式,讓模型從頭開始訓練的效果依舊比SSD要好。detectiondetectionNMSinputconv1×1conv4_3conv7_2FC738×38×512conv1×1BilinearInterpconv1×1BilinearInterp38×38×512圖2.12FSSD結構2017年,Li等人吸收了FPN的思想提出了FSSDADDINZOTERO_ITEMCSL_CITATION{"citationID":"vVjt6UP8","properties":{"formattedCitation":"\\super[44]\\nosupersub{}","plainCitation":"[44]","noteIndex":0},"citationItems":[{"id":319,"uris":["/users/local/hvrdmomw/items/LC94QIHZ"],"uri":["/users/local/hvrdmomw/items/LC94QIHZ"],"itemData":{"id":319,"type":"article-journal","container-title":"CoRR","note":"_eprint:1712.00960","title":"FSSD:FeatureFusionSingleShotMultiboxDetector","URL":"/abs/1712.00960","volume":"abs/1712.00960","author":[{"family":"Li","given":"Zuoxin"},{"family":"Zhou","given":"Fuqiang"}],"issued":{"date-parts":[["2017"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[44]。FSSD的結構如上圖所示,可以看到VGG16獲得的兩個淺層特征圖都被上采樣到了大尺寸的特征圖,融合之后作為了新的基層特征再提取,相比原作該模型的精度提高了不少。Lin等人在2017年提出的RetinaNet中,分析了兩大類檢測模型在速度和精度上的差異原因,是在于樣本類別的不平衡。妥善合理的對待檢測器中的所有樣本,包括簡單和復雜的樣本,將會使得模型的性能得到改善。作者首先設計了一種新的分類損失度量函數(shù)FocalLoss,用以替代經(jīng)常使用交叉熵函數(shù),在FocalLoss中為難易分別采取了不同的比重。RetinaNet的出現(xiàn)同時時為了驗證FocalLoss的作用。該網(wǎng)絡使用ResNet+FPN的結構作為特征提取網(wǎng)絡,這種結合方式使得獲取的特征在表達力上得到了雙重加強,對特征做進一步的分類和定位處理時,采取的是結構相同但不共享參數(shù)的全卷積神經(jīng)網(wǎng)絡。RetinaNet以一階目標檢測模型的身份獲得了兩階目標檢測模型的精度,但是也遇到了兩階模型會遇到的短板——較慢的速度,在檢測速度方面RetinaNet并不占據(jù)優(yōu)勢。W×H×256W×H×4AW×H×256W×H×4AW×H×256×4class+boxsubnetsclass+boxsubnetsclass+boxsubnets×4classsubnetboxsubnetW×H×256W×H×KAW×H×256圖2.13RetinaNet結構將FasterR-CNN與SSD兩種思路融合在一起,產(chǎn)生的奇妙設想催生出了RefineDetADDINZOTERO_ITEMCSL_CITATION{"citationID":"sj052ohI","properties":{"unsorted":true,"formattedCitation":"\\super[45]\\nosupersub{}","plainCitation":"[45]","noteIndex":0},"citationItems":[{"id":320,"uris":["/users/local/hvrdmomw/items/FFW89YGA"],"uri":["/users/local/hvrdmomw/items/FFW89YGA"],"itemData":{"id":320,"type":"paper-conference","container-title":"ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR)","title":"Single-ShotRefinementNeuralNetworkforObjectDetection","author":[{"family":"Zhang","given":"Shifeng"},{"family":"Wen","given":"Longyin"},{"family":"Bian","given":"Xiao"},{"family":"Lei","given":"Zhen"},{"family":"Li","given":"StanZ."}],"issued":{"date-parts":[["2018",6]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[45],該模型通過兩個不同的模塊來仿照兩階段的檢測模式,但算一階檢測模型,在保證速度的前提下,提高檢測效果。上端模塊ARM用于初步生成候選框,ARM只做二分類,判斷是否存在目標并刪除一些無目標候選框。下端模塊OBD對上端模塊結果進行更精確的多分類以及框回歸。中間模塊TCB,作用是將不同特征層的特征圖進行融合。該模型速度比兩階檢測器快的原因是沒有做FasterR-CNN中的工作,即先將RoI提取出來再做池化,而是將特征圖直接用TCB模塊進行傳遞,實現(xiàn)了加速。在FasterR-CNN和SSD等算法中,普遍使用了anchor來提高檢測效果,但是anchor的使用也帶來了正負樣本不平衡和較多的超參數(shù)等問題。針對此問題,anchor-free類型的檢測器提出了新的想法,Law等人在2018年提出的檢測模型CornerNet,沒有使用此前占據(jù)主流的anchor思想,而是使用關鍵點的方式生成候選樣本。以anchor為基礎的檢測模型需要用到矩形框進行預測,而CornerNet則使用了左上角和右下角兩點來預測,很顯然利用一對角點來生成檢測框要節(jié)省很多資源。CornerNet以Hourglass為骨干網(wǎng)絡,同時采用了角點池化的手段,使得左上角點和右下角點能夠捕獲到有用的信息,再分別送入到各自的分支模塊。兩個分支均包含了三個輸出,分別是角點的位置(Heatmaps)、角點的配對(Embeddings)以及角點位置的偏移(Offsets),將屬于同一個邊框的角點組合起來,就可以獲得最后輸出要的預測框。CornerNet使用邊框的角點進行物體檢測,從而避免了使用錨框帶來的問題,在檢測精度上相比之前的一階段檢測器有了一定提升。但是CornerNet在對兩個角點匹配過程中耗時較長,導致模型的檢測速度降低了不少,并且該過程容易產(chǎn)生誤檢樣本。Duan等人在2019年提出了CenterNet,同樣是anchor-free的模型,只是它將它將對目標的檢測轉變?yōu)榱藢χ行狞c的估計,該模型中省略了關鍵點的分組配對和后處理工作,轉而利用物體中心點和長寬來實現(xiàn)物體檢測。Bottom-rightBottom-rightTop-leftinputHourglasspredictionpredictioncornerpoolingheatmapsembeddingsoffsets圖2.14CornerNet結構圖2.15CenterNet結構CenterNet中以Hourglass為骨干網(wǎng)絡,之后分別通過關聯(lián)角點池化和中心點池化兩個方法實現(xiàn)對信息的整合目的。先通過關聯(lián)角點池化對角點可能會出現(xiàn)的位置預測,再利用角點位置的偏移,將其準確位置映射到原始的輸入。之后可以利用對角點的配對,判別屬于同一個目標的一對角點,使其能夠組合成一個檢測框。同時CenterNet通過中心點池化來預測目標的中心點,然后通過偏移操作矯正中心點位置,之后將中心點位置映射到輸入圖片的對應位置,通過判斷每個檢測框的中心區(qū)域是否有預測的中心點,來消除錯誤的檢測框,以提高檢測精度。雖然CenterNet的檢測速度要快CornerNet,但是由于模型的計算量依然很大,導致檢測速度沒有明顯提升。Tan等人在2019年提出的EfficientDetADDINZOTERO_ITEMCSL_CITATION{"citationID":"WH30b6wb","properties":{"formattedCitation":"\\super[46]\\nosupersub{}","plainCitation":"[46]","noteIndex":0},"citationItems":[{"id":321,"uris":["/users/local/hvrdmomw/items/LIWJ4Y6E"],"uri":["/users/local/hvrdmomw/items/LIWJ4Y6E"],"itemData":{"id":321,"type":"article-journal","container-title":"CoRR","note":"_eprint:1911.09070","title":"EfficientDet:ScalableandEfficientObjectDetection","URL":"/abs/1911.09070","volume":"abs/1911.09070","author":[{"family":"Tan","given":"Mingxing"},{"family":"Pang","given":"Ruoming"},{"family":"Le","given":"QuocV."}],"issued":{"date-parts":[["2019"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[46],同時兼顧了檢測精度和檢測速度兩項重要的指標。EfficientDet的網(wǎng)絡結構如下圖所示,以EfficientNet為骨干網(wǎng)絡。EfficientDet中還使用了特征金字塔FPN的一種變體BiFPN,首先BiFPN不僅僅有自上而下的特征融合,還將融合后的低層大尺寸特征再次實行自下到上的重復融合,此種雙向融合方式進行了多次的重復,并且在融合時使用了加權的方法,為不同的特征賦予不同的權重,平衡融合時的比重。多次融合之后得到的特征才會被送入到相應的子網(wǎng)絡進行最后的計算輸出。EfficientDet中也設計了一種混合縮放方法,可以對整個模型中的參數(shù)進行調整,獲得不同參數(shù)和表現(xiàn)的檢測結構,進一步加強了EfficientDet的性能表現(xiàn)。EfficientDet以較低的模型規(guī)模達到實現(xiàn)了較好的檢測性能,是一個輕量級、多尺度且高精度的目標檢測網(wǎng)絡。在面對廣泛的模型規(guī)模和資源約束時,例如嵌入式設備、移動終端等實際應用領域,EfficientDet較低的計算成本使得該模型在這些領域的大規(guī)模部署成為了可能。圖2.16EfficientDet架構TUMTUMinputTUMMLFPNCNNPredictionSFAMoutputFFMv2FFMv1featureTUMTUMinputTUMMLFPNCNNPredictionSFAMoutputFFMv2FFMv1feature圖2.17M2Det結構2019年提出的M2DetADDINZOTERO_ITEMCSL_CITATION{"citationID":"onpLe90U","properties":{"formattedCitation":"\\super[47]\\nosupersub{}","plainCitation":"[47]","noteIndex":0},"citationItems":[{"id":336,"uris":["/users/local/hvrdmomw/items/CKKLC5E3"],"uri":["/users/local/hvrdmomw/items/CKKLC5E3"],"itemData":{"id":336,"type":"paper-conference","container-title":"ProceedingsoftheAAAIconferenceonartificialintelligence","note":"issue:01","page":"9259–9266","title":"M2det:Asingle-shotobjectdetectorbasedonmulti-levelfeaturepyramidnetwork","volume":"33","author":[{"family":"Zhao","given":"Qijie"},{"family":"Sheng","given":"Tao"},{"family":"Wang","given":"Yongtao"},{"family":"Tang","given":"Zhi"},{"family":"Chen","given":"Ying"},{"family":"Cai","given":"Ling"},{"family":"Ling","given":"Haibin"}],"issued":{"date-parts":[["2019"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[47]中同樣適用了FPN的變體,稱之為多層特征金字塔,使得模型在檢測時,更適應不同尺度的目標。多層特征金字塔網(wǎng)絡是先將提取到的多級特征圖融合成基礎特征圖,在此基礎上做進一步工作。首先將基礎特征圖送入第一個TUM模塊進行U型下采樣和上采樣,之后進行融合作為淺層的特征群,另一方面將其和基礎特征圖融合,融合后的特征會再次經(jīng)過TUM模塊,重復第一次的操作,經(jīng)過此次處理會得到中層的特征群。同樣得到深層的特征群后,通過SFAM模塊進行三個特征群的融合,融合的特征會經(jīng)過層層卷積后得到多尺度的輸出特征。輕量化神經(jīng)網(wǎng)絡輕量化模型作為一個類別,其設計的重點在于如何達到參數(shù)、計算和性能之間的平衡性,部分模型在具體場景中也得到了應用,但是總體來說,模型在實際應用中的部署還受到了很大的制約ADDINZOTERO_ITEMCSL_CITATION{"citationID":"WECrryiA","properties":{"formattedCitation":"\\super[48]\\nosupersub{}","plainCitation":"[48]","noteIndex":0},"citationItems":[{"id":337,"uris":["/users/local/hvrdmomw/items/FVF45BQ9"],"uri":["/users/local/hvrdmomw/items/FVF45BQ9"],"itemData":{"id":337,"type":"thesis","abstract":"近年來,因為深度學習軟硬件技術日漸成熟,以深度學習為基礎的人工智能民用市場穩(wěn)步發(fā)展,前景廣闊,特別是在物體分類、人臉識別、目標檢測、數(shù)據(jù)分析和無人操控等領域,人工智能憑借其強大的性能和高效的實現(xiàn)優(yōu)勢,成功滲透進社會生活的方方面面,受到人們的廣泛關注。其中,目標檢測是深度學習的重要課題之一。而如何利用盡量少的資源,更快更好的實現(xiàn)目標檢測功能,應用于限制盡量少的場景中,即目標檢測任務的輕量化移植,是值得學界研究的課題。本文立足于實現(xiàn)無人機在無GPS環(huán)境中進行自主定位。其要求使用視覺傳感器進行數(shù)據(jù)采集,使用機載嵌入式設備運行輕量化目標檢測網(wǎng)絡處理視覺信息獲取目標物體相對位置,進而實現(xiàn)無人機的自主定位。論文主要研究內容如下:首先,本文論述經(jīng)典卷積神經(jīng)網(wǎng)絡和目標檢測網(wǎng)絡的發(fā)展歷程,研究常用輕量化策略和經(jīng)典輕量化網(wǎng)絡,比較總結不同策略的優(yōu)缺點,研究對目標檢測網(wǎng)絡進行輕量化改造的可行性,最終選擇對YOLOv3進行輕量化改進。隨后,本文深入研究YOLOv3,利用新策略改進YOLOv3的骨干網(wǎng)絡,并結合現(xiàn)有的DenseNet和SPP-Net理論改進YOLOv3的特征融合網(wǎng)絡,再對YOLOv3的損失函數(shù)做權重調整,綜合提出新目標檢測網(wǎng)絡LDC-YOLO,在PASCALVOC數(shù)據(jù)集上證明了網(wǎng)絡在檢測速度和權重大小方面的優(yōu)勢。最后,本文建立視覺定位坐標系,分析相機投影成像原理,使用棋盤格對相機的內部參數(shù)和畸變參數(shù)進行標定求解,在現(xiàn)實場景和仿真環(huán)境中,利用LDC-YOLO網(wǎng)絡獲取的目標物體信息,進行坐標系變換,求解得到無人機的相對位置信息。對該自主定位功能算法進行實驗檢測,結果表明算法有效,能夠滿足無人機自主定位的需求。","archive_location":"CNKI","genre":"碩士","publisher":"上海師范大學","title":"輕量化卷積神經(jīng)網(wǎng)絡及其應用的研究","author":[{"family":"黃星元","given":""},{"family":"李一染","given":""}],"issued":{"date-parts":[["2020"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[48]。重要的制約因素包含計算機的計算性能,對于計算機視覺的各類任務,無論是分類、檢測還是分割,都需要計算力的支撐。神經(jīng)網(wǎng)絡帶來優(yōu)異特征獲取能力的同時,也造成大量參數(shù)和計算量,所以為了節(jié)省模型的訓練時間,提高效率,眾多模型在訓練時都采用了GPU加速的方法,這是一種行之有效的途徑,,但是高性能計算的GPU成本過高,但不能從根本上解決問題。目標檢測模型要得到更加充分的應用,就需要減少對硬件的依賴程度。從目標檢測模型本身出發(fā),減少了模型的參數(shù)量和計算量,使得模型的結構更加精簡就能降低模型運行所需要的設備要求。對于模型的精簡,一方面可以使用剪枝、壓縮、知識蒸餾等手段對現(xiàn)有的模型做進一步的優(yōu)化,實現(xiàn)內部參數(shù)的刪減,找到更優(yōu)更合理的結構。另一方面,以輕量化設計為出發(fā)點,設計出少參數(shù)、少計算量的同時且保證一定性能的模型,也是目前存在的一個發(fā)展趨勢。圖2.18SqueezeNet的Firemodule2016年伯克利和斯坦福的研究人員合作提出一種輕量化模型SqueezeNetADDINZOTERO_ITEMCSL_CITATION{"citationID":"R73yugVh","properties":{"formattedCitation":"\\super[49]\\nosupersub{}","plainCitation":"[49]","noteIndex":0},"citationItems":[{"id":322,"uris":["/users/local/hvrdmomw/items/S8SRRIDJ"],"uri":["/users/local/hvrdmomw/items/S8SRRIDJ"],"itemData":{"id":322,"type":"article-journal","container-title":"CoRR","note":"_eprint:1602.07360","title":"SqueezeNet:AlexNet-levelaccuracywith50xfewerparametersand\\textless1MBmodelsize","URL":"/abs/1602.07360","volume":"abs/1602.07360","author":[{"family":"Iandola","given":"ForrestN."},{"family":"Moskewicz","given":"MatthewW."},{"family":"Ashraf","given":"Khalid"},{"family":"Han","given":"Song"},{"family":"Dally","given":"WilliamJ."},{"family":"Keutzer","given":"Kurt"}],"issued":{"date-parts":[["2016"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[49],在該模型中大量使用了1×1卷積而非3×3的卷積,1×1的卷積相比3×3的卷積,直接就造成模型的參數(shù)量的大幅縮減。同時為了進一步縮減模型的參數(shù),將輸入通道的數(shù)目做了縮減,同時模型將下采樣操作延后,以便卷積層的輸出特征圖具有更高的分辨率。SqueezeNet由名為Firemodule的基本模塊搭建而成,首先是用1×1卷積構建的squeeze層,其次是expand層,由1×1卷積和3×3卷積組成。MobileNet由Google團隊在2017年提出,設計的初衷就是使其能夠在移動端運行。MobileNet的特色在于內部卷積的置換,即是深度可分離卷積的大量使用。深度可分離卷積的優(yōu)越之處在于,相比與普通卷積,其參數(shù)量大幅度地減少,且保證一定的特征提取能力。深度可分離卷積的結構在MobileNet內部發(fā)生了變化,利用批歸一化層加ReLU的組合方式,分別添加到了深度卷積和逐點卷積的后面,并且整個模型中的下采樣也采用了步長為2的卷積,而非池化。AddAddconv1×1,LinearinputDw3×3,ReLu6conv1×1,Relu6conv1×1,LinearinputDw3×3,ReLu6stride=2conv1×1,Relu6(a)步長為1 (b)步長為2圖2.19MobileNetv2核心模塊MobileNetv2ADDINZOTERO_ITEMCSL_CITATION{"citationID":"UzLKdTrY","properties":{"formattedCitation":"\\super[50]\\nosupersub{}","plainCitation":"[50]","noteIndex":0},"citationItems":[{"id":323,"uris":["/users/local/hvrdmomw/items/P3WSFTPP"],"uri":["/users/local/hvrdmomw/items/P3WSFTPP"],"itemData":{"id":323,"type":"paper-conference","container-title":"ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR)","title":"MobileNetV2:InvertedResidualsandLinearBottlenecks","author":[{"family":"Sandler","given":"Mark"},{"family":"Howard","given":"Andrew"},{"family":"Zhu","given":"Menglong"},{"family":"Zhmoginov","given":"Andrey"},{"family":"Chen","given":"Liang-Chieh"}],"issued":{"date-parts":[["2018",6]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[50]在2019年被提出,該模型使用了兩個主要結構:InvertedResiduals和LinearBottlenecks。MobileNetv1在訓練時,深度卷積的卷積核會大范圍的出現(xiàn)為空的現(xiàn)象,作者認為時ReLU的原因。在試驗后發(fā)現(xiàn),低維和高維之間的變換會造成信息的丟失,丟失的程度也是不一樣的,在高維信息后的ReLU丟失信息的可能性,相比與低維信息要小的很多。LinearBottlenecks的設計初衷就是對激活函數(shù)的合理置換,該結構讓模型在部分層中的激活函數(shù)轉變?yōu)榱司€性的。InvertedResiduals是一種逆向的殘差結構,即是對殘差的壓縮-擴張策略正好相反,模塊會對輸入先用1×1的卷積處理,得到通道數(shù)更多的特征,其次再利用3×3的深度卷積進行處理,最后用1×1的逐點卷積對通道數(shù)進行壓縮。隨后的MobileNetv3ADDINZOTERO_ITEMCSL_CITATION{"citationID":"kzreBei6","properties":{"formattedCitation":"\\super[51]\\nosupersub{}","plainCitation":"[51]","noteIndex":0},"citationItems":[{"id":324,"uris":["/users/local/hvrdmomw/items/DH8NEUJE"],"uri":["/users/local/hvrdmomw/items/DH8NEUJE"],"itemData":{"id":324,"type":"article-journal","container-title":"CoRR","note":"_eprint:1905.02244","title":"SearchingforMobileNetV3","URL":"/abs/1905.02244","volume":"abs/1905.02244","author":[{"family":"Howard","given":"Andrew"},{"family":"Sandler","given":"Mark"},{"family":"Chu","given":"Grace"},{"family":"Chen","given":"Liang-Chieh"},{"family":"Chen","given":"Bo"},{"family":"Tan","given":"Mingxing"},{"family":"Wang","given":"Weijun"},{"family":"Zhu","given":"Yukun"},{"family":"Pang","given":"Ruoming"},{"family":"Vasudevan","given":"Vijay"},{"family":"Le","given":"QuocV."},{"family":"Adam","given":"Hartwig"}],"issued":{"date-parts":[["2019"]]}}}],"schema":"/citation-style-language/schema/raw/master/csl-citation.json"}[51]中,其結構的設計采用了搜索的方式產(chǎn)生。作者采用了兩種架構搜索方法形,一是資源受限的NAS(NeuralArchitectureSearch),能夠在計算量、參數(shù)量受到限制的條件下搜索網(wǎng)絡的各個模塊,可以稱為模塊級別的搜索方式。另一種方式則是NetAdapt,可以實現(xiàn)對已有模塊的微調處理。MobileNetv2結構中,后端部分的計算量占據(jù)了總計算量很大的一部分,所以作者對其做了簡化設計。最終的MobileNetv3,吸收了結合了深度可分離卷積的優(yōu)勢,并且將v2中使用的InvertedResiduals和LinearBottleneck兩種結構也吸收了過來,在模型中同時使用了新的激活函數(shù)h-swish,除此之外在深度可分離卷積中添加了SE模塊,使得新模型的性能大大地提升。同樣在2017年,輕量化模型ShuffleNetADDINZOTERO_ITEMCSL_CITATION{"citationID":"zpBVrfvA","properties":{"formattedCitation":"\\super[52]\\nosupersub{}","plainCitation":"[52]","noteIndex":0},"citationItems":

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論