【《關于圖像分類及目標檢測研究現(xiàn)狀文獻綜述》2000字】_第1頁
【《關于圖像分類及目標檢測研究現(xiàn)狀文獻綜述》2000字】_第2頁
【《關于圖像分類及目標檢測研究現(xiàn)狀文獻綜述》2000字】_第3頁
【《關于圖像分類及目標檢測研究現(xiàn)狀文獻綜述》2000字】_第4頁
【《關于圖像分類及目標檢測研究現(xiàn)狀文獻綜述》2000字】_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGE3關于圖像分類及目標檢測研究現(xiàn)狀文獻綜述1)圖像分類研究現(xiàn)狀圖像分類的任務是依據(jù)圖像信息,讓計算機正確地辨認圖像內容,通俗來說就是“看狗是狗,看貓是貓”,關注點僅在于正確分類上,其任務示例如圖1-2所示。圖STYLEREF1\s12圖像分類任務示例2012年,KrizhevskyA等人[9]設計并發(fā)表了具有5層結構的AlexNet網(wǎng)絡模型,在這個網(wǎng)絡中,他們引入了ReLU激活函數(shù),借助了Dropout技巧,減小了模型過擬合風險,同時梯度下降更快。在2012年的ImageNet挑戰(zhàn)賽的圖像分類領域,即ILSVRC2012上,該模型以16.4%的TOP-5誤差率一舉。這一成果證明了深度學習網(wǎng)絡模型在圖像分類這一領域存在著待挖掘的潛力,引發(fā)了廣大的研究者對于將深度學習應用于圖像分類的興趣。2014年,SimonyanK等人[10]設計并發(fā)表了VGG模型,該模型通過反復利用3×3的卷積核和池化層來搭建網(wǎng)絡結構。與此同時,網(wǎng)絡采用了多粒度表達的思想,這使得VGGNet檢測模型擁有不俗的泛化能力,但是由于網(wǎng)絡采樣的卷積核大小較小,網(wǎng)絡很難搭建地更深,這制約了網(wǎng)絡模型的檢測能力。在ILSVRC2014上,VGGNet取得了榜眼的好成績。同樣是2014年,SzegedyC等人[11]發(fā)明了GoogLeNet,這是一個擁有22層深度的網(wǎng)絡,這一數(shù)值打破了當時網(wǎng)絡深度的記錄。該網(wǎng)絡最引人注意的獨創(chuàng)性在于采用了Inception模塊,該模塊含有含有4個支路,使用了幾種不同大小的小卷積核,其結構如圖1-3所示。GoogLeNet憑借其優(yōu)秀的性能,在ILSVRC2014中以6.7%的TOP-5誤差率獨占鰲頭。圖STYLEREF1\s13Inception模塊示意圖2015年,何凱明等人[12]設計并發(fā)表了ResNet網(wǎng)絡,該模型是ILSVRC2015的魁首。當網(wǎng)絡模型的深度來到一定程度時,出現(xiàn)了網(wǎng)絡模型的性能反而與網(wǎng)絡深度呈現(xiàn)負相關的問題。而ResNet創(chuàng)造了殘差連接,解決了這個問題。殘差模型如圖1-4所示,其核心就是建立了一個前面層到后面層的直接連接,這一做法有益于反向傳播,從而減少網(wǎng)絡退化出現(xiàn)的幾率。該研究的成果對于后來越來越深的網(wǎng)絡結構具有重要的意義,它使得更深層次的網(wǎng)絡的應用變得更加容易。圖STYLEREF1\s14殘差模塊示意圖2)目標檢測研究現(xiàn)狀在圖像分類的基礎上,目標檢測的要求更進了一步,體現(xiàn)在:一是目標檢測不僅要將物體的類別正確識別,還需要將物體在圖片上的位置大概劃分出來;二是在目標檢測任務中,一幅圖片上的目標數(shù)量是不確定的,往往有不止一個目標,其任務示例如圖1-5所示。圖STYLEREF1\s15目標檢測示例2012年后,由于卷積神經(jīng)網(wǎng)絡的大力發(fā)展,研究人員開始探索將卷積神經(jīng)網(wǎng)絡應用于目標檢測任務的實現(xiàn)中來。2014年,R.Girshick等人[13]設計并發(fā)表了R-CNN網(wǎng)絡模型。這一模型時一項創(chuàng)新,與傳統(tǒng)的目標檢測算法不同的是,在提取特征時不需要人為地進行一系列設計,而是將這一繁雜的操作交給了神經(jīng)網(wǎng)絡。R-CNN的檢測能力也被實驗證明相對于傳統(tǒng)算法有了一個較大的提升。2015年,R.Girshick[14]又借鑒了何凱明等人[15]提出的SPP-Net中的設計思路提出了FastR-CNN模型。該模型相對于R-CNN又有了進步,無論是在檢測的速度還是精度方面都有了拔高。同年,S.Ren等人[16]又創(chuàng)造了FasterR-CNN模型,這個模型借助于區(qū)域待選的思想,使得R-CNN系列的性能又進一步提升。R-CNN系列在在其實現(xiàn)過程中存在待選框生成的階段,即是一個兩階段的算法模型。而在2016年,RedmonJ等人[17]設計并發(fā)表了YOLO網(wǎng)絡模型,這是一個經(jīng)典的單階段的算法模型,即不存在待選框生成階段的目標檢測模型。該類型的模型的檢測速度往往優(yōu)于兩階段的目標檢測模型,但是精度相對于兩階段目標檢測模型要有所不如。同年,LiuW等人[18]設計并發(fā)表了SSD模型,作為一個單階段的目標檢測模型,其不僅能在檢測速度上和YOLO一致,檢測精度也能接近R-CNN系列,這是單階段的模型的一個進步。2017年,LinTY等人[19]設計并發(fā)表了FPN網(wǎng)絡模型,關于該模型的大量實驗結果論證了多粒度對于模型精度的正向作用。同年,受此啟發(fā),RedmonJ等人[20]又設計并發(fā)表了YOLOv2模型,相對于最開始的YOLO,使用了更深的提取網(wǎng)絡,并引入了先驗框設計理念,大幅度提高了YOLO系列的精度。到了2018年,RedmonJ等人[21]設計并發(fā)表了YOLOv3模型,該模型使用了3個不同粒度的特征圖的分支進行預測,并使用深度較大的DarkNet-53網(wǎng)絡來完成解碼器的工作。實驗結果表明,YOLOv3是一個及其優(yōu)秀的模型,該模型無論檢測的速度還是精度都到達了一個嶄新的水平。參考文獻ADDINEN.REFLIST中國政府網(wǎng)[R/OL].[2020-07-14].魏宇豪.車道線檢測與車載相機自動標定方法研究[D].西安:西安交通大學,2020.WassonH.Theothersmallscreen:MovingimagesatNewYork'sWorldFair,1939[J].CanadianJournalofFilmStudies,2012,21(1):81-103.MccullochWS,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity[J].BulletinofMathematicalBiophysics,1990,52(1-2):99-115.KelleyHJ.GradientTheoryofOptimalFlightPaths[J].ARSJournal,1960,30(10):947-954.IvakhnenkoAG,LapaVG.CyberneticPredictingDevices[M].NewYork:CCMInformationCorporation,1965.FukushimaK.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition[J].BiologicalCybernetics,1980,36(4):193-202.LecunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25(2):2012.何育欣,鄭伯川,譚代倫等.基于VGGNet改進網(wǎng)絡結構的多粒度大熊貓面部檢測[J].重慶大學學報,2020,43(11):63-71.蘇賦,呂沁,羅仁澤.基于深度學習的圖像分類研究綜述[J].電信科學,2019,35(11):58-74.HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:770-778.GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:580-587.GirshickR.Fastr-cnn[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.2015:1440-1448.HeK,ZhangX,RenS,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2015,37(9):1904-1916.RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2016,39(6):1137-1149.RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:Unified,real-timeobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:779-788.LiuW,AnguelovD,ErhanD,etal.Ssd:Singleshotmultiboxdetector[C]//Europeanconferenceoncomputervision.Springer,Cham,2016:21-37.LinTY,DollarP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpattern

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論