【《兩階段和單階段目標(biāo)檢測(cè)算法概述》2000字】_第1頁
【《兩階段和單階段目標(biāo)檢測(cè)算法概述》2000字】_第2頁
【《兩階段和單階段目標(biāo)檢測(cè)算法概述》2000字】_第3頁
【《兩階段和單階段目標(biāo)檢測(cè)算法概述》2000字】_第4頁
【《兩階段和單階段目標(biāo)檢測(cè)算法概述》2000字】_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

兩階段和單階段目標(biāo)檢測(cè)算法概述近幾年來,各種新穎的目標(biāo)檢測(cè)算法不斷出現(xiàn),根據(jù)實(shí)現(xiàn)時(shí)是否存在待選框(Proposal)產(chǎn)生階段,可以被分為兩類:一類是存在待選框產(chǎn)生階段的,如R-CNN,F(xiàn)astR-CNN,F(xiàn)asterR-CNN,這些被歸類為兩階段算法;另一類是無待選框產(chǎn)生階段的單階段的算法,如SSD,YOLO。下面對(duì)這些算法做一下簡(jiǎn)單的介紹。兩階段目標(biāo)檢測(cè)算法傳統(tǒng)的基于滑動(dòng)窗口的目標(biāo)檢測(cè)算法的思路是:用不同規(guī)格的窗口在圖像上按一定的間隔移動(dòng),每次都對(duì)窗口內(nèi)的圖像使用CNN進(jìn)行分類處理。這樣做的缺點(diǎn)顯而易見,需要的不同大小的窗口太多,計(jì)算量太大。為了解決這個(gè)問題,誕生了基于候選區(qū)域的算法。2014年,GirshickR等人[13]設(shè)計(jì)并發(fā)表了R-CNN模型。R-CNN首先會(huì)尋找物體的所在,這一步的實(shí)現(xiàn)方式是將圖像劃分為若干個(gè)小的子區(qū)域,然后依據(jù)定義的相似度(主要考慮顏色,紋理等)進(jìn)行區(qū)域合并,得到最終的待選框。R-CNN的算法流程如圖2-10所示,首先使用前述的步驟來得到待選區(qū)域,接著將所有經(jīng)過一定處理后的待選區(qū)域送入AlexNet進(jìn)行特征提取,最后采用SVM算法進(jìn)行分類。圖2-10R-CNN算法流程圖[13]R-CNN相對(duì)于傳統(tǒng)算法有了相當(dāng)出色的提升,但是依然有著不足:一是得到待選框的步驟中,往往會(huì)得到一些有重合的結(jié)果,這就造成了計(jì)算上的冗余;二是使用AlexNet時(shí),由于AlexNet對(duì)輸入的要求是217×217,因此有時(shí)需要對(duì)輸入圖像進(jìn)行一些導(dǎo)致圖像變形嚴(yán)重的操作,影響分類結(jié)果。2015年,何凱明等人[15]設(shè)計(jì)并發(fā)表了SPP-Net。SPP-Net在CNN中引入了空間金字塔池化的思想。在空間金字塔池化概念的啟發(fā)下,GirshickR等人[14]設(shè)計(jì)并發(fā)表了FastR-CNN模型。FastR-CNN進(jìn)行了2個(gè)方面的優(yōu)化,一是借鑒金字塔池化構(gòu)思了一種簡(jiǎn)化版本的感興趣區(qū)域池化(ROIPooling),解決R-CNN的失真問題;二是采用softmax分類取代了SVM分類器,在分類能力上也獲得了提升。FastR-CNN算法流程如圖2-11所示。FastR-CNN同樣采用與R-CNN相同的方法提取待選框,與R-CNN不同的是,不再采取先得到待選框再逐個(gè)將其輸入CNN中來獲得特征的方式,而是先將整個(gè)圖像輸入到CNN中進(jìn)行特征的獲得,再結(jié)合感興趣區(qū)域映射得到各個(gè)待選框的特征。這樣,各個(gè)待選框共用了卷積層,加快了速度。圖2-11FastR-CNN算法流程圖[14]R-CNN和FastR-CNN最大的制約在于得到待選框時(shí)采用的方法,對(duì)此,RenS等人[16]設(shè)計(jì)并發(fā)表了FasterR-CNN模型來克服這一問題。FasterR-CNN將提取待選框的步驟加入到了神經(jīng)網(wǎng)絡(luò)中,替代這一步驟的網(wǎng)絡(luò)結(jié)構(gòu)被稱為RPN(英文全稱為RegionProposalNetwork,區(qū)域待選網(wǎng)絡(luò))。如圖2-12所示,F(xiàn)asterR-CNN的流程為:首先完整地輸入圖片,進(jìn)行特征提取,然后將提取到的信息結(jié)合RPN獲得的待選框信息進(jìn)行最終的分類以及回歸。圖2-12FasterR-CNN算法流程圖[16]單階段目標(biāo)檢測(cè)算法2016年,LiuW等人[18]設(shè)計(jì)并發(fā)表了SSD目標(biāo)檢測(cè)算法,如圖2-13所示。SSD算法的主體網(wǎng)絡(luò)是改進(jìn)后的VGG-Net[10],在CNN中,通過提取不同層次的特征圖得到不同的邊界框,然后進(jìn)行預(yù)測(cè)和回歸。SSD算法是一個(gè)典型的單階段目標(biāo)檢測(cè)算法,也就是說,不再是先通過某種算法得到待選框,而是直接將圖片輸入到CNN中,在圖片上進(jìn)行密集取樣,取樣后提取特征,進(jìn)行分類和回歸。圖2-13SSD算法網(wǎng)絡(luò)結(jié)構(gòu)圖[18]2015年,RedmonJ等人[17]設(shè)計(jì)了YOLO算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2-14所示。YOLO算法也同樣是單階段的,其設(shè)計(jì)思路是將目標(biāo)檢測(cè)的任務(wù)看作一種回歸任務(wù),定位邊界框并預(yù)測(cè)該框內(nèi)物體的類別。圖2-14YOLO算法網(wǎng)絡(luò)結(jié)構(gòu)圖[17]YOLO網(wǎng)絡(luò)首先會(huì)把圖像調(diào)整為統(tǒng)一的大?。?48×448),然后將輸入劃分為多個(gè)單元格(gridcell)。單元格的意義在于,如果目標(biāo)的幾何中心落在單元格內(nèi),則就由該單元格承擔(dān)起對(duì)該目標(biāo)的檢測(cè)工作。對(duì)于單元格內(nèi)的n個(gè)目標(biāo),單元格會(huì)預(yù)測(cè)出n個(gè)框和該框的置信度,置信度計(jì)算公式如式(2-9)所示: 式中:——框中目標(biāo)存在的概率;——預(yù)測(cè)框與實(shí)際框的交并比;上式中IOU的計(jì)算公式如式(2-10)所示: 式中:——預(yù)測(cè)框與實(shí)際框交集的面積;——預(yù)測(cè)框與實(shí)際框并集的面積;顯然,置信度是倆個(gè)方面度量的總和:目標(biāo)可能性和框的準(zhǔn)確性。然后,進(jìn)入預(yù)測(cè)階段,YOLO預(yù)測(cè)的不是類別的概率,而是其條件概率,該條件概率表述為在單元格內(nèi)有目標(biāo)的條件下目標(biāo)屬于某一類別的概率,其計(jì)算公式如式(2-11)所示。在最后的預(yù)測(cè)階段,YOLO會(huì)根據(jù)計(jì)算出的條件概率,結(jié)合非最大值抑制(NMS)方法來得到框和類別。 式中:——物體類別在框中有目標(biāo)的條件下的條件概率;——框中存在目標(biāo)的概率;——類別的概率;——預(yù)測(cè)框與實(shí)際框交集的面積;2015年,RedmonJ等人[20]在YOLO的基礎(chǔ)上設(shè)計(jì)并發(fā)表了YOLOv2模型。YOLOv2模型在YOLO模型的胚子上引入了一些措施來進(jìn)行優(yōu)化。首先,YOLOv2設(shè)計(jì)了Darknet-19來取代VGG16進(jìn)行特征提取的工作,DarkNet-19網(wǎng)絡(luò)的構(gòu)成如圖2-15所示。其次,CNN在傳遞時(shí)由于各層的輸入分布有差別,會(huì)造成內(nèi)部協(xié)方差的出現(xiàn),YOLOv2在處理每層的輸入時(shí)采納了歸一化的方案,通過歸一化操作可以將這種現(xiàn)象帶來的不良后果消弭,提升模型性能[23]。然后,YOLOv2還引入了先驗(yàn)框等舉措來提升模型的整體性能。圖2-15DarkNet-19網(wǎng)絡(luò)結(jié)構(gòu)圖2018年,RedmonJ等人[21]繼續(xù)在YOLO系列上改進(jìn),設(shè)計(jì)并發(fā)表了YOLOv3模型。YOLOv3在YOLOv2的基礎(chǔ)上,使用了比Darknet-19更優(yōu)秀的Darknet-53網(wǎng)絡(luò)來完成提取工作,該網(wǎng)絡(luò)的主體結(jié)構(gòu)如圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論