faster rcnn網(wǎng)絡(luò)結(jié)構(gòu)詳解(四個(gè)切入點(diǎn))_第1頁
faster rcnn網(wǎng)絡(luò)結(jié)構(gòu)詳解(四個(gè)切入點(diǎn))_第2頁
faster rcnn網(wǎng)絡(luò)結(jié)構(gòu)詳解(四個(gè)切入點(diǎn))_第3頁
faster rcnn網(wǎng)絡(luò)結(jié)構(gòu)詳解(四個(gè)切入點(diǎn))_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第第頁fasterrcnn網(wǎng)絡(luò)結(jié)構(gòu)詳解(四個(gè)切入點(diǎn))本文從四個(gè)切入點(diǎn)為你介紹FasterR-CNN(網(wǎng)絡(luò))。

經(jīng)過R-CNN和FastRCNN的積淀,(Ros)sB.Gi(rs)h(ic)k在2023年提出了新的FasterRCNN,在結(jié)構(gòu)上,F(xiàn)asterRCNN已經(jīng)將特征抽取(featureextr(ac)(ti)on),proposal提取,boundingboxregression(rectrefine),classification都整合在了一個(gè)網(wǎng)絡(luò)中,使得綜合性能有較大提高,在(檢測(cè))速度方面尤為明顯。

目錄

1Convlayers2RegionProposalNetw(or)ks(RPN)-2.1多通道圖像卷積基礎(chǔ)知識(shí)介紹-2.2anchors-2.3softmax判定positive與negative-2.4boundingboxregression原理-2.5對(duì)proposals進(jìn)行boundingboxregression-2.6ProposalLayer3RoIpooling-3.1為何需要RoIPooling-3.2RoIPooling原理4Classification5FasterRCNN訓(xùn)練-5.1訓(xùn)練RPN網(wǎng)絡(luò)-5.2通過訓(xùn)練好的RPN網(wǎng)絡(luò)收集proposals-5.3訓(xùn)練FasterRCNN網(wǎng)絡(luò)QuestionsandAnswer

,rpn_bbox_outside_weigths未用到(從smooth_L1_Losslayer代碼中可以看到),而

圖21stage1_fast_rcnn_train.pt

之后的stage2訓(xùn)練都是大同小異,不再贅述了。FasterR-CNN還有一種end-to-end的訓(xùn)練方式,可以一次完成train,有興趣請(qǐng)自己看GitHub吧。

rbgirshickpy-faster-rcn:/rbgirshick/py-faster-rcnn

Q&A

此篇文章初次成文于2023年內(nèi)部學(xué)習(xí)分享,再后來經(jīng)多次修正和完善成為現(xiàn)在的樣子。感謝大家一直以來的支持,現(xiàn)在總結(jié)常見疑問回答如下:

為什么Anchor坐標(biāo)中有負(fù)數(shù)?

回顧anchor生成步驟:首先生成9個(gè)baseanchor,然后通過坐標(biāo)偏移在50*38

大小的1/16下采樣FeatureMap每個(gè)點(diǎn)都放上這9個(gè)baseanchor,就形成了

50*38*k

個(gè)anhcors。至于這9個(gè)baseanchor坐標(biāo)是什么其實(shí)并不重要,不同代碼實(shí)現(xiàn)也許不同。

顯然這里面有一部分邊緣anchors會(huì)超出圖像邊界,而真實(shí)中不會(huì)有超出圖像的目標(biāo),所以會(huì)有clipanchor步驟。

圖21clipanchor

Anchor到底與網(wǎng)絡(luò)輸出如何對(duì)應(yīng)?

VGG輸出50*38*512

的特征,對(duì)應(yīng)設(shè)置

50*38*k

個(gè)anchors,而RPN輸出

50*38*2k

的分類特征矩陣和

50*38*4k

的坐標(biāo)回歸特征矩陣。

圖22anchor與網(wǎng)絡(luò)輸出如何對(duì)應(yīng)方式

其實(shí)在實(shí)現(xiàn)過程中,每個(gè)點(diǎn)的2k

個(gè)分類特征與4k

回歸特征,與k

個(gè)anchor逐個(gè)對(duì)應(yīng)即可,這實(shí)際是一種“人為設(shè)置的邏輯映射”。當(dāng)然,也可以不這樣設(shè)置,但是無論如何都需要保證在訓(xùn)練和測(cè)試過程中映射方式必須一致。

為何有ROIPooling還要把輸入圖片resize到固定大小的MxN?

由于引入ROIPooling,從原理上說FasterR-CNN確實(shí)能夠檢測(cè)任意大小的圖片。但是由于在訓(xùn)練的時(shí)候需要使用大batch訓(xùn)練網(wǎng)絡(luò),而不同大小輸入拼batch在實(shí)現(xiàn)的時(shí)候代碼較為復(fù)雜,而且當(dāng)時(shí)以Caffe為代表的第一代(深度學(xué)習(xí))框架也不如(Tensorflow)和PyTorch靈活,所以選擇了把輸入圖片resize到固定大小的800x600。這應(yīng)該算是歷史遺留問題。

另外很多問題,都是屬于具體實(shí)現(xiàn)問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論