基于Python的深度學(xué)習(xí)圖像處理 課件 第十章 基于深度學(xué)習(xí)的圖像分割_第1頁
基于Python的深度學(xué)習(xí)圖像處理 課件 第十章 基于深度學(xué)習(xí)的圖像分割_第2頁
基于Python的深度學(xué)習(xí)圖像處理 課件 第十章 基于深度學(xué)習(xí)的圖像分割_第3頁
基于Python的深度學(xué)習(xí)圖像處理 課件 第十章 基于深度學(xué)習(xí)的圖像分割_第4頁
基于Python的深度學(xué)習(xí)圖像處理 課件 第十章 基于深度學(xué)習(xí)的圖像分割_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十章基于深度學(xué)習(xí)的圖像分割窮究于理·成就于工0203基于深度學(xué)習(xí)的圖像分割網(wǎng)絡(luò)DeepLabV3+、MaskRCNN基于深度學(xué)習(xí)的圖像分割網(wǎng)絡(luò)的發(fā)展01圖像分割概述目錄窮究于理·成就于工01圖像分割概述圖像分割概述

語義分割是在像素級(jí)別上的分類,屬于同一類的像素都要被歸為一類,因此語義分割是從像素級(jí)別來理解圖像的。例如下圖,屬于人的像素都要分成一類,屬于摩托車的像素也要分成一類,除此之外還有背景像素也被分為一類。注意語義分割不同于實(shí)例分割,舉例來說,如果一張照片中有多個(gè)人,對(duì)于語義分割來說,只要將所由人的像素都?xì)w為一類,但是實(shí)例分割還要將不同人的像素歸為不同的類。實(shí)例分割比語義分割更進(jìn)一步,它是指像素級(jí)地識(shí)別圖像,即標(biāo)注出圖像中每個(gè)像素所屬的對(duì)象類別。語義分割概述圖像分割概述

語義分割有著三個(gè)流程,即訓(xùn)練、驗(yàn)證和測(cè)試。通過訓(xùn)練,先進(jìn)行圖片的預(yù)處理,然后放入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再利用訓(xùn)練結(jié)果,測(cè)試網(wǎng)絡(luò)在驗(yàn)證集的表現(xiàn),通過語義分割的指標(biāo)來觀察分割效果,進(jìn)而保存對(duì)應(yīng)權(quán)重w值,最后取出效果最好的權(quán)重進(jìn)行測(cè)試。在其他圖像任務(wù)或者其他深度學(xué)習(xí)任務(wù)也可以利用這三步進(jìn)行操作1)訓(xùn)練。根據(jù)batchsize大小,將數(shù)據(jù)集中的訓(xùn)練樣本和標(biāo)簽讀入卷積神經(jīng)網(wǎng)絡(luò)。根據(jù)實(shí)際需要應(yīng)先對(duì)訓(xùn)練圖片及標(biāo)簽進(jìn)行預(yù)處理,如裁剪、數(shù)據(jù)增強(qiáng)等,這有利于深層網(wǎng)絡(luò)的的訓(xùn)練加速收斂過程,同時(shí)也避免過擬合問題并增強(qiáng)了模型的泛化能力。2)驗(yàn)證。訓(xùn)練一個(gè)epoch結(jié)束后將數(shù)據(jù)集中的驗(yàn)證樣本和標(biāo)簽讀入卷積神經(jīng)網(wǎng)絡(luò),并裁入訓(xùn)練權(quán)重。根據(jù)編寫好的語義分割指標(biāo)進(jìn)行驗(yàn)證,得到當(dāng)前訓(xùn)練過程中的指標(biāo)分?jǐn)?shù),保存對(duì)應(yīng)權(quán)重。常用一次訓(xùn)練一次驗(yàn)證的方法來更好的監(jiān)督模型表現(xiàn)。3)測(cè)試。所有訓(xùn)練結(jié)束后,將數(shù)據(jù)集中的測(cè)試樣本和標(biāo)簽讀入卷積神經(jīng)網(wǎng)絡(luò),并將保存的最好權(quán)重值載入模型,進(jìn)行測(cè)試。測(cè)試結(jié)果分為兩種,一種是根據(jù)常用指標(biāo)分?jǐn)?shù)衡量網(wǎng)絡(luò)性能,另一種是將網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果以圖片的形式保存下來,直觀感受分割的精確程度。實(shí)例分割概述實(shí)例分割是結(jié)合目標(biāo)檢測(cè)和語義分割的一個(gè)更高層級(jí)的任務(wù)。與語義分割不同,實(shí)例分割只對(duì)特定物體進(jìn)行類別分配,這一點(diǎn)與目標(biāo)檢測(cè)有點(diǎn)相似,但目標(biāo)檢測(cè)輸出的是邊界框和類別,而實(shí)例分割輸出的是掩膜(mask)和類別。1)目標(biāo)檢測(cè):區(qū)分出不同實(shí)例,用box進(jìn)行目標(biāo)定位。2)語義分割:區(qū)分出不同類別,用mask進(jìn)行標(biāo)記。3)實(shí)例分割:區(qū)分出不同實(shí)例,用mask進(jìn)行標(biāo)記。實(shí)例分割的算法發(fā)展遵循這兩條路線:一條是基于目標(biāo)檢測(cè)的自上而下的方案,首先通過目標(biāo)檢測(cè)定位出每個(gè)實(shí)例所在的box,進(jìn)而對(duì)box內(nèi)部進(jìn)行語義分割得到每個(gè)實(shí)例的mask;另一條是基于語義分割的自下而上的方案,首先通過語義分割進(jìn)行逐像素分類,進(jìn)而通過聚類或其他度量學(xué)習(xí)手段區(qū)分開同類的不同實(shí)例。02基于深度學(xué)習(xí)的圖像分割網(wǎng)絡(luò)的發(fā)展語義分割網(wǎng)絡(luò)的發(fā)展2014年,Google團(tuán)隊(duì)提出了DeepLabV1。DeepLabV1首先將VGG16中的全連接層轉(zhuǎn)化為卷積層,接著將網(wǎng)絡(luò)中最后兩個(gè)池化層之后的卷積層替換為空洞卷積(DilationConvolution)。2016年,Google團(tuán)隊(duì)提出了DeepLabV2,它在DeepLabV1的基礎(chǔ)上做出了改進(jìn),以殘差網(wǎng)絡(luò)ResNet代替GG16作為網(wǎng)絡(luò)模型,ResNet直接將輸入信息繞道傳到輸出端,一定程度上解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中或多或少丟失部分信息的問題。2017年,DeepLabV3在DeepLabV2的基礎(chǔ)上做出了改進(jìn),它依舊以殘差網(wǎng)絡(luò)ResNet作為網(wǎng)絡(luò)模型。2018年,Chen等人提出DeepLabv3+模型,該模型設(shè)計(jì)了一個(gè)Encoder-Decoder結(jié)構(gòu)。DeepLabV3+在DeepLabV3的基礎(chǔ)上做出了改進(jìn),采用了編碼器解碼器結(jié)構(gòu)進(jìn)行圖像語義分割。DeepLabV3+將DeepLabV3網(wǎng)絡(luò)結(jié)構(gòu)作為編碼器,并添加一個(gè)簡單高效的解碼器用于獲取空間信息。2019年,JunFu等人在CVPR上提出了DANet,雖然上下文融合有助于捕獲不同比例的對(duì)象,但卻無法利用全局視圖中對(duì)象之間的關(guān)系。語義分割網(wǎng)絡(luò)的發(fā)展2020年,SunghaChoi等人在CVPR上提出了HANet,高驅(qū)動(dòng)注意網(wǎng)絡(luò)(height-drivenattentionnetworks)是根據(jù)城市數(shù)據(jù)集的內(nèi)在特征而提出的通用網(wǎng)絡(luò)附加模型,解決了城市場(chǎng)景類別分布極為不平衡的問題,提高了城市環(huán)境的語義分割的準(zhǔn)確率,容易嵌入各個(gè)網(wǎng)絡(luò),且對(duì)于mIoU有著較為明顯的提高。2021年,Zheng等人在CVPR大會(huì)上提出SEgmentationTRansformer(SETR),即使用純粹的transformer來替由代堆疊卷積層組成的encoder。圖像語義分割數(shù)據(jù)集不同的圖像語義分割方法在處理相同類型的圖像時(shí)的效果參差不齊,而且不同的圖像語義分割方法擅長處理的圖像類型也各不一樣。為了對(duì)各種圖像語義分割方法的優(yōu)劣性進(jìn)行公平的比較,需要一個(gè)包含各種圖像類型且極具代表性的圖像語義分割數(shù)據(jù)集來測(cè)試并得到性能評(píng)估指標(biāo)。下面將介紹圖像語義分割領(lǐng)域中常用的數(shù)據(jù)集。PASCOLVOC系列數(shù)據(jù)集在2005~2012年每年都會(huì)用于圖像識(shí)別挑戰(zhàn),為圖像語義分割提供的一套優(yōu)秀的數(shù)據(jù)集。其中最常用的PASCOLVOC2012數(shù)據(jù)集包括場(chǎng)景在內(nèi)共有21種類別,主要包含人類、動(dòng)物、交通工具和室內(nèi)家具等。該數(shù)據(jù)集共包含10000多張圖像,而適用于語義分割的圖像有2913張,其中1464張作為訓(xùn)練圖像,另外1449張作為驗(yàn)證圖像。之后該數(shù)據(jù)集的增強(qiáng)版PASCOLVOC2012+又標(biāo)注了8000多張圖像用于語義分割,這些適用于語義分割的圖片尺寸不同,且不同物體之間存在遮擋現(xiàn)象。PASCOLContext數(shù)據(jù)集是由PASCOLVOC2010數(shù)據(jù)集改進(jìn)而來,添加了大量的物體標(biāo)注和場(chǎng)景信息,一共有540個(gè)標(biāo)注類別。但在算法評(píng)估時(shí),一般選擇出現(xiàn)頻率最高的59個(gè)類別作為語義標(biāo)簽,剩余類別充當(dāng)背景。圖像語義分割數(shù)據(jù)集MSCOCO數(shù)據(jù)集是一種由微軟團(tuán)隊(duì)提供的可用于語義分割的大型數(shù)據(jù)集。MSCOCO數(shù)據(jù)集提供了包括背景共81種類別、328000張圖像、2500000個(gè)物體實(shí)例以及100000個(gè)人體關(guān)鍵部位標(biāo)注。數(shù)據(jù)集中的圖片來源于室內(nèi)室外的日常場(chǎng)景,圖片中每個(gè)物體都有精確的位置標(biāo)注,適用于對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。Cityscapes數(shù)據(jù)集是一種無人駕駛視角下的城市景觀數(shù)據(jù)集。Cityscapes數(shù)據(jù)集記錄了50個(gè)不同城市的街道場(chǎng)景,包含了5000張精細(xì)標(biāo)注還有20000張粗略標(biāo)注的城市環(huán)境中無人駕駛的場(chǎng)景圖像。這5000張精細(xì)標(biāo)注圖像共分為2975張訓(xùn)練圖像,1525張測(cè)試圖像以及500張驗(yàn)證圖像,總共提供了包括行人、車輛和道路等30種類別標(biāo)注。CamVid數(shù)據(jù)集是最早用于自動(dòng)駕駛的數(shù)據(jù)集。CamVid數(shù)據(jù)集是由車載攝像頭從駕駛員的角度拍攝的5個(gè)視頻序列組建而成的,包含了在不同時(shí)段的701張圖像和具有32個(gè)類別的語義標(biāo)簽。NYUDv2數(shù)據(jù)集是由微軟Kinect設(shè)備獲得的室內(nèi)場(chǎng)景組成的數(shù)據(jù)集。NYUDv2數(shù)據(jù)集由一系列的視頻序列組成,包含1449張具有40個(gè)類別的RGBD圖像。數(shù)據(jù)集中共包含464種室內(nèi)場(chǎng)景,26種場(chǎng)景類型,適用于家庭機(jī)器人的圖像分割任務(wù)。實(shí)例分割網(wǎng)絡(luò)的發(fā)展近年來,深度學(xué)習(xí)和CUDA等并行計(jì)算技術(shù)迅速發(fā)展直接推動(dòng)了計(jì)算機(jī)視覺和圖像處理領(lǐng)域,進(jìn)入了新的技術(shù)時(shí)代,實(shí)例分割作為計(jì)算機(jī)視覺基礎(chǔ)研究問題之一,其技術(shù)可廣泛應(yīng)用于汽車自動(dòng)駕駛,機(jī)器人控制,輔助醫(yī)療和遙感影像等領(lǐng)域,在計(jì)算機(jī)視覺的基本任務(wù)中目標(biāo)檢測(cè)是預(yù)測(cè)圖像中目標(biāo)位置和類別。即不僅需要對(duì)不同類別目標(biāo)進(jìn)行像索級(jí)別分割,還要對(duì)不同目標(biāo)進(jìn)行區(qū)分。實(shí)例分割目前存在的一些問題和難點(diǎn):1)小物體分割問題。深層的神經(jīng)網(wǎng)絡(luò)一般有更大的感受野,對(duì)姿態(tài)、形變、光照等更具有魯棒性,但是分辨率(resolution)比較低,細(xì)節(jié)也丟失了;淺層的神經(jīng)網(wǎng)絡(luò)的感受野比較窄,細(xì)節(jié)比較豐富,分辨率比較大,但缺少了語義上的信息。因此,如果一個(gè)物體比較小時(shí),它的細(xì)節(jié)在淺層的CNN層中會(huì)更少,同樣的細(xì)節(jié)在深層網(wǎng)絡(luò)中幾乎會(huì)消失。解決這個(gè)問題的方法有dilatedconvolution和增大特征的分辨率。2)處理幾何變換(geometrictransformation)的問題。對(duì)于幾何變換,CNN本質(zhì)上并不是空間不變的(spatiallyinvariant)。3)處理遮擋(occlusions)問題。遮擋會(huì)造成目標(biāo)信息的丟失。目前提出了一些方法來解決這個(gè)問題,如deformableROIpooling、deformableconvolution和adversarialnetwork。另外,也可能可以使用GAN來解決這個(gè)問題。4)處理圖像退化(imagedegradations)的問題。造成圖像退化的原因有光照、低質(zhì)量的攝像機(jī)和圖像壓縮等。不過目前大多數(shù)數(shù)據(jù)集(如ImageNet、COCO和PASCALVOC等)都不存在圖像退化的問題。實(shí)例分割網(wǎng)絡(luò)的發(fā)展近年來,實(shí)例分割的研究基本是建立在基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)和語義分割基礎(chǔ)之上。因此,從研究發(fā)展來看實(shí)例分割任務(wù)是卷積神經(jīng)網(wǎng)絡(luò)成功運(yùn)用在計(jì)算機(jī)視覺領(lǐng)域的產(chǎn)物。實(shí)例分割方法主要?dú)w納為兩階段與單階段兩類,其中兩階段實(shí)例分割有兩種解決思路,分別是自上而下基于檢測(cè)的方法和自下而上基于分割的方法。自上而下的實(shí)例分割研究受益于目標(biāo)檢測(cè)的豐碩成果。2014年,BharathHariharan在SDS中首次實(shí)現(xiàn)檢測(cè)和分割同時(shí)進(jìn)行,也是最早的實(shí)例分割算法,奠定了后續(xù)研究基礎(chǔ)。具體分為四步:①建議框生成②特征提取③區(qū)域分類④區(qū)域細(xì)化。2015年,該團(tuán)隊(duì)又對(duì)SDS重新分析認(rèn)為,只使用CNN最高層的特征來解決實(shí)例分割問題存在著掩碼細(xì)節(jié)粗糙的缺陷,即高層特征的語義信息豐富有利于目標(biāo)分類,但缺少精確的位置信息。2016年,何凱明團(tuán)隊(duì)在多任務(wù)網(wǎng)絡(luò)級(jí)聯(lián)(MNC)中提出了一種級(jí)聯(lián)結(jié)構(gòu),將實(shí)例分割任務(wù)分解為目標(biāo)定位,掩碼生成以及目標(biāo)分類二個(gè)子任務(wù),共用一個(gè)主干網(wǎng)絡(luò),將三個(gè)不同功能的網(wǎng)絡(luò)分支級(jí)聯(lián)起來,每個(gè)階段都以前一階段的結(jié)果作為輸入,整個(gè)網(wǎng)絡(luò)是端到端的。這樣主干網(wǎng)絡(luò)的訓(xùn)練可以共享三個(gè)子任務(wù)的監(jiān)督,有利于訓(xùn)練出更好的特征。實(shí)例分割網(wǎng)絡(luò)的發(fā)展

2017年,何凱明團(tuán)隊(duì)提出簡單通用且性能強(qiáng)大的兩階段MaskR-CNN,是FasterR-CNN思想應(yīng)用在實(shí)例分割的經(jīng)典之作,用于許多衍生應(yīng)用的基線算法,也是現(xiàn)今使用最多,效率最高的實(shí)例分割算法。

2018年,PANet在MaskR-CNN基礎(chǔ)上引入自下而上的路徑攻進(jìn)并擴(kuò)展了金字塔結(jié)征提取網(wǎng)絡(luò),使用自適應(yīng)融合的ROI區(qū)域特征池化,很好地融合了不同層次的特征信息。2019年,MSR-CNN提出現(xiàn)有的mask打分策略是使用分類的指標(biāo),缺乏針對(duì)性的評(píng)價(jià)機(jī)制。

2021年,BPR提出一個(gè)后處理細(xì)化模塊以提高M(jìn)askR-CNN的邊界質(zhì)量,RefineMask利用邊緣信息和語義分割信息細(xì)化MaskR-CNN生成的粗精掩碼邊緣,姜世浩等在MaskR-CNN基礎(chǔ)上引入兩條分支,基于整體嵌套邊緣檢測(cè)(HED)模型生成邊緣特征圖,一條基于FCN生成偏重于空間位置信息的語義特征圖。圖像實(shí)例分割數(shù)據(jù)集實(shí)例分割割常用數(shù)據(jù)集有PASCALVOC、MSCOCO、Cityscapes、ADE20k等1.PASCALVOC:可以作分類,分割,目標(biāo)檢測(cè),動(dòng)作檢測(cè)和人物定位五類任務(wù)數(shù)據(jù)集,最后穩(wěn)定在21類,測(cè)試圖像從早期的1578幅最后穩(wěn)定在11540幅。2.MSCOCO:是另一個(gè)大規(guī)模物體檢測(cè)、分割及文字定位數(shù)據(jù)集。它總共有91個(gè)物體類別,32.8萬幅圖像,超過8萬幅圖像用于訓(xùn)練,4萬多幅圖像用于驗(yàn)證,8萬多幅圖像用于測(cè)試,擁有250萬個(gè)標(biāo)注實(shí)例。3.Cityscapes:是另一個(gè)大規(guī)模數(shù)據(jù)集,其關(guān)注于城市街景的語義理解。包含了一組來自50個(gè)城市的街景的不同的立體視頻序列,有5k幀的高質(zhì)量像素級(jí)標(biāo)注,還有一組20k的弱標(biāo)注幀。4.ADE20k:是一個(gè)新的場(chǎng)景理解數(shù)據(jù)集,總共有2萬多幅圖像,其中訓(xùn)練集有20210幅圖像,驗(yàn)證集有2000幅圖像,測(cè)試集有3352幅圖像,以開放字典標(biāo)簽集密集注釋。

圖像語義分割性能評(píng)估指標(biāo)目前,語義分割領(lǐng)域中常用的三種評(píng)價(jià)指標(biāo)包括精度、執(zhí)行時(shí)間及內(nèi)存占用。就精度這一評(píng)價(jià)指標(biāo)而言,最常見的性能評(píng)估指標(biāo)包括像素精度(PA)、平均像素精度(MPA)、平均精度(AP)、平均召回率(AR)、平均精度均值(mAP)、交并比(IoU)以及平均交并比(MIoU)。在評(píng)估結(jié)果時(shí),一般會(huì)選擇PA、MPA以及MIoU這三項(xiàng)指標(biāo)進(jìn)行綜合對(duì)比分析。精度是當(dāng)前語義分割任務(wù)中最重要的一項(xiàng)指標(biāo)。PA表示語義分割圖像中分割正確的像素?cái)?shù)量與總像素?cái)?shù)量的比值,具體的計(jì)算方法如式所示:

圖像語義分割性能評(píng)估指標(biāo)MPA表示每個(gè)類別中正確的像素?cái)?shù)量與該類別所有像素?cái)?shù)量的比值的均值,具體的計(jì)算方法如式所示:MIoU是圖像語義分割中使用頻率最高的一項(xiàng)指標(biāo)。

03實(shí)例:基于深度學(xué)習(xí)的圖像分割網(wǎng)絡(luò)DeepLabV3+、MaskRCNNDeepLabV3+DeepLabv3使用的空洞卷積能夠在提取全局上下文特征的同時(shí)將featuremap保持在比較大的尺寸上,從而保留空間細(xì)節(jié)信息。DeepLabV3+的網(wǎng)絡(luò)架構(gòu)如圖所示,可以看到其主要結(jié)構(gòu)為Encoder-Decoder架構(gòu)。DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)與工作原理

在ASPP模塊中,包括了1個(gè)1×1卷積、3個(gè)3×3的Atrousconvolution分別比率為6、12、18,以及一個(gè)圖像全局的Pooling操作,這些操作過后是1個(gè)1×1卷積。對(duì)于解碼器部分,直接將編碼器的輸出上采樣4倍,使其分辨率和低層級(jí)的feature一致。將兩個(gè)特征層連接后,再進(jìn)行一次3×3的卷積(細(xì)化作用),然后再次上采樣就得到了像素級(jí)的預(yù)測(cè)。1×1卷積的作用是升維或降維,使其與要結(jié)合的特征層保持一致。空洞卷積(AtrousConvolution)是DeepLab模型的關(guān)鍵之一,它可以在不改變特征圖大小的同時(shí)控制感受野,這有利于提取多尺度信息。空洞卷積如圖10.5所示,其中rate(r)控制著感受野的大小,r越大感受野越大。通常的CNN分類網(wǎng)絡(luò)的output_stride=32,若希望DilatedFCN的output_stride=16,只需要將最后一個(gè)下采樣層的stride設(shè)置為1,并且后面所有卷積層的r設(shè)置為2,這樣保證感受野沒有發(fā)生變化。對(duì)于output_stride=8,需要將最后的兩個(gè)下采樣層的stride改為1,并且后面對(duì)應(yīng)的卷積層的rate分別設(shè)為2和4。另外一點(diǎn),DeepLabv3中提到了采用multi-grid方法,針對(duì)ResNet網(wǎng)絡(luò),最后的3個(gè)級(jí)聯(lián)block采用不同rate,若output_stride=16且multi_grid=(1,2,4),那么最后的3個(gè)block的rate=2×(1,2,4)=(2,4,8)。這比直接采用(1,1,1)要更有效一些,不過結(jié)果相差不是太大。DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)與工作原理

DeepLabv3所采用的backbone是ResNet網(wǎng)絡(luò),在DeepLabv3+模型中添加了改進(jìn)的Xception,Xception網(wǎng)絡(luò)主要采用depthwiseseparableconvolution,這使得Xception計(jì)算量更小。如果以Xception作為backbone,則需要對(duì)Xception的中間流(MiddleFlow)和出口流(Exitflow)進(jìn)行改動(dòng):去掉原有的池化層,并將原有的卷積層替換為帶有步長的可分離卷積,但是入口流(EntryFlow)不變,如圖所示。DEEPLABV3+網(wǎng)絡(luò)的訓(xùn)練與測(cè)試

DEEPLABV3+模型是端到端的訓(xùn)練,不需要對(duì)每個(gè)組件進(jìn)行分段預(yù)訓(xùn)練。訓(xùn)練使用的數(shù)據(jù)集為PASCALVOC2012,該數(shù)據(jù)集包含20個(gè)前景物體類別和一個(gè)背景類別。原始數(shù)據(jù)集包含1464張(訓(xùn)練)、1449張(驗(yàn)證)和1456張(測(cè)試)像素級(jí)注釋的圖像。通過提供的額外注釋來增加數(shù)據(jù)集,從而得到10582張訓(xùn)練圖像。訓(xùn)練采用“poly”策略,初始學(xué)習(xí)率設(shè)置為0.007,圖像大小為513×513像素,當(dāng)outputstride=16時(shí),微調(diào)批處理歸一化參數(shù),以及在訓(xùn)練過程中隨機(jī)的尺度數(shù)據(jù)增強(qiáng)。此外,還在Cityscapes數(shù)據(jù)集上實(shí)驗(yàn)了DeepLabv3+,這是一個(gè)包含5000張圖像(分別為2975張、500張和1525張用于訓(xùn)練、驗(yàn)證和測(cè)試集)的高質(zhì)量像素級(jí)注釋的大規(guī)模數(shù)據(jù)集,以及約20000張粗注釋圖像。訓(xùn)練過程主要包括對(duì)labels和logits張量的重塑、定義損失函數(shù)以及設(shè)置學(xué)習(xí)率等功能。通過對(duì)labels和logits的預(yù)處理,使用條件判斷篩選出有效的索引,根據(jù)有效索引通過動(dòng)態(tài)分區(qū)(dynamic_partition)操作提取出有效的logits、labels和preds。然后開始定義損失函數(shù),這里總體損失值包括交叉熵?fù)p失和權(quán)重衰減項(xiàng)。然后創(chuàng)建全局步驟,使用多項(xiàng)式衰減學(xué)習(xí)率策略tf.train.polynomial_decay()根據(jù)全局步驟、初始全局步驟、最大迭代次數(shù)、終止學(xué)習(xí)率以及指定的冪來計(jì)算學(xué)習(xí)率,然后使用tf.identity()函數(shù)定義學(xué)習(xí)率的名稱為learning_rate。然后使用動(dòng)量優(yōu)化器對(duì)訓(xùn)練過程中的參數(shù)進(jìn)行不斷的更新,最終代碼返回了一個(gè)tf.estimator.EstimatorSpec的實(shí)例,包含模式、預(yù)測(cè)、損失、訓(xùn)練操作和評(píng)估指標(biāo)操作。DEEPLABV3+網(wǎng)絡(luò)語義分割測(cè)試結(jié)果分析

DeepLabv3+在PASCALVOC2012數(shù)據(jù)集上取得了很好的分割效果,其miou為87.8%和89%。DEEPLABV3+網(wǎng)絡(luò)語義分割測(cè)試結(jié)果分析

采用所提出的解碼器模塊與單純雙線性上采樣(記為BU)相比的定性效果如圖10.7所示。其中,采用Xception作為特征提取器,并訓(xùn)練輸出stride=eval,輸出stride=16??梢钥闯?,采用解碼器模塊的分割效果更為準(zhǔn)確。

DEEPLABV3+網(wǎng)絡(luò)語義分割測(cè)試結(jié)果分析DeepLabv3+在Cityscapes數(shù)據(jù)集上的測(cè)試結(jié)果如下DEEPLABV3+網(wǎng)絡(luò)語義分割測(cè)試結(jié)果分析最佳模型的可視化結(jié)果如下。DeepLabv3+模型采用空洞空間金字塔池化,用不同的感受野和上采樣來實(shí)現(xiàn)多尺度提取特征,采用Encoder-Decoder結(jié)構(gòu),通過逐漸恢復(fù)空間信息來捕捉清晰的目標(biāo)邊界。DeepLabv3+最佳模型變體的可視化結(jié)果如圖10.8所示,結(jié)果表明,該DeepLabv3+模型能夠較好地捕獲人、馬、桌子等目標(biāo)的輪廓特征,對(duì)遠(yuǎn)近及不同大小的物體分割較準(zhǔn)確,且分割出的物體類別之間的分界線比較清晰,邊緣光滑平整,不需要任何后處理。MaskRCNN簡介

MaskR-CNN由He等提出,是在FasterR-CNN基礎(chǔ)上擴(kuò)展而來的一種全新的實(shí)例分割模型,它能確定圖片中各個(gè)目標(biāo)的位置和類別,給出像素級(jí)預(yù)測(cè)。

MaskR-CNN提出了RoIAlign方法來替代RoIPooling,原因是RoIPooling的取整做法損失了一些精度,而這對(duì)于分割任務(wù)來說較為致命。具體實(shí)現(xiàn)時(shí),采用了FCN(FullyConvolutionalNetwork)的網(wǎng)絡(luò)結(jié)構(gòu),利用卷積與反卷積構(gòu)建端到端的網(wǎng)絡(luò),最后對(duì)每一個(gè)像素分類,實(shí)現(xiàn)了較好的分割效果。

MaskR-CNN利用R-CNN得到的物體框來區(qū)分各個(gè)實(shí)例,然后針對(duì)各個(gè)物體框?qū)ζ渲械膶?shí)例進(jìn)行分割。

MaskR-CNN在COCO的一些列挑戰(zhàn)任務(wù)(如目標(biāo)檢測(cè),實(shí)例分割,人體關(guān)鍵點(diǎn)檢測(cè))中都取得了最好的結(jié)果,指標(biāo)表現(xiàn)較好。它的優(yōu)點(diǎn)是網(wǎng)絡(luò)特征提取能力強(qiáng)大,目標(biāo)檢測(cè)效果優(yōu)秀且實(shí)例分割效果也很精細(xì),但檢測(cè)和分割的整體耗時(shí)較長。MaskR-CNN網(wǎng)絡(luò)結(jié)構(gòu)與工作原理MaskR-CNN將FasterR-CNN和FCN結(jié)合起來,實(shí)現(xiàn)實(shí)例分割MaskR-CNN網(wǎng)絡(luò)結(jié)構(gòu)與工作原理

MaskR-CNN的算法實(shí)現(xiàn)思路非常直接簡單,針對(duì)目標(biāo)檢測(cè)算法FasterR-CNN加入語義分割算法FCN,使得完成目標(biāo)檢測(cè)的同時(shí)也得到語義分割的結(jié)果,算法對(duì)FasterR-CNN的一些細(xì)節(jié)做了調(diào)整,最終的組成部分是RPN+ROIAlign+FastR-CNN+FCN。MaskR-CNN總體流程如圖所示。1)輸入預(yù)處理后的原始圖片。2)將輸入圖片送入到特征提取網(wǎng)絡(luò)得到特征圖。3)再對(duì)特征圖的每一個(gè)像素位置設(shè)定固定個(gè)數(shù)的ROI(也可以叫Anchor),然后將ROI區(qū)域送入RPN網(wǎng)絡(luò)進(jìn)行二分類(前景和背景)以及坐標(biāo)回歸,以獲得精煉后的ROI區(qū)域。4)對(duì)上個(gè)步驟中獲得的ROI區(qū)域執(zhí)行提出的ROIAlign操作,即先將原圖和featuremap的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論