【《圖像語(yǔ)義分割技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述》4300字】_第1頁(yè)
【《圖像語(yǔ)義分割技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述》4300字】_第2頁(yè)
【《圖像語(yǔ)義分割技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述》4300字】_第3頁(yè)
【《圖像語(yǔ)義分割技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述》4300字】_第4頁(yè)
【《圖像語(yǔ)義分割技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述》4300字】_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

圖像語(yǔ)義分割技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀文獻(xiàn)綜述圖像語(yǔ)義分割技術(shù)經(jīng)過(guò)長(zhǎng)期的發(fā)展,已經(jīng)形成較為完善的算法體系,主要體現(xiàn)在分割網(wǎng)絡(luò)的結(jié)構(gòu)改進(jìn),分割結(jié)果的精度不斷提高,分割實(shí)用性和分割實(shí)時(shí)性等不斷改進(jìn),適用于不同場(chǎng)景的圖像語(yǔ)義分割方法也層出不窮。1.1基于傳統(tǒng)方法的圖像分割研究現(xiàn)狀從上世紀(jì)60年代開(kāi)始圖像分割就成為圖像處理的研究熱點(diǎn),這時(shí)的分割方法主要以傳統(tǒng)方法為主,至今傳統(tǒng)的分割方法仍然是一大研究熱點(diǎn)。傳統(tǒng)的圖像分割關(guān)注于圖像本身的數(shù)據(jù)特征,從圖像的灰度特征、彩色特征、空間紋理特征等出發(fā),將原圖像分割為若干個(gè)區(qū)域,在同一區(qū)域內(nèi)的部分具有相同或者相似的性質(zhì),不同的區(qū)域往往表現(xiàn)出明顯的差異性。傳統(tǒng)的圖像分割方法主要有基于閾值的分割方法、基于邊緣檢測(cè)的分割方法、基于區(qū)域的分割方法。基于閾值的分割方法是通過(guò)對(duì)圖像灰度特征的分析,計(jì)算出閾值,然后對(duì)輸入圖像按照閾值進(jìn)行處理,將輸入圖像映射為輸出圖像,其過(guò)程可以表達(dá)為公式(1.1)。(1.1)其中f(x,y)表示輸入圖像灰度值計(jì)算,T是分割閾值,h(x,y)表示輸入圖像的分類標(biāo)簽。從公式(1.1)中可以看出,基于閾值分割法的結(jié)果優(yōu)劣主要取決于閾值的選擇。倘若算法能夠計(jì)算出合理的閾值,通過(guò)圖像的灰度信息和閾值就可以將圖像分割為滿足條件的區(qū)域。常用計(jì)算閾值的方法有很多,例如從光照強(qiáng)度不一的角度考慮的自適應(yīng)閾值法,以模糊概率為基礎(chǔ)的模糊閾值法[17],以圖像熵為基礎(chǔ)的最大熵法[18],以及大津法為代表的類間閾值法等[19-20]。計(jì)算簡(jiǎn)單的閾值法以圖像的灰度信息為基礎(chǔ),在實(shí)際應(yīng)用場(chǎng)景中非常容易受到噪聲的影響。閾值分割法具有較大的局限性,僅能在噪聲較小的圖像和像素差異較大的圖像上有良好的分割結(jié)果,并且閾值法僅適用于前后景分割。與閾值法不同,邊緣檢測(cè)法關(guān)注圖像的紋理特征,提取圖像中目標(biāo)的邊緣輪廓得到分割圖像[21-22]。邊緣檢測(cè)法的分割精度和抗噪性能存在一定的矛盾性,提高分割精度,噪聲帶來(lái)的非邊緣改變會(huì)增加錯(cuò)誤的分割區(qū)域;相應(yīng)的提高抗噪性能,分割的精度就會(huì)受到限制。邊緣檢測(cè)法主要是通過(guò)以Sobel算子為代表的一階算子和以Laplace算子為代表的二階算子實(shí)現(xiàn)的。邊緣檢測(cè)法具有運(yùn)算快和定位準(zhǔn)確的優(yōu)點(diǎn);同閾值法相似,邊緣檢測(cè)法的適用場(chǎng)景簡(jiǎn)單,復(fù)雜的圖像會(huì)帶來(lái)諸如邊緣模糊等一系列的問(wèn)題;同時(shí)邊緣檢測(cè)法不能給出帶有類別信息的分割結(jié)果?;趨^(qū)域的分割方法[23-24]主要有區(qū)域生長(zhǎng)法和區(qū)域合并分離法。使用聚類思想的區(qū)域生長(zhǎng)法是利用同一區(qū)域內(nèi)具有相同或者相似的特征進(jìn)行像素聚類,定義初始生長(zhǎng)點(diǎn)按照生長(zhǎng)規(guī)則,不斷加入相近的像素點(diǎn),直至滿足條件停止生長(zhǎng),獲得分割結(jié)果。區(qū)域合并分離法則是從圖像的整體出發(fā),根據(jù)圖像特征將圖像分為不同的區(qū)域,鄰接的區(qū)域若是特征一致就合并為新的區(qū)域,直至所有區(qū)域不在合并或分離,就可以得到最終結(jié)果。基于區(qū)域的分割法對(duì)于小目標(biāo)的分割有良好的表現(xiàn),而且計(jì)算簡(jiǎn)單;但是仍然存在圖像的生長(zhǎng)準(zhǔn)則難以制定,不適合處理實(shí)時(shí)圖像的缺點(diǎn)。1.2基于深度學(xué)習(xí)的圖像語(yǔ)義分割研究現(xiàn)狀由于機(jī)器學(xué)習(xí)在眾多領(lǐng)域的良好變現(xiàn),從事圖像語(yǔ)義分割的研究人員也開(kāi)始嘗試使用機(jī)器學(xué)習(xí)的方法,完成圖像語(yǔ)義分割任務(wù)[29],然而傳統(tǒng)的機(jī)器學(xué)習(xí)方法提取的特征信息較為低級(jí),對(duì)于簡(jiǎn)單的分割任務(wù)可以取得良好的結(jié)果,但是在復(fù)雜圖像的分割任務(wù)上并沒(méi)有表現(xiàn)出機(jī)器學(xué)習(xí)的優(yōu)越性??偟膩?lái)說(shuō),機(jī)器學(xué)習(xí)方法的引入為圖像語(yǔ)義分割提供了新思路,同時(shí)為隨之出現(xiàn)的基于深度學(xué)習(xí)的方法提供了理論,奠定了基礎(chǔ)。以人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)的深度學(xué)習(xí)不斷發(fā)展,雖然深度學(xué)習(xí)在諸如圖像分類、圖像檢測(cè)和目標(biāo)追蹤任務(wù)上不斷獲得成功,并且在各大圖像處理比賽上獲得極大的成功,同時(shí)也面臨著眾多的問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu)很適用于圖像處理的課題,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的網(wǎng)絡(luò)模型在圖像處理領(lǐng)域表現(xiàn)的變現(xiàn)的十分良好[25-27]。在眾多的網(wǎng)路模型中,Deeplab系列在圖像語(yǔ)義分割領(lǐng)域表現(xiàn)的極為優(yōu)異,這得益于在網(wǎng)絡(luò)模型中添加了條件隨機(jī)場(chǎng),這樣的做法增加了模型的訓(xùn)練難度,提高了精度。深度學(xué)習(xí)可以提取圖像數(shù)據(jù)的高級(jí)語(yǔ)義特征,從而處理復(fù)雜場(chǎng)景的圖像問(wèn)題。以AlexNet[28]、VGGNet[29]、GoogleNet[30]和ResNet[31]為代表的主流深度學(xué)習(xí)網(wǎng)絡(luò),在圖像領(lǐng)域占有非常重要的地位。AlexNet[28]由8層網(wǎng)絡(luò)結(jié)構(gòu),由卷積層、池化層和全連接層組成。由于全連接層的存在,AlexNet會(huì)丟失一定的空間信息。作為ILSVRC-2013競(jìng)賽冠軍的VGGNet[29]由16層網(wǎng)絡(luò)層,并且都是由卷積層構(gòu)成,這樣VGGNet就可以較好的提取空間信息,此外VGGNet并沒(méi)有像AlexNet那樣使用大卷積核以擴(kuò)大感受野,而是使用較小的卷積核,這樣大大減小了計(jì)算量。ILSVRC-2014競(jìng)賽由GoogleNet獲得冠軍[30],GoogleNet在VGGNet的基礎(chǔ)上增加Inception結(jié)構(gòu)拓寬了網(wǎng)絡(luò)寬度,并且加深網(wǎng)絡(luò)層數(shù)至22層。具有Inception結(jié)構(gòu)的GoogleNet擁有不同大小的卷積核,可以提取不同尺度的特征信息,由此提升網(wǎng)絡(luò)的性能。ResNet[31]于2016年由何凱明提出,該網(wǎng)絡(luò)由多個(gè)殘差網(wǎng)絡(luò)單元組成,使用shot-cut將網(wǎng)絡(luò)的輸入與輸出聯(lián)合輸出,這有效的解決了深度學(xué)習(xí)中梯度彌散的問(wèn)題,使得深度學(xué)習(xí)做到了真正意義上的“深”。深度學(xué)習(xí)基礎(chǔ)網(wǎng)絡(luò)模型的發(fā)展促進(jìn)了眾多領(lǐng)域應(yīng)用模型的更新,極大的推動(dòng)了深度學(xué)習(xí)的應(yīng)用。基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法的研究集中于網(wǎng)絡(luò)模型的改進(jìn),其基本思想都是將圖像分割任務(wù)描述為像素的分類問(wèn)題,從不同的角度出發(fā)改進(jìn)網(wǎng)絡(luò)模型的結(jié)構(gòu),獲得更好的分類結(jié)果。其中發(fā)展出來(lái)的網(wǎng)絡(luò),主要有全卷積神經(jīng)網(wǎng)絡(luò)、SegNet網(wǎng)絡(luò),Deeplab網(wǎng)絡(luò)系列、U-net以及生成對(duì)抗網(wǎng)絡(luò),都是從不同角度出發(fā)提取圖像的特征信息解決問(wèn)題。基于全卷積網(wǎng)絡(luò)(FCN)[32]的語(yǔ)義分割方法是第一使用深度學(xué)習(xí)的方法解決圖像語(yǔ)義分割問(wèn)題的網(wǎng)絡(luò)。在結(jié)構(gòu)上是根據(jù)Alexnet改進(jìn)的網(wǎng)絡(luò)模型,使用卷積層代替全連接測(cè)。FCN網(wǎng)絡(luò)的主要貢獻(xiàn)有兩個(gè)。第一,將圖像分類網(wǎng)絡(luò)中最后的全連接層用卷積層代替,具有全連接層的神經(jīng)網(wǎng)絡(luò)往往需要規(guī)定網(wǎng)絡(luò)的輸出維度,使用全卷積的神經(jīng)網(wǎng)絡(luò)則不需要,可以輸入不同形狀的信息。第二,使用了不同尺寸的特征圖,融合了多分辨率的特征信息,在一定程度上保留了空間信息。通過(guò)這些做法使網(wǎng)絡(luò)學(xué)習(xí)到的特征適用于語(yǔ)義分割任務(wù)?;贔CN的圖像語(yǔ)義分割方法也存在缺陷,第一、FCN網(wǎng)絡(luò)的網(wǎng)絡(luò)層使用了暴力池化的方法對(duì)特征圖進(jìn)行降采樣,這使特征信息大量丟失。第二,雖然使用不同尺寸的特征信息,但是上采樣粗糙?;贔CN網(wǎng)絡(luò)的圖像語(yǔ)義分割方法以深度學(xué)習(xí)為基礎(chǔ)實(shí)現(xiàn)了語(yǔ)義分割,在VOC2011數(shù)據(jù)集上,F(xiàn)CN網(wǎng)絡(luò)分割結(jié)果其像素精度PA為86.0%,平均交并比mIoU為51.9%。并且網(wǎng)絡(luò)設(shè)計(jì)上的缺點(diǎn)使得FCN網(wǎng)絡(luò)對(duì)于過(guò)大或者過(guò)小的目標(biāo)分割效果不好。隨著深度學(xué)習(xí)方法的深入研究Badrinarayanan等[33]提出了用于街道場(chǎng)景分割的SegNet網(wǎng)絡(luò)。SegNet是一個(gè)Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡(luò),Encoder網(wǎng)絡(luò)和VGG相同,仍是采用全卷積的網(wǎng)絡(luò)層。在Encoder過(guò)程由卷積層和池化層組成,SegNet特殊的池化層可以記錄特征圖原有的空間位置。與這中特殊池化相對(duì)應(yīng)的,在Decoder過(guò)程中,沒(méi)有被記錄位置的特征則通過(guò)反卷積填補(bǔ)。SegNet的主要貢獻(xiàn)是改進(jìn)了下采樣的方式,記錄了像素相應(yīng)的位置,提取了更加精確的空間信息,提高了分割精度。SegNet在分割任務(wù)中沒(méi)有使用多尺度的特征信息,這樣的缺點(diǎn)在一定程度上限制了分割精度的提高。SegNet在CamVid數(shù)據(jù)集上的分割結(jié)果,mIoU為57.18%。Deeplab系列作為圖像語(yǔ)義分割的重要部分,前后發(fā)展出四個(gè)版本的網(wǎng)絡(luò)結(jié)構(gòu),分別是Deeplab-v1、Deeplab-v2、Deeplab-v3和Deeplab-v3+,在結(jié)構(gòu)上Deeplab都使用了空洞卷積[34-37]。不同的是Deeplab-v1和Deeplab-v2在結(jié)構(gòu)上,使用深度學(xué)習(xí)和全連接條件隨機(jī)場(chǎng)結(jié)合的方式。Deeplab-v1的深度學(xué)習(xí)網(wǎng)絡(luò)是以VGG16為基礎(chǔ),使用空洞卷積改進(jìn)的網(wǎng)絡(luò)。Deeplab-v2則是以ResNet為基礎(chǔ)改進(jìn)的網(wǎng)絡(luò),并且使用空間金字塔結(jié)構(gòu)。Deeplab-v3與Deeplab-v3+在結(jié)構(gòu)上摒棄了前兩和版本的全連接條件隨機(jī)場(chǎng),轉(zhuǎn)而使用深度學(xué)習(xí)網(wǎng)絡(luò)。Deeplab-v3在模型末端添加了不同空洞率的空洞卷積,而且使用不同空洞率的空間金字塔。Deeplab-v3+在結(jié)構(gòu)使用了Encoder-Decoder結(jié)構(gòu),將Deeplab-v3網(wǎng)絡(luò)作為Encoder模塊,在Decoder模塊進(jìn)行不同尺寸的特征信息的融合。Deeplab系列的主要貢獻(xiàn)是使用空洞卷積和空間金字塔提取融合不同尺寸的特征圖,可以獲得不同尺寸的特征信息。Deeplab-v3+的另一個(gè)優(yōu)勢(shì)是使用了Encoder-Decoder結(jié)構(gòu),可以更好的恢復(fù)分割目標(biāo)的邊緣信息。Deeplab-v3+的在結(jié)構(gòu)的改進(jìn)則使得網(wǎng)絡(luò)的分割結(jié)果的到了很大的提高,在VOC2012數(shù)據(jù)集上的分割結(jié)果mIoU為84.56%。U-net網(wǎng)絡(luò)的設(shè)計(jì)初衷是用于醫(yī)用圖像的分割[38],并且在ISBI競(jìng)賽上斬獲頗豐。U-net網(wǎng)絡(luò)在結(jié)構(gòu)上是Encoder-Decoder結(jié)構(gòu),并且使用跳躍結(jié)構(gòu)把淺層特征信息傳遞至深層網(wǎng)絡(luò),最終獲得分割結(jié)果。U-net網(wǎng)絡(luò)的主要貢獻(xiàn)是使用上采樣操作增強(qiáng)了輸出圖像的精細(xì)度,并在上采樣過(guò)程中使用淺層網(wǎng)絡(luò)傳遞的低級(jí)特征信息。U-net網(wǎng)絡(luò)在ISBI挑戰(zhàn)賽上,使用兩個(gè)醫(yī)學(xué)數(shù)據(jù)集,在PhC-U373數(shù)據(jù)集上的結(jié)果,IoU為92.03%,在DIC-HeLa數(shù)據(jù)集上的結(jié)果,IoU為77.56%。在2014年由IanGoodfellow等[39]首次提出的生成對(duì)抗網(wǎng)絡(luò)(GAN)是通過(guò)對(duì)抗學(xué)習(xí)來(lái)估計(jì)生成模型的網(wǎng)絡(luò)。訓(xùn)練時(shí),同時(shí)訓(xùn)練生成模型和判別模型,生成模型用于生成“假數(shù)據(jù)”,判別模型用于判別數(shù)據(jù)的來(lái)源。基于GAN網(wǎng)絡(luò)的圖像分割[40],使用普通的分割網(wǎng)絡(luò)作為GAN網(wǎng)絡(luò)的生成器,判別網(wǎng)絡(luò)用來(lái)判別分割圖像來(lái)自生成器的概率?;贕AN網(wǎng)絡(luò)的圖像語(yǔ)義分割方法的主要貢獻(xiàn)是,GAN網(wǎng)絡(luò)結(jié)構(gòu)靈活,需要與其他分割網(wǎng)絡(luò)聯(lián)合使用提高分割精度。GAN網(wǎng)絡(luò)的缺點(diǎn)在于GAN網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,特殊的網(wǎng)絡(luò)構(gòu)成也帶來(lái)網(wǎng)絡(luò)訓(xùn)練的難度提升。GAN網(wǎng)絡(luò)用于分割任務(wù)在StanfordBackground數(shù)據(jù)集上的結(jié)果,mIoU為72.0%??傮w來(lái)說(shuō),基于深度學(xué)習(xí)的圖像與語(yǔ)義分割方法將分割問(wèn)題描述為像素的分類問(wèn)題,不像傳統(tǒng)方法的圖像分割關(guān)注于圖像數(shù)據(jù)本身的數(shù)據(jù)特點(diǎn),轉(zhuǎn)而關(guān)注網(wǎng)絡(luò)模型的結(jié)構(gòu)改進(jìn),最終提高分割精度。FCN網(wǎng)絡(luò)作為深度學(xué)習(xí)在圖像語(yǔ)義分割的第一個(gè)網(wǎng)絡(luò),以卷積層代替全連接層,解決了不同尺寸圖像的輸入問(wèn)題。Deeplab使用空洞卷積和空間金字塔結(jié)構(gòu),解決不同尺寸特征信息提取和融合的問(wèn)題,Deeplab-v3+引入Encoder-Decoder結(jié)構(gòu),更好的保留了邊緣信息。SegNet分割網(wǎng)絡(luò)同樣是Encoder-Decoder結(jié)構(gòu),在池化層記錄相關(guān)值的位置,保留空間上下文信息,提高了分割精度。使用Encoder-Decoder結(jié)構(gòu)的U-net網(wǎng)絡(luò)使用精細(xì)的上采樣結(jié)構(gòu)在醫(yī)學(xué)分割上取得良好的結(jié)果?;谏疃葘W(xué)習(xí)的圖像語(yǔ)義分割網(wǎng)絡(luò),不斷改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),關(guān)注不同尺度的特征信息的提取融合,同時(shí)關(guān)注上下文信息融合,最終提高分割精度?,F(xiàn)行的圖像語(yǔ)義分割方法主要以深度學(xué)習(xí)為主,以全卷積網(wǎng)絡(luò)為基礎(chǔ),Encoder-Decoder結(jié)構(gòu)也成為主流結(jié)構(gòu)。其中GAN網(wǎng)絡(luò)結(jié)構(gòu)靈活,可以與其他網(wǎng)絡(luò)模型結(jié)合,以分割網(wǎng)絡(luò)為生成模型的生成器,用以輸出分割結(jié)果,判別網(wǎng)絡(luò)用來(lái)判別輸入來(lái)自是生成模型的概率,提高分割精度。目前關(guān)于基于GAN網(wǎng)絡(luò)的圖像語(yǔ)義分割的研究較少,GAN

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論