基于區(qū)域的圖像語義分割分析研究_第1頁
基于區(qū)域的圖像語義分割分析研究_第2頁
基于區(qū)域的圖像語義分割分析研究_第3頁
基于區(qū)域的圖像語義分割分析研究_第4頁
基于區(qū)域的圖像語義分割分析研究_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

引言本課題研究背景和意義自二十一世紀以來,計算機的使用得到了廣泛普及,極大程度上提高了人們的工作效率,方便了人們的生活。但是,隨著社會的不斷進步和發(fā)展,人們所面臨的工作和任務也變得越來越復雜多樣,這就使得我們對計算機功能的要求也越來越高。人們期望計算機能夠像“人”一樣通過不斷的學習從而具備邏輯推理和決策的能力,能夠在一些特殊下代替人完成繁重的任務。這就衍生了一系列研究“智能機器”的學科領域。其中,計算機視覺就是一門研究如何用機器來模擬人和生物的視覺系統(tǒng)功能的學科。具體而言,就是用攝像機代替人眼收集視覺信息,利用計算機代替大腦對信息進行處理和分析,從而完成對目標的檢測、識別和跟蹤等任務。計算機視覺的研究目的就是讓計算機能夠感知周圍世界,了解它的空間組成和變化規(guī)律,最終具備對周圍場景的理解和認知能力。目前,在醫(yī)學圖像處理、工業(yè)自動化、無人機探測以及衛(wèi)星導航等等應用中都涉及到計算機視覺領域的相關技術。圖像分割是圖像處理中最重要的部分之一,也是計算機視覺領域中有關場景目標提取的一項關鍵技術。它是依據圖像的特定性質和特征,如顏色、紋理和梯度等,把圖像劃分為多個具有特殊含義的區(qū)域并提取出感興趣目標的技術和過程。圖像分割所提取出的目標可以用于后續(xù)的圖像語義識別、圖像檢索和目標跟蹤等任務。其中,圖像語義識別就是指讓計算機判別出圖像中目標的類別,使計算機能夠理解圖像所包含的“語義”信息,做到圖像場景分析和理解。圖像語義分割技術是一項將圖像分割和圖像語義識別相結合的圖像處理方法。它在圖像分割的基礎上融入了目標識別技術,不僅可以完成目標的提取,還可以判斷目標的種類。圖像語義分割的主要方法就是將圖像中的每個像素按照其所屬種類進行分類,最后得到包含“語義”信息的分割圖像(如圖1.1所示)。目前,圖像語義分割技術的主要研究和應用有智能家居機器人和無人駕駛汽車等。智能家居機器人通過攝像機捕獲室內場景圖像,利用計算機分析場景內容,識別出哪些是家具、哪些是電器以及哪些是垃圾,然后進行衛(wèi)生清理工作。在無人駕駛系統(tǒng)中計算機通過車前攝像頭捕獲街道場景圖像,通過電腦分析識別出場景中的車輛、行人、街道和障礙物等等,然后利用雷達探測出行車與其他物體間的距離,最后做出前進、減速和停車避讓等決策。此外,在醫(yī)學、工業(yè)、軍事等領域都有圖像語義分割技術的相關研究和應用。文本工作內容隨著計算機硬件的發(fā)展和大規(guī)模圖像數據的出現(xiàn),深度學習再一次掀起了新的浪潮。由斯坦福大學李飛飛教授等人發(fā)起的圖像網絡大規(guī)模視覺識別挑戰(zhàn)(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)[1],為深度學習的研究提供了大量帶標注圖像數據,極大推進了深度學習的研究進程。2012年,Hinton的學生Krizhevsky等人在ILSVRC的比賽中使用8層的深度卷積神經網絡(DeepConvolutionalNeuralNetwork,DCNN)[2],以比傳統(tǒng)的基于人工特征提取方法高出接近10%的優(yōu)勢摘得冠軍。自此之后,深度學習不但在圖像識別領域得到了突飛猛進的發(fā)展,還不斷沖擊著其他圖像工程中的研究。RossGirshick等人將DCNN應用到目標檢測中提出了區(qū)域卷積神經網絡(RegionConvolutionalNeuralNetwork,RCNN)[3];HyeonseobNam等人將DCNN應用到目標跟蹤任務中提出了樹形結構卷積網絡(CNNsinaTreeStructure,TCNN)[4];JonathanLong等人將DCNN應用到圖像語義分割任務中提出了全卷積網絡(FullyConvolutionalNetwork,FCN)[5]。本文也致力于研究如何使用DCNN提高圖像語義分割的效果。本文的主要工作是研究一個有效的圖像語義分割算法,并將其應用到街道場景識別任務中。具體而言,本文的研究思路是利用深度卷積神經網絡進行圖像語義分割,并結合當前機器學習領域的相關算法,將多尺度特征提取方法引入到卷積神經網絡中,提出了基于多尺度池化(Multi-scalePooling,MSP)卷積神經網絡的圖像語義分割算法。其次,為了增強目標邊緣輪廓定位的準確性,本文提出了基于邊界點重定義方法的目標邊緣輪廓增強算法,在基于深度學習的語義分割基礎上,采用超像素聚類算法對目標邊緣像素重新分類。本文在標準測試集PASCALVOC2012數據集上驗證了算法的有效性,并將其應用到了城市街道場景識別任務中,通過對道路交通圖像中的場景物體識別和檢測,為后續(xù)無人駕駛或輔助駕駛技術提供支持。總體來說,本文的主要工作概述如下:在充分調研了現(xiàn)階段圖像語義分割算法的相關文獻和資料之后,本文就基于深度學習的圖像語義分割算法展開研究。結合機器學習相關算法,本文在FCN結構基礎上提出改進。針對FCN結構中缺少對圖像全局特征提取的問題,本文提出了多尺度池化的方法,通過融合圖像多個局部特征和全局特征,增強了網絡對目標特征提取的能力。針對FCN對于目標邊緣像素識別準確率低的問題,本文提出了邊界點重定義算法,利用超像素聚類的方法對目標邊緣像素從新分類,提高了目標分割的準確度。搭建實驗平臺,在標準數據集上驗證了算法的可行性和有效性。收集數據集并將算法應用到城市街道場景識別任務中,證明了算法的實用性。文本結構組織本文分六個章節(jié)對課題研究進行詳述。第一章是引言部分,概述了課題的研究背景和意義,本文的主要工作內容以及章節(jié)安排。第二章是本課題的相關工作,主要介紹了圖像分割、卷積神經網絡和圖像語義分割等方向的發(fā)展狀況以及現(xiàn)有問題。第三章是本課題的主要研究工作之一,詳細闡述了基于深度卷積神經網絡的圖像語義分割方法,包含了問題描述,改進策略,相關技術,構建的深度卷積神經網絡模型,網絡訓練方法以及算法的實驗仿真結果。第四章是本課題的另一個重點研究方向,基于邊界點重定義方法的目標邊緣輪廓增強算法,在神經網絡的分割基礎之上通過邊界點重定義方法進一步提高目標邊界像素的識別率。第五章是本文算法的應用描述,主要說明了本文算法在城市街道場景識別任務中的可行性,證明了算法的實際應用價值。第六章是全文的總結,對本文算法的優(yōu)劣處進行分析,并展望了未來的研究方向。

本課題相關技術研究本章是對本課題所涉及的相關內容的介紹。首先,概述了卷積神經網絡的發(fā)展歷程,描述了卷積神經網絡的基本結構,并對部分經典的卷積神經網絡進行了介紹。然后,綜述了傳統(tǒng)的圖像分割方法的發(fā)展情況。最后,介紹了現(xiàn)有的圖像語義分割方法的研究現(xiàn)狀。2.1卷積神經網絡2.1.1概述近年來,卷積神經網絡(ConvolutionalNeuralNetworks,CNN)作為一種高效的目標識別技術,在眾多學科領域引起了人們的廣泛關注。CNN的起源最早可以追溯到20世紀60年代,Hubel和Wiesel在研究貓腦視覺皮層時,發(fā)現(xiàn)了一種構造復雜的細胞,這種細胞會對視覺信息中的局部區(qū)域產生響應,繼而提出了感受野的概念[6]。1984年,F(xiàn)ukushima等人在此基礎上提出了神經認知機(Neocognitron)[7],通過采用局部特征提取層和特征變換層相交替結構,在物體發(fā)生位移或者形變時依舊能夠保持對其識別的能力。神經認知機模型雖然沒有采用誤差反向傳播(BackPropagation,BP)[8]的方法進行有監(jiān)督的學習,但仍然被認為是CNN的第一次實現(xiàn)。隨后,Y.LeCun等人在神經認知機基礎上使用誤差反向傳播方法設計了卷積神經網絡模型,即經典的LeNet-5[9],如圖2.1所示,后續(xù)大量的卷積神經網絡模型都是基于它進行改進。2.1.2卷積神經網絡的基本結構一般來說,CNN的基本結構包含以下幾個部分:卷積層、池化層、非線性變換層和全連接層。CNN是一個多層的神經網絡,它的每一層都由多個特征圖(FeatureMap)組成,而每個特征圖中的點代表一個神經元。卷積(Convolutions):在每個卷積層中,輸入特征圖通過與該層的卷積核進行卷積操作得到輸出特征圖。如圖2.1中C1所示,輸入尺度大小為32*32的圖像經由6個模板大小為5*5的卷積核卷積之后,得到6個尺度大小為28*28的特征圖。該過程可以看作是一種圖像濾波,輸入特征圖中的局部神經元通過卷積模板中的參數進行加權求和,再加偏置得到輸出特征圖中神經元數值。相比于全連接網絡,卷積神經網絡中每個特征圖上的神經元共享同一組權值,因而大大減少了網絡參數,降低了網絡模型的復雜度。池化(Pooling,也稱降采樣,Subsampling):池化層連接在卷積層之后,它的特征圖個數與上一層的特征圖個數保持一致,并且一一對應。如圖2.1中S2所示,由C1層輸出的6個尺度大小為28*28的特征圖,經過2*2大小的池化模板進行降采樣,得到6個14*14大小的特征圖。常用的降采樣方法有最大值池化(maxpooling)和均值池化(meanpooling)。最大值池化保留局部區(qū)域中神經元數值最大的點,而均值池化取局部區(qū)域的平均值。此外,還有隨機池化[11]和金字塔池化[12]等池化方法。池化層通過降采樣操作不僅提取了空間不變性特征[13],達到了二次學習的效果,而且減少神經元數量,降低了網絡模型的計算量。非線性變換:卷積操作是多項式加權求和的計算方法,屬于線性變換,而復雜的分類識別任務都需要非線性函數擬合,所以卷積神經網絡在每個卷積層之后都要加入非線性變換函數,也稱激活函數。傳統(tǒng)的CNN中所使用的激活函數是飽和非線性函數sigmoid函數和tanh函數。然而,相較于飽和非線性函數,不飽的非線性函數,如softplus函數和ReLU函數等能夠避免網絡訓練時梯度消失的問題,加快網絡訓練速度[14]。因此,目前大多數卷積神經網絡都是采用ReLU函數作為激活函數(如圖2.2)。全連接(Fullconnection):在許多圖像分類識別任務中,網絡經過多個卷積層和池化層之后都會加入1個或多個全連接層。如圖2.1中F6所示,由C5輸出的120維的特征向量,經過F6中84組權值向量進行加權求和,得到84維的輸出特征。全連接層中的每個神經元與上一層的所有神經元進行連接,以此學習出圖像中具有類別區(qū)分性的特征[15]。在最后一個全連接層之后連接一個輸出層,完成圖像分類識別任務。此外,隨著卷積神經網絡的發(fā)展,不斷有更多的處理方法融入到網絡結構中。其中,本文將要使用的兩種處理方法是批規(guī)則化(Batchnormalization,BN)[16]和反卷積(Deconvolution)。批規(guī)則化(Batchnormalization,BN):對于卷積神經網絡進行訓練通常采用mini-batch方式的隨機梯度下降算法[17],即每次輸入批量圖像到網絡中。由于訓練樣本分布和測試樣本分布之間存在差異,我們一般會對輸入樣本進行歸一化處理,使其滿足標準正態(tài)分布。但是,隨著網絡的不斷加深,每一層的輸入會不斷偏離標準分布,影響最終的預測結果。而Batchnormalization的思想就是對每一層的輸入都進行歸一化處理,算法流程如圖2.3所示。然而,如果把每個層的輸出都限制在均值為0方差為1的分布會使得網絡的表達能力變弱,所以文獻[16]增加了兩個可學習的參數β和γ,對數據進行平移和縮放。反卷積(Deconvolution):反卷積的概念第一次出現(xiàn)在Zeiler等人于2010年發(fā)表的論文[18]中,主要用于神經網絡可視化。他們在后續(xù)的工作中提出了轉置卷積(transposedconvolution)的方法[19],是目前較為常用的反卷積方法。主要原理如圖2.4所示,在3*3的特征圖周圍插入0值得到7*7的特征圖,然后由3*3的卷積核卷積之后得到5*5的輸出特征圖,以此不斷將特征圖擴大到輸入圖像大小。2.1.3經典卷積神經網絡模型近幾年,CNN在圖像工程中得到廣泛應用,特別是在圖像識別領域中取得了大量研究成果。2012年,Krizhevsky等人第一次將CNN運用到LSVRC比賽中,以令人矚目的成績獲得了當時圖像分類比賽的冠軍,該卷積神經網絡也被稱為AlexNet[2]。AlexNet共有8層,包括5個卷積層、2個全連接層和一個輸出層。與LeNet-5相比:AlexNet采用了ReLU函數代替飽和非線性函數,解決了因網絡過深而產生的梯度消失問題,并且提高了網絡的訓練速度;其次,AlexNet使用一種名為dropout的技術,該方法的思想是在訓練過程中將中間層的部分神經元隨機置為零,減小神經元之間的共同性和依賴性,使模型更加具有稀疏性和魯棒性,從而提高了模型的泛化能力,防止過擬合。2014年,Szegedy等人訓練了一個更加深的卷積神經網絡,稱為GoogLeNet[19]。他們設計了一種名為inception的結構,這種結構使用3種不同尺度的卷積核(1*1、3*3、5*5)對圖像進行多尺度特征提取和融合,增強了網絡特征提取能力。此外,他們借鑒了NIN[20]結構,使用1*1的卷積核對特征圖進行降維,提高了計算效率。GoogLeNet在LSVRC-14中獲得了圖像分類比賽的第一名。同年,Simonyan等人研究了“網絡深度”對于CNN性能的影響。他們在文章[21]中指出,使用小尺度卷積核(3*3)不斷加深網絡可以有效地提升模型的性能。但是,當網絡達到一定深度時會帶來嚴重的過擬合問題,網絡訓練效率大幅度降低。他們通過實驗證明當網絡層數達到16-19層時性能最佳,該網絡也被稱為VGG16和VGG19。VGG模型在LSVRC-14競賽中,獲得了目標檢測比賽的第一名以及圖像分類比賽的第二名。隨著網絡深度的不斷增加,網絡性能達到飽和之后反而會急速下降。出現(xiàn)這種問題的原因不是因為模型過擬合,而是由于增加網絡深度的同時導致訓練誤差也隨之增加[22]。為了解決這一問題,何凱明等人設計了一種跨層連接的網絡,殘差網絡(ResidualNetworks,ResNet)[23]。通過跨層連接的方式,深層的訓練誤差能夠快速的反傳回來,使網絡訓練變得更加容易。ResNet使得底層的網絡能夠得到充分訓練,準確率也隨著深度的加深而得到顯著提升。ResNet-152網絡在2015年的LSVRC多個比賽項目中(分類、檢測、定位)均斬獲第一名。2.1.4卷積神經網絡小結目前,卷積神經網絡已在眾多科學領域中成為了一大研究熱點,特別是在計算機視覺和人工智能領域,由于網絡不僅帶來了高精確度的識別率,而且避免了傳統(tǒng)方法中復雜的特征提取過程,因而得到了廣泛的研究和應用。雖然CNN所具有的獨特性質使其已被廣泛應用于各種領域中,但是CNN仍有許多工作需要進一步研究:盡管CNN在許多領域如計算機視覺上已經取得了令人滿意的成果,但是仍然不能夠很好地理解其基本理論[26]。對于一個具體的任務,仍很難確定哪種網絡結構,使用多少層,每一層使用多少個神經元等才是合適的。仍然需要詳細的知識來選擇合理的值如學習率、正則化的強度等[27]。一般而言,CNN層數越深,功能就越強,但是計算速度也會越慢。然而,在實際應用中往往對算法有實時性的要求,而深層網絡目前很難滿足這一點。所以,簡化網絡結構,減少網絡參數,優(yōu)化訓練方法等等都是有待進一步研究的方向。從Hubel-Wiesel模型到DCNN模型,深度學習在視覺處理領域有著質的飛躍,形成了一系列經典的基于卷積的特征學習方式。但是這種學習方法也限制了我們的思維,我們不應該僅僅局限于通過卷積的方法來提取目標特征,需要更加深度地探討和研究其他的計算方法來對網絡進行學習訓練。2.2圖像分割圖像分割是圖像處理中的主要問題,也是計算機視覺中有關圖像識別和分析的一大難題。它的目的就是把圖像分成若干個特定的、具有獨特性質的區(qū)域并提取出感興趣的目標[28]。但是,由于圖像場景的復雜性以及目標的多樣性,迄今為止依舊沒有一個通用的方法來完成對所有類型的圖像進行分割。關于圖像分割技術,從上世紀七十年代至今已有大量研究結果和方法,本節(jié)主要介紹部分經典圖像分割算法和近幾年較新穎的方法。2.2.1閾值分割閾值分割是一種傳統(tǒng)的最常用的圖像分割方法,主要過程是用一個或多個灰度閾值將圖像中的像素劃分為多個類,處于同一灰度范圍內的像素屬于同一類別。因其只考慮圖像的灰度特征,所示算法實現(xiàn)簡單、計算量小,成為了應用最為廣泛的圖像分割技術。在實際場景中圖像的灰度特征易受噪聲和亮度影響,所以如何有效的選取一個合適的閾值成為了閾值分割方法的關鍵和難題。目前,基于閾值的分割方法主要有以下幾種,Yan等人提出的用最大相關性原則選擇閾值的方法[29]。Pikaz等人提出的基于圖像拓撲穩(wěn)定狀態(tài)的方法[30]。Huang等人提出的通過極小化圖像的模糊測度來決定灰度閾值的方法[31]。還有最小均方誤差法和最大類間方差法[32]。閾值分割的優(yōu)點是實現(xiàn)簡單、運算效率高,它不僅可以極大的壓縮數據量,而且也大大簡化了分析和處理步驟,因此在很多情況下,是進行圖像分析和特征提取必要的圖像預處理過程。該方法對于灰度相差很大的目標和背景能夠進行有效的分割,當圖像的灰度差異不明顯或不同目標的灰度值范圍有重疊時,應采用局部閾值或動態(tài)閾值分割法。此外,閾值分割方法只考慮像素本身的灰度值,一般不考慮空間特征,因而對噪聲很敏感。2.2.2邊緣檢測基于邊緣檢測的分割方法通過定位目標的邊界輪廓來達到分割的目的。通常,不同的區(qū)域之間邊緣上像素灰度值的變化往往比較劇烈,這是邊緣檢測得以實現(xiàn)的主要假設之一。常用的邊緣檢測方法有:=1\*GB3①基于查找的方法,依據圖像灰度變化尋找梯度方向的一階導數最大值點來檢測邊界,一般使用的一階微分算子有Sobel算子[33],Robert算子[34]等;=2\*GB3②基于零穿越的方法,通過尋找圖像灰度二階導數的過零點來定位邊界,常用的二階微分算子有Laplacian算子[35],Canny算子[36]等?;谶吘墮z測的分割方法主要通過濾波的方式檢測圖像中梯度變化比較大的像素點,因而對噪聲比較敏感。所以,如何在提高抗造性的同時不影響檢測精度成為了邊緣檢測的關鍵。如果提高檢測精度,則會因為噪聲而產生過多的偽邊緣;如果提高抗噪性,則會導致邊緣漏檢和位置偏差等問題。為此,人們提出各種多尺度邊緣檢測方法[37-38],根據實際問題設計多尺度邊緣信息的結合方案,以較好的兼顧抗噪性和檢測精度。2.2.3區(qū)域分割區(qū)域分割是一種常用的圖像分割技術,它的目的就是把圖像中所有具有相似性質的像素點連通起來構成分割區(qū)域。該方法通常采用像素點聚類的方式劃分圖像區(qū)域,一般分為區(qū)域生長法[39]和分裂合并法[40]。區(qū)域生長法的思路就是從初始種子點開始,將相鄰的具有同樣性質(灰度、顏色、紋理等特征)的像素點歸并到該種子點所在區(qū)域,從而逐步增長區(qū)域直到沒有可以合并的像素點或者其他較小的區(qū)域為止。分裂合并法的基本思想是先確定一個特征一致性條件,當圖像中的某個區(qū)域不滿足一致性條件時就將該區(qū)域劃分為多個相等的子區(qū)域,直到所有子區(qū)域都滿足一致性條件時分裂停止,然后它將具有相似特征的相鄰區(qū)域進行合并,最終達到圖像分割的目的。與邊緣檢測方法相比,區(qū)域分割對噪聲相對不敏感,對復雜的自然圖像有較好的分割效果,但算法復雜,計算量大,運算效率低?;趨^(qū)域的分割方法往往會造成圖像的過度分割,而單純的基于邊緣檢測方法有時不能提供較好的區(qū)域結構,為此可將基于區(qū)域的方法和邊緣檢測的方法結合起來,發(fā)揮各自的優(yōu)勢以獲得更好的分割效果。2.2.4結合特定理論的分割方法圖像分割本身是極具困難和挑戰(zhàn)的,而隨著圖像分割技術的不斷發(fā)展,研究也漸漸陷入了瓶頸。研究者們發(fā)現(xiàn)僅僅用純粹的圖像處理方法已很難取得突破,因此他們將注意力轉移到了學科融合中,不斷把其他學科的新方法和新理論引入到圖像分割領域,出現(xiàn)了許多基于特定理論的圖像分割方法?;趫D論的分割:圖割(Graphcuts)的基本思想就是將圖像映射為帶權無向圖,把像素視為節(jié)點,節(jié)點之間的邊的權重對應于兩個像素的相似性度量,割的容量對應能量函數,運用最大流和最小割算法對圖像進行切割,得到的最小割對應于提取的目標邊界。1998年,Roy等人首次運用圖的最大流和最小割算法分割非二值圖像[41]。2001年,Boykov等人提出了新的基于能量最小化的圖割算法[42]。2004年,Rother等人在圖割的理論基礎上,引入迭代學習模型參數的方法提出了Grabcut算法[43]?;趫D論的分割技術是近年來圖像分割領域的一個研究熱點,該方法具有快速、魯棒、全局最優(yōu)、抗噪性強、可擴展性好的優(yōu)點。基于能量泛函的分割:該類方法主要指的是活動輪廓模型(activecontourmodel)[43]以及在其基礎上發(fā)展出來的算法。其基本思想是使用連續(xù)曲線來表達目標邊緣,并定義一個能量泛函使得其自變量包括邊緣曲線,因此分割過程就轉變?yōu)榍蠼饽芰糠汉淖钚≈档倪^程。按照模型中曲線表達形式的不同,活動輪廓模型可以分為兩大類:參數活動輪廓模型(parametricactivecontourmodel)和幾何活動輪廓模型(geometricactivecontourmodel)。參數活動輪廓模型直接以曲線的參數化形式來表達曲線的演化,具代表性的算法是由Kasset等人所提出的Snake模型[44]。參數活動輪廓模型受初始演化曲線設置的影響,曲線拓撲結構變化難以處理。幾何活動輪廓模型的曲線演化過程是基于曲線的幾何特性如曲率而非曲線的表達參數,避免了重復地參數化曲線過程,因此可以較好地處理曲線拓撲結構的變化,主要的方法有Malladi等人提出的基于邊緣的曲線演化算法[45]以及Chan等人提出的C-V模型[46]等。2.3圖像語義分割圖像語義分割最初的目的是為了使計算機能夠理解圖像內容,貼近用戶感知,從而提高圖像檢索準確度。近幾年,隨著機器學習和人工智能等領域突飛猛進的發(fā)展,將該領域方法與圖像分割技術相結合成為了當下最熱門的研究方向。在此過程中,誕生了一系列圖像語義分割方法,而主要的研究方向可以分為兩種,基于區(qū)域的圖像語義分割和基于深度學習的圖像語義分割。2.3.1基于區(qū)域的圖像語義分割圖像語義分割在圖像分割的基礎上提出了更高的要求,不僅需要精確的勾勒出目標的邊緣輪廓,而且需要準確的判斷出目標類別。因此,將分割和識別分為兩部分完成的語義分割方法就是基于區(qū)域的圖像語義分割。主要流程如圖2.5所示:區(qū)域劃分:該步驟主要運用傳統(tǒng)的圖像分割技術,將圖像劃分為多個待分類識別的區(qū)域,比較常用的方法有區(qū)域生長法,超像素分割和圖割等。區(qū)域特征提?。簩ι傻拿總€區(qū)域進行特征描述和提取特征,依據圖像的顏色、紋理、形狀以及空間位置關系等表達區(qū)域特征。主要方法有顏色直方圖、顏色矩、灰度共生矩、小波變換、馬爾科夫隨機場等。區(qū)域分類識別:利用提取到的區(qū)域特征對每個區(qū)域進行分類判別,主要采用機器學習的方法,包括樸素貝葉斯、決策樹、Adaboost和支持向量機等?;趨^(qū)域的圖像語義分割方法有很多,比較突出的方法是P.Arbelaez等人提出的基于區(qū)域的目標檢測器[45],該方法融合目標局部特征和全局外觀特征,利用SVM分類器輸出語義分割圖。該算法具體流程如圖2.6所示:Section3:生成候選區(qū)域,文章利用多尺度低層次的特征信息進行邊緣檢測,以這種簡單而通用的方法獲得高質量的候選區(qū)域。Section4:獲得區(qū)域特征描述,文章提出了一種利用滑動窗口機制獲得局部特征信息并融合全局外觀特征得到多尺度高層次特征的方法。Section5:區(qū)域檢測,文章訓練了一個SVM分類器對每個區(qū)域的類別進行打分。Section6:像素分類,將區(qū)域得分轉為像素得分,每個像素的類別打分由它所屬區(qū)域的類別打分決定。近年來,深度學習成為了計算機、自動化以及圖像處理等各大學科領域的研究熱門。在計算機視覺領域中,也被廣泛應用到目標檢測、識別和跟蹤等任務中。hariharan等人利用深度學習提出了一個協(xié)調檢測和分割(Simultaneousdetectionandsegmentation,SDS)的方法[46]。文章利用似物性推存框技術(Multi-scalecombinatorialgrouping,MCG)[47]獲得多個候選區(qū)域,然后利用RCNN(Regionswithconvolutionalneuralnetworkfeatures)對每個候選區(qū)域的進行分類打分。SDS在當時的目標檢測和語義分割任務中都達到了國際領先水平,在常用數據PASCALVOC2012上的mIoU為51.6%?;趨^(qū)域特征提取的圖像語義分割方法雖然有很多,但是依舊存在許多問題。首先,算法流程比較復雜,需要經過區(qū)域劃分、區(qū)域特征提取、區(qū)域類別打分和像素分類等過程;其次,傳統(tǒng)的特征提取方法得到的特征對于目標的語義信息表達不強;另外,如SDS等方法,雖然用深度學習的方法代替區(qū)域特征提取和區(qū)域類別打分,極大提高了分割效果,但缺點是算法依賴于候選區(qū)域提取的準確性,增加了運算時間。2.3.2基于深度學習的圖像語義分割2014年,J.Long等人提出了基于全卷積網絡(FullyConvolutionalNetwork,FCN)的圖像語義分割方法[5]。該算法的主要步驟如圖2.7所示:數據處理:歸一化訓練數據集,利用平移、旋轉、翻轉和加噪等方法增強數據集,將圖像分辨率調整到統(tǒng)一尺度。網絡模型:使用VGG16模型作為預訓練網絡結構,然后將全連接層替換為卷積層以此保留圖像的結構特征,最后利用雙線性插值的方法將類別得分圖還原到原始圖像大小。網絡訓練:將像素預測結果(pixelwiseprediction)和真實分割結果(groundtruth)之間的交叉熵函數作為損失函數,利用反向傳播算法訓練神經網絡。FCN利用深度卷積神經網絡的分類能力,將圖像分割問題轉化為了像素點分類問題,去除了傳統(tǒng)方法中區(qū)域劃分的步驟,做到由輸入原始圖像到輸出語義分割圖像的“端到端”系統(tǒng),大大簡化了運算步驟。FCN在PASCALVOC2012測試集上取得了62.2%的mIoU,相比SDS高出了近10個百分點。隨后,大量基于FCN的圖像語義分割算法被相繼提出,進一步推進了圖像語義分割的發(fā)展。Badrinarayanan等人提出了基于編碼-解碼的語義分割網絡(SegNet)[48],該方法在FCN的基礎上利用反卷積方法代替雙線性插值,逐層還原特征圖像。Chen等人在FCN模型的基礎上提出了帶孔的卷積[49],在不改變VGG16網絡參數前提下減少了網絡池化層個數,更大程度上保留了目標特征信息,并且該算法在分割的結果后引入了條件隨機場進一步提高了分割效果,在PASCALVOC2012測試集上達到了66.4%的分割效果。在此之后,更加強大的深度卷積神經網絡殘差網(ResNet)的出現(xiàn)再一次提高了語義分割的性能。表2.1展示了近年來基于深度學習的圖像語義分割算法在PASCALVOC2012測試集上的性能。雖然,深度卷積神經網絡已成為當下圖像語義分割的主流方法,但是目前仍然存在許多難點和挑戰(zhàn)。首先,DCNN模型復雜,計算量大,對硬件平臺要求極高,不適合實時性要求高的工程應用;其次,針對尺度較小的目標,DCNN方法依舊很難達到較好的語義分割效果。另外,基于DCNN的語義分割方法對目標邊界周圍像素識別的準確率還不夠高。為此,本文針對這些問題進行了深入探討和研究,將多尺度特征提取的方法引入到DCNN模型中,提高對小尺度目標的分割效果,并結合傳統(tǒng)的超像素分割方法增強目標邊界定位的精確度。2.4本章小結本章是對本課題相關工作的綜述,主要分為三個部分。第一部分介紹了卷積神經網絡的發(fā)展歷程以及網絡模型的主要結構,探討了一些經典DCNN模型的優(yōu)劣處。第二部分是對傳統(tǒng)的圖像分割方法進行綜述,重點介紹了閾值分割、邊緣檢測、區(qū)域分割和基于特定理論的分割方法。第三部分主要從傳統(tǒng)的基于區(qū)域的圖像語義分割方法和基于DCNN的方法等方面講述了圖像語義分割算法的發(fā)展現(xiàn)狀,論述了現(xiàn)有的基于DCNN的圖像語義分割方法的不足,并指出了本文的工作重點。語義分割需要對圖像中的每個像素做出分類識別,輸出的預測圖像尺度應與輸入圖像保持一致。因此,我們需要對7*7的特征圖像進行上采樣操作,使其擴展到輸入圖像大小。通常采用的上采樣方法有轉置卷積,該方法在本文第二章已做介紹。而Long等人在FCN模型中采用雙線性插值的方法。如圖3.6,假設已知點Q11,Q12,Q21,Q22的像素值,首先在X方向進行線性插值得到R1和R2的像素值,然后在Y方向進行線性插值得到點P的像素值。通過這種雙線性插值的方式可以將被多次池化的特征圖填充到原始圖像大小。找出置信度低的點之后,我們需要對這些點劃分區(qū)域,依據每個區(qū)域的不同特性對這些點進行分類識別。本文采用超像素分割方法中的簡單線性迭代聚類算法(simplelineariterativeclustering,SLIC)[56]對圖像進行區(qū)域劃分。SLIC是Achanta等人于2010年提出的一種思想簡單、實現(xiàn)方便的分割算法。它將彩色圖像轉化為Lab顏色空間和xy坐標下的5維特征向量,然后利用5維特征向量構造距離度量標準對圖像像素進行局部聚類。SLIC算法能生成緊湊、近似均勻的超像素,在運算速度,物體輪廓保持、超像素形狀方面具有較高的綜合評價,比較符合期望的分割效果。具體實現(xiàn)步驟如下:初始化種子點(聚類中心):按照設定的超像素個數,在圖像內均勻的分配種子點。假設圖片總共有N個像素點,預分割為K個相同尺寸的超像素,那么每個超像素區(qū)域的大小為N/K,則相鄰種子點的距離(步長)近似為S=N在種子點的n*n鄰域內重新選擇種子點(一般取n=3):計算該鄰域內所有像素點的梯度值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論