版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第八章圖像和視頻處理人工智能概論目錄人工智能相關(guān)概念8.1圖像處理8.2圖像分割與邊緣檢測8.3圖像目標(biāo)檢測8.4圖像理解
8.5小結(jié)
第8章圖像和視頻處理概念在信息社會中,電子技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展對圖像的廣泛應(yīng)用起到了極大的推動作用,有關(guān)各類圖像的采集和加工技術(shù)近年來得到了長足的進(jìn)展,出現(xiàn)了許多有關(guān)的新理論、新技術(shù)、新算法、新手段和新設(shè)備,并已使得各種圖像技術(shù)在科學(xué)研究、工業(yè)生產(chǎn)、醫(yī)療衛(wèi)生、教育、娛樂、管理和通信等方面得到了廣泛的重視,對推動社會發(fā)展、改善人們生活水平都起到了重要作用。圖像處理是用計(jì)算機(jī)對圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù),又稱影像處理。使用視頻和音頻剪處理技術(shù)和工具進(jìn)行編輯、剪輯、展示、分析,增加預(yù)期的特效效果,稱之為視頻處理。人工智能基礎(chǔ)8.1圖像處理1.灰度映射一幅灰度圖像的視覺效果取決于該圖像中各個像素的灰度?;叶扔成渫ㄟ^改變圖像中所有或部分像素的灰度來達(dá)到改善圖像視覺效果的目的?;叶扔成涫且环N基于圖像像素的點(diǎn)操作,可以原地完成。它通過對原始圖像中每個像素賦予一個新的灰度值來增強(qiáng)圖像。一幅圖像含有大量的像素,對每個像素都單獨(dú)計(jì)算一個新的灰度值會需要很大的計(jì)算量。實(shí)際應(yīng)用中是先根據(jù)增強(qiáng)的目的設(shè)計(jì)某種映射規(guī)則,并用相應(yīng)的映射函數(shù)來表示。對原始圖像中的每個像素都用這個映射函數(shù)將其原來的灰度值轉(zhuǎn)化成另一灰度值輸出。人工智能基礎(chǔ)8.1.1灰度直方圖校正8.1圖像處理2.直方圖直方圖是對圖像的一種抽象表示方式,是通過對圖像的統(tǒng)計(jì)得到的。借助對圖像直方圖的修改或變換,可以改變圖像像素的灰度分布,從而達(dá)到對圖像進(jìn)行增強(qiáng)的目的。對一幅灰度圖像,其灰度直方圖反映了該圖中不同灰度級出現(xiàn)的統(tǒng)計(jì)情況。圖像的直方圖包含了豐富的圖像信息,描述了圖像的灰度級內(nèi)容,反映了圖像的灰度分布情況。圖像的灰度直方圖以圖表的方式顯示了圖像中每個灰度級與其所對應(yīng)像素?cái)?shù)量的關(guān)系。圖表的橫坐標(biāo)為灰度級,縱坐標(biāo)是各個灰度級在圖像中出現(xiàn)的頻率。直方圖是圖像最基本的統(tǒng)計(jì)特征,其中像素?cái)?shù)量可被看作灰度級的函數(shù)。從概率論的角度來看,灰度出現(xiàn)的頻率可被看作其出現(xiàn)的概率,這樣直方圖就對應(yīng)于概率密度函數(shù)(probabilitydensityfunction,PDF),而概率分布函數(shù)就是直方圖的累積和,即概率密度函數(shù)的積分。對于數(shù)字圖像來說,常見的直方圖類型有線性直方圖(linearhistogram)和累計(jì)直方圖(cumulativehistogram)。人工智能基礎(chǔ)8.1.1灰度直方圖校正8.1圖像處理1.圖像噪聲概念對于數(shù)字圖像處理而言,噪聲是指圖像中的非本源信息。因此,噪聲會影響人的感官對所接收的信源信息的準(zhǔn)確理解。在理論上,噪聲只能通過概率統(tǒng)計(jì)的方法來認(rèn)識和研究噪聲信號。從嚴(yán)格意義上分析,圖像噪聲可認(rèn)為是多維隨機(jī)信號,可以采用概率分布函數(shù)、概率密度函數(shù)以及均值、方差、相關(guān)函數(shù)等描述噪聲特征。人工智能基礎(chǔ)8.1.2圖像的噪聲8.1圖像處理2.圖像噪聲的產(chǎn)生目前,大多數(shù)數(shù)字圖像系統(tǒng)中,輸入光圖像都通過掃描方式將多維圖像變成一維電信號,再對其進(jìn)行存儲、處理和傳輸?shù)龋詈笮纬啥嗑S圖像信號。在這一系列復(fù)雜過程中,圖像數(shù)字化設(shè)備、電氣系統(tǒng)和外界影響將使得圖像噪聲的產(chǎn)生不可避免。人工智能基礎(chǔ)8.1.2圖像的噪聲8.1圖像處理3.圖像噪聲分類圖像噪聲按其產(chǎn)生的原因可分為外部噪聲和內(nèi)部噪聲。外部噪聲是指系統(tǒng)外部干擾從電磁波或經(jīng)電源傳進(jìn)系統(tǒng)內(nèi)部而引起的噪聲。一般情況下,數(shù)字圖像中常見的外部干擾主要包括設(shè)備元器件及材料本身引起的噪聲、系統(tǒng)內(nèi)部設(shè)備電路所引起的噪聲和電器部件機(jī)械運(yùn)動產(chǎn)生的噪聲。噪聲按不同的性質(zhì)有不同的分類方法。從統(tǒng)計(jì)特性看,圖像噪聲可分為平穩(wěn)噪聲和非平穩(wěn)噪聲兩種,其中統(tǒng)計(jì)特性不隨時間變化的噪聲稱為平穩(wěn)噪聲,統(tǒng)計(jì)特性隨時間變化的噪聲稱為非平穩(wěn)噪聲。根據(jù)噪聲與信號之間的關(guān)系,可分為加性隨機(jī)噪聲和乘性脈沖噪聲。理論上,加性隨機(jī)噪聲方法成熟,且處理比較方便;而乘性隨機(jī)噪聲處理方法目前還沒有成熟的理論,并且處理起來非常復(fù)雜。一般條件下,現(xiàn)實(shí)生活中所遇到的絕大多數(shù)圖像噪聲均可認(rèn)為是加性噪聲。人工智能基礎(chǔ)8.1.2圖像的噪聲8.1圖像處理4.圖像噪聲特點(diǎn)一般情況下,圖像中的噪聲有以下三個特點(diǎn)。(1)疊加性在圖像的串聯(lián)傳輸系統(tǒng)中,各個串聯(lián)部分引起的噪聲一般具有疊加效應(yīng),使信噪比下降。(2)分布和大小不規(guī)則,由于噪聲在圖像中是隨機(jī)出現(xiàn)的,所以其分布和幅值也是隨機(jī)的。(3)噪聲與圖像之間具有相關(guān)性通常情況下,攝像機(jī)的信號和噪聲相關(guān),明亮部分噪聲小,黑暗部分噪聲大。人工智能基礎(chǔ)8.1.2圖像的噪聲8.1圖像處理數(shù)字圖像處理技術(shù)中存在的量化噪聲與圖像相位相關(guān)。圖像內(nèi)容接近平坦時,量化噪聲呈現(xiàn)偽輪廓,但此時圖像信號中的隨機(jī)噪聲會因?yàn)轭澰胄?yīng)而使量化噪聲變得不很明顯。改善被噪聲污染的圖像質(zhì)量有兩種方法。一是不考慮圖像噪聲的原因,只對圖像中某些部分加以處理或突出有用的圖像特征信息,改善后的圖像并不一定與原圖像信息完全一致。這一類改善圖像特征的方法就是圖像增強(qiáng)技術(shù),主要目的是要提高圖像的可辨識性。另一類方法是針對圖像產(chǎn)生噪聲的具體原因,采取技術(shù)方法補(bǔ)償噪聲影響,使改善后的圖像盡可能地接近原始圖像,這類方法稱為圖像恢復(fù)或復(fù)原技術(shù)。人工智能基礎(chǔ)8.1圖像處理根據(jù)處理過程所在的空間不同,可分為基于空間域的增強(qiáng)方法和基于頻率域的增強(qiáng)方法兩大類,此外,圖像增強(qiáng)技術(shù)按所處理對象的不同還可分為灰度圖像增強(qiáng)和彩色圖像增強(qiáng),按增強(qiáng)的目的還可分為光譜信息增強(qiáng)、空間紋理信息增強(qiáng)和時間信息增強(qiáng)。通常情況下,如果沒有特別說明,一般均指對灰度圖像的增強(qiáng)。人工智能基礎(chǔ)8.1.3圖像增強(qiáng)8.1圖像處理1.空域增強(qiáng)法基于空間域的增強(qiáng)方法直接在圖像所在的二維空間進(jìn)行處理,即直接對每一像素點(diǎn)的灰度值進(jìn)行處理,根據(jù)所采用的技術(shù)不同又可分為灰度變換和空域?yàn)V波兩類方法??沼?yàn)V波是基于鄰域處理的增強(qiáng)方法,它應(yīng)用某一模板對每個像素點(diǎn)與其周圍鄰域的所有像素點(diǎn)進(jìn)行某種確定數(shù)學(xué)運(yùn)算得到該像素點(diǎn)新的灰度值,輸出值的大小不僅與該像素點(diǎn)的灰度值有關(guān),而且還與其鄰域內(nèi)的像素點(diǎn)的灰度值有關(guān),常用的圖像平滑濾波與銳化濾波技術(shù)就屬于空域?yàn)V波的范疇。人工智能基礎(chǔ)8.1.3圖像增強(qiáng)8.1圖像處理2.頻域增強(qiáng)法頻率域增強(qiáng)法首先將圖像從空間域按照某種變換模型變換到頻率域,然后在頻域?qū)D像進(jìn)行處理,再將其反變換到空間域,通常包括低通、高通和同態(tài)等濾波器結(jié)構(gòu)。人工智能基礎(chǔ)8.1.3圖像增強(qiáng)8.1圖像處理3.圖像增強(qiáng)效果評價(jià)目前對圖像增強(qiáng)效果的評價(jià)主要包括定性評價(jià)和定量評價(jià)兩個方面。定性評價(jià)主要根據(jù)人的主觀感覺,對圖像增強(qiáng)的視覺效果進(jìn)行評判,一般主要對圖像的清晰度、色調(diào)、紋理等幾方面進(jìn)行主觀評價(jià)。定性分析的不足是與評價(jià)者的主觀性密切相關(guān),即對同一幅被增強(qiáng)的圖像,不同的人可能有不同的評價(jià)。定性分析的主要優(yōu)點(diǎn)是可以從一幅圖像中有選擇地對具體研究對象進(jìn)行重點(diǎn)比較和評價(jià),即定性分析可以對圖像的局部或具體研究目標(biāo)進(jìn)行評價(jià),具有靈活性和廣泛的適應(yīng)性。定量評價(jià)圖像增強(qiáng)效果目前還沒有業(yè)界統(tǒng)一接受的標(biāo)準(zhǔn)與尺度,目前通常采用的方法是從圖像的信息量、標(biāo)準(zhǔn)差、均值、紋理度量值和具體研究對象的光譜特征值等方面與原始圖像進(jìn)行比較評價(jià)。人工智能基礎(chǔ)8.1.3圖像增強(qiáng)8.1圖像處理降低圖像細(xì)節(jié)幅度的圖像處理技術(shù)叫做圖像平滑(imagesmoothing)。圖像平滑是通過減少圖像中的高頻噪聲來改善圖像的質(zhì)量。能夠減少甚至消除噪聲并保持高頻邊緣信息是圖像平滑算法追求的目標(biāo)。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理1.空間域平滑任何一幅原始圖像在獲取和傳輸?shù)冗^程中,都會受到各種噪聲的干擾,從而導(dǎo)致圖像質(zhì)量下降、圖像模糊,以及細(xì)節(jié)被淹沒等。為了抑制噪聲改善圖像質(zhì)量所進(jìn)行的處理稱為圖像平滑或去噪。一個較好的平滑方法應(yīng)該是既能消除噪聲的寄生效應(yīng),又不使圖像的邊緣輪廓和線條細(xì)節(jié)變模糊。圖像平滑可以在空間域進(jìn)行,也可以在頻率域中進(jìn)行。如下首先介紹幾種空間域的平滑方法。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理(1)鄰域平均法鄰域平均法是一種簡單的局部空間域線性處理的算法,也可以叫作等權(quán)平均法。假設(shè)圖像是由許多灰度值近似相等的小塊組成,相鄰像素間存在很高的空間相關(guān)性,而且噪聲是統(tǒng)計(jì)獨(dú)立的,則可用像素鄰域內(nèi)的各個像素的灰度平均值代替該像素原來的灰度值來實(shí)現(xiàn)圖像的平滑。它是將每個輸入的像素值及其某個鄰域的像素值結(jié)合處理而得到輸出像素值的過程。如果鄰域含有奇數(shù)行和列,那么中心像素就是鄰域的中心;如果行或列中有一個為偶數(shù),那么中心像素將位于中心偏左或偏上方,即對于大小的鄰域,利用向下取整函數(shù)可得中心像素點(diǎn)坐標(biāo)為:人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理人工智能基礎(chǔ)8.1.4圖像平滑這種算法優(yōu)點(diǎn)是簡單、處理速度快;主要缺點(diǎn)是在降低噪聲的同時使圖像產(chǎn)生模糊,特別是在邊緣和細(xì)節(jié)處。鄰域越大,在去噪能力增強(qiáng)的同時模糊程度越嚴(yán)重。為了適當(dāng)減少上述平滑算法帶來的負(fù)效應(yīng),在鄰域平均的基礎(chǔ)上可以采用閾值法,這樣平滑后的圖像比直接采用無閾值限制的鄰域平均方法處理的模糊度減少,即:其中,T是一個規(guī)定的非負(fù)閾值,當(dāng)一些點(diǎn)和它們鄰值的差值不超過規(guī)定的閾值時,仍保留這些點(diǎn)的像素灰度值。當(dāng)某些點(diǎn)的灰度值與各鄰點(diǎn)灰度的均值差別較大時,則取其鄰域平均值作為該點(diǎn)的灰度值。8.1圖像處理(2)梯度倒數(shù)加權(quán)平滑一般情況下,在同一個區(qū)域內(nèi)的像素灰度變化要比在區(qū)域之間的像素灰度變化小,相鄰像素灰度差的絕對值在邊緣處要比區(qū)域內(nèi)部要大。相鄰像素灰度值差的絕對值稱為梯度。在一個較小的窗口內(nèi)(若恰好含有兩個或多個區(qū)域,區(qū)域之間的像素形成邊緣),若把中心像素與其相鄰像素之間的梯度倒數(shù)定義為各相鄰像素的權(quán),則在區(qū)域內(nèi)部的相鄰像素的權(quán)值最大,而在噪聲處的相鄰像素權(quán)值最小。考慮邊緣和細(xì)節(jié)的局部連續(xù)性,此處相鄰像素的權(quán)值應(yīng)位于最大值與最小值之間。采用梯度倒數(shù)加權(quán)平均值作為中心像元的輸出值,在使圖像平滑的同時,一定程度上可以保持邊緣和細(xì)節(jié)。設(shè)點(diǎn)(x,y)的灰度值為f(x,y)。在3×3的鄰域內(nèi)的像素梯度倒數(shù)為:人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理這里,i,j=-1,0,1表示考慮中心像元的8鄰域像素。當(dāng)相鄰像素的灰度值相等時,定義上式值為2。因此g(x,y;i,j)的值域?yàn)?0,2]??紤]中心像元灰度值對均值的影響程度及權(quán)系數(shù)矩陣歸一化,規(guī)定歸一化后中心像素的權(quán)值為1/2,其余8鄰域像素權(quán)值和為1/2,這樣使各元素總和等于1。于是可得歸一化的權(quán)矩陣為:利用上述權(quán)矩陣和原始影像進(jìn)行加權(quán)卷積,實(shí)現(xiàn)對圖像的平滑操作。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理(3)中值濾波中值濾波是一種統(tǒng)計(jì)排序?yàn)V波器,通過處理去除圖像中的噪聲而盡量減少圖像邊緣和較尖銳細(xì)節(jié)的模糊化,并且保持的圖像特征是邊緣和圖像的銳度。其中像素的值不用平均值而用該像素周圍某鄰域內(nèi)像素的中間值來代替。中值濾波是一種非線性濾波,盡管也是對中心像素的鄰域進(jìn)行處理,但并不求以某些系數(shù)為權(quán)的加權(quán)和,無法用一個線性表達(dá)式得到處理的結(jié)果。中值濾波的步驟如下。①模板在圖像中漫游,將模板中心與圖中某個像素位置重合。②讀取模板下各對應(yīng)像素的灰度值。③灰度值從小到大排序。④找出中間值。⑤將中間值賦給對應(yīng)模板中心位置的像素。當(dāng)鄰域中的幾個像素具有相同的灰度值時,所有相等的值成組地存放在相鄰位置。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理常用窗口模板形算法是在中值濾波基礎(chǔ)上的改進(jìn)。對圖像中任一像素,為了在其某一鄰域內(nèi)實(shí)現(xiàn)濾波,我們首先對除中心像素以外的鄰域內(nèi)像素的灰度值進(jìn)行最大值最小值的確定,然后將中心像素灰度值與上述極值進(jìn)行比較。若中心像元的灰度值大于鄰域像素值的最大值,則用該最大值作為中心像元的灰度值;若中心像元的灰度值小于鄰域像素值的最小值,則用該最小值作為中心像元的灰度值;若中心像元的灰度值位于最大值和最小值之間,則保持中心像元的原始灰度值不變。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理(4)多幅圖像平均多幅圖像平均法是利用對同一景物的多幅圖像取平均來消除噪聲產(chǎn)生的高頻成分。設(shè)原圖像為f(x,y),圖像噪聲為加性噪聲n(x,y),則有噪聲的圖像g(x,y)可表示為:若圖像噪聲是互不相關(guān)的加性噪聲,且均值為0,則:其中E[g(x,y)]是多幅有噪聲圖像的期望值,對幅有噪聲的圖像經(jīng)平均后有:人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理及有方差表達(dá)式:上式表明M對幅圖像平均可把噪聲方差減小1/M;當(dāng)M增大時,平均后的圖像更接近于理想圖像。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理(5)空間低通濾波從信號頻譜角度來看,信號的緩慢變化部分在頻率域?qū)儆诘皖l部分,而信號的迅速變化部分在頻率域是高頻部分。對圖像來說,它的邊緣以及噪聲干擾的頻率分量都處于頻率域較高的部分。因此可以采用低通濾波的方法來去除噪聲,只要適當(dāng)?shù)卦O(shè)計(jì)空間域系統(tǒng)的單位沖激響應(yīng)矩陣就可以達(dá)到濾除噪聲的效果。式中,g為N×N為濾波結(jié)果圖像陣列;f為N×N的圖像陣列;h為L×L低通濾波陣列。人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理2.頻率域平滑對于一幅圖像,它的細(xì)節(jié)邊緣灰度跳躍部分以及噪聲都代表圖像的高頻分量,而大面積的背景區(qū)和緩慢變化部分則代表圖像的低頻分量。對于許多信號而言,低頻成分蘊(yùn)含著信號的特征,而高頻成分給出信號的細(xì)節(jié)或差異。噪聲屬于高頻成分。因此,只要能用頻域低通濾波法去除其高頻分量就能去掉噪聲,從而使圖像得到平滑。利用卷積定理可知:人工智能基礎(chǔ)8.1.4圖像平滑8.1圖像處理用以增強(qiáng)圖像細(xì)節(jié)的圖像處理技術(shù)叫做圖像銳化(imagesharpening)。圖像銳化處理是為了突出圖像中的細(xì)節(jié)或者增強(qiáng)被模糊了的細(xì)節(jié)。圖像的模糊實(shí)質(zhì)上就是受到平均或積分運(yùn)算,從邏輯角度可以斷定,對圖像進(jìn)行平均或積分的逆運(yùn)算如微分運(yùn)算,就可以使圖像清晰,但是圖像微分增強(qiáng)了邊緣和其他突變(如噪聲)并削弱了灰度變化緩慢的區(qū)域。從頻譜角度來分析,圖像模糊的實(shí)質(zhì)是其高頻分量被衰減,可以通過高頻加重濾波來使圖像清晰。能夠進(jìn)行銳化處理的圖像必須具有較高的信噪比,否則,圖像銳化后,加強(qiáng)噪聲成分使圖像信噪比更低。銳化會導(dǎo)致噪聲受到比信號還強(qiáng)的增強(qiáng),一般須先去除或減輕干擾噪聲,然后才能進(jìn)行銳化處理。人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理1.微分算子對于一階微分的任何定義,都必須保證以下幾點(diǎn)。①平坦段(灰度不變的區(qū)域)微分值為零。②在灰度階梯或斜坡的起始點(diǎn)處微分值非零。③沿著斜坡的微分值非零(nonzero)。任何二階微分的定義也類似,即:①平坦區(qū)微分值為零。②在灰度階梯或斜坡的起始點(diǎn)處微分值非零。③沿著斜坡的微分值為零(zero)。人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理因?yàn)槲覀兲幚淼氖菙?shù)字圖像,所以其最大灰度級的變化也是有限的,變化發(fā)生的最短距離是在兩相鄰像素之間。對于一元函數(shù)f(x),用一個前向差分的差值運(yùn)算表達(dá)一階微分的定義:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理為了與對二元圖像函數(shù)求微分時的表達(dá)式保持一致,這里使用了偏導(dǎo)數(shù)符號。對于二元函數(shù),我們將沿著兩個空間軸處理偏微分。類似地,用如下差分定義二階微分:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理通過比較一階微分處理與二階微分處理的響應(yīng),可得到以下結(jié)論。①階微分處理通常會產(chǎn)生較寬的邊緣。②二階微分處理對細(xì)節(jié)(如細(xì)線和孤立點(diǎn))有較強(qiáng)的響應(yīng)。③一階微分處理一般對階梯灰度有較強(qiáng)的響應(yīng)。④二階微分處理對階梯灰度級變化產(chǎn)生雙響應(yīng)。圖像模糊的實(shí)質(zhì)就是圖像受到平均或積分運(yùn)算,為實(shí)現(xiàn)圖像的銳化,必須用它的反運(yùn)算“微分”,微分運(yùn)算是求信號的變化率,有加強(qiáng)高頻分量(細(xì)節(jié)和孤立噪聲)的作用,從而使圖像輪廓清晰。人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理2.拉普拉斯算子拉普拉斯算子是常用的各向同性(isotropy,也稱均質(zhì)性,沿不同方向測得的性能為同樣的數(shù)值)的二階導(dǎo)數(shù)邊緣增強(qiáng)處理算子,一個二元圖像函數(shù)的拉普拉斯變化定義為:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理對數(shù)字圖像來講,f(x,y)的二階偏導(dǎo)數(shù)可表示為如下差分形式:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理人工智能基礎(chǔ)為此,拉普拉斯算子為
8.1圖像處理以模板表示為數(shù)字圖像在某點(diǎn)的拉普拉斯算子,可以由中心像素點(diǎn)灰度級值和鄰域像素灰度級值通過加權(quán)運(yùn)算來求得,它們給出了以90°旋轉(zhuǎn)的各向同性的結(jié)果。模板中所有權(quán)系數(shù)之和為零,目的也是使處理后圖像對圖像灰度的平坦區(qū)域產(chǎn)生零響應(yīng)。對角線方向也可以加入到離散拉普拉斯變換的定義中。這種掩模對45°增幅的結(jié)果是各向同性的。模板表示為:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理另外,如下所示的兩個掩模在實(shí)踐中也經(jīng)常使用。這兩個掩模也是以拉普拉斯變換定義為基礎(chǔ)的。但是,當(dāng)拉普拉斯濾波后的圖像與其他圖像加減合并時,必須考慮符號上的差別。即:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理3.頻率域高通濾波圖像中的邊緣或線條等細(xì)節(jié)部分與圖像頻譜的高頻分量相對應(yīng)。因此采用高通濾波讓高頻分量順利通過,使圖像的邊緣或線條等細(xì)節(jié)變得清楚,也實(shí)現(xiàn)圖像的銳化。類似于低通濾波器,高通濾波亦可在頻率域中實(shí)現(xiàn),也有3種常見的主要類型:人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理(1)理想高通濾波器(IHPF)(2)巴特沃思高通濾波器(BHPF)或人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理(3)指數(shù)高通濾波器(EHPF)或人工智能基礎(chǔ)8.1.5圖像銳化8.1圖像處理下圖是三種高通濾波的特性曲線對比圖人工智能基礎(chǔ)8.1.5圖像銳化三種高通濾波器的特性曲線8.2圖像分割與邊緣檢測邊緣是指位于圖像中灰度不連續(xù)(間斷或跳變)的兩個區(qū)域邊界上的單個或一組相連的像素,常以點(diǎn)、直線或曲線的形式出現(xiàn)?;谀繕?biāo)的邊緣,不僅可以確定機(jī)器視覺系統(tǒng)的坐標(biāo)系,還能實(shí)現(xiàn)距離或角度測量、存在性檢查或目標(biāo)對準(zhǔn)等類型的機(jī)器視覺系統(tǒng)。圖像中的邊緣是像素灰度值發(fā)生加速變化而不連續(xù)的結(jié)果。邊緣檢測是常見的圖像基元檢測的基礎(chǔ),也是所有基于邊界的圖像分割方法。兩個具有不同灰度值的相鄰區(qū)域之間總存在邊緣。邊緣是灰度值不連續(xù)的結(jié)果,這種不連續(xù)??煞奖愕乩糜?jì)算導(dǎo)數(shù)來進(jìn)行檢測,一般常使用的是一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。在空域?qū)吘壍臋z測常采用局部導(dǎo)數(shù)算子進(jìn)行。下面分別對一階導(dǎo)數(shù)算子和二階導(dǎo)數(shù)算子進(jìn)行介紹,然后討論如何將檢測出的邊緣點(diǎn)連接成曲線或封閉輪廓。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測1.一階導(dǎo)數(shù)算子由上面的討論可知對邊緣的檢測可借助空域微分算子通過卷積來完成。實(shí)際上數(shù)字圖像中計(jì)算導(dǎo)數(shù)是利用差分近似微分來進(jìn)行的。梯度對應(yīng)一階導(dǎo)數(shù),梯度算子是一階導(dǎo)數(shù)算子。對一個連續(xù)函數(shù)f(x,y),它在位置(x,y)的梯度可表示為一個矢量(兩個分量分別是沿X和Y方向的一階導(dǎo)數(shù)),即:人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測這個矢量的幅度(也常直接簡稱為梯度)和方向角分別為:式中的幅度計(jì)算是以2范數(shù)來計(jì)算的,由于涉及平方和開方運(yùn)算,計(jì)算量比較大。在實(shí)用中為了計(jì)算簡便,常采用1范數(shù)(對應(yīng)城區(qū)距離),即:或范數(shù)(對應(yīng)棋盤距離),即人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測以上各式中的偏導(dǎo)數(shù)需對每個像素位置計(jì)算,在實(shí)際應(yīng)用中常用小區(qū)域模板卷積來近似計(jì)算。對Gx和Gy各用一個模板,所以需要兩個模板組合起來以構(gòu)成一個梯度算子。算子運(yùn)算時是采取類似卷積的方式,將模板在圖像上移動并在每個位置計(jì)算對應(yīng)中心像素的梯度值,所以對一幅灰度圖求梯度所得的結(jié)果是一幅梯度圖。在邊緣灰度值過渡比較尖銳且圖像中噪聲比較小時,梯度算子工作效果較好。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測2.二階導(dǎo)數(shù)算子用二階導(dǎo)數(shù)算子檢測階梯狀邊緣需將算子與圖像卷積并確定過零點(diǎn)。(1)拉普拉斯算子拉普拉斯算子是一種常用的二階導(dǎo)數(shù)算子,實(shí)際應(yīng)用中可根據(jù)二階導(dǎo)數(shù)算子過零點(diǎn)的性質(zhì)來確定邊緣的位置。對一個連續(xù)函數(shù)f(x,y),它在位置(x,y)的拉普拉斯值定義為:人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測(2)馬爾算子馬爾算子是在拉普拉斯算子的基礎(chǔ)上實(shí)現(xiàn)的。拉普拉斯算子對噪聲比較敏感,為了減少噪聲影響,可先對待檢測圖進(jìn)行平滑然后再運(yùn)用拉普拉斯算子。由于在成像時,一個給定像素點(diǎn)所對應(yīng)場景點(diǎn)的周圍點(diǎn)對該點(diǎn)的光強(qiáng)貢獻(xiàn)呈高斯分布,所以進(jìn)行平滑的函數(shù)可采用高斯加權(quán)平滑函數(shù)。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測馬爾邊緣檢測的思路源于對哺乳動物視覺系統(tǒng)的生物學(xué)研究。這種方法對不同分辨率的圖像分別處理,在每個分辨率上,都通過二階導(dǎo)數(shù)算子來計(jì)算過零點(diǎn)以獲得邊緣圖。這樣在每個分辨率上進(jìn)行如下計(jì)算。①用一個2-D的高斯平滑模板與源圖像卷積。②計(jì)算卷積后圖像的拉普拉斯值。③檢測拉普拉斯圖像中的過零點(diǎn)作為邊緣點(diǎn)。高斯加權(quán)平滑函數(shù)可定義為:人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測3.邊界閉合在有噪聲時,用各種算子檢測到的邊緣像素常常是孤立的或分小段連續(xù)的。為組成區(qū)域的封閉邊界以將不同區(qū)域分開,需要將邊緣像素連接起來。邊緣像素連接的基礎(chǔ)是它們之間有一定的相似性。前述的各種邊緣檢測算子都是并行工作的,如果邊界閉合也能并行完成,則分割基本上可以并行實(shí)現(xiàn)。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測前述的各種邊緣檢測算子都是并行工作的,如果邊界閉合也能并行完成,則分割基本上可以并行實(shí)現(xiàn)。用梯度算子對圖像處理,可得到像素2方面的信息:(1)梯度的幅度。(2)梯度的方向。根據(jù)邊緣像素梯度在這2方面的相似性把它們連接起來。具體說來如果像素(s,t)在像素(x,y)的鄰域且它們的梯度幅度和梯度方向分別滿足以下2個條件(其中T是幅度閾值,A是角度閾值):人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測式中的幅度計(jì)算是以2范數(shù)來計(jì)算的,由于涉及平方和開方運(yùn)算,計(jì)算量比較大。在實(shí)用中為了計(jì)算簡便,常采用1范數(shù)(對應(yīng)城區(qū)距離),即:或∞范數(shù)(對應(yīng)棋盤距離),即以上各式中的偏導(dǎo)數(shù)需對每個像素位置計(jì)算,在實(shí)際應(yīng)用中常用小區(qū)域模板卷積來近似計(jì)算。對Gx和Gy各用一個模板,所以需要兩個模板組合起來以構(gòu)成一個梯度算子。算子運(yùn)算時是采取類似卷積的方式,將模板在圖像上移動并在每個位置計(jì)算對應(yīng)中心像素的梯度值,所以對一幅灰度圖求梯度所得的結(jié)果是一幅梯度圖。在邊緣灰度值過渡比較尖銳且圖像中噪聲比較小時,梯度算子工作效果較好。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測2.二階導(dǎo)數(shù)算子用二階導(dǎo)數(shù)算子檢測階梯狀邊緣需將算子與圖像卷積并確定過零點(diǎn)。(1)拉普拉斯算子拉普拉斯算子是一種常用的二階導(dǎo)數(shù)算子,實(shí)際應(yīng)用中可根據(jù)二階導(dǎo)數(shù)算子過零點(diǎn)的性質(zhì)來確定邊緣的位置。對一個連續(xù)函數(shù)f(x,y),它在位置(x,y)的拉普拉斯值定義為:人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測(2)馬爾算子馬爾算子是在拉普拉斯算子的基礎(chǔ)上實(shí)現(xiàn)的。拉普拉斯算子對噪聲比較敏感,為了減少噪聲影響,可先對待檢測圖進(jìn)行平滑然后再運(yùn)用拉普拉斯算子。由于在成像時,一個給定像素點(diǎn)所對應(yīng)場景點(diǎn)的周圍點(diǎn)對該點(diǎn)的光強(qiáng)貢獻(xiàn)呈高斯分布,所以進(jìn)行平滑的函數(shù)可采用高斯加權(quán)平滑函數(shù)。馬爾邊緣檢測的思路源于對哺乳動物視覺系統(tǒng)的生物學(xué)研究。這種方法對不同分辨率的圖像分別處理,在每個分辨率上,都通過二階導(dǎo)數(shù)算子來計(jì)算過零點(diǎn)以獲得邊緣圖。這樣在每個分辨率上進(jìn)行如下計(jì)算。①用一個2-D的高斯平滑模板與源圖像卷積。②計(jì)算卷積后圖像的拉普拉斯值。③檢測拉普拉斯圖像中的過零點(diǎn)作為邊緣點(diǎn)。高斯加權(quán)平滑函數(shù)可定義為:人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測(3)坎尼算子坎尼(Canny)一個好的邊緣檢測算子應(yīng)具有如下三個指標(biāo):①低失誤概率,既要少將真正的邊緣丟失也要少將非邊緣判為邊緣;②高位置精度,檢測出的邊緣應(yīng)在真正的邊界上;③單像素邊緣,即對每個邊緣有唯一的響應(yīng),得到的邊界為單像素寬??紤]到上述三個指標(biāo),坎尼提出了判定邊緣檢測算子的三個準(zhǔn)則:信噪比準(zhǔn)則、定位精度準(zhǔn)則和單邊緣響應(yīng)準(zhǔn)則。把邊緣檢測問題轉(zhuǎn)換為檢測單位函數(shù)極大值的問題來考慮。①信噪比準(zhǔn)則信噪比SNR定義為:式中,G(x)代表邊緣函數(shù);h(x)代表帶寬為W的濾波器的脈沖響應(yīng);代表高斯噪聲的均方差。信噪比越大,提取邊緣時的失誤概率越低。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測②定位精度準(zhǔn)則邊緣定位精度定義為:式中,G’(x)和h’(x)分別代表G(x)和h(x)的導(dǎo)數(shù)。L越大表明定位精度越高(檢測出的邊緣在其真正位置上)。③單邊緣響應(yīng)準(zhǔn)則單邊緣響應(yīng)與算子脈沖響應(yīng)的導(dǎo)數(shù)的零交叉點(diǎn)平均距離有關(guān)。其定義為:式中,
代表
的二階導(dǎo)數(shù)。如果上式滿足,則對每個邊緣可以有唯一的響應(yīng),得到的邊界為單像素寬。滿足上面三個準(zhǔn)則的算子稱坎尼算子。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測3.邊界閉合在有噪聲時,用各種算子檢測到的邊緣像素常常是孤立的或分小段連續(xù)的。為組成區(qū)域的封閉邊界以將不同區(qū)域分開,需要將邊緣像素連接起來。邊緣像素連接的基礎(chǔ)是它們之間有一定的相似性。前述的各種邊緣檢測算子都是并行工作的,如果邊界閉合也能并行完成,則分割基本上可以并行實(shí)現(xiàn)。用梯度算子對圖像處理,可得到像素2方面的信息:(1)梯度的幅度。(2)梯度的方向。根據(jù)邊緣像素梯度在這2方面的相似性可把它們連接起來。具體說來如果像素(s,t)在像素(x,y)的鄰域且它們的梯度幅度和梯度方向分別滿足以下2個條件(其中T是幅度閾值,A是角度閾值):人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測那么就可將在(s,t)的像素與在(x,y)的像素連接起來。如對所有邊緣像素都進(jìn)行這樣的判斷和連接就有希望得到閉合的邊界。對方向檢測算子,邊緣的方向是其輸出之一,檢測出邊緣方向的模板的輸出值也給出了邊緣沿該方向的邊緣值。人工智能基礎(chǔ)8.2.1圖像的邊緣檢測8.2圖像分割與邊緣檢測圖像分割是由圖像處理進(jìn)到圖像分析的關(guān)鍵步驟,它指把圖像分成各具特性的區(qū)域并提取出感興趣目標(biāo)的技術(shù)和過程。人工智能基礎(chǔ)8.2.2圖像分割8.2圖像分割與邊緣檢測1.圖像分割定義借助集合概念來正式定義:令集合R代表整個圖像區(qū)域,對R的分割可看作將R分成若干個滿足以下5個條件的非空子集(子區(qū)域)
(其
中代表所有在集合
中元素的某種性質(zhì))。人工智能基礎(chǔ)8.2.2圖像分割8.2圖像分割與邊緣檢測上述條件(1)指出分割所得到的全部子區(qū)域的總和(并集)應(yīng)能包括圖像中所有像素,或者說分割應(yīng)將圖像中的每個像素都分進(jìn)某1個子區(qū)域中。條件(2)指出各個子區(qū)域是互相不重疊的,或者說1個像素不能同時屬于2個區(qū)域。條件(3)指出在分割后得到的屬于同1個區(qū)域中的像素應(yīng)該具有某些相同特性。條件(4)指出在分割后得到的屬于不同區(qū)域中的像素應(yīng)該具有一些不同的特性。條件(5)要求同1個子區(qū)域內(nèi)的像素應(yīng)當(dāng)是連通的(自然圖像常滿足這個條件)。對圖像的分割總是根據(jù)一些分割的準(zhǔn)則進(jìn)行的。條件(1)與(2)說明分割準(zhǔn)則應(yīng)可適用于所有區(qū)域和所有像素,而條件(3)與(4)說明分割準(zhǔn)則應(yīng)能幫助確定各區(qū)域像素有代表性的特性。人工智能基礎(chǔ)8.2.2圖像分割8.2圖像分割與邊緣檢測2.圖像分割技術(shù)分類根據(jù)以上定義和討論,可考慮按如下方法對分割技術(shù)和算法進(jìn)行分類。這里以灰度圖像為例討論,但其基本思路對其他類圖像也適用。首先,對灰度圖像的分割??苫谙袼鼗叶戎档?個性質(zhì):不連續(xù)性和相似性。區(qū)域內(nèi)部的像素一般具有灰度相似性(即同一個區(qū)域內(nèi)的像素灰度比較接近),而在區(qū)域之間的邊界上一般具有灰度不連續(xù)性(即相鄰兩區(qū)域交界處的像素灰度有跳躍)。所以分割算法可據(jù)此分為利用區(qū)域間灰度不連續(xù)性的基于邊界的算法和利用區(qū)域內(nèi)灰度相似性的基于區(qū)域的算法。人工智能基礎(chǔ)8.2.2圖像分割8.2圖像分割與邊緣檢測其次,根據(jù)分割過程中處理策略的不同,分割算法又可分為并行算法和串行算法。在并行算法中,所有判斷和決策都可獨(dú)立地和同時地做出,而在串行算法中,早期處理的結(jié)果可被其后的處理過程所利用。一般串行算法所需計(jì)算時間常比并行算法要長,但抗噪聲能力也常較強(qiáng)。上述這2個準(zhǔn)則互不重合又互為補(bǔ)充,所以分割算法可根據(jù)這2個準(zhǔn)則分成4類:(1)并行邊界類;(2)串行邊界類;(3)并行區(qū)域類;(4)串行區(qū)域類。這種分類法既能滿足上述分割定義的5個條件,也可以包括現(xiàn)有圖像分割綜述文獻(xiàn)中所提到的各種算法。人工智能基礎(chǔ)8.2.2圖像分割8.2圖像分割與邊緣檢測1.SegNetSegNet網(wǎng)絡(luò)的核心主要包括一個編碼網(wǎng)絡(luò)和一個與之對應(yīng)的解碼網(wǎng)絡(luò)。SegNet網(wǎng)絡(luò)沿用了FCN圖像語義分割的思想,并且該網(wǎng)絡(luò)是基于像素級別的端到端的網(wǎng)絡(luò)架構(gòu)。SegNet沿用了FCN網(wǎng)絡(luò)模型的思想,將VGG16中的全連接層去掉,將編碼(encoder)信息和解碼(decoder)信息直接連接,編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)作為整個網(wǎng)絡(luò)結(jié)構(gòu)的核心部分,其優(yōu)點(diǎn)是保留了影像中的大量有用的特征信息,使得實(shí)驗(yàn)過程中需要訓(xùn)練的參數(shù)大大減少,縮減了實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練時間,最重要的是得到了相對較高精度的語義分割圖像。SegNet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖8.5所示:SegNet的網(wǎng)絡(luò)結(jié)構(gòu)主要包括卷積層(convolution)、歸一化層(batchnormalisation)、激活函數(shù)(ReLU)以及池化層(pooling)。人工智能基礎(chǔ)8.2.3典型圖像分割算法8.2圖像分割與邊緣檢測人工智能基礎(chǔ)8.2.3典型圖像分割算法SegNet網(wǎng)絡(luò)的結(jié)構(gòu)(圖片來源:VijayBadrinarayanan)8.2圖像分割與邊緣檢測2.U-Net(1)U-net概念U-net模型是一個沒有全連接層的全卷積神經(jīng)網(wǎng)絡(luò),為U型對稱的編碼器——譯碼器結(jié)構(gòu),由卷積層、最大池化層、反卷積層以及ReLU非線性激活函數(shù)組成,其輸入和輸出均為相同分辨率的影像。它沿用了FCN進(jìn)行影像語義分割的思想,可以利用少量的數(shù)據(jù)學(xué)習(xí)到一個對邊緣提取具有十分良好的魯棒性的模型,即利用卷積層、最大池化層進(jìn)行特征提取,再利用反卷積層還原影像尺寸。而且U型結(jié)構(gòu)的設(shè)計(jì),可以使裁剪和拼接過程更加直觀、合理;高層特征圖與底層特征圖的拼接以及卷積的反復(fù)、連續(xù)操作,使得模型能夠從上下文信息和細(xì)節(jié)信息的組合中得到更加精確的輸出特征圖。(2)U-Net兩個優(yōu)點(diǎn):①輸出結(jié)果可以定位出目標(biāo)類別的位置。②用滑動窗口提供像素的周圍區(qū)域作為訓(xùn)練數(shù)據(jù)的輸入,這樣就相當(dāng)于進(jìn)行了數(shù)據(jù)增廣,解決了生物醫(yī)學(xué)圖像數(shù)量少的問題。但是,這個方法也有兩個缺點(diǎn),具體如下:①正是由于將滑動窗口提供像素的周圍區(qū)域作為訓(xùn)練數(shù)據(jù)的輸入,所以在網(wǎng)絡(luò)訓(xùn)練時,網(wǎng)絡(luò)必須訓(xùn)練每個用滑動窗口提供的像素周圍區(qū)域,區(qū)域間的重疊有很多的冗余,會造成訓(xùn)練時間延長。②定位準(zhǔn)確性和獲取上下文信息不可兼得。大的滑動區(qū)域需要更多的最大池化層以減小定位準(zhǔn)確性,小的滑動區(qū)域只能看到很小的局部信息,包含的背景信息不夠。人工智能基礎(chǔ)8.2.3典型圖像分割算法8.2圖像分割與邊緣檢測3.DeeplabDeepLab系列是針對語義分割任務(wù)提出的深度學(xué)習(xí)系統(tǒng)。DeepLab系列包括DeepLabv1、DeepLabv2、DeepLabv3及DeepLabv3+。(1)DeepLabv1對于語義分割任務(wù),DCNN存在如下兩個問題:①最大池化和下采樣操作壓縮了圖像分辨率。一般語義分割通過將網(wǎng)絡(luò)的全連接層改為卷積層,獲取得分圖(或稱為概率圖、熱圖),然后對其上采樣、反卷積等操作還原為與輸入圖像同樣大小。如果壓縮太厲害,還原后分辨率就會比較低,因此我們希望獲得更為稠密或尺寸更大的得分圖。②對空間變換的不變性限制了模型的精度,網(wǎng)絡(luò)丟失了很多細(xì)節(jié),獲得的概率圖會比較模糊,我們希望獲得更多的細(xì)節(jié)。DeepLabv1提出使用空洞算法和全連接CRF分別解決這兩個問題。DeeplabV1方法分為兩步走,第一步仍然采用了DCNN得到得分圖并插值到原圖像大小,然后第二步借用全連接CRF對從FCN得到的分割結(jié)果進(jìn)行細(xì)節(jié)上的調(diào)整。首先,輸入圖像通過網(wǎng)絡(luò)中的空洞卷積(atrousconvolution)。然后,網(wǎng)絡(luò)的輸出圖和得分圖進(jìn)行雙線性插值(bi-linearinterpolation),上采樣8倍到原圖大小,通過完全連接的條件隨機(jī)場(CRF)來微調(diào)結(jié)果并獲得最終輸出。人工智能基礎(chǔ)8.2.3典型圖像分割算法8.3圖像目標(biāo)檢測計(jì)算機(jī)視覺中有以下幾個常見的基礎(chǔ)任務(wù)。(1)分類(classification)解決“是什么”的問題,即給定一張圖片或一段視頻,判斷里面包含什么類別的目標(biāo)。(2)定位(location)解決“在哪里”的問題,即定位出這個目標(biāo)的位置。(3)檢測(detection)解決“是什么、在哪里”的問題,即定位出這個目標(biāo)的位置并且知道目標(biāo)物是什么。(4)分割(segmentation)分為實(shí)例分割和場景分割,解決“每一個像素屬于哪個目標(biāo)物或場景”的問題。人工智能基礎(chǔ)8.3圖像目標(biāo)檢測8.3圖像目標(biāo)檢測圖像分類是判斷圖像中是否有感興趣的對象,這是計(jì)算機(jī)視覺的基礎(chǔ)和核心任務(wù)。在圖像分類任務(wù)中,通常圖像只有一個對象且對象較大,占據(jù)了大部分面積,分類任務(wù)需要給出對象的類別。兩種用于分類的深度學(xué)習(xí)模型VGGNet和AlexNet。人工智能基礎(chǔ)8.3.1圖像分類8.3圖像目標(biāo)檢測1.VGGNetVGGNet是由牛津大學(xué)視覺幾何小組(visualgeometrygroup,VGG)提出的一種深層卷積網(wǎng)絡(luò)結(jié)構(gòu),是首批把圖像分類的錯誤率降低到10%以內(nèi)的模型。(1)模型結(jié)構(gòu)VGGNet采用了五組卷積與三個全連接層,最后使用Softmax做分類。VGGNet有一個顯著的特點(diǎn):每次經(jīng)過池化層(maxpool)后特征圖的尺寸減小一倍,而通道數(shù)則增加一倍(最后一個池化層除外)。(2)VGGNet模型特點(diǎn)①整個網(wǎng)絡(luò)都使用了同樣大小的卷積核尺寸3×3和最大池化尺寸2×2。②1×1卷積的意義主要在于線性變換,而輸入通道數(shù)和輸出通道數(shù)不變,沒有發(fā)生降維。③兩個3×3的卷積層串聯(lián)相當(dāng)于一個5×5的卷積層,感受野大小為5×5。同樣地,三個3×3的卷積層串聯(lián)的效果則相當(dāng)于一個7×7的卷積層。這樣的連接方式使網(wǎng)絡(luò)參數(shù)量更小,而且多層的激活函數(shù)令網(wǎng)絡(luò)對特征的學(xué)習(xí)能力更強(qiáng)。④VGGNet在訓(xùn)練時有一個小技巧,先訓(xùn)練淺層的簡單網(wǎng)絡(luò)VGG11,再復(fù)用VGG11的權(quán)重來初始化VGG13,如此反復(fù)訓(xùn)練并初始化VGG19,能夠使訓(xùn)練時收斂的速度更快。⑤在訓(xùn)練過程中使用多尺度的變換對原始數(shù)據(jù)做數(shù)據(jù)增強(qiáng),使得模型不易過擬合。人工智能基礎(chǔ)8.3.1圖像分類8.3圖像目標(biāo)檢測2.AlexNet(1)模型結(jié)構(gòu)AlexNet網(wǎng)絡(luò)結(jié)構(gòu)圖,除去下采樣(池化層)和局部響應(yīng)規(guī)范化操作(localresponsiblenormalization,LRN),一共包含8層,前5層為卷積層,而剩下的3層為全連接層。網(wǎng)絡(luò)結(jié)構(gòu)分為上下兩層,分別對應(yīng)兩個GPU的操作過程,除了中間某些層(C3卷積層和F6-8全連接層會有GPU間的交互),其他層兩個GPU分別計(jì)算結(jié)果。最后一層全連接層的輸出作為softmax的輸入,得到1000個圖像分類標(biāo)簽對應(yīng)的概率值。(2)AlexNet模型特性總結(jié)如下:①所有卷積層都使用Relu作為非線性映射函數(shù),使模型收斂速度更快。②在多個GPU上進(jìn)行模型的訓(xùn)練,不但可以提高模型的訓(xùn)練速度,還能提升數(shù)據(jù)的使用規(guī)模。③使用LRN對局部的特征進(jìn)行歸一化,結(jié)果作為Relu激活函數(shù)的輸入能有效降低錯誤率。④重疊最大池化(overlappingmaxpooling),即池化范圍z與步長s存在關(guān)系z>s(如Smax中核尺度為3×3/2),避免平均池化(averagepooling)的平均效應(yīng)。⑤使用隨機(jī)丟棄技術(shù)選擇性地忽略訓(xùn)練中的單個神經(jīng)元,避免模型的過擬合。人工智能基礎(chǔ)8.3.1圖像分類8.3圖像目標(biāo)檢測(3)AlexNet關(guān)鍵的技術(shù)創(chuàng)新點(diǎn)①采用ReLU作為激活函數(shù):ReLU和Sigmoid不同,該函數(shù)是非飽和函數(shù),在Alex和Hinton的論文中驗(yàn)證其效果在較深的網(wǎng)絡(luò)超過了Sigmoid,成功地解決了Sigmoid在網(wǎng)絡(luò)較深時的梯度彌散問題。②使用Dropout避免模型出現(xiàn)過擬合:在訓(xùn)練時使用Dropout隨機(jī)忽略一部分神經(jīng)元,以避免模型過擬合。而在AlexNet的最后幾個全連接層中使用了Dropout,這個并沒有得到充分論證,但是在實(shí)際的訓(xùn)練過程中取得了不錯的效果。③全部采用最大池化:AlexNet之前的傳統(tǒng)深度網(wǎng)絡(luò)都會采用平均池化,而AlexNet中的所有池化層都采用了最大池化而非平均池化,在實(shí)際使用中的效果比傳統(tǒng)的平均池化要好。④提出LRN層:LRN層是由AlexNet提出的一種新層,也是AlexNet最大的創(chuàng)新。我們將在下一節(jié)中詳細(xì)闡述關(guān)于LRN層的內(nèi)容。⑤實(shí)現(xiàn)數(shù)據(jù)增強(qiáng):隨機(jī)從256×256的原始圖像中截取224×224大小的區(qū)域(以及水平翻轉(zhuǎn)的鏡像),相當(dāng)于增強(qiáng)了(256-224)×(256-224)=2048倍的數(shù)據(jù)量。原始圖像在使用了數(shù)據(jù)增強(qiáng)后,減輕了過擬合,提升了泛化能力。同時也避免了因?yàn)樵紨?shù)據(jù)量的大小使得參數(shù)眾多的CNN陷入過擬合中。人工智能基礎(chǔ)8.3.1圖像分類8.3圖像目標(biāo)檢測1.目標(biāo)定位概念目標(biāo)定位任務(wù)和分類任務(wù)十分相似,圖像中也是只有一個較大的對象,但需要給出其類別和位置。表示物體的位置,目前最主流的做法是用一個水平矩形框包圍物體,矩形框要能全部包圍物體且面積最小,即要求矩形框盡可能接近物體邊界,該矩形框稱為邊界框(boundingbox),所以只要確定了邊界框的位置就相當(dāng)于定位了物體。在圖像的二維平面上,描述邊界框需要4個參數(shù),最常用的方式是給出邊界框的中心坐標(biāo)(bx,by)和高度寬度(bh,bw),這4個參數(shù)稱為邊界框向量。為了便于網(wǎng)絡(luò)學(xué)習(xí),這4個元素需在0到1之間,所以需要對圖像坐標(biāo)進(jìn)行歸一化,即定義圖像左上角像素坐標(biāo)為(0,0),右下角像素坐標(biāo)為(1,1)。圖像分類任務(wù)是通過端到端學(xué)習(xí)的,輸入圖像到多層卷積網(wǎng)絡(luò),網(wǎng)絡(luò)輸出分值向量,最后由softmax層預(yù)測圖像類別。目標(biāo)定位的核心思想是端到端學(xué)習(xí)和多任務(wù)學(xué)習(xí)。目標(biāo)定位的網(wǎng)絡(luò)結(jié)構(gòu)和分類網(wǎng)絡(luò)完全一樣,都是多層卷積層加全連接層,只是最后全連接層的輸出向量不僅包含C個(類別數(shù)目)分值向量,還需加上5個元素人工智能基礎(chǔ)8.3.2目標(biāo)定位8.3圖像目標(biāo)檢測2.圖像配準(zhǔn)將同一場景的兩幅或多幅圖像進(jìn)行對準(zhǔn)。一般來說,我們以基準(zhǔn)圖像為參照,并通過一些基準(zhǔn)點(diǎn)(fiducialpoints)找到適當(dāng)?shù)目臻g變換關(guān)系和,對輸入圖像進(jìn)行相應(yīng)的幾何變換,從而實(shí)現(xiàn)它與基準(zhǔn)圖像在這些基準(zhǔn)點(diǎn)位置上的對齊。人工智能基礎(chǔ)8.3.2目標(biāo)定位8.3圖像目標(biāo)檢測3.圖像配準(zhǔn)定位算法配準(zhǔn)定位算法的具體流程主要包括:圖像裁剪、特征點(diǎn)檢測、特征描述、特征匹配、計(jì)算圖像變換模型、目標(biāo)定位6個步驟。(1)圖像裁剪:對待配準(zhǔn)圖像進(jìn)行小波變換,進(jìn)行適當(dāng)層級的分解降低特征搜索空間,提高配準(zhǔn)算法的實(shí)時性和降低數(shù)據(jù)量和計(jì)算量。之后分別在基準(zhǔn)圖像和進(jìn)行小波處理過的配準(zhǔn)圖像中,以目標(biāo)為中心截取相同尺寸的局部區(qū)域圖像作為新的基準(zhǔn)圖像和待配準(zhǔn)圖像。(2)特征點(diǎn)檢測:利用基于側(cè)抑制競爭的特征點(diǎn)檢測算法分別檢測新的基準(zhǔn)圖像和待配準(zhǔn)圖像中的亮特征點(diǎn)和暗特征點(diǎn)。(3)SIFT特征描述:利用性能良好的SIFT特征描述符描述圖像中的點(diǎn)特征,點(diǎn)特征的主方向設(shè)為0°。(4)特征匹配:采用最近鄰特征匹配策略,分別匹配兩幅圖像中的亮特征點(diǎn)和暗特征點(diǎn),再合并得到的兩個匹配點(diǎn)對集,得到新的匹配點(diǎn)對集。(5)計(jì)算圖像變換模型:利用最小二乘法計(jì)算出兩幅新的配準(zhǔn)圖像之間的投影變換模型。(6)目標(biāo)定位:利用投影變換模型計(jì)算出目標(biāo)在基準(zhǔn)圖像中的位置,進(jìn)而得到目標(biāo)的真實(shí)位置。人工智能基礎(chǔ)8.3.2目標(biāo)定位8.3圖像目標(biāo)檢測目標(biāo)檢測(objectdetection)的任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),確定它們的類別和位置,是計(jì)算機(jī)視覺領(lǐng)域的核心問題之一。核心思想就是多任務(wù)學(xué)習(xí),即把每個對象的檢測任務(wù)看成一個目標(biāo)定位任務(wù),同時完成多個目標(biāo)定位任務(wù)。由于各類物體有不同的外觀、形狀和姿態(tài),加上成像時光照、遮擋等因素的干
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年事業(yè)單位聯(lián)考筆試題及答案
- 2025年成都城投筆試真題答案
- 2025年財(cái)務(wù)綜合業(yè)務(wù)崗筆試題及答案
- 2025年實(shí)習(xí)律師筆試試題答案
- 2025年美團(tuán)硬件開發(fā)筆試題目及答案
- 落實(shí)保護(hù)優(yōu)先原則制度
- 綠化養(yǎng)護(hù)體系制度
- 2026年小說閱讀與理解進(jìn)階訓(xùn)練試題
- 2026年汽車維修技術(shù)汽車故障診斷題庫
- 2026年中級財(cái)務(wù)管理實(shí)務(wù)操作模擬題集
- 建材市場安保培訓(xùn)課件
- 柴油供應(yīng)合同范本
- 寵物醫(yī)療護(hù)理服務(wù)標(biāo)準(zhǔn)流程
- 外科院感課件
- 2025國家核安保技術(shù)中心招聘筆試歷年??键c(diǎn)試題專練附帶答案詳解試卷3套
- 12158-2024防止靜電事故要求
- 2026年重慶城市管理職業(yè)學(xué)院單招職業(yè)技能測試題庫新版
- 侗族花帶課件
- 酒吧內(nèi)保年終總結(jié)
- 兒童講解員禮儀
- 文物建筑勘查設(shè)計(jì)取費(fèi)標(biāo)準(zhǔn)(2020年版)
評論
0/150
提交評論