【《基于分解卷積神經網(wǎng)絡模型的汽車車型識別系統(tǒng)設計》12000字(論文)】_第1頁
【《基于分解卷積神經網(wǎng)絡模型的汽車車型識別系統(tǒng)設計》12000字(論文)】_第2頁
【《基于分解卷積神經網(wǎng)絡模型的汽車車型識別系統(tǒng)設計》12000字(論文)】_第3頁
【《基于分解卷積神經網(wǎng)絡模型的汽車車型識別系統(tǒng)設計》12000字(論文)】_第4頁
【《基于分解卷積神經網(wǎng)絡模型的汽車車型識別系統(tǒng)設計》12000字(論文)】_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章緒論1.1研究背景及意義在剛剛過去的數(shù)十年里,深度學習促進了人工智能技術在我國的進步和發(fā)展,使其在計算機視覺、圖像和電子視頻分析等各個技術領域內都已經取得了不錯的研究成果。深度機器學習系統(tǒng)模擬了一種基于分布式和并行信息處理的生物神經網(wǎng)絡,通過對底層物體的特點進行組合和處理來構成一個高層物體的特點,用來代替和表達物體的各種屬性。特征。深層學習主要是更深層網(wǎng)絡結構側面形式的神經網(wǎng)絡堆棧,而深度卷積神經網(wǎng)絡在圖像處理中是比較有效的,可以用來分析圖像內容的語義,比如顏色、紋理和布局等。深度卷積人工神經網(wǎng)絡主要概念是以人工神經網(wǎng)絡與目前深度機器學習網(wǎng)絡技術兩者為理論基礎,相互輔助融合而逐步發(fā)展而成起來的新技術方法,同時它還具有包括全局對象訓練、局部對象感知、層次結構、對象數(shù)據(jù)提取和信息分類等多種功能,在我國現(xiàn)代圖像識別技術領域內已經開展應用廣泛。伴隨著一個國家和地區(qū)經濟社會的不斷進步和發(fā)展,國民生活、經濟水平的雙向增長和提高,據(jù)統(tǒng)計,國民汽車保有率逐年增長。汽車數(shù)量的增加造成了很大的交通壓力,同時也給人們帶來了很多問題和憂慮。首先,這是一個車輛控制問題。由于常規(guī)人工車輛監(jiān)控對于數(shù)量龐大的車輛并不實用,而用計算機自動監(jiān)控車輛不失為一個有效解決問題的辦法。因此,圖像識別相關技術發(fā)展是充分得益于目前我國利用現(xiàn)代信息電子技術計算機和互聯(lián)網(wǎng)絡現(xiàn)代信息處理技術的飛速發(fā)展進步,得到快速穩(wěn)步發(fā)展及廣泛推廣,并在許多個領域里取得了良好的成果。智能交通系統(tǒng)可以通過圖像識別技術實時獲取道路上行駛的車輛圖像,對圖像中車輛的車牌、類型、顏色和長度等屬性信息進行識別,完成對道路上車輛信息的監(jiān)控,有利于城市交通車輛管理。1.2國內外研究現(xiàn)狀從計算機角度來看,使用智能信息處理技術自動識別車輛型號有兩種主要方法。傳統(tǒng)的機器學習算法就是其中之一。其次,是深度學習算法。機器學習算法的常規(guī)模型是解決問題的一個大問題,因為它取決于提取的函數(shù)在函數(shù)處理方面是否準確,通過求解每個子區(qū)間而解決的所有子區(qū)間的結果最終被組合起來,從而引起一個大問題。深度學習算法模型提倡為每個問題設計特征提取器,直接從數(shù)據(jù)中獲得高水平的功能,并降低最終解決問題的任務。在使用傳統(tǒng)算法識別汽車模型的過程中,法國研究人員達拉勒和他的同事們提出了方向直方圖(面向gridit,HOG)的圖像梯度,結合BP神經網(wǎng)絡來計算汽車模型的圖像梯度,以構成分類器的功能和形狀。史蒂文斯提出的哈里斯角點檢測算子應用于圖像視頻識別模型,應用圖像處理方法,計算特定點的彎曲和梯度來檢測邊緣,但在噪聲、緩慢的計算過程和幾乎額外的角簇中很弱。隨著近年來其在我國應用深度機器學習信息技術的快速發(fā)展和不斷進步,神經網(wǎng)絡已在圖像識別等信息技術應用方面已經取得了許多開創(chuàng)性的技術突破和重大進展。對于大型復雜的圖像模型,卷積神經網(wǎng)絡模型結合了從低層提取的汽車模型的特點,形成高層模型的抽象特征,大大提高了汽車模型中圖像識別的準確性,同時降低了傳統(tǒng)機器學習算法里人工特征提取過程的復雜性。1.3研究目的和研究內容對道路交通上的車輛進行車型分類是智能交通系統(tǒng)的核心技術之一,在智慧城市建設方面具有極高的意義。本文主要通過圍繞汽車深度數(shù)據(jù)學習為大家詳細介紹了一種檢測模型是用來如何實現(xiàn)對于一輛車型的深度檢測和數(shù)據(jù)分類,這種檢測模型中所需要使用的數(shù)據(jù)是來自北京理工大學學生bit-vehicle的一個公開式對于車輛的檢測數(shù)據(jù)集,將車輛分為Bus、SUV、Truck、Minivan、MicroBus和sedan這六種車型。針對傳統(tǒng)車型識別算法存在受拍攝距離、光照強度以及天氣等影響的多路況車型圖像導致識別率低的問題,利用深度學習框架TensorFlow、基于經典的GoogLeNet網(wǎng)絡模型,通過調整超參數(shù)的權重和偏置值,以及增減網(wǎng)絡的寬度和深度,提出了一種分解卷積神經網(wǎng)絡模型,實現(xiàn)車型的自動分類。1.4結構安排第一章緒論。本章主要提出了深度學習和新一代車型識別技術的研究發(fā)展背景和其研究意義,考慮了目前廣泛應用于交通領域的技術和算法目前研究現(xiàn)狀、識別算法目前存在的不足,提出本文所需要研究的內容和目標,并介紹了整篇論文的主要構成。第二章理論基礎和相關的技術。本章重點是深度學習圖像識別過程、提取的能力和深度學習算法。我們介紹了圖像識別過程有兩個階段,解釋了全局能力和局部能力及其提取算法有兩種類型,最后,我們描述了基于區(qū)域選擇的兩種類型和統(tǒng)一的深度學習算法,并總結了它們的優(yōu)點。第三章分解卷積神經網(wǎng)絡車型識別。本章主要講解了何為分解卷積神經網(wǎng)絡,敘述了其主要結構和算法流程,接著在BIT-Vehicle數(shù)據(jù)集上與不同算法進行定性對比和定量對比分析,推出了算法的有效性和準確性。第四章總結與展望。本章首先簡要闡述了汽車模擬機的識別技術研究的重要性;然后根據(jù)所要研究的內容分析出相應的算法;然后歸納當前研究的不足;最后提出下一步的研究方向。1.5本章小結本章基礎性地介紹了車型識別與驗證,國內外相關技術的發(fā)展現(xiàn)狀,研究內容及對于深度學習技術的研究發(fā)展背景及其重要性。智能道路技術的引進,已經成為解決交通管理問題的有效手段,其中主要之一是車輛型號的檢測和識別。目前國內外研究的現(xiàn)狀描述了一些研究者在深度學習算法研究開發(fā)的過程中,通過檢測和識別智能流量基本技術模型的方式完成的工作。也就是說,根據(jù)候選領域的不同,分為兩個主要派別:汽車型號的檢測和識別、回歸型號的檢測和識別。第二章相關理論及技術基礎傳統(tǒng)的特征提取算法在很大程度上依靠設計師的經驗來對車輛模型進行分類,提取的模型特征相對有限,往往只有照片中目標物體的車輛特征。深度學習和傳統(tǒng)的特征提取技術方法之間的主要差異之處在于,特征提取模型不斷被大數(shù)據(jù)訓練,大數(shù)據(jù)將圖像數(shù)據(jù)轉換成更抽象、更高級的表達,具有多個簡單的非線性結構,以提高準確性和可靠性。本章介紹了主要圍繞R-CNN模型的候選區(qū)域檢測和識別算法的發(fā)展過程,以及圖像處理之間的優(yōu)缺點,如何提取圖像和深度學習模型的功能。2.1深度學習圖像處理流程如圖2.1所示,深度跑步圖像的流動分為網(wǎng)絡學習和圖像測試兩個階段。在圖像識別過程中,首先對現(xiàn)有圖像進行預處理,在高性能網(wǎng)絡模型中制作高質量的教育圖像,利用預先學習的模型提取圖像功能,將exchm功能值注入神經網(wǎng)絡的固有元素,更新網(wǎng)絡參數(shù)獲得學習模型,然后識別分離的測試圖像集,獲取最新類型圖像的結果。圖2.1圖像處理流程圖2.2圖像特征提取算法圖像識別的本質是圖像分類的過程,你決定將圖像與其他類型的圖像區(qū)分開來的功能應該能夠更好地描繪你感興趣的內容,并區(qū)分不同類型的目標。圖像特征與局部對象有很大不同,局部對象是低級特征和高級特征,如顏色、形狀和紋理。基層視覺特性易于計算,不變,使用比較廣泛,但容易受到干擾,存在計算量大等缺點。兩者對于正確識別圖像目標都很重要。(一)顏色特征提取檢索圖像時,顏色函數(shù)將圖像和與圖像區(qū)域相對應的對象的曲面特性描述為最寬的視覺函數(shù)。顏色函數(shù)不需要計算和轉換圖像中的很多像素點。在這種情況下,您可以顯示圖像中所有區(qū)域的像素。與視圖對象相對應的LOTAM函數(shù)不被顏色函數(shù)捕獲,因為顏色對圖像大小和方向的變化不敏感。但是,在大型數(shù)據(jù)庫中,只要查看顏色特性,就能找到很多經??床坏降膱D像。典型地,處理圖像時,用不同的方法分析圖像中特定像素點表示的顏色,并提取顏色函數(shù)的相應組件。顏色直方圖是將圖像中一個區(qū)域的顏色分別表示為的平均值的最常用方法,因此不會影響圖像的平移、修剪或旋轉,平均值的規(guī)范化與縮放無關。在圖像中,所有物體顏色的分布都是一種可以用于圖像瞬間變化來進行表示的,這種方法稱為顏色力矩,圖像中的任何物體顏色的分布都只能用主、次和手動力矩顏色來充分表示。(二)形狀特征提取形狀特性,通常是圖像中對象的輪廓。在大型的數(shù)據(jù)庫中,可以通過使用基于幾何形狀的搜索方法來快速地搜索自己感興趣的目標和對象,但是這些幾何特征是不夠的,但是這些幾何特征僅僅描述了一個圖像中目標和對象的局部特征,如果一個目標和對象被充分地描述了,并且當一個目標和對象被變形,當一個目標和對象的搜索結果不穩(wěn)定或者是空間上相似的目標和對象被檢索時,對于諸如存儲器和計算之類的軟硬件需求都是很大的、由于二維圖像和三維物體視角變化,現(xiàn)象會發(fā)生不同的失真。其外觀特點主要有兩類:輪廓性特點和區(qū)位性特點。這里,區(qū)域性的特征首先表示一個在圖形中目標物體和形狀上所表示的整個區(qū)域,而輪廓性的特征首先表現(xiàn)為一個在圖像中目標物體的外部和內在邊界。一般的幾何學方法包括邊界性特征分析方法、幾何參數(shù)分析方法、傅里葉形狀描述分析方法、旋轉函數(shù)、有限元方法和形狀恒矩方法。BoundaryFeature方法使用邊界函數(shù)為圖像感興趣的對象獲取一系列形狀的參數(shù)。為了描述檢測對象的幾何形狀特征,必須對待檢測圖片中的檢測對象及檢測區(qū)域進行分割,其中最主要的三種算法分別是HOG、SHIFT和Haar特征。HOG算法分割圖像,然后在圖像的局部區(qū)域解釋形狀邊緣梯度信息。SHIFT算法首先在圖像中查找特征點,然后將圖像縫合在一起。Haar特征算法則是將圖片的局部范圍內的像素的明與暗的信息進行交換。。(1)HOG算法HOG的基本想法是在漸變的邊緣密度和方向上更好地表示感興趣的對象的局部視圖和形狀。首先,圖像分為單元單元,收集每個單元的像素點,得到邊緣Gradagram或方向梯度,最后,將這些梯度直方圖結合到一起。HOG特征步驟:將一張圖片中的目標物體或檢測窗口分別進行了如圖2.2所示的操作,先將整張圖片的灰度化,由于還需要受一些強烈光照的影響,所以將整張圖像經過采用gamma壓縮的公式,再對其進行歸一化操作,這種壓縮方式有效地降低了圖片局部的光照和陰影的一些變化,同樣也抑制了噪音的干擾;最后,計算每個像素點的縱橫坐標方向上的梯度:(2-1)接著我們計算一個位于該坐標點的像素梯度的振幅值和它的梯度向:(2-2)求導運算不僅會大大減弱對光線的干擾,還會抓住陰影、紋理和輪廓等信息。把塊中的梯度直方圖歸一化處理,與一個block塊中所有cell的特征矢量相結合,從而獲得一個HOG的特征。圖2.2HOG算法(2)SIFT算法DavidRow在1999年提出并解釋了SHIFT算法及其相關理論基礎,并在之后編譯了整個算法,對其進行了完善與總結。SHIFT算法可以快速準確地匹配,哪怕是少數(shù)對象也可以生成大量的SIFT向量。SHIFT算法構建高斯差分金字塔,首先計算整個尺度空間第一組的第一級圖像。:(2-3)表示通過用i(x,y)雙線性插值方式放大的尺度空間圖片,取0.5,取1.6,接著找到尺度空間的圖像可以共同產生多少張高斯差分的圖像,為了能夠保證尺度空間圖片是連續(xù)的,取第三張的圖片每隔一行就進行一次采樣工作,作為下一組的首張圖片,最后用i-1層的首張圖片來產生i層的尺度空間圖片,其中,在一定尺度空間中,除了第一層之外的每層圖像,都應該是對于這些圖像的前一層和相對的高斯濾波器進行的卷積,通過公式計算出第i+1層圖像與第i層圖像之間的相對尺度;接下來,提取特征點。這項任務有兩個關鍵點:邊緣效果點和點的極端插值被刪除。極值點是,插值屬于ises之間的間斷的點,找到去除邊緣效應點的極值點,就是計算函數(shù)點的基本彎曲比,以確定邊緣上是否有點,如果這些點得到了DoG對邊緣的響應,就去掉這一部分。選擇對象點的主方向并計算對象矢量時,必須執(zhí)行直方圖統(tǒng)計,以與對象點區(qū)域中的點進行梯度方向,旋轉主方向,然后執(zhí)行函數(shù)區(qū)域梯度統(tǒng)計。(三)Haar特征提取在Haar函數(shù)中,特征模板由中心和對角線對象、線性對象和邊特征的瓶值組成,該函數(shù)值反映了圖像色調的變化。如圖2.3所示,提取特征的主要思想為在剛開始的每個點到各個點之間所形成的矩形中,把該矩形的像素和使用一個函數(shù)組來存放。之后,如有需要我們可以直接引用某一個數(shù)組的元素索引。圖2.3Haar特征構建一種積分后的曲線圖算法:使用x(i,j)來代表在一條行方向上的累加和,將其中的初始值變?yōu)?;s(i,j)即為原來的圖片在(i,j)左上角的方向上所有像素的總和,也將其初始變換為0;掃描每一行圖像,通過一種遞歸的計數(shù)方式,分別可以計算得到在圖像中每個點上的像素在行方向上的累加和x(i,j)和乘以積分后的圖像s(i,j)的數(shù)值:(2-4)最后再將整體圖像掃描,整個積分圖像s就構造成功了。三、紋理特征提取紋理函數(shù)是一個全局函數(shù),它將對象的物理屬性解釋為圖像或圖像中的對象。紋理特征與顏色有很大不同。對于統(tǒng)計特性,紋理特征使用強噪聲和旋轉恒定的阻力。但是,紋理的分析作用在很多較大程度上主要依賴于一個圖像紋理分辨率發(fā)生變化時所計算出來的整體紋理分析結果。二維立體圖像并不總是能夠呈現(xiàn)出一種逼真的物體表面結構紋理,因為光反射和效果會改變紋理的功能,而且偽造紋理的性質會產生誤導。LBP算法是一種非常有效的紋理描述算子,不僅可以準確度量和提取圖像的紋理信息,還對光照具有不變性,避免光照對圖像特征提取的影響。LBP算法是將待測圖像中的每一個像素與其相鄰相近的像素間進行比較,得出結果用二進制數(shù)存儲。LBP計算簡單,對一系列照明變化可靠,因此廣泛應用于各種場景,產生了實時分析效果。LBP首先將原來的圖像地點轉換成LBP地圖,創(chuàng)建一個LBP直方圖,然后用一個向量樣式顯示直方圖中的原來地點。圖2.4LBP算子LBP算法的基本思路:方法如圖2.4所示,選擇一個圖像中的某一個區(qū)域中的像素,假設在該位置中像素周圍的8個區(qū)域中是一個像素的閾值,比較其中一個閾值與另一個位置中該點周圍的8個像素,如果在此區(qū)域中該點周圍的某個像素高于閾值,則將該位置的像素標記為1,若低于閾值則標記0。將LBP算法定義為:(2-5)公式中,表示中心像素,亮度為,表示為相鄰像素的亮度,其中s是一個函數(shù):(2-6)此處的近鄰點為,通過以下公式進行計算:(2-7)公式中的R表示圓的半徑,p為樣本的個數(shù)。該步驟內容為:劃分圖片檢測得到的窗口為16×16個cell;以某一個像素作為中心對其進行了標注;接著計算每個cell的直方形狀圖,歸一化進行處理;最后在圖中拼接每一個cell的直方形圖,形成一個完整的LBP紋理特征矢。這些SIFT、HOG和LBP等算子在提取圖像特征的道路上走了很久,而深度學習與之相較,能夠更加細膩地提取圖片特征,本質上就是對圖片的邊緣和形狀等簡單特征進行提取,與機器學習算法SIFT和HOG操作類似,后邊層將圖片的局部特征組合成更為全局的特征,最終形成比之前更加強大的特征提取器。雖然深度學習的基礎思想不是最新的,但是神經網(wǎng)絡需要大量的數(shù)據(jù)集和強有力的計算,這是深度學習能夠準確識別圖片的關鍵。第三章分解卷積神經網(wǎng)絡車型識別對于一些大中小規(guī)模復雜型的車型整體圖片,卷積式的神經網(wǎng)絡對這些低層復雜車型整體圖片中所通過提取信息得到的復雜車型和性能特點信息進行了分析組合,形成更加抽象的一些高層復雜車型整體圖片,使得車型圖像的識別精度大幅度提高,同時也降低了傳統(tǒng)的機器學習算法耗費大量時間進行人工特征提取的復雜性。但是,深層的卷積神經網(wǎng)絡會造成在特征提取階段梯度消失、參數(shù)量的增多而引起計算量大等的問題。為此,本章提出了一種分解卷積神經網(wǎng)絡(SeparableConvolutionneuralnetwork),通過將大卷積核如7×7卷積核分解為兩個小的卷積核7×1和1×7,使得網(wǎng)絡在深層提取車型特征時較為溫和,既降低了網(wǎng)絡的計算量,又提高了網(wǎng)絡的非線性。在北京理工大學BIT-Vehicle車型公開數(shù)據(jù)集上進行驗證,準確率達到96.30%,優(yōu)于傳統(tǒng)卷積神經網(wǎng)絡,表明該模型在道路監(jiān)控場景下的車型分類具有更高的準確度和更好的魯棒性。3.1GoogLeNet網(wǎng)絡模型GoogLeNet模型是一個22層的卷積神經網(wǎng)絡,其基本結構如表3.1所示,模型中添加了inception結構,其主要思想就是將通過這種方法在卷積神經網(wǎng)絡過程中將所計算出來的稠密度結構如何進行近似和涵蓋成為一個經過優(yōu)化后的局部稀疏性結構。在Inception的結構中,規(guī)定了每張卷積的核心尺寸分別為1×1,3×3,5×5,目的就是為了有效地避免patch的對齊。基于潛在問題的考慮,本文在改進網(wǎng)絡結構時,將Inception中的一個大卷積核分解成兩個小卷積核,這樣在車型識別過程中就會減少計算量并且保證所提取的車型特征不會丟失,進而提高了車型的識別精度。表3.1GoogLeNet網(wǎng)絡模型3.2分解卷積網(wǎng)絡模型為了提高車型的分類效果,本文介紹了分解卷積神經網(wǎng)絡模型如圖3.1所示,該模型的準則為:(1)在保證信息不流失的情況下,適度增減模型深度與寬度;(2)在網(wǎng)絡結構靠前的地方,不將車型圖片直接經過高度壓縮的層,而是將流入的特征圖緩慢降低,這樣避免了信息表達的瓶頸;(3)在網(wǎng)絡中間階段,用低維卷積核在空間進行聚合,使得車型特征信息簡單被壓縮,而且保證了信息的完整性和訓練速度。因此,模型設計過程中將一個7×7的卷積電子核進行分解而成為兩個一維的卷積電子核:1×7和7×1。一方面是通過將卷積核大小為7的網(wǎng)絡變?yōu)橐痪S,減少了在網(wǎng)絡中的參數(shù)量,進而大大加快了網(wǎng)絡的計算速度;另一面將一個7×7的卷積核并行排列成兩個1×7和7×1的卷積核,此變化引起網(wǎng)絡層數(shù)的增加,提高了網(wǎng)絡的非線性,而且在增加的每一層加入了ReLU非線性激活函數(shù),不會發(fā)生梯度消失并且計算速度快,對深層網(wǎng)絡提取特征有很好的效果。圖3.1Separable-Conv神經網(wǎng)絡模型Separable-Conv神經網(wǎng)絡結構是把所有以車型特征數(shù)據(jù)以及其對應標簽的二進制文件,將其中一個車型特征的二進制數(shù)據(jù)以三通道的299×299尺寸輸入到大小為3的6個卷積核中,對應的步長分別為2,1,1,1,2,1,在第三、四卷積層之間進行最大池化采樣,池化窗口的大小為3×3,池化的步長為2。這一部分是先對圖片的邊緣、線條等低級特征進行提取,顯而易見能看出提取出的特征較少;然后依次進入3個A模塊,提取到更高級的特征即曲線和紋理等;經過5個B模塊,該模塊提取到目標物體車型的零件和樣式;通過2個C模塊提取到最為復雜車型的信息,但是這一部分過程需要更多更全面的圖片數(shù)據(jù)集組合才能完整識別出特定的車型;接著再進入一個窗口為8的平均采樣池化層;最后是兩個全連接層,在訓練時全連接層采用了dropout層,把超參數(shù)keep_prob設置為0.5,讓網(wǎng)絡中50%的神經元參與學習工作,降低了網(wǎng)絡計算量,防止了過擬合現(xiàn)象的發(fā)生。在車型檢測階段,把超參數(shù)keep_prob設置為1,以提升車型識別率。至此,完成了從299×299×3到1×1×2048特征向量的映射,Separable-Conv模型中特征自動提取工作已經完成;最后一個全連接層將提取到的六種車型特征向量進行分類,將參數(shù)labels_nums設置為6,通過Softmax函數(shù)計算出樣本的所屬車型標簽的概率值,見式(3-1),其中,y為輸入,t為所屬類別。、(3-1)文中通過設計損失函數(shù)基于交叉熵來計算出網(wǎng)絡預測車型標簽與真實標簽的近似程度,如下式(3-2):(3-2)向(3-2)中加入dropout標簽的邊緣化效應將分類器層進行正則化,對網(wǎng)絡計算出來的預測車型標簽進行了很好的平滑。設置平滑參數(shù)為ε,真實標簽的計算公式為:(3-3)網(wǎng)絡計算的預測標簽為均勻分布:(3-4)則交叉熵梯度公式為:(3-5)這樣確保了模型對預測結果的自信,使得預測標簽接近真實標簽。本次實驗中車型類別T=6,即均勻分布為u(T)1/6,將ε設置為0.1。本文分解卷積后也降低了計算量。如:輸入該層的特征圖大小為17×17×768,用到160個1×1的卷積核,所需卷積核3×3數(shù)量有192個,加上172個7×7的卷積核。并且在該層中所有卷積核都采用SamePadding來保證輸出特征圖的大小不會改變。在該模塊雖然加入數(shù)量較多的卷積核,但是通過文中降維方式優(yōu)化了參數(shù)計算復雜度。以上述172個7×7卷積核為例,先向7×7的卷積核分支上分別加入160個1×1的卷積核,然后在保證感受野不變的前提下,將7×7的卷積核分解為兩個一維的7×1和1×7的卷積核,對此操作的前后參數(shù)計算過程如下所示。分解之前:分解之后:從上述結果明顯的看到,本文分解卷積之后,所需參數(shù)減少了9倍以上,有效且明顯地降低了計算量和卷積核大小。3.3算法流程與步驟Separable-Conv神經網(wǎng)絡車型識別算法分為三個階段:數(shù)據(jù)預處理、車型數(shù)據(jù)集訓練、車型數(shù)據(jù)集測試。算法總體流程如圖3.2所示。圖3.2算法流程圖算法具體步驟為:(1)數(shù)據(jù)預處理輸入:數(shù)據(jù)集dataset輸出:訓練集train.tfrecords、val.tfrecords和測試集test_imageStep1.在BIT-Vehicle車型數(shù)據(jù)集中挑選不同光照強度和不同拍攝距離的圖像,為了保證模型效果最好、泛化能力最佳,再從所挑選圖像中采用隨機抽取的方式劃分為Train、Val和Test三大部分集。Step2.將Train集、Val集的圖片轉換成tfrecords數(shù)據(jù)格式,如圖3.3所示。車型特征數(shù)據(jù)以及其對應標簽以二進制文件進行存儲,通過進行圖片展示以此來判斷二進制是否轉換成功,圖3.3中每張車型圖片以299×299形式展示,說明轉換成功。Step3.保留測試集圖片形式。驗證集、訓練集(部分)二進制轉換圖圖片展示圖3.3tfrecords數(shù)據(jù)格式轉換(2)網(wǎng)絡訓練輸入:訓練集train.tfrecords、val.tfrecords輸出:最優(yōu)網(wǎng)絡模型Step1.權重、偏置值等參數(shù)初始化,然后采用小樣本進行隨機梯度下降(mini-batchSGD)來更新參數(shù),用批大小為16去近似整個訓練集的梯度,然后再進行并行計算。為了保證訓練模型有很好的泛化能力,需要設置合適的學習率、類別、batch_size和keep_pro等超參數(shù),如表3.2所示。表3.2參數(shù)設置Step2.訓練集經過卷積、池化層和Inception結構進行前向傳播得到結果。Step3.計算步驟2內輸出結果與真實結果的誤差值,誤差小于或等于閥值就停止訓練,否則傳回網(wǎng)絡進行參數(shù)更新。Step4.返回Step2,達到迭代次數(shù)停止訓練。(3)網(wǎng)絡測試輸入:測試集test_image、最優(yōu)網(wǎng)絡模型輸出:分類結果及識別率Step1.將測試集中的圖片輸入到網(wǎng)絡模型中。Step2.前向傳播,并依次計算每層網(wǎng)絡輸出預測結果。Step3.將預測結果與真實標簽對比,計算出與真實標簽接近程度即交叉熵。Step4.循環(huán)Step1-Step3,直到測試集中所有圖片全部預測結束。3.4實驗結果與分析3.4.1實驗環(huán)境與設計硬件環(huán)境:采用Windows10的64位操作系統(tǒng)、8GByte的安裝內存(RAM)、Intel(R)Core(TM)i5-9300HCPU@3.30GHz的電腦。軟件環(huán)境:搭建Tensorflow的深度學習框架,該框架不僅支持分布式計算模型,而且支持除深度學習以外的其他算法,移植能力很強、易擴展的一種接口。前端采用C++、Python語言進行編程,負責計算修改圖,后端通過搭建好的環(huán)境來運行計算。表3.3實驗數(shù)據(jù)集分配本文主要介紹用于車型訓練與實驗測試的車型數(shù)據(jù)集所需要選擇的車型是經常用于進行車型實驗測試使用的Abit-vehiclem等車型的測試數(shù)據(jù)集,該車型模塊的測試數(shù)據(jù)集一共可以包含6種不同類型的測試模塊。該庫系統(tǒng)中的所有停車圖像均設定為部分來自實際通行路段的停車卡口的高清圖像,與實際路段道路通行狀態(tài)十分完全吻合,且受拍攝距離、光照強度以及天氣等的影響而拍攝到的多路況的車型圖像,更能突出深度卷積神經網(wǎng)絡在識別效率上的優(yōu)越性。具體車型數(shù)據(jù)集分配如表3.3所示。3.4.2實驗結果與分析為了更好地驗證本文模型高效性和使用價值,文中從算法的損失函數(shù)、不同算法在不同場景下對比分析和評價指標三部分進行驗證。1.損失函數(shù)Separable-Conv神經網(wǎng)絡模型可以對車輛的圖片進行識別,網(wǎng)絡結構可以在訓練時通過不斷地更新和計算每個參數(shù)來幫助實現(xiàn)梯度的優(yōu)化,使得參數(shù)能夠達到一個最優(yōu)的值,進而有效地最小化所需要的損失函數(shù)。損失函數(shù)、準確率是衡量網(wǎng)絡結構好壞的一種工具,本文模型損失函數(shù)利用加入正則項的交叉熵來計算出網(wǎng)絡預測車型標簽與真實標簽的近似程度,提高了網(wǎng)絡的泛化能力和避免過擬合現(xiàn)象的發(fā)生。損失函數(shù)收斂曲線圖如圖3.4所示。圖3.4本文模型損失函數(shù)與精確度曲線圖從圖3.4中看出,在該實驗訓練的初始階段,我們能看到實驗損失loss值下降的幅度很大,由此可以得到該模型的學習率適中,能很好的實現(xiàn)梯度下降,到了1800步之后,實驗損失loss值上下浮動變小,漸漸趨于平穩(wěn),并且準確率在開始階段逐漸上升,在12000步之后將近到1。由此可見,本文模型訓練效果極佳。2.不同場景下對不同模型驗證為了驗證本文模型在特殊情況下的有效性,通過利用圖片兩個參數(shù)的定量描述即亮度和相似度,在不同算法上進行了對比分析。為了直觀表示車型識別結果,在表3.4和表3.5中抽取了具有代表性的圖片分別利用傳統(tǒng)卷積神經網(wǎng)絡算法、GoogLeNet模型和本文模型展示了以上現(xiàn)象的車型測試結果。對于正常的相機拍照中所需要做出攝下來的每一張圖片相機平均圖片亮度都一般應該為128,介于[100,150]之間。因此,我們在表3.4中選取了亮度為46.1、159.7和30.9的較暗與曝光的三張圖片進行識別研究。表3.4不同亮度場景對不同模型驗證差異值哈希法dhash算法的可取值越小,相似性就可能會更高,取出的值大小范圍一般為0-64,即使在漢明頓的距離中,64位與dhash的取值究竟應該有多少位的差異;對于單通道直方曲線圖的可取值一般范圍為0-1,值越大,相似性就可能會顯得更高。兩者進行結合,更能判斷不同算法識別效果。從表3.4中看出,所選取圖片重合度為0.51、0.48和0.66;dHash值為29、30和27。表3.5相似場景下對模型驗證在表3.4中,亮度曝光嚴重即為159.7的情況下,傳統(tǒng)算法模型將其識別為SUV,而本文模型識別正確且準確率達到99.94%,在亮度較暗即為30.9和46.1的情況下,本文模型識別正確且準確率高。從表3.5中對比結果可以明顯看出,在車的類型為Bus的圖像中:其單通道直方圖重合度高,且與車輛Truck的dHash有將近一半相似的情況下,傳統(tǒng)卷積神經網(wǎng)絡算法,將目標物體車類型Bus錯誤識別為Truck類型,識別精確度很低,雖然GoogLeNet模型識別正確,但是本文模型識別準確度更高。本文算法之所以能夠獲得很好的分類效果,這主要是因為通過分解卷積神經網(wǎng)絡把一個大的卷積核分解成兩個小卷積核,在增加了網(wǎng)絡非線性的情況下,提取得到的車型特征不被深層網(wǎng)絡流失,并且該操作可以使網(wǎng)絡中的判斷函數(shù)更加地具有可靠性,從而對汽車進行隱式正則化處理。而傳統(tǒng)卷積神經網(wǎng)絡算法網(wǎng)絡層數(shù)較少和GoogLeNet模型網(wǎng)絡層數(shù)少于本文算法,沒有很好的提取到車型信息,對于存在以上現(xiàn)象的圖片沒有很好的魯棒性。雖然傳統(tǒng)卷積神經網(wǎng)絡和GoogLeNet模型網(wǎng)絡復雜度低于本文算法,但是未能達到預期效果。總之,本文模型對這些現(xiàn)象識別結果更加準確,驗證了本文模型可行性,并且在車型識別應用中有很好的前景。傳統(tǒng)HOG_BP、GoogLeNet模型算法和本文算法分別在所分配的車型數(shù)據(jù)集上進行分析比較。其中傳統(tǒng)算法對輸入的圖片中一小部分局部區(qū)域中的梯度方向直方圖進行統(tǒng)計和計算,將得到的特征放入BP網(wǎng)絡進行分類。將上述兩種模型與本文算法實驗結果對比如表3.6所示。表3.6分類算法實驗對比從表3.6識別結果看出,傳統(tǒng)算法相較于其他算法平均識別率低,深度學習算法對于大規(guī)模復雜的車型圖片所提取的車型特征信息量多和精確度高。另外,同樣是在拍攝距離較遠、車輛相似和光照強度較低的車型圖片中,GoogLeNet模型算法相較于傳統(tǒng)算法識別率提高了13%左右。本文網(wǎng)絡結構通過分解卷積、優(yōu)化參數(shù)的方法,車型識別精度提高到96.30%,由此驗證了模型的有效性和優(yōu)越性。從表3.5中的不同算法在大量的圖片中對其進行識別結果來看,對于目標物體汽車存在很多巨大相似性和差異的地理位置信息,比如這些信息是分布在整個全局或者是局部的圖片,本章模型在對卷積的操作上已經選擇了合適的卷積核大小。在傳統(tǒng)算法中,由于傳統(tǒng)的機器學習算法在大數(shù)據(jù)集上提取特征時會到一定的瓶頸區(qū),無法處理大量數(shù)據(jù)。在卷積神經網(wǎng)絡深度上,雖然傳統(tǒng)算法網(wǎng)絡深度較淺,但沒有提取到完整的特征信息,所以識別精度較低。而GoogLeNet模型算法在損失函數(shù)一直處于震蕩,導致精度無法提高,本文算法通過分解為小卷積增加深度,而且避免了過擬合現(xiàn)象,保證了訓練后期平穩(wěn)收斂,使得在識別精度上有所提高。3.5本章小結本章介紹了一個Separable-Conv神經網(wǎng)絡結構通過降維、參數(shù)優(yōu)化的方式來降低車型特征提取過程中的計算量和提高車型圖像分類精度,并在BIT-Vehicle車型數(shù)據(jù)集進行了實驗驗證。首先,對separable-conv神經網(wǎng)絡中加入正則項的交叉熵損失函數(shù)曲線圖模型進行了分析,本章的模型訓練效果極佳;然后,采用不同的方法在拍攝距離較遠及光線不同的車型上對照度數(shù)據(jù)集進行了對比和綜合分析;最后,在實測的數(shù)據(jù)中采用不同的指標作為綜合評價依據(jù)。實驗研究結果顯示,本章的神經網(wǎng)絡結構可以提取到豐富的特征,識別準確率高。因此,本章模型對于輸入的車型圖片有較強的學習能力,在實際應用中也具有一定的使用價值。第四章總結與展望交通監(jiān)控下用于車型分類的的圖中,由于拍攝角度的問題造成用于車型分類的特征較少,造成車型分類準確度不夠高的問題。本文從深度學習模型角度出發(fā),利用分解卷積的優(yōu)點,介紹了分解卷積神經網(wǎng)絡模型,將其用在交通監(jiān)控下車型檢測和識別方面,本文主要做了以下幾個工作:1.構建數(shù)據(jù)集。為了防止數(shù)據(jù)對構建的網(wǎng)絡模型訓練有錯誤的判斷,在數(shù)據(jù)的預處理階段,做了相應的措施。為了均衡BIT-Vehicle數(shù)據(jù)集各類別樣本數(shù)和將所屬類型標簽合理分配化,采用人工手段進行數(shù)據(jù)的清洗,完成了對訓練集和測試集的劃分。2.針對傳統(tǒng)車型識別算法存在受拍攝距離、光照強度以及天氣等影響的多路況車型圖像導致識別率低的問題,在深層網(wǎng)絡會造成在特征提取階段梯度消失、參數(shù)量的增多而引起計算量大等的問題?;诖?第三章中在網(wǎng)絡結構部分通過將大卷積核分解為小卷積核,使得網(wǎng)絡在深層提取車型特征時較為溫和,既降低了網(wǎng)絡的計算量,又提高了網(wǎng)絡的非線性,保證了網(wǎng)絡所提取到的車型特征的完整性,大大提高了車型識別準確率。并且從交叉熵損失函數(shù)曲線圖、采用不同的算法在拍攝距離較遠、光線不同車型數(shù)據(jù)集上進行對比分析和在實驗數(shù)據(jù)上采用不同指標進行對比分析。得到分解卷積神經網(wǎng)絡對同樣難識別車型圖像識別率高,其平均準確率達到了96.30%。本文模型對于輸入的車型圖片有較強的學習能力,在實際應用中具有一定的使用價值。本文研究盡管其準確率上取得了不錯的分類效果,但仍然有一定的局限性,比如并未考慮網(wǎng)絡模型在實際應用過程中的適應性和效率的問題,還需要進一步在數(shù)據(jù)集、學習框架的擇優(yōu)和網(wǎng)絡結構上作研究。參考文獻[1]楊娟,曹浩宇,汪榮貴等.基于語義DCNN特征融合的細粒度車型識別模型[J].計算機輔助設計與圖形學學報,2019,31(01):141-157.[2]FANQ,BROWNL,SMITHJ.ACloserLookatFasterR-CNNforVehicleDetection[C]//IntelligentVehiclesSymposium(IV),2016IEEE.[S.l.]:IEEE,2016:124-129.[3]LiZ,ShiZ,LiuX,etal.Fusingsemanticaspectsforimageannotationandretrieval[J].JournalofVisualCommunication&ImageRepresentation,2010,21(8):798-805.[4]GuptaE,KushwahRS.CombinationofglobalandlocalfeaturesusingDWTwithSVMforCBIR[C]//InternationalConferenceonReliability,INFOCOMTechnologiesandOptimization.IEEE,2015:1-6.[5]石磊,王亞敏,曹仰杰等.基于深度卷積神經網(wǎng)絡的車型識別[J].計算機科學,2018,45(05):280-284.[6]張慶輝,萬晨霞,秦淑英等.基于卷積神經網(wǎng)絡的道路目標檢測算法[J].計算機工程與設計,2019,40(07):2052-2058.[7]WUJ,CHENW,HuangK,etal.PartialLeastSquaresBaSedSubwindowSearchforPedestrianDetection[C]//InternationalConferenceonInformationTechnology:NewGenerations.IEEE,2011:3565-3568.[8]RAHATIS,MORAVEJIANR,KAIEMIEM,etal.VehiclerecognitionusingcontourlettransformandSVM[C]//5thInternationalConferenceonInformationTechnology:NewGenerations.IEEE,2008:894-898.[9]何霞,湯一平,袁公萍等.基于級聯(lián)多任務深度學習的卡口識別引擎研究[J].計算機科學,2019,46(01):303-308.[10]程淑紅,高許,周斌.基于多特征提取和SVM參數(shù)優(yōu)化的車型識別[J].計量學報,2018,39(03):348-352.[11]DALALN,TRIGGSB.HistogramsofOrientedGradientsforHumanDetection[C]//IEEEComputerSocietyConferenceonComputerVision&PatternRecognition.IEEEComputerSociety,2005:886-893.[12]薛麗霞,鐘欣,汪榮貴等.基于深度特征融合的中低分辨率車型識別[J].計算機工程,2019,45(01):233-238+245.[13]陳光喜,康春生,黃勇等.基于深度特征編碼的兩級車輛檢索方法[J].計算機應用研究,2018,35(09):2823-2826+2830.[14]張彤,張萍.基于改進的Harris角點檢測的車型識別方法[J].計算機科學,2017,44(S2):257-259.[15]金炎,孫偉,唐慧強等.基于全局和局部特征融合的車型識別[J].計算機工程與設計,2016,37(04):1051-1055.[16]王秀席,王茂寧,張建偉等.基于改進的卷積神經網(wǎng)絡LeNet-5的車型識別方法[J].計算機應用研究,2018,35(07):2215-2218.[17]張晴,李云,李文舉等.融合深度特征和多核增強學習的顯著目標檢測[J].中國圖象圖形學報,2019(07):1096-1105.[18]SUNL,JIAK,YEUNGDY,etal.Humanactionrecognitionusingfactorizedspatio-temporalconvolutionnetworks[C]//IEEEInternationalConferenceonComputerVision.IEEE,2015:4597-4605.[19]RossG,JeffD,TrevorD,JitendraM.Richfeature

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論