【《基于深度學習的車道線檢測模型案例分析》9100字】_第1頁
【《基于深度學習的車道線檢測模型案例分析》9100字】_第2頁
【《基于深度學習的車道線檢測模型案例分析》9100字】_第3頁
【《基于深度學習的車道線檢測模型案例分析》9100字】_第4頁
【《基于深度學習的車道線檢測模型案例分析》9100字】_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于深度學習的車道線檢測模型案例分析目錄TOC\o"1-3"\h\u23866基于深度學習的車道線檢測模型案例分析 135371.1卷積神經(jīng)網(wǎng)絡(luò) 1172531.1.1卷積神經(jīng)網(wǎng)絡(luò)的主要特征 1321471.1.2卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu) 3275151.1.3局部感受野和權(quán)值共享機制 512411.1.4卷積神經(jīng)網(wǎng)絡(luò)的求解(模型訓(xùn)練) 697741.2數(shù)據(jù)集 7301641.3性能度量 8143711.4UFAST模型 9145661.4.1基本原理 1033901.4.2車道結(jié)構(gòu)損失 12172181.4.3特征聚合 1390231.4.4訓(xùn)練設(shè)置 14275481.4.5網(wǎng)格單元數(shù)量的影響 15200201.4.6訓(xùn)練可視化 16218381.4.7訓(xùn)練結(jié)果 22卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,即CNN)是深度學習領(lǐng)域向圖像識別領(lǐng)域進軍的破冰之作,是一種包含復(fù)雜卷積運算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)可以顯著減少網(wǎng)絡(luò)層數(shù)增多時訓(xùn)練模型占用的內(nèi)存量和網(wǎng)絡(luò)本身所需的內(nèi)存量,其通過局部感受野、權(quán)值共享機制和池化層三個重要的數(shù)據(jù)處理提取方式,在進行數(shù)據(jù)集訓(xùn)練的同時,有效的減少了訓(xùn)練網(wǎng)絡(luò)過程中的參數(shù)個數(shù),緩解了以往深度學習模型過擬合的問題。卷積神經(jīng)網(wǎng)絡(luò)的主要特征(1)與傳統(tǒng)技術(shù)相比具有的優(yōu)點:更強的容錯機制、自主學習能力和并行工作處能力,可以處理環(huán)境語義冗雜,背景信息難以判斷,輸入輸出關(guān)系模糊情況下的問題,允許參照數(shù)據(jù)集中的數(shù)據(jù)信息有部分缺損、變形,且訓(xùn)練模型速度較快,對不同模型的適應(yīng)性能好,分辨率高。卷積神經(jīng)網(wǎng)絡(luò)通過對數(shù)據(jù)結(jié)構(gòu)進行重新搭建和減少權(quán)值的方法,將提取特征的過程融合進多層感知器,進而簡化識別前復(fù)雜的圖像特征抽取過程。(2)泛化能力要明顯優(yōu)于其它方法:如今,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用于模式分類、物體檢測和場景語義分割等許多方面。借助于CNN網(wǎng)絡(luò)構(gòu)筑的模式分類器,灰度圖像可直接方便地進行訓(xùn)練。(3)卷積神經(jīng)網(wǎng)絡(luò)是一個前饋式的神經(jīng)網(wǎng)絡(luò),它能通過不同步長的逐層卷積計算,將RGB圖像中所需主要特征的拓撲結(jié)構(gòu)提取出來,并采取反向傳播算法在優(yōu)化其層級結(jié)構(gòu)的同時,求解網(wǎng)絡(luò)中的卷積核權(quán)值等未求解參數(shù)。(4)卷積神經(jīng)網(wǎng)絡(luò)是被設(shè)計用來處理二維數(shù)據(jù)的的多層神經(jīng)網(wǎng)絡(luò),且具有一定魯棒性。CNN網(wǎng)絡(luò)是首先實現(xiàn)采用多級網(wǎng)絡(luò)層次結(jié)構(gòu)的深度學習算法。CNN網(wǎng)絡(luò)通過對輸入數(shù)據(jù)集上的同類性感知,實現(xiàn)其網(wǎng)絡(luò)中待訓(xùn)練和待確定參數(shù)的減少,從而優(yōu)化網(wǎng)絡(luò)在前向傳播后的反向傳播算法的準確性和快速性。在CNN網(wǎng)絡(luò)中,圖像中卷積核每次以一定步長進行卷積運算的小塊區(qū)域(也稱作“局部感知域”)被當做層級結(jié)構(gòu)中的底層的輸入信息,得到的特征數(shù)據(jù)在前向傳播過程中遍歷網(wǎng)絡(luò)的各個層,每一層中均由多個卷積核搭建連接而成,利于獲得輸入數(shù)據(jù)集的某些顯著特點和特質(zhì)。局部感知域由于可以在卷積過程中提取到一些例如陰影的邊沿和范圍等圖片的特有屬性,因此一定范圍內(nèi)對位移、拉伸和翻轉(zhuǎn)具有魯棒性和相對不變性。(5)卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)由于具有密切的層次聯(lián)系和環(huán)境語義特征,因此其高頻率的被用作對圖片特征的提取和解讀,同時可以自覺地從圖像內(nèi)提煉出復(fù)雜多樣的特質(zhì)信息。(6)卷積神經(jīng)網(wǎng)絡(luò)融入了局部感知域、權(quán)值共享機制、時序降采樣手段來豐富輸入樣本自身存在的局部性等問題,進而達到優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的目的。(7)卷積神經(jīng)網(wǎng)絡(luò)是一種高強度的監(jiān)督學習下的模型,體現(xiàn)了機器學習的特點和極強的魯棒性,能夠充分檢測輸入樣本的區(qū)域特點,提煉整體訓(xùn)練特征并進行分類,其權(quán)值共享機制是讓網(wǎng)絡(luò)結(jié)構(gòu)與人腦的真實神經(jīng)系統(tǒng)接近的關(guān)鍵,在語義分割、特征標記等多方面均有應(yīng)用實例。(8)卷積神經(jīng)網(wǎng)絡(luò)能夠檢測位移、伸縮變換等在內(nèi)的形式扭曲不變性的平面或立體圖像。卷積網(wǎng)絡(luò)對數(shù)據(jù)特征點的提取權(quán)值參數(shù)是通過對樣本集不斷訓(xùn)練取得的,因此其規(guī)避了手工標記圖片特征的繁瑣,而是從數(shù)據(jù)集中進行學習;此外,對比于全連接網(wǎng)絡(luò),CNN網(wǎng)絡(luò)在同一樣本特征下采用神經(jīng)元的權(quán)值共享機制,有效削減了網(wǎng)絡(luò)參數(shù),這也是卷積神經(jīng)網(wǎng)絡(luò)的一大重要優(yōu)勢。權(quán)值共享這類獨特的機制非常貼合于真實的生物神經(jīng)網(wǎng)絡(luò),讓CNN網(wǎng)絡(luò)在圖片陰影檢測、環(huán)境語義分割等領(lǐng)域有著顯著優(yōu)勢;同時,對于同一特征來說,相同的卷積核權(quán)值簡化了網(wǎng)絡(luò)的復(fù)雜性,且多維輸入數(shù)據(jù)(語音、圖像等)能夠直接作用于網(wǎng)絡(luò)的特點有效解決了特征檢測和分類過程中繁瑣的樣本整理工作。(9)與傳統(tǒng)不同,卷積神經(jīng)網(wǎng)絡(luò)的的訓(xùn)練模型作為一種無法用公式化語言描述的“黑箱”,可以簡單地將RGB圖像輸入模型中,在輸出端即可得到模型給出的訓(xùn)練結(jié)果。這種方法的特點體現(xiàn)在避免了繁瑣的計算,直接將需要檢測的特征提取處理,具體的運算過程無需了解,通過持續(xù)的改善權(quán)值參數(shù)把網(wǎng)絡(luò)結(jié)構(gòu)完整化,在輸出層得到想要的特征檢測結(jié)果,算法的主要工作就是設(shè)計網(wǎng)絡(luò)層級結(jié)構(gòu)和不斷優(yōu)化權(quán)值參數(shù)。這樣的計算方法和其他早期方法相比計算量更小,而性能卻有較大提升。(10)卷積神經(jīng)網(wǎng)絡(luò)的隱含層權(quán)值參數(shù)個數(shù)和這其中的神經(jīng)元個數(shù)并沒有聯(lián)系,而只和濾波器的大小以及卷積核的種類多少相關(guān)聯(lián)。隱含層的神經(jīng)元個數(shù)和原圖像,也就是輸入的大小、濾波器的大小以及卷積核在圖片中每次進行卷積運算所移動的間距大小有關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)是一類多層次的采用監(jiān)督學習機制的神經(jīng)網(wǎng)絡(luò),主要包含輸入層、隱含層、輸出層三部分。其中,實現(xiàn)CNN網(wǎng)絡(luò)抽取輸入樣本特征的關(guān)鍵層級是內(nèi)嵌于隱含層中的卷積計算層和池化層。CNN模型會在數(shù)據(jù)輸入后,開始不斷的迭代訓(xùn)練,并采用梯度下降法和最小化損失函數(shù)實現(xiàn)對層級中權(quán)值參數(shù)的反向傳播調(diào)節(jié),進而提高網(wǎng)絡(luò)精度。CNN網(wǎng)絡(luò)的初始層級通常是由池化采樣層(通常選擇最大池化)和卷積計算層交替組成,而深層次的網(wǎng)絡(luò)則是全連接層對應(yīng)的傳統(tǒng)多層感知器的隱含層和邏輯回歸分類器。輸入第一個全連接層的數(shù)據(jù)一般是經(jīng)卷積層和子采樣層進行卷積采樣后所抽取的樣本粗略特征圖片。具體各個layer的功能介紹如下:(1)數(shù)據(jù)輸入層(Inputlayer)該層要做的處理主要是對原始圖像數(shù)據(jù)進行預(yù)處理,其中包括:

?去均值:把輸入圖片樣本的XY各個維度都回歸為0,如下圖所示,主要宗旨就是把輸入數(shù)據(jù)集圖片的中心拉回到坐標軸原點上。

?歸一化:將輸入數(shù)據(jù)集圖片的幅度歸一化到同樣的范圍,如下所示,即降低各個維度參數(shù)取值域的差異而帶來的干擾,如:對于有兩個維度特征的A和B,A范圍是0到100,而B范圍是0到100000,若不考慮歸一化而直接輸入這兩個數(shù)據(jù)特征在訓(xùn)練模型時會出現(xiàn)錯誤,因此就需要將其進行歸一化預(yù)處理,即A和B的數(shù)據(jù)都歸一0到1的范圍。

?PCA/白化:用PCA降維;白化是對數(shù)據(jù)各個特征軸上的幅度歸一化去均值與歸一化效果如圖3-1所示,去相關(guān)與白化效果如圖3-2所示。卷積計算層(CONVlayer)在卷積層,有兩個關(guān)鍵操作:

?局部關(guān)聯(lián)。每個神經(jīng)元看做一個濾波器(或稱為卷積核)

?窗口(receptivefield)滑動,卷積核在指定大小區(qū)域進行卷積計算(3)ReLU激勵層(ReLUlayer)CNN網(wǎng)絡(luò)采用的激勵函數(shù)一般為ReLU函數(shù)(TheRectifiedLinearUnit/修正線性單元),它收斂快,求梯度簡單,不會在層次過深和輸入值過大時出現(xiàn)飽和,但較脆弱,但是輸出不是zero-centered。且數(shù)據(jù)幅度會隨網(wǎng)絡(luò)層數(shù)的增加不斷擴張圖3-SEQ圖\*ARABIC\s11幅度歸一化去均值與歸一化效果效果圖圖3-SEQ圖\*ARABIC\s12去相關(guān)與白化效果圖(4)池化層(Poolinglayer)池化層通常處于多個連續(xù)的卷積計算層之中,主要功能是簡化數(shù)據(jù)和減少需要求解的權(quán)值量,去除冗余信息,把最重要的特征抽取出來防止產(chǎn)生過擬合。池化采樣層中的數(shù)據(jù)壓縮策略一般分為一下兩種方式:最大池化(MaxPooling):選擇每個小窗口中得到卷積值的最大值作為需要的特征像素點(省略掉不重要的特征像素點)。平均池化(AveragePooling):選擇每個小窗口中得到卷積值的平均值作為需要的特征像素點。(5)全連接層(FClayer)每層之間的所有神經(jīng)元之間以一定的權(quán)值相通,一般在CNN網(wǎng)絡(luò)的末端放置全連接層。也就是跟傳統(tǒng)意義上的神經(jīng)網(wǎng)絡(luò)神經(jīng)元的連接方式是類似的,如圖3-3所示。圖3-SEQ圖\*ARABIC\s13神經(jīng)元全連接方式示意圖局部感受野和權(quán)值共享機制CNN網(wǎng)絡(luò)處理訓(xùn)練網(wǎng)絡(luò)的根本思想就是局部感受野、池化層和權(quán)值共享機制,據(jù)此達到減少網(wǎng)絡(luò)參數(shù)并使得網(wǎng)絡(luò)各層級和結(jié)構(gòu)有一定的抗干擾性和魯棒性。局部感受野:因為輸入樣本的相互關(guān)聯(lián)在空間上是局部的,故層次中的卷積核沒有必要對所有圖像做感受(否則只會增加無用運算量和內(nèi)存占用量),只需要對圖像的部分區(qū)域特征進行卷積提取即可,得到特征信息后,綜合各個神經(jīng)元所提取的特征并在更深層將其融合,就可以得到全體樣本數(shù)據(jù)集的對于語義信息,進而達到降低神經(jīng)元數(shù)目、減小過擬合的目的。權(quán)值共享機制:各層級之間的神經(jīng)元對輸入樣本的特征提取側(cè)重是不同的,如果每層級的神經(jīng)元均采用不同權(quán)值的話,計算量無疑是龐大的。因此,引入?yún)?shù)共享機制就可以有效削減需要網(wǎng)絡(luò)迭代求解的參數(shù)并改善模型,使用多種濾波器去卷積圖像就會得到多種映射。權(quán)值共享其實就是對圖像使用具有相同權(quán)值矩陣的卷積核進行卷及操作,也就是卷積網(wǎng)絡(luò)能更好的適應(yīng)圖像在小范圍內(nèi)的平移性,即擁有良好的評議不變性。卷積神經(jīng)網(wǎng)絡(luò)的求解(模型訓(xùn)練)卷積神經(jīng)網(wǎng)絡(luò)實質(zhì)上是一種輸入到輸出的“黑箱”映射,它可以在不給出顯示公式的條件下建立輸入與輸出之間的映射關(guān)系,只需要輸入一定量的樣本數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練學習,CNN網(wǎng)絡(luò)就可以承擔起反映輸入輸出間關(guān)系的重任。卷積網(wǎng)絡(luò)執(zhí)行的是監(jiān)督訓(xùn)練,因此其數(shù)據(jù)集需要是由輸入,理想輸出的組合。所有這些向量對,其來源都是生物神經(jīng)系統(tǒng)的真實“運行”模型和結(jié)構(gòu),均可以從我們身邊真實存在、正在運行中的系統(tǒng)歸納提煉而來。(1)參數(shù)的初始化在開始訓(xùn)練前,理論上需要所有的權(quán)重都用一些不同的小隨機數(shù)進行初始化(實際過程中可以參考同類型網(wǎng)絡(luò)的權(quán)值參數(shù)作為初始值,以減小網(wǎng)絡(luò)的訓(xùn)練時間)。使權(quán)值的初始值較小主要是用來保證CNN網(wǎng)絡(luò)可以正常運行,不會因初始參數(shù)值過大進入飽和狀態(tài),進而引起過擬合或者訓(xùn)練模型無法檢測特征;同時,初始權(quán)值不宜設(shè)置成相同數(shù)值,用以確保CNN網(wǎng)絡(luò)可以對指定特征具有一定的初始識別能力。事實上,若采用相同的卷積核權(quán)值去初始化網(wǎng)絡(luò)模型,那么所使用的神經(jīng)網(wǎng)絡(luò)將沒有任何學習能力。網(wǎng)絡(luò)的訓(xùn)練過程第一階段:前向傳播階段從數(shù)據(jù)集中取一個批樣本batch,輸入網(wǎng)絡(luò)計算相應(yīng)的實際輸出;在此階段讀入的數(shù)據(jù)集信息從輸入層經(jīng)過去均值、歸一化等變換,經(jīng)過隱含層的特征提取,傳出到輸出層,這也是CNN網(wǎng)絡(luò)在首次訓(xùn)練時正常執(zhí)行的流程。第二階段:后向傳播階段將所計算的實際訓(xùn)練預(yù)測輸出與相應(yīng)的理想輸出計算差值,并按照極小化誤差的方法調(diào)整權(quán)值矩陣。直到達到誤差函數(shù)的全局最小點(globalminimun)作為終止點,誤差函數(shù)收斂,網(wǎng)絡(luò)幾乎不會再更新權(quán)重。數(shù)據(jù)集對于深度學習網(wǎng)絡(luò)的訓(xùn)練,需要采集大量的道路圖片組成數(shù)據(jù)集,并且對其進行標定(即標識出車道線存在的位置)用于訓(xùn)練。雖然有相關(guān)的軟件例如LabelMe可以在可視化界面上進行框選車道線位置,并自動將車道線信息按規(guī)定的格式保存下來,標注如圖3-4所示。但是人工標注需要大量的時間精力,在實驗中平均每張圖片的標注需要耗時8分鐘,然而想要良好的網(wǎng)絡(luò)訓(xùn)練效果,數(shù)據(jù)集的規(guī)模至少要有數(shù)千張的規(guī)模。消耗的時間過于龐大,所以本文最終選取的是已有標注的開源數(shù)據(jù)集。圖3-SEQ圖\*ARABIC\s14車道標注示意圖對于基于CNN的車道線檢測主流方法,有不同的開源已標注的數(shù)據(jù)集,主要可以分為2大類:對于全圖每一個像素點進行分類即判斷每一個像素①是否屬于路面標志②屬于哪一類路面標志。這種模型推理目標最為確定,網(wǎng)絡(luò)需要猜測的成分少。根據(jù)獲取的分割圖,后續(xù)處理完成車道信息提取。適合這種網(wǎng)絡(luò)模型的典型開源數(shù)據(jù)集有Apollo中的LaneSegment數(shù)據(jù)集?;趫D像分割對畫面上每一個像素是否屬于車道分界線進行預(yù)測,還可以細分為前景、背景二分類以及判斷車道實例的多分類。這種模型需要網(wǎng)絡(luò)具有一定的聯(lián)想猜測能力,能將不連續(xù)的車道線識別為連續(xù)的車道線。適合這種網(wǎng)絡(luò)模型的典型開源數(shù)據(jù)集有圖森公司開源的Tusimple數(shù)據(jù)集以及由香港中文大學多媒體實驗室開源的CULane數(shù)據(jù)集。本文中就是采用Tusimple數(shù)據(jù)集作為實驗數(shù)據(jù)集。Tusimple數(shù)據(jù)集為一系列良好天氣條件下不同時間不同亮度條件,不同車道數(shù)量的路面圖片。Tusimple數(shù)據(jù)集分為訓(xùn)練集和測試集兩個部分,訓(xùn)練集含有3626個視頻剪輯,測試集含有2944個視頻剪輯。每個視頻剪輯文件夾含有以20幀的幀率拍攝的行車記錄儀拍攝1秒的圖片,共20張。對于每個視頻剪輯,都對第20幀進行了注釋,以json格式儲存。每張圖片的大小為1280×720.性能度量性能度量就是評價網(wǎng)絡(luò)學習到的表示是否符合期望的評價指標,對于車道識別這種分類問題,性能度量主要有;錯誤率(Error)和精度(Accuracy)Error=Acc=混淆矩陣表3-SEQ表\*ARABIC\s11混淆矩陣實際預(yù)測正例TPFN負例FPTN其中,TP(truepositive),真正例,表示預(yù)測為真,實際為真;FN(falsenegative),假負例,表示預(yù)測為負,實際為負;FP(falsepositive),假正例,表示預(yù)測為正,實際為負;TN(truenegative),真負例,表示預(yù)測為負實際為負。準確率、精確率、召回率準確率Acc=精確度Precision=召回率Recall=F1score平衡分數(shù):精確度、召回率的調(diào)和平均數(shù)F1=UFAST模型UFAST模型提出了一種新的車道檢測方法,以極快的速度為目標,解決了無視覺線索的問題。同時,基于提出的公式,提出了一個結(jié)構(gòu)損失顯式利用先驗信息的車道。具體來說,此模型的公式是使用全局特征來選擇圖像中預(yù)定義行的車道位置,而不是基于局部感受野來分割車道的每個像素,這大大降低了計算成本。車道位置選擇的圖示如圖3-5所示。圖3-SEQ圖\*ARABIC\s15位置選擇示意圖對于無視覺線索的問題,此模型也可以達到很好的效果,因為公式是基于全局特征進行行選擇的過程。因此,模型具有整個圖像的感受野。與基于有限感受野的分割方法相比,可以學習和利用來自不同位置的視覺線索和信息。新公式可以同時解決速度和無視覺線索的問題。此外,基于該公式,車道被表示為不同行上的選定位置,而不是分割圖??焖俸蜔o視覺線索問題對于車道檢測非常重要。因此,想要取得良好的性能,必須找出這個問題的解決方案。為了更好地說明,表1顯示了下文中使用的一些符號。表3-SEQ表\*ARABIC\s12變量表變量數(shù)據(jù)類型定義H標量圖像高度W標量圖像寬度h標量橫向的anchors數(shù)目,step=10像素w標量網(wǎng)格單元數(shù)C標量車道數(shù)X張量圖像全圖特征f函數(shù)車道位置選擇分類器P張量預(yù)測T張量目標P張量每個位置的概率L矩陣車道線位置基本原理為了解決上述問題,模型提出了一種基于全局圖像特征的基于行的車道選擇方法。換言之,模型是使用全局特征在每個預(yù)定義行上選擇正確的車道位置。在我們的公式中,車道表示為預(yù)定義行的一系列水平位置,即行錨。為了表示位置,第一步是將圖片網(wǎng)格化。在每一行錨點上,位置被劃分為許多單元格。這樣,車道的檢測可以描述為在預(yù)定義的行錨點上選擇某些單元,如圖3(a)所示。假設(shè)最大車道數(shù)為C,行錨定數(shù)為h,網(wǎng)格單元數(shù)為ω。假設(shè)X是全局圖像特征,fij Pi,j,:=f 其中,Pi,j,:是(ω+1)維向量,表示選擇( Lcls=其中LCE是交叉熵損失。我們使用一個額外的維度來表示沒有車道,因此我們的公式由(ω+1)維而不是從公式1可以看出,我們的方法基于全局特征預(yù)測每行錨點上所有位置的概率分布。結(jié)果,可以基于概率分布來選擇正確的位置。此模型和傳統(tǒng)分割之間的差異如圖3所示。可以看出,模型比常用的分段要簡單得多。假設(shè)圖像大小為H×W。通常,預(yù)定義的行錨定數(shù)和網(wǎng)格大小遠遠小于圖像的大小,即h?H,ω?W。這樣,原來的分割公式需要進行(C+1)維的H×W分類,而我們的公式只需要解決(ω+1)維的C×H分類問題。這樣,由于公式的計算量是C×h×(ω+1),而分割的計算量是H×W×圖3-SEQ圖\*ARABIC\s16模型對比圖車道結(jié)構(gòu)損失在分類損失的基礎(chǔ)上,進一步提出了兩個損失函數(shù),用于建立車道點的位置關(guān)系。這樣,可以鼓勵學習結(jié)構(gòu)信息。第一種是基于車道是連續(xù)的這一事實,即相鄰行錨中的車道點應(yīng)該彼此靠近。在我們的公式中,車道的位置由分類向量表示。因此,通過約束分類向量在相鄰行上的分布來實現(xiàn)連續(xù)性超快速結(jié)構(gòu)感知深車道檢測這樣,相似性損失函數(shù)可以是: Lsim=其中,Pi,j,:是對j行錨的預(yù)測,?1代表 另一個結(jié)構(gòu)損失函數(shù)關(guān)注車道的形狀。一般來說,大多數(shù)車道線的形狀都是直線。即使是曲線車道,由于透視效果的影響,大部分車道在圖像中依舊是直線形狀。在這項工作中,我們使用二階差分方程來約束車道的形狀,對于直行的情況是零。為了考慮形狀,需要計算每排錨點上車道的位置。直觀的想法是通過找到最大響應(yīng)峰,從分類預(yù)測中獲得位置。對于任何車道指數(shù)i和行錨指數(shù)j,位置軌跡j可表示為: LOCi,j其中,k表示位置索引的整數(shù)。需要注意的是,我們不在網(wǎng)格單元中計數(shù),位置索引k的范圍僅為[1,ω]而不是[1,ω+1]。但是,argmax函數(shù)是不可微的,不能用于進一步的約束。此外,在分類公式中,類沒有明顯的順序,很難在不同的行錨之間建立關(guān)系。為了解決這個問題,我們建議使用預(yù)測的期望值作為位置的近似值。我們使用softmax函數(shù)來獲得不同位置的概率: Probi,j,:=softmax(其中,Probi,j,:是一個ω維向量,并且表示每個位置的概率。出于與等式4相同的原因,不包括北京網(wǎng)個單元,計算范圍僅為[1,ω] LOCi,j 其中,Probi,j根據(jù)等式6,二階差分約束可以寫成: Lshp=其中,Loci,,j Lstr=其中λ為損耗系數(shù)。特征聚合在上一節(jié),損失設(shè)計主要關(guān)注車道的內(nèi)部關(guān)系。在這一節(jié)中,我們提出了一種輔助特征聚合方法,該方法對全局上下文和局部特征執(zhí)行。提出了一種利用多尺度特征進行局部特征建模的輔助分割方法。我們使用交叉熵作為輔助分割損失。這樣,我們方法的總體損失可以寫為: Ltotal=其中Lseg是分割損失,α和β是損失系數(shù)。整體架構(gòu)如圖3-7需要注意的是,我們的方法只在訓(xùn)練階段使用輔助分詞任務(wù),而在測試階段將其刪除。這樣,即使增加了額外的分割任務(wù),也不會影響算法的運行速度。它與沒有輔助分段任務(wù)的網(wǎng)絡(luò)相同。圖3-SEQ圖\*ARABIC\s17整體架構(gòu)圖訓(xùn)練設(shè)置實驗平臺為谷歌實驗室CoLab搭載TeslaV10016GBGPU。,在類Jupyternotebook的操作頁面進行操作,對于TiSimple數(shù)據(jù)集,主要的評估指標是準確性。通過以下公式計算精度:accuracy=clipC其中Cclip是正確預(yù)測的車道點數(shù),S對于這Tusimple數(shù)據(jù)集,模型使用由數(shù)據(jù)集定義的-行錨定。具體而言,圖像高度為720的Tusimple數(shù)據(jù)集的行錨定在160到710之間,步長為10網(wǎng)格單元的數(shù)量在Tusimple數(shù)據(jù)集上設(shè)置為100在優(yōu)化過程中,圖像的大小調(diào)整為288×800。我們使用Adam優(yōu)化器來訓(xùn)練我們的模型,用4e-4初始化余弦衰減學習率策略。式8和式9中的損耗系數(shù)λ、α和β均設(shè)為1。批量大小設(shè)置為64,總訓(xùn)練次數(shù)epoch設(shè)置為150。我們之所以選擇如此大量的epoch,是因為我們的結(jié)構(gòu)保持數(shù)據(jù)擴充需要很長時間的學習。具體參數(shù)如表3-3所示。表3-SEQ表\*ARABIC\s13訓(xùn)練參數(shù)表參數(shù)數(shù)值說明數(shù)據(jù)集(Dataset)Tusimple圖森公司開源數(shù)據(jù)集訓(xùn)練次數(shù)(Epoch)150持續(xù)訓(xùn)練直到誤差收斂批量大小(batch_size)64依據(jù)顯存大小選擇優(yōu)化器(Optimizer)AdamAdam更快學習率(learning-rate)0.002調(diào)節(jié)權(quán)重更新步長權(quán)重衰減(weight_decay)0.0001防止過擬合動量(momentum)0.9改進優(yōu)化器學習率調(diào)整策略(scheduler)cos學習率衰減策略warmup策略linear減免提前過擬合、保持深層穩(wěn)定性warmup_iters100延遲學習率上升至預(yù)設(shè)值backbone1818層的殘差網(wǎng)絡(luò)griding_num100橫向網(wǎng)格分割數(shù)use_auxTrue使用輔助誤差函數(shù)sim_loss_w1.0誤差權(quán)重shp_loss_w1.0誤差權(quán)重num_lanes4默認4條車道線網(wǎng)格單元數(shù)量的影響如3.1節(jié)采用網(wǎng)格劃分和選擇的方法建立車道結(jié)構(gòu)信息與基于分類的公式之間的關(guān)系。在這種情況下,我們進一步嘗試我們的方法與不同數(shù)量的網(wǎng)格單元來證明對我們的方法的影響。我們將圖像分成25、50、100和200列。結(jié)果如圖6所示。隨著網(wǎng)格單元數(shù)的增加,top1、top2和top3的分類精度逐漸下降。這是因為更多的網(wǎng)格單元需要更細粒度和更硬的分類。然而,評價精度并不是嚴格單調(diào)的。雖然網(wǎng)格單元數(shù)目越少,分類精度越高,但由于網(wǎng)格單元太大,無法表示精確的定位,定位誤差也越大。在這項工作中,我們選擇100作為Tusimple數(shù)據(jù)集上的網(wǎng)格單元數(shù)。圖3-SEQ圖\*ARABIC\s18網(wǎng)格數(shù)量對于評估準確度的影響訓(xùn)練可視化訓(xùn)練過程中的數(shù)據(jù)可視化如圖3-9~3-17所示。所有曲線分成了三段的原因是我所用的CoLab平臺對于每天的GPU使用時間都有所限制,導(dǎo)致epoch數(shù)量達不到預(yù)設(shè)的數(shù)目就被迫終止。我的解決措施是每個epoch訓(xùn)練結(jié)束后就將整個網(wǎng)絡(luò)的參數(shù)完全保存下來,而后第二天resume重新開始,進行后續(xù)的訓(xùn)練。輔助分支的誤差aux-loss如圖3-9所示,分類誤差cls-loss如圖3-10所示,relation-dis如圖3-11所示,relation-loss如圖3-12所示,如圖所示,在5.2kstep時刻左右,對應(yīng)著epoch=5.2k57學習率如圖3-13所示,根據(jù)warmup_iters設(shè)置,學習率開始時小于預(yù)設(shè)值0.002,直到step達到warmup_iters=100時,學習率上升至預(yù)設(shè)值,接著按照學習率調(diào)整策略(scheduler)選擇的cos模式逐步降低更新每層權(quán)重的步長,即學習率。最終學習率降低到5e-18,此時網(wǎng)絡(luò)權(quán)重幾乎不再更新。iou如圖3-14所示,隨著訓(xùn)練次數(shù)epoch的增加,iou的數(shù)值越來越大,意味

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論