版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號CN111860249B(65)同一申請的已公布的文獻號(43)申請公布日2020.10.30(73)專利權(quán)人上海蠡圖信息科技有限公司(74)專利代理機構(gòu)南京禹為知識產(chǎn)權(quán)代理事務(wù)GO6V20/40(2022.01)一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法本發(fā)明公開了一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,包括以下步驟,利用孿生主干網(wǎng)絡(luò)負責(zé)提取示例樣本和搜索樣本的多層特征表示;定義多層聚合模塊,選擇地集成高層語義特征和低層細節(jié)特征來學(xué)習(xí)多層特征間的互補信息,用以輔助淺層特征跟蹤目標;在所述多層聚合模塊后加入自細化模塊抑制多層聚合產(chǎn)生的噪聲;在所述孿生主干網(wǎng)絡(luò)的頂層卷積特征處添加頭注意模塊,增強頂層特征的語義表示提高對目標的識別能力;構(gòu)建多層次聚合和注意孿生網(wǎng)絡(luò)跟蹤器用于視覺目標跟蹤。本21.一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,其特征在于:包括以下步驟,定義多層聚合模塊,選擇地集成高層語義特征在所述多層聚合模塊后加入自細化模塊抑制多層聚合產(chǎn)生的噪在所述孿生主干網(wǎng)絡(luò)的頂層卷積特征處添加頭注意模塊,增強構(gòu)建多層次聚合和注意孿生網(wǎng)絡(luò)跟蹤器用于視覺目標跟蹤;將三層特征級聯(lián)在一起,并將級聯(lián)后的特征進行卷積運算生成聚合的多層聚合特征F=conv(concat(F?1,F′z?,F′z3),所述F充分編碼來自淺層的低級細節(jié)信息和深層的高級將此輸入特征輸入到3個具有相同結(jié)構(gòu)的卷積層中得到3個新的特征,分別為F?、Fk和定義F?;表示用來測量位置i處特征相對位置j處特征的影響,且兩者之間的聯(lián)系越緊3進行元素求和運算得到最終輸出:其中λ。與空間注意中的類似,初始化為0并逐步學(xué)習(xí),用以控制輸入特征F的通道重要在所述空間注意機制和所述通道注意機制后,包括以下步驟,新生成的兩個注意特征執(zhí)行逐元素操作得到了空間通道注意特征Fsca;提出的所述多層次聚合和注意孿生網(wǎng)絡(luò)的跟蹤框架SiamMLAA中F即為F?3,與淺層相似度計算類似,深層特征相似度計算可表示為:f3(z,x)=Corr(F?s3a,Fx3),其中輸入到所述頭注意模塊得到的空間通道注意特征。2.如權(quán)利要求1所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,其特征在于:所述孿生主干網(wǎng)絡(luò)包括以下構(gòu)建步驟,采用改進的ResNet22;將所述孿生主干網(wǎng)絡(luò)分為3個階段,其包括步長為8的22個卷積層;當(dāng)所述卷積層使用填充后利用裁剪操作消除受到補零影響的特征計算,并保持內(nèi)部塊結(jié)構(gòu)不變;在網(wǎng)絡(luò)的前2個階段中遵循原始的ResNet執(zhí)行特征下采樣;在第3階段,由步長為2的最大池化來代替卷積層執(zhí)行下采樣,該層位于本階段的第一3.如權(quán)利要求1或2所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,其特征在于:所述孿生主干網(wǎng)絡(luò)包括兩個相同的分支,所述示例分支接收示例樣本的輸入;所述搜索分支接收搜索樣本的輸入;兩個分支在卷積神經(jīng)網(wǎng)絡(luò)中共享參數(shù),以確保相同的轉(zhuǎn)換用于這兩個樣本;使用ResNet22網(wǎng)絡(luò)第3個階段的最后3個塊,即layer2-2、layer2-3和layer2-4的輸出特征。4.如權(quán)利要求3所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,其特征在于:所述多層聚合模塊后加入自細化模塊包括,將所述多層聚合特征的表示與淺層特征F??結(jié)合起來,輸入到自細化模塊中,生成如下細化特征:F?1=SrM(conv([F?1,FM])),其中SrM(·)表示自細化模塊;將所述細化特征與搜索樣本對應(yīng)的淺層特征Fx?來計算匹配相似度;5.如權(quán)利要求4任一所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,其以特征F??和F的聚合特征F?作為輸入,將所述自細化模塊分為兩個部分;在第一部分中,按輸入特征的通道方向采用全局平均池化來壓縮特征空間依賴,接著使用1×1的卷積conv?x?和Sigmoid函數(shù)o來生成通道掩碼u∈R×1×1,最后將其與輸入特征相4其中GAP是全局平均池化、?表示按元素方向乘法、F′表示所述第一部分的輸出特征。6.如權(quán)利要求5所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,其特征在于:所述自細化模塊包括,在第二部分中,以所述第一部分的輸出為輸入;采用3×3卷積conv3×3將輸入特征進行壓縮,再使用Sigmoid函數(shù)σ進行歸一化操作生成F"=F'?m,5技術(shù)領(lǐng)域[0001]本發(fā)明涉及視覺目標跟蹤的技術(shù)領(lǐng)域,尤其涉及一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法。背景技術(shù)[0002]視覺目標跟蹤是指在不斷變化的視頻序列中自動定位指定的目標,它是計算機視覺領(lǐng)域中最基本的研究問題之一,并且在視覺監(jiān)控、人機交互和視頻編輯等方面有著廣泛的需求,目標跟蹤的核心問題是如何在具有遮擋、視野外、變形和背景雜波變化等具有挑戰(zhàn)性的場景中準確、有效地檢測和定位目標。[0003]近些年基于孿生(Siamese)網(wǎng)絡(luò)的跟蹤器通過將跟蹤問題轉(zhuǎn)化為相似度學(xué)習(xí)問題的策略,在速度和魯棒性方面顯示出了巨大的視覺跟蹤潛力,在網(wǎng)絡(luò)離線訓(xùn)練階段,它們使用卷積神經(jīng)網(wǎng)絡(luò)充當(dāng)主干網(wǎng)絡(luò)在外部海量視頻數(shù)據(jù)集ILSVRC2015上學(xué)習(xí)用于分類或回歸的特征,與手工特征不同的是,這些主干網(wǎng)絡(luò)不僅能夠生成組織良好的特征表示,而且它們還具有跨數(shù)據(jù)集的泛化能力。所以跟蹤器只需離線訓(xùn)練,并且在跟蹤過程中不需對網(wǎng)絡(luò)進行任何在線微調(diào)就可以確保健壯的跟蹤,這是十分讓人感到高興的。但是盡管基于孿生網(wǎng)絡(luò)跟蹤器的設(shè)計是令人信服,但它們?nèi)匀徊豢杀苊獾鼐哂幸恍┚窒扌?,大多?shù)跟蹤方法只是使用了深層特征,而通常該特征表示具有較低的分辨率,這會導(dǎo)致丟失一些目標特定的細節(jié)和局部結(jié)構(gòu)信息,所以這些跟蹤器往往會因為對細節(jié)的不太敏感,很難區(qū)分具有相同屬性或語義的兩個目標。發(fā)明內(nèi)容[0004]本部分的目的在于概述本發(fā)明的實施例的一些方面以及簡要介紹一些較佳實施例。在本部分以及本申請的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。[0006]因此,本發(fā)明解決的技術(shù)問題是:提出一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,解決在孿生跟蹤框架中引入位置偏差,使得目標和搜索樣本的匹配相似度下降,進而導(dǎo)致跟蹤性能降低的問題。[0007]為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,包括以下步驟,利用孿生主干網(wǎng)絡(luò)負責(zé)提取示例樣本和搜索樣本的多層特征表示;定義多層聚合模塊,選擇地集成高層語義特征和低層細節(jié)特征來學(xué)習(xí)多層特征間的互補信息,用以輔助淺層特征跟蹤目標;在所述多層聚合模塊后加入自細化模塊抑制多層聚合產(chǎn)生的噪聲;在所述孿生主干網(wǎng)絡(luò)的頂層卷積特征處添加頭注意模塊,增強頂層特征的語義表示提高對目標的識別能力;構(gòu)建多層次聚合和注意孿生網(wǎng)絡(luò)跟蹤器用于視覺目標跟蹤。[0008]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種6優(yōu)選方案,其中:所述孿生主干網(wǎng)絡(luò)包括以下構(gòu)建步驟,采用改進的ResNet22;將所述孿生主干網(wǎng)絡(luò)分為3個階段,其包括步長為8的22個卷積層;當(dāng)所述卷積層使用填充后利用裁剪操作消除受到補零影響的特征計算,并保持內(nèi)部塊結(jié)構(gòu)不變;在網(wǎng)絡(luò)的前2個階段中遵循原始的ResNet執(zhí)行特征下采樣;在第3階段,由步長為2的最大池化來代替卷積層執(zhí)行下采樣,[0009]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種優(yōu)選方案,其中:所述孿生主干網(wǎng)絡(luò)包括兩個相同的分支,分別為示例分支和搜索分支;其中所述示例分支接收示例樣本的輸入;所述搜索分支接收搜索樣本的輸入;兩個分支在卷積神經(jīng)網(wǎng)絡(luò)中共享參數(shù),以確保相同的轉(zhuǎn)換用于這兩個樣本;使用ResNet22網(wǎng)絡(luò)第3個階段的最后3個塊,即layer2-2、layer2-3和layer2-4的輸出特[0010]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種優(yōu)選方案,其中:所述多層聚合模塊包括以下步驟,提取示例樣本在所述孿生主干網(wǎng)絡(luò)上生成分別為Fz?、F?2和F??三層特征的表示;采用反卷積的方式將最后2層特征采樣到相同的分辨率為F′?2及F′z?;將三層特征級聯(lián)在一起,并將級聯(lián)后的特征進行卷積運算生成聚合的多層聚合特征FM=conv(concat(F?1,F′?2,F′z?)),所述F充分編碼來自淺層的低級細節(jié)信息和深層的高級語義信息。[0011]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種優(yōu)選方案,其中:所述多層聚合模塊后加入自細化模塊包括,將所述多層聚合特征的表示與淺層特征F??結(jié)合起來,輸入到自細化模塊中,生成如下細化特征:F?1=SrM(conv([F21,Fm])),其中SrM(·)表示自細化模塊;將所述細化特征與搜索樣本對應(yīng)的淺層特征F×1來計算匹配[0012]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種優(yōu)選方案,其中:所述自細化模塊包括,以特征F??和F的聚合特征F??作為輸入,將所述自細化模塊分為兩個部分;在第一部分中,按輸入特征的通道方向采用全局平均池化來壓縮特征空間依賴,接著使用1×1的卷積convx1和Sigmoid函數(shù)o來生成通道掩碼u∈R×1×1,最后將其與輸入特征相乘,具體過程描述為:[0015]其中GAP是全局平均池化、?表示按元素方向乘法、F'表示所述第一部分的輸出特[0016]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種3×3卷積conv?×3將輸入特征進行壓縮,再使用Sigmoid函數(shù)σ進行歸一化操作生成空間掩碼[0019]其中F"是最后的細化特征。7[0020]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種[0022]定義Fsj表示用來測量位置i處特征相對位置j處[0025]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種[0030]作為本發(fā)明所述的基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的一種個注意特征執(zhí)行逐元素操作得到了空間通道注意特征Fsca;提出的所述多層次聚合和注意8附圖說明[0034]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它[0035]圖1為本發(fā)明所述多層次聚合和注意孿生網(wǎng)絡(luò)的整體框架示意圖;[0036]圖2為本發(fā)明所述基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的整體流程示意圖;[0037]圖3為本發(fā)明所述多層聚合模塊的結(jié)構(gòu)示意圖;[0038]圖4為本發(fā)明所述自細化模塊的結(jié)構(gòu)示意圖;[0039]圖5為本發(fā)明所述頭部注意模塊的結(jié)構(gòu)示意圖;[0040]圖6為本發(fā)明所述OTB2013上的成功圖和精度圖的示意圖;[0041]圖7為本發(fā)明所述OTB2015上的成功圖和精度圖的示意圖;[0042]圖8為本發(fā)明所述消融實驗在OTB2013上的成功圖和精度圖的示意圖;[0043]圖9為本發(fā)明所述消融實驗在OTB2015上的成功圖和精度圖。具體實施方式[0044]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合說明書附圖對本發(fā)明的具體實施方式做詳細的說明,顯然所描述的實施例是本發(fā)明的一部分實施例,而不是全部實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明的保護的范圍。[0045]在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是本發(fā)明還可以采用其他不同于在此描述的其它方式來實施,本領(lǐng)域技術(shù)人員可以在不違背本發(fā)明內(nèi)涵的情況下做類似推廣,因此本發(fā)明不受下面公開的具體實施例的限制。式中的特定特征、結(jié)構(gòu)或特性。在本說明書中不同地方出現(xiàn)的“在一個實施例中”并非均指同一個實施例,也不是單獨的或選擇性的與其他實施例互相排斥的實施例。[0047]本發(fā)明結(jié)合示意圖進行詳細描述,在詳述本發(fā)明實施例時,為便于說明,表示器件結(jié)構(gòu)的剖面圖會不依一般比例作局部放大,而且所述示意圖只是示例,其在此不應(yīng)限制本或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此為指示或暗示相對重要性。也可以通過中間媒介間接相連,也可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。9[0051]參照圖1的示意,示意為本實施例提出多層次聚合和注意孿生網(wǎng)絡(luò)的整體框架示意圖?,F(xiàn)有的跟蹤器大多依賴于孿生主干網(wǎng)絡(luò)最后一層輸出特征來對目標進行跟蹤,往往忽略不同層次特征的特點。因此本實施例提出了一種新的網(wǎng)絡(luò),稱為孿生多層次聚合和注意網(wǎng)絡(luò)(SiamMLAA),其中包括了頭部注意(HA)模塊、多層聚合(MLA)模塊和自細化(SR)模塊。簡單過程為可描述為頭部注意模塊添加到主干網(wǎng)絡(luò)的頂層卷積層用來改善特征表示,并通過利用空間和通道注意來建模頂層特征更廣泛和更豐富的上下文;此外多層聚合模塊可以有效地集成低層空間特征和高層語義特征,用以輔助淺層特征去計算匹配相似度,之后的自細化模塊更是進一步的細化和增強輸入特征。[0052]本實施例提出的基于多層次聚合和注意的孿生網(wǎng)絡(luò)跟蹤模型SiamMLAA,該SiamMLAA包括孿生主干網(wǎng)絡(luò)和三個額外的模塊,分別為多層聚合模塊、自細化模塊和頭部注意模塊。[0053]由于注意到卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetwork,CNN)的深層特征表示語義層次高,可以有效地區(qū)分不同類別的目標;而淺層特征表示分辨率高,并可以捕獲豐富的結(jié)構(gòu)細節(jié)信息。這對于精確定位是非常有用的,而且也能夠很好的處理同一類別具有相同語義的不同目標。所以本實施例設(shè)計了多層聚合模塊,有選擇地集成高層語義特征和低層細節(jié)特征來學(xué)習(xí)多層特征之間的互補信息,然后去輔助淺層特征跟蹤目標。與此同時,為抑制多層融合產(chǎn)生的噪聲,在多層聚合模塊之后引入了自細化模塊.最后在主干網(wǎng)絡(luò)的頂層還添加一個頭注意模塊,以建模深層特征更廣泛和更豐富的上下文,增強特定語義的特征表示,對目標外觀的變化具有更強的魯棒性。[0054]因此本實施例簡單過程為:首先提出一種多層次聚合和注意的孿生網(wǎng)絡(luò)跟蹤模型以多層次計算目標相似度來實現(xiàn)目標跟蹤,該模型包括多層聚合模塊、自細化模塊和頭注意模塊;其次,多層聚合模塊將低層細節(jié)信息和高層語義信息有選擇地集成在一起,以輔助計算淺層目標相似度,另外還引入自細化模塊抑制融合產(chǎn)生的噪聲;在頂層卷積特征處添加注意模塊捕來增強頂層特征的語義表示,以提高對目標的識別能力。[0055]參照圖2的示意,示意為本實施例基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的整體流程示意圖。來自卷積神經(jīng)網(wǎng)絡(luò)的淺層特征分辨率高,可以捕獲豐富的細節(jié)信息,而深層特征分辨率低,語義層次高;高級語義特征能有效識別不同類別的目標,并對目標的外觀變化有較強魯棒性,而豐富的空間細節(jié)能夠準確定位目標,避免相似物體混淆;所以為了充分利用多層特征的不同特點,使得跟蹤變得更加魯棒和準確,提出基于多層融合和注意的孿生網(wǎng)絡(luò)跟蹤框架。[0056]在本實施例中,將更加詳細介紹提出的跟蹤框架SiamMLAA,其中孿生主干網(wǎng)絡(luò)用來負責(zé)提取示例樣本和搜索樣本的多層特征表示;多層聚合模塊充分利用主干網(wǎng)絡(luò)生成的多層特征的互補信息,以用來輔助淺層特征計算相似度;而頭注意模塊則是用來增強頂層特征的語義表示。[0057]更加具體的,一種基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法,包括以[0058]S1:利用孿生主干網(wǎng)絡(luò)負責(zé)提取示例樣本和搜索樣本的多層特征表示。[0059]本步驟中需要說明是:強大的特征表示對于精確和健壯的視覺目標跟蹤至關(guān)重要,而且近些年的深度神經(jīng)網(wǎng)絡(luò)已被證明在基于孿生網(wǎng)絡(luò)的跟蹤器中是有效的,所以可以在基于孿生網(wǎng)絡(luò)的跟蹤器中使用它們,例如VGGNet、ResNet和MobileNet等,然而值得一提的是,基于孿生網(wǎng)絡(luò)的跟蹤器都是基于全卷積性質(zhì)的,只適用于所使用的主干網(wǎng)絡(luò)沒有填充操作的情況,雖然原始的ResNet可以學(xué)習(xí)到非常強大的特征表示,但是網(wǎng)絡(luò)中使用了填充操作,會在孿生跟蹤框架中引入位置偏差,使得目標和搜索樣本的匹配相似度下降,進而導(dǎo)致跟蹤性能降低。[0060]因此為了解決上述問題,在跟蹤器中的網(wǎng)絡(luò)中,采用改進的ResNet22作為孿生主[0061]將孿生主干網(wǎng)絡(luò)分為3個階段,其包括步長為8的22個卷積層;[0062]當(dāng)卷積層使用填充后利用裁剪操作消除受到補零影響的特征計算,并保持內(nèi)部塊結(jié)構(gòu)不變;[0063]在網(wǎng)絡(luò)的前2個階段中遵循原始的ResNet執(zhí)行特征下采樣;[0064]在第3階段,由步長為2的最大池化來代替卷積層執(zhí)行下采樣,該層位于本階段的第一個塊中,即layer2-1(該層位于此階段總共有4個塊,分別為layer2-1、layer2-2、layer2-3和layer2-4)。[0065]可選的,本步驟中孿生主干網(wǎng)絡(luò)包括兩個相同的分支,分別為示例分支和搜索分支;其中示例分支接收示例樣本的輸入、搜索分支接收搜索樣本的輸入;兩個分支在卷積神經(jīng)網(wǎng)絡(luò)中共享參數(shù),以確保相同的轉(zhuǎn)換用于這兩個樣本;為了計算多層特征的匹配相似度,使用ResNet22網(wǎng)絡(luò)第3個階段的最后3個塊,即layer2-2、layer2-3和layer2-4的輸出特征。[0066]S2:定義多層聚合模塊,選擇地集成高層語義特征和低層細節(jié)特征來學(xué)習(xí)多層特征間的互補信息,用以輔助淺層特征跟蹤目標。[0067]需要說明的是:注意到多層相似度可以提高孿生網(wǎng)絡(luò)的識別能力,所以與現(xiàn)有的基于最后一層特征計算相似度的孿生網(wǎng)絡(luò)不同,從多個層次來計算目標相似度,用來提高跟蹤器的魯棒性,然而獨立地處理每一層特征,即直接使用淺層和高層特征來進行目標跟蹤,往往是不夠那么有效的。因此本步驟考慮到了不同層次特征之間的內(nèi)在聯(lián)系,提出了多層聚合模塊,將多層特征融合在一起,去輔助淺層特征學(xué)習(xí)更多具有判別性的目標特征來計算相似度,參照圖3所示(多層聚合模塊的說明),這對于準確和健壯的視覺目標跟蹤是非常有效的。具體多層聚合模塊包括以下步驟,[0068]提取示例樣本在孿生主干網(wǎng)絡(luò)上生成分別為F?1、F?2和F?3三層特征的表示;由于上述三個層次的特征具有不同的空間大小,故采用反卷積的方式將最后2層特征采樣到相同的分辨率為F′?2及F′z3;[0069]將三層特征級聯(lián)在一起,并將級聯(lián)后的特征進行卷積運算生成聚合的多層聚合特征F=conv(concat(F?1,F′z?,F′z3)),F充分編碼來自淺層的低級細節(jié)信息和深層的高級語義信息。[0070]進一步的,本步驟中多層聚合模塊后加入自細化模塊包括:[0071]將多層聚合特征的表示與淺層特征F??結(jié)合起來,輸入到自細化模塊中,生成如下細化特征:F?1=SrM(conv([F?1,FM]),其中SrM(·)表示自細化模塊;[0072]當(dāng)將F多層融合特征與淺層特征F??結(jié)合在一起并輸入到自細化模塊時,F(xiàn)中的淺層高層互補信息可以很好的輔助F?獲得強大的特征表示,將細化特征與搜索樣本對應(yīng)的淺11層特征F?來計算匹配相似度,這對于最后的跟蹤性能是十分有幫助的,相似度計算可表示[0073]S3:在多層聚合模塊后加入自細化模塊抑制多層聚合產(chǎn)生的噪聲。[0074]在多層聚合模塊中,將不同層次特征之間的互補信息結(jié)合起來,得到了綜合的特不可避免地會帶來一些噪聲,影響最后的跟蹤效果,因此開發(fā)了一個自細化模塊。進一步細化和增強融合后的特征表示。[0075]具體的參照圖4的示意,示意為本實施例中自細化模塊的整體結(jié)構(gòu)。[0076]本步驟中自細化模塊包括,[0077]以特征F?1和F的聚合特征F??作為輸入,將自細化模塊分為兩個部分;[0078]在第一部分中,按輸入特征的通道方向采用全局平均池化來壓縮特征空間依賴,接著使用1×1的卷積convx?和Sigmoid函數(shù)來生成通道掩碼u∈R×1×1,最后將其與輸入特[0081]其中GAP是全局平均池化、?表示按元素方向乘法、F[0084]采用3×3卷積conv3×3將輸入特征進行壓縮,再使用Sigmoid函數(shù)σ進行歸一化操作生成空間掩碼m∈R××1,最后與輸入特征相乘,計算過程表示為:[0087]其中F”是最后的細化特征。[0088]S4:在孿生主干網(wǎng)絡(luò)的頂層卷積特征處添加頭注意模塊,增強頂層特征的語義表示提高對目標的識別能力。[0089]參照圖5的示意,示意為頭部注意模塊的結(jié)構(gòu)示意圖,正如上述,淺層特征包含目標的空間結(jié)構(gòu)信息,能夠很好的定位目標,但網(wǎng)絡(luò)的區(qū)分能力主要來自于深層特征的語義信息,因此獲得強大的語義特征就是尤為重要的。為此在孿生主干網(wǎng)絡(luò)的最后一層卷積上加入了一個注意模塊,通過空間和通道自注意機制來一起強調(diào)與目標語義描述更相關(guān)的區(qū)[0090]本步驟中部注意模塊包括空間注意機制和通道注意機制,其中空間注意機制包維度;和F,都屬于R×W×;[0094]之后在F。和F的轉(zhuǎn)置之間進行矩陣乘法,并應(yīng)用Softmax運算生成空間注意映射:[0096]定義Fsj;表示用來測量位置i處特征相對位置j處特征的影響,且兩者之間的聯(lián)系[0097]將F重構(gòu)成R×,并和F進行矩陣乘法得到結(jié)果為F,將FF[0107]其中λ與空間注意中的類似,初始化為0并逐步學(xué)[0111]提出的多層次聚合和注意孿生網(wǎng)絡(luò)的跟蹤框架SiamMLAA中F即為F?3,與淺層相似[0113]其中為F??輸入到頭部注意模塊得到的空間通道注意特征。[0116]為驗證上述實施例提出基于多層次聚合和注意孿生網(wǎng)絡(luò)的視覺目標跟蹤方法的準數(shù)據(jù)集上的實驗結(jié)果表明,本方法在各個評估標準上都優(yōu)于基線跟蹤器,并在現(xiàn)有的跟蹤方法中也有較高的競爭力,故提出的網(wǎng)絡(luò)SiamMLAA在各個方面都取得了十分良好的性[0117]具體的,提出的網(wǎng)絡(luò)框架在PyTorch上實現(xiàn)的在RTX2080Ti上使用用4塊GPU訓(xùn)練。[0118]訓(xùn)練過程為:分別使用在ILSVRC分類數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet22模型和隨機噪聲對主干網(wǎng)絡(luò)和其余部分進行初始化,并在目標跟蹤數(shù)據(jù)集GOT10K上離線訓(xùn)練。該數(shù)據(jù)集包含10000多個真實世界中移動目標的視頻片段,分成560多個類別,目標的邊界框全部都是手動標記完成,總計超過150萬個。對訓(xùn)練集預(yù)處理,將圖像劃分為示寸大小分別為127×127和255×255像素,并采用動量為0.9、權(quán)值衰減為0.0005的隨機梯度下降法(stochasticgradientdescent,SGD)來對整個框架進行訓(xùn)練。將學(xué)習(xí)率設(shè)為0.01,在100次迭代周期后以指數(shù)衰減到0.00001,整個過程是在四塊GPU上訓(xùn)練,最小批處理大小為[0119]測試過程為:在測試過程中,對于每張輸入圖像,如果是初始幀,則以給定的第一幀標簽將其裁剪調(diào)整到127×127大小,作為示例樣本輸入網(wǎng)絡(luò);如果是后續(xù)幀,則以前一幀跟蹤的位置為中心裁剪調(diào)整到255×255空間大小,作為搜索樣本輸入到網(wǎng)絡(luò)中。在分別得到最后的特征圖后,通過相關(guān)運算來求取兩者之間的相似度,生成17×17的相似圖,然后使用雙三次插值對相似圖進行上采樣以得到更準確的定位。表1:在5個跟蹤基準上的性能比較。AUC個AUC個個↑18將該方法的結(jié)果與一些先進方法在五個公共的跟蹤基準上進行評估,其中包括果,或者使用公開代碼來重新訓(xùn)練并調(diào)整訓(xùn)練參數(shù)來獲得其最佳的跟蹤結(jié)果,來與本發(fā)明[0123]在OTB基準上評估:分別在包含了51個、50個以及100個完全注釋的視頻序列的公共跟蹤基準數(shù)據(jù)集0TB2013、0TB50和OTB2015上進行了評估實驗,采用一次性通過評估(one-passevaluation,OPE)的成功率圖(Successplot)和精度圖(Precisionplot)來比較不同的跟蹤器,如圖6和圖7,可以從中直觀的看出跟蹤器SiamMLAA在0TB2013和OTB2015上的實驗結(jié)果。其中在圖6和圖7中a為成功圖的示意,b為精度圖的示意。[0124]此外,還將SiamMLAA跟蹤器與同樣基于孿生網(wǎng)絡(luò)的跟蹤器進行比較,具體評估結(jié)果見表1。實驗表明SiamMLAA在0TB三個基準數(shù)據(jù)集上的性能都是最好的,其成功圖的曲線下方面積(areaunderthecurve,AUC)分別達到了0.705/0.648/0.674.與基線跟蹤器相比,得到了4.1%/-/2.2%的改善,這顯示了本方法的優(yōu)越性。最后將跟蹤器SiamMLAA和一些非實時的先進跟蹤方法進行評估,其中包括CCOT和ECO等,均參照表1結(jié)果顯示,本發(fā)明SiamMLAA可以在運行速度與跟蹤性能兩個方面取得良好的平衡。[0125]本實施例還在VOT基準上評估:VOT挑戰(zhàn)是視覺跟蹤領(lǐng)域最重要的年度比賽,其中VOT2016和VOT2017這兩個數(shù)據(jù)集都是由60個視頻序列組成,旨在評估跟蹤器的短期跟蹤性[0126]利用它們來測試所提出的跟蹤方法SiamMLAA,在實驗中使用和期望平均重疊(expectedaverageoverlap,EAO)指標來評估跟蹤算法的整體性能,并同時考慮了準確性和魯棒性,分別在VOT2016和VOT2017基準數(shù)據(jù)集上評估了跟蹤器SiamMLAA,并與一些其他跟外,還包括一些同樣基于孿生網(wǎng)絡(luò)的跟蹤方法(如C-RPN和TADT等),不同跟蹤器的各個指標具體實驗結(jié)果還如表1所示。SiamMLAA在VOT2016/2017上的EA0分數(shù)分別達到了0.387/0.298,相比于基線SiamDW本發(fā)明獲得了5.2%和3.2%的絕對增益,這說明本發(fā)明的跟蹤方法相對于其他跟蹤器還是具有很強的競爭力。[0128]為驗證所提出跟蹤器中設(shè)計的各個關(guān)鍵模塊的有效性,在本實施例中還進行了消從圖8和圖9可直觀發(fā)現(xiàn),其中在圖8和圖9中a為成功圖的示意,b為精度圖的示意。包含所有模塊(即多層聚合MLA模塊、自細化SR模塊和頭注意HA模塊)的跟蹤器在精度和成功率兩方面取得了幾乎最好的跟蹤性能,這證明了本發(fā)明所提出跟蹤器中的每個模塊都是必要的,對最后的跟蹤性能都起著十分明顯的改善作用。[0129]表2:在OTB數(shù)據(jù)集上不同成分組合的消融研究?!獭獭獭獭獭獭獭獭獭獭獭蘙0131]在實驗中我們將SiamDW作為基線跟蹤器,然后分別添加每個模塊,來說明每個模塊對跟蹤性能的影響,從表2中可以詳細看出,添加多層聚合模塊后,0TB2013/50/2015三個數(shù)據(jù)集上的AUC得分從基線跟蹤器的0.663/-/0.652大幅度提高到0.682/0.623/0.667。當(dāng)獨在頂層特征增加了頭注意模塊,AUC得分與基線相比也分別達到了0.677/0.620/0.656,這兩個模塊的組合對跟蹤結(jié)果有著更顯著的改善,最后將自細化模塊也添加到跟蹤器中并獲得了本發(fā)明所需要的最佳結(jié)果。[0132]在本實施例中,通過提出了多層融合與注意的孿生跟蹤網(wǎng)絡(luò)(SiamMLAA)來實現(xiàn)視覺目標跟蹤任務(wù)??紤]到不同層次特征的不同特點,設(shè)計了一個簡單而有效的多層聚合模塊來充分集成不同層次的特征,之后我們使用聚合的特征去輔助淺層特征,并引入自細化模塊以抑制噪聲細化特征,以便更好的進行匹配相似度計算。此外我們還在孿生主干網(wǎng)絡(luò)頂層添加了通道與空間注意機制,用來增強深層特征的語義信息,在5個公共的跟蹤基準數(shù)據(jù)集上的實驗結(jié)果表明,該網(wǎng)絡(luò)的性能是十分良好的。[0133]應(yīng)當(dāng)認識到,本發(fā)明的實施例可以由計算機硬件、硬件和軟件的組合、或者通過存儲在非暫時性計算機可讀存儲器中的計算機指令來實現(xiàn)或?qū)嵤?。所述方法可以使用標準編程技術(shù)-包括配置有計算機程序的非暫時性計算機可讀存儲介質(zhì)在計算機程序中實現(xiàn),其中如此配置的存儲介質(zhì)使得計算機以特定和預(yù)定義的方式操作——根據(jù)在具體實施例中描述的方法和附圖。每個程序可以以高級過程或面向?qū)ο蟮木幊陶Z言來實現(xiàn)以與計算機系譯或解釋的語言。此外,為此目的該程序能夠在編程的專用集成電路上運行。[0134]此外,可按任何合適的順序來執(zhí)行本文描述的過程的操作,除非本文另外指示或以其他方式明顯地與上下文矛盾。本文描述的過程(或變型和/或其組合)可在配置有可執(zhí)行指令的一個或多個計算機系統(tǒng)的控制下執(zhí)行,并且可作為共同地在一個或多個處理器上執(zhí)行的代碼(例如,可執(zhí)行指令、一個或多個計算機程序或一個或多個應(yīng)用)、由硬件或其組合來實現(xiàn)。所述計算機程序包括可由一個或多個處理器執(zhí)行的多個指令。[013
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職光電信息科學(xué)與工程(光電信息)試題及答案
- 2025年中職會計(財務(wù)會計基礎(chǔ))試題及答案
- 2025年高職能源技術(shù)(技術(shù)實操訓(xùn)練)試題及答案
- 2025年中職園藝設(shè)施管理應(yīng)用(應(yīng)用技術(shù))試題及答案
- 2025年高職城市軌道交通運營服務(wù)(票務(wù)管理技巧)試題及答案
- 2025年中職城市軌道交通車輛技術(shù)(城軌車輛維護)試題及答案
- 2025年高職(健康管理)健康評估試題及答案
- 2025年高職供用電技術(shù)(供用電管理)試題及答案
- 2025年高職通信(通信技術(shù)基礎(chǔ))試題及答案
- 2025年高職(藥學(xué))藥物合成基礎(chǔ)試題及答案
- 2025公路安全韌性提升技術(shù)指南
- SF-36健康調(diào)查量表(含excel版)
- 超星爾雅學(xué)習(xí)通《高校實驗室安全基礎(chǔ)課(實驗室準入教育)》章節(jié)測試含答案
- 酒店餐飲宴會服務(wù)流程規(guī)定
- 電子電氣設(shè)備選型采購方案
- 洼田飲水試驗科普課件
- 2024-2025學(xué)年山東省濰坊市高一下學(xué)期5月期中考試政治試題(解析版)
- 環(huán)境污染治理設(shè)施運營考試試題
- 2025年證監(jiān)會招聘面試高頻考題及解析
- 2025-2030中國溶劑染料行業(yè)消費狀況及競爭策略分析報告
- 急診科腦出血課件
評論
0/150
提交評論