版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(22)申請日2025.05.07(56)對比文件(43)申請公布日2025.06.03地址321000浙江省金華市婺城區(qū)迎賓大道688號所(普通合伙)34370GO6F16/00(2019.01)權(quán)利要求書2頁說明書10頁附圖10頁一種基于卷積注意力融合的RGBT目標跟蹤方法本發(fā)明公開了一種基于卷積注意力融合的RGBT目標跟蹤方法,屬于計算機視覺技術(shù)領(lǐng)域,包括以下步驟:步驟一、視頻預(yù)處理;步驟二、特征增強與融合:通過滑動窗口來選定局部區(qū)域,將當前模態(tài)的局部特征與另一個模態(tài)全局特征進行交叉注意力計算,從而實現(xiàn)局部特征增強,合,實現(xiàn)了更穩(wěn)定的RGBT目標跟蹤,在多個視頻21.一種基于卷積注意力融合的RGBT目標跟蹤方法,其特征在于,包括以下步驟:在數(shù)據(jù)集中隨機選取一段視頻序列,其中每一幀為一張圖像;在可見光與熱紅外模態(tài)的第一幀的相同位置選定目標所在的矩形區(qū)域,將該區(qū)域縮放,并保存作為該視頻序列的目標模板;從第二幀起,以上一幀目標位置為中心點,選取范圍大于目標所在區(qū)域的正方形區(qū)域,并縮放后作為當前幀的搜索區(qū)域;將可見光與熱紅外模態(tài)的目標模板與搜索區(qū)域切割為若干區(qū)塊并展開拼接,通過線性映射層將圖像信息映射為一維特征序列,并向其加入全局位置編碼;對兩個模態(tài)的特征分別使用參數(shù)共享的主干網(wǎng)絡(luò)的Transformer編碼器提取特征;主干網(wǎng)絡(luò)采用OSTrack作為基線模型并擴展為雙分支,令原始輸入的可見光、熱紅外特征分別為X、X,第i層Transformer編碼器表示為Encoder2,特征提取過程可公式化表達為:其中,表示第i層可見光特征,Xi表示第i層熱紅外特征,表示第(i+1)層可見光特征,表示第(i+1)層熱紅外特征;在Transformer編碼器之間插入卷積注意力融合模塊:通過滑動窗口將一維特征序列進行二維化處理,隨后在其周圍進行零填充,使用滑動窗口從左上角開始循環(huán)滑動,滑動窗口遍歷整個特征圖,選定局部區(qū)域;將局部區(qū)域序列化并計算可見光與熱紅外模態(tài)的局部交叉注意力;最后將各個滑動窗口的局部交叉注意力結(jié)果進行合并;通過滑動窗口選定局部區(qū)域,具體步驟如下:對干輸入的一維線性特征序列X∈R(HXW)×C.將其展開為二維特征.并通過零填充將其擴padding為填充大??;將擴展后的區(qū)域分割為p×p的區(qū)塊,將每個區(qū)塊視為一個維數(shù)為P∈角坐標,滑動窗口表示為X’∈Rs×ks×C;滑動窗口通過不斷地循環(huán)滑動,最終得到所有局部區(qū)將局部區(qū)域序列化并計算可見光與熱紅外模態(tài)的局部交叉注意力,具體步驟如下:定義局部位置編碼E∈R1×(ks×ks)×1,將其廣播至與S相同的維數(shù),并加入到全部的滑動窗口中;通過局部線性映射層,將局部區(qū)域映射得到局部查詢Q1oca1與鍵值K1oca?;通過全局線計算可見光與熱紅外模態(tài)的局部交叉注意力,采用以下公式:3光與熱紅外兩個模態(tài)分別獨立計算局部交叉注意力Attn,計算可見光模態(tài)的局部交叉注意4技術(shù)領(lǐng)域[0001]本發(fā)明涉及計算機視覺技術(shù)領(lǐng)域,具體涉及一種基于卷積注意力融合的RGBT目標跟蹤方法。背景技術(shù)[0002]目標跟蹤是計算機視覺領(lǐng)域重要研究內(nèi)容之一,旨在給定的視頻序列里連續(xù)跟蹤目標,它已被廣泛用于視頻監(jiān)控、人機交互和視覺導(dǎo)航等多個領(lǐng)域。早期的跟蹤算法偏向于根據(jù)領(lǐng)域知識和經(jīng)驗使用手工特征跟蹤目標,然而這些方法的性能難以在現(xiàn)實場景中達到要求。自深度學習提出以來,憑借其強大的特征建模能力,逐漸取代了傳統(tǒng)算法,成為目標跟蹤領(lǐng)域的主流方法。[0003]近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)和Transformer等深度學習模型的提出,基于深度學習的目標跟蹤方法取得了顯著進展。這些方法通過數(shù)據(jù)驅(qū)動的方式學習圖像特征,提高了目標跟蹤的性能。RGB目標跟蹤僅使用可見光模態(tài)來跟蹤目標,仍面臨著許多挑戰(zhàn),基于可見光的跟蹤方法易受光照強度、目標顏色、天氣狀況等因素影響,一些研究者嘗試引入其他模態(tài)的數(shù)據(jù),與可見光數(shù)據(jù)相融合,利用不同模態(tài)的互補信息提高跟蹤算法的準確率。紅外光目標跟蹤領(lǐng)域有廣泛的應(yīng)用前景。RGBT目標跟蹤綜合利用熱紅外信息和可見光信息來執(zhí)行目標追蹤,然而熱紅外圖像具有噪聲嚴重、分辨率低,目標不清晰、紋理特征不明顯以及難以穿透透明物體等缺陷。相比之下,可見光雖然提供了豐富的紋理信息和色彩信息,但容易受到光照條件的影響。[0004]在RGBT目標跟蹤領(lǐng)域,如何有效地融合可見光和熱紅外兩種模態(tài)的信息,利用它們各自的優(yōu)勢來提高跟蹤的魯棒性和準確性,是尤為重要的研究點。現(xiàn)有的RGBT目標跟蹤方法可分為基于純卷積的方法、基于卷積-Transformer的混合方法、基于純Transformer的方法。然而大多數(shù)方法的側(cè)重點仍在模態(tài)的全局融合上,而未能考慮到對局部特征的融合與利用,也并未完全發(fā)揮卷積與注意力機制的潛力。[0005]基于此,本發(fā)明設(shè)計了一種基于卷積注意力融合的RGBT目標跟蹤方法以解決上述問題。發(fā)明內(nèi)容[0006]針對現(xiàn)有技術(shù)所存在的上述缺點,本發(fā)明提供了一種基于卷積注意力融合的RGBT目標跟蹤方法。通過設(shè)計卷積注意力融合模塊,提升跟蹤器對局部特征的利用,并促進跨模態(tài)特征融合,同時保持對全局信息的關(guān)注,從而實現(xiàn)更加穩(wěn)定的RGBT目標跟蹤。[0007]為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):[0008]一種基于卷積注意力融合的R[0010]在數(shù)據(jù)集中隨機選取一段視頻序列,其中每一幀為一張圖像;在可見光與熱紅外5[0014]在Transformer編碼器之間插入卷積注意[0018]其中,X?表示第i層可見光特征,表示第i層熱紅外特征,Xi+1表示第層6[0029]更進一步地,可見光與熱紅外兩個模態(tài)分別獨立計算局部交叉注意力Attn,計算[0033]本發(fā)明相較于現(xiàn)有技術(shù),其有益效果為:本發(fā)明在Tra7附圖說明[0038]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0039]圖1為常規(guī)注意力、窗口化注意力與卷積自注意力的對比圖。其中:(a)為常規(guī)注意力,直接對完整特征圖計算注意力。(b)為窗口化注意力,將特征圖劃分為多個不重疊的窗口,在窗口內(nèi)部計算局部注意力,并隨著層數(shù)的加深,將相鄰窗口合并。(c)為卷積自注意力,通過有重疊的滑動窗口計算相鄰區(qū)域的局部注意力。[0040]圖2為本發(fā)明的RGBT目標跟蹤模型的整體結(jié)構(gòu)圖。[0041]圖3為卷積自注意力的示意圖。[0042]圖4為卷積交叉注意力的示意圖。[0043]圖5為本發(fā)明方法與其他方法的挑戰(zhàn)屬性對比結(jié)果。[0044]圖6為本發(fā)明在LasHeR數(shù)據(jù)集與其他方法的準確率對比結(jié)果。[0045]圖7為本發(fā)明在LasHeR數(shù)據(jù)集與其他方法的成功率對比結(jié)果。[0046]圖8為不同窗口大小對跟蹤性能的影響。[0047]圖9為本發(fā)明方法與其它RGBT目標跟蹤方法的可視化跟蹤結(jié)果示例一(第一列第四位男孩)。[0048]圖10為本發(fā)明方法與其它RGBT目標跟蹤方法的可視化跟蹤結(jié)果示例二(向籃筐投球三次)。[0049]圖11為本發(fā)明方法與其它RGBT目標跟蹤方法的可視化跟蹤結(jié)果示例三(男孩玩手機)。具體實施方式[0050]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述。顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。[0053]在常見RGBT目標跟蹤數(shù)據(jù)集中,隨機選取一段視頻序列,其中每一幀為一張圖像;在可見光與熱紅外模態(tài)的第一幀的相同位置選定目標所在的矩形區(qū)域,將該區(qū)域縮放至128×128像素,并保存作為該視頻序列的目標模板;從第二幀起,以上一幀目標位置為中心至256×256像素,作為當前幀的搜索區(qū)域;[0054]進一步地,步驟一中選取LasHeR數(shù)據(jù)集中的視頻序列作為跟蹤視頻;LasHeR數(shù)據(jù)集共包含1224個視頻序列與734.8K幀,數(shù)據(jù)資源豐富,現(xiàn)實場景覆蓋廣泛,足夠用于模型訓8[0056]將可見光與熱紅外模態(tài)的目標模板與搜索區(qū)域切割為若干16×16的區(qū)塊并展開[0057]搜索區(qū)域大小是256×256,在步驟二中被切割為大小為16×16的區(qū)塊,總共16×提取過程可公式化表達為:2×2大小的滑動窗口)從擴展后的特征圖左上角開始滑動,步長為stride(例如1),選定局[0067]定義局部位置編碼(LocalPositionEmbedding)E∈R1×(ks×ks)×1,將其廣播至與S9相同的維數(shù),并加入到全部的滑動窗口中,以強化局部位置信息;通過局部線性映射層,將局部區(qū)域映射得到局部查詢Q1oca1與鍵值K1oca?;通過全局線性映射層,將原始特征圖映射為[0068]計算可見光與熱紅外模態(tài)的局部交叉注意力,采用以下公式:注意力計算。[0072]進一步地,為了促進不同模態(tài)融合,可見光與熱紅外兩個模態(tài)分別獨立計算局部交叉注意力Attn,計算時公式(a)中的Vg?oba?來自對方模態(tài),即計算可見光模態(tài)的局部交叉注意力時,使用熱紅外模態(tài)的Vg?obal來計算Attn,計算熱紅外模態(tài)的局部交叉注意力時,使[0073]進一步地,步驟三中,將各個滑動窗口的局部交叉注意力結(jié)果進行合并,具體步驟局部特征圖的重疊部分求平均值,將局部注意力結(jié)果按對應(yīng)位置相加,根據(jù)滑動窗口在各個區(qū)塊的覆蓋量計算注意力平均值,作為最終的局部注意力得分。[0076]主干網(wǎng)絡(luò)最終層的Transformer編碼器輸出可見光與熱紅外兩個模態(tài)特征,使用卷積合并,輸入預(yù)測頭進行預(yù)測,得到目標位置。使用常見數(shù)據(jù)集進行跟蹤測試,評估跟蹤結(jié)果。[0077]實驗例一:為了更好地體現(xiàn)本發(fā)明目標跟蹤方法的有效性,對本發(fā)明方法與其它RGBT目標跟蹤方法在LasHeR、RGBT210和RGBT234數(shù)據(jù)集上進行跟蹤性能檢測,結(jié)果見表1。[0078]表1本發(fā)明方法與其它RGBT目標跟蹤方法的跟蹤性能(準確率)%(成功率)%(準確率)%(成功率)%表于AAAI2024國際會議),CMD(來自于論文EfficientRGB-TTrackingviaCross-ModalityDistillation,發(fā)表于CVPR2023國際會議),CAT(來自于論文CAT:Challenge-AwareRGBTTracking,發(fā)表于ECCV2020國際會議),CAT++(來自于論文RGBTTrackingviaChallenge-BasedAppearanceDisentanglementandInteraction,2024年發(fā)表于經(jīng)公開的跟蹤器。異的跟蹤性能。[0082]實驗例二:圖5為本發(fā)明方法與其他方法的挑戰(zhàn)屬性對比結(jié)果。[0083]挑戰(zhàn)屬性包括部分遮擋(partialocclusion,PO)、完全遮擋(totalocclusion,illumination,LI)、高照度(highilluminatiovariation,AIV)、低分辨率(lowresolution,LR)、目標形變(deformation,DEF)、背景雜亂view,OV)、快速運動(fastmotion,FM)、尺度變化(scalevariation,SV)、橫縱比變化[0084]通過圖5可以看出,本發(fā)明方法在絕大多數(shù)挑戰(zhàn)屬性上均表現(xiàn)優(yōu)異,僅在0V移出視野挑戰(zhàn)屬性下排名第二。本發(fā)明方法在AIV光照突變挑戰(zhàn)屬性下遠遠領(lǐng)先于其它跟蹤器,展11現(xiàn)了本發(fā)明方法能夠更有效地利用局部特征和跨模態(tài)信息來輔助決策。[0085]實驗例三:為了驗證本發(fā)明的卷積注意力融合模塊的有效性,使用卷積模塊、常規(guī)注意力與窗口化注意力分別替換卷積注意力融合模塊,并與基線算法(OSTrack)進行對比。不同方法在LasHeR數(shù)據(jù)集上的跟蹤性能檢測結(jié)果見表2。[0086]表2不同方法在LasHeR數(shù)據(jù)集上的跟蹤性能檢測結(jié)果213.1M窗口化注意力替換卷積注意力融合模塊本發(fā)明[0088]通過表2可以看出,上述方法均實現(xiàn)了跟蹤性能的提升,但卷積注意力融合模塊帶來的提升更大。常規(guī)注意力雖然具有更小的參數(shù)量與計算量,但卷積注意力融合模塊僅以較小的參數(shù)量與計算量為代價,大幅提高了跟蹤性能,體現(xiàn)出卷積注意力融合模塊的優(yōu)越性。[0089]實驗例四:為了分析卷積注意力融合模塊不同參數(shù)帶來的影響,通過修改模塊參數(shù)進行消融實驗,其中,實驗1為基線算法(OSTrack),[0090]表3卷積注意力融合模塊在LasHeR上的消融分析窗口大小----11×11√11×√11√√01√√12√√特征圖變?yōu)?8×18。[0094]實驗2中僅使用窗口注意力,對跟蹤器性能影響極低。[0095]實驗3在只有局部位置編碼的情況下,性能有少部分提升,說明了卷積注意力融合模塊即使在不引入跨模態(tài)信息的條件下也能帶來性能提升。[0096]實驗4主要移除了局部位置編碼,性能相比于完整模型有少量下降,說明了步驟三中局部位置編碼的有效性。[0097]實驗5為本發(fā)明方法,性能提升最為顯著,說明了局部特征和跨模態(tài)融合對于RGBT跟蹤的重要性。[0098]實驗6取消了填充,即不對窗口零填充,該情況下二維特征的邊緣區(qū)塊僅被提取一[0099]實驗7使用非重疊的滑動窗口來提取特征,由于缺乏窗口間交互,也導(dǎo)致性能下[0100]實驗例五:為了分析不同窗口大小對跟蹤性能的影響,本發(fā)明在固定填充與步長[0101]通過圖8可以看出,本發(fā)明對滑動窗口的大小并不敏感,當窗口大小為2×2時取得了最佳性能。當窗口尺寸增加時,性能先下降后上升。這是因為中等窗口大小既難以提取到判別性的局部特征,又難以捕獲充分的全局特征。而大窗口雖然丟失了局部信息,但更好提取了全局特征,因此性能略微優(yōu)于中等大小的窗口。[0102]實驗例六:卷積注意力融合模塊在不同層時對跟蹤性能的影響見表4。[0103]表4卷積注意力融合模塊所在層數(shù)對跟蹤性能的影響無4全部層[0105]通過表4可以看出,當卷積注意力融合模塊被嵌入4、7、10層時,跟蹤性能達到最高。而在全部層嵌入卷積注意力融合模塊時,性能反而降低,這是因為卷積注意力融合模塊側(cè)重于局部特征的提取與融合,而過度使用卷積注意力融合模塊會導(dǎo)致局部特征占據(jù)主導(dǎo)地位,從而使得模型忽略了更具判別性的全局特征。[0106]實驗例七:為了驗證卷積注意力模塊的通用性,表5展示了其在單模態(tài)跟蹤中的使用效果。采用圖3所示的卷積自注意力,選定OSTrack作為基線算法,刪除其自帶的候選消除模塊,將卷積注意力融合模塊以相同參數(shù)嵌入至OSTrack的4,7,10層。[0107]表5卷積注意力模塊對單模態(tài)跟蹤模型的作用歸一化精度[0109]LaSOT(大規(guī)模單目標跟蹤數(shù)據(jù)集,來自于論文LaSOT:AHigh-qualityBenchmarkforLarge-scaleSingleObjectTracking,發(fā)表于CVPR2019國際會議)。[0110]通過表5可以看出,卷積注意力模塊對單模態(tài)跟蹤仍然具有一定的性能提升,說明了本發(fā)明所提出的卷積注意力模塊對于目標跟蹤具有一定的普適性。[0112]圖6為本發(fā)明在LasHeR數(shù)據(jù)集與其他方法的準確率對比結(jié)果,可以看出,本發(fā)明在大部分閾值下都取得了最小誤差,表明本發(fā)明對目標位置的預(yù)測具有較高的準確率。[0113]圖7為本發(fā)明在LasHeR數(shù)據(jù)集與其他方法的成功率對比結(jié)果,可以看出,本發(fā)明在大部分閾值下都具有較高的重疊率,表明本發(fā)明對目標大小的預(yù)測具有較好的成功率。[0114]圖9-圖11為本發(fā)明方法與其它RGBT目標跟蹤方法的可視化跟蹤結(jié)果,可以看出,本發(fā)明在小目標、相似目標等挑戰(zhàn)場景下都能夠準確跟蹤物體,具有較好的性能。其中,T
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 法院鑒定協(xié)議書范本
- 以分紅還借款的協(xié)議書
- 2025年直播帶貨供應(yīng)鏈跨境選品報告
- 小學科學課堂中生成式AI輔助的教師教學互動策略創(chuàng)新研究教學研究課題報告
- 降維在圖像處理中的應(yīng)用-洞察及研究
- 跨設(shè)備用戶界面設(shè)計原則-洞察及研究
- 磁通渦旋動力學-洞察及研究
- 跨語言自適應(yīng)匹配方法研究-洞察及研究
- 創(chuàng)新資源配置模型構(gòu)建-洞察及研究
- 初中英語詞匯教學中語境猜測法的應(yīng)用研究教學研究課題報告
- 公園游船安全知識培訓課件
- 保安崗位安全意識培訓課件
- 智能家居行業(yè)人才競爭分析2025年可行性研究報告
- 醫(yī)院四級電子病歷評審匯報
- 工會財務(wù)知識課件
- 國學館展廳設(shè)計
- 三維傷口掃描系統(tǒng):革新傷口評估模式的關(guān)鍵力量
- AI在體育領(lǐng)域的數(shù)據(jù)分析與預(yù)測
- 國開機考答案 管理學基礎(chǔ)2025-06-21
- 2025年春國開(新疆)《國家安全教育》平時作業(yè)1-4題庫
- T/CI 312-2024風力發(fā)電機組塔架主體用高強鋼焊接性評價方法
評論
0/150
提交評論