【《時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析》4400字(論文)】_第1頁
【《時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析》4400字(論文)】_第2頁
【《時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析》4400字(論文)】_第3頁
【《時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析》4400字(論文)】_第4頁
【《時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析》4400字(論文)】_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析目錄TOC\o"1-3"\h\u2703時空多尺度特征融合網(wǎng)絡(MSTN)行人再識別技術設計案例分析 1222961.1MSTN網(wǎng)絡結構 2223701.1.1全局特征(GlobalFeature)結構模塊 3182421.1.2局部特征(BranchFeature)結構模塊 4322811.1.3細粒度特征(ParticialFeature)結構模塊 5317811.1.4注意力(Attention)模塊 6144581.1.5時空特征流(Spatial-TemporalStream)模塊 8177891.1.6聯(lián)合度量(JointMetric)模塊 9266591.2損失函數(shù)設計 11133311.2.1IDLoss與LabelSmooth 11168441.2.2TripletLoss三元組損失 11行人再識別技術在身份鑒別上的性能,很大程度上依賴于采取的識別方式與網(wǎng)絡結構。傳統(tǒng)基于部分的識別方法,主要集中在定位具有特定預定義語義的區(qū)域來學習局部表示,不僅增加了訓練成本,還對具有較大方差的場景不具有泛化性與高效性。本文通過融合不同尺度判別信息,提出視覺特征結合時空信息雙流學習策略,為提高行人再識別技術性能提供行而有效的方法。1.1MSTN網(wǎng)絡結構圖1.1時空多尺度特征融合網(wǎng)絡結構細粒度特征提取。通過將特征圖像均勻地分割成若干條帶,并分別對粒度分支進行Pointwise卷積,從而獲得具有多個粒度的局部特征表示。隨著分割數(shù)目的增加,每個部分條帶中集中了更加精細的判別信息,過濾其他條帶上的信息。局部特征提取。經(jīng)過全局最大池化將特征圖二分,由于深度學習機制可以從整個圖像中獲取主體上的近似響應偏好,因此也可以從較小的局部區(qū)域中提取出較細粒度的局部特征顯著性,通過特征圖結構分割分別關注行人上下部分的細節(jié)信息。全局特征提取。在多分支的深層網(wǎng)絡結構中,選取分支保留整體特征圖用于全局特征表示。全局特征負責整體宏觀上的公共特征提取,關注圖像整體結構特征,獲取最粗粒度的特征信息。視覺特征集成。整合細粒度特征、局部特征、全局特征,融合多尺度特征進行度量學習和表征學習。在整體框架識別的基礎上,保留多尺度特征信息,增強身份鑒別的準確性,能夠有豐富的信息和細節(jié)去表征輸入圖片的完整情況。時空特征提取。通過數(shù)據(jù)集圖片時間戳與攝像機ID,建立基于底庫圖片的攝像機時空分布描述,通過利用行人時空分布約束,消除大量不相關的圖像信息,緩解視覺特征外貌模糊以及部分遮擋問題。特征聯(lián)合度量。結合視覺特征流以及時空流行人約束,建立跨模態(tài)統(tǒng)一聯(lián)合量度,計算目標圖像與底庫數(shù)據(jù)的特征距離,得到目標特征距離排序RankingList。1.1.1全局特征(GlobalFeature)結構模塊全局特征模塊關注于行人整體特征,能夠有效地作為其他特征尺度的對照基準,緩解局部分塊可能造成的特征不對齊問題。圖1.2BNNeck網(wǎng)絡結構因此在MSTN網(wǎng)絡中,本設計在批歸一化瓶頸(BatchNormalizationNeck,BNNeck)REF_Ref24276\r\h[28]的研究基礎上引入注意力模塊,通過Attention機制強調(diào)全局特征中行人特征部分,達到近似前景提取的邏輯過程,但在結構設計上端對端的網(wǎng)絡比前景提取算法效率更高,參數(shù)計算更少。其次移除了BNNeck中的Inferencestage以及全局平均池化(GlobalAveragePooling)層后的三元組損失(TripletLoss)REF_Ref24380\r\h[29]處理。TripletLoss在單一以全局特征為特征計算的網(wǎng)絡結構,如BNNeck中具有性能優(yōu)勢,但對于多尺度特征融合的網(wǎng)絡設計,過早在全連接層之前使用三元組損失會影響樣本在損失空間的特征分布,導致模型精度下降。圖1.3不同損失空間的樣本分布通過圖1.3樣本在不同損失空間中的二維分布,可以得到不同損失之間的疊加使用未必能達到更優(yōu)的分類效果。三元組損失和ID損失的疊加雖然能夠因為三元組損失的性能整體有所提升,但顯然不是最優(yōu)的結果。加入批歸一化層后縮緊了樣本類內(nèi)間距,同時優(yōu)化類間距離,能夠有效反映在模型準確率提升上。1.1.2局部特征(BranchFeature)結構模塊經(jīng)過Backbone網(wǎng)絡輸出的特征圖,局部特征分支我們首先采取最大池化的方式對數(shù)據(jù)進行下采樣,減少特征圖面積達到降低參數(shù)的目的。與平均池化提取特征平均信息相比,最大池化更多是做了特征選擇,選出了分類辨識度更好的特征,更多保留了紋理信息,這在本文局部特征提取任務上更具有適用性。圖1.4最大池化與平均池化計算過程最大池化層中設置長方形卷積核便于進行局部特征二分離,其中卷積層計算方式見式1.1,得到輸出特征矩陣為。(1.1)特征分塊后分別進行1x1大小的Pointwise卷積進行通道壓縮,減少最后全連接層的輸入通道,有效減少全連接訓練參數(shù)。1.1.3細粒度特征(ParticialFeature)結構模塊細粒度特征結構模塊中引入孫奕帆等人REF_Ref19005\r\h[5]提出的PCB(Part-basedConvolutionalBaseline)+RPP(refinedpartpooling)模型結構。雖然RPP策略保證了行人局部分塊的位置結構信息能夠對齊原特征圖,但非端對端的模型讓算法增加了額外的資源開銷。因此本文多尺度特征融合通過采用多級分支的方式來緩解局部分塊對齊壓力,不同尺度之間通過三元組損失進行度量學習,使得分級之間能夠互為基準,解決了需要額外算法引入的對齊需要。圖1.5RPP對齊策略PCB結構通過水平均分圖像成6個模塊(見圖1.6),根據(jù)不同水平分塊設置不同的權重,達到根據(jù)不同的特點賦予不同的重視程度的目的。在實際場景的應用上,能夠有效降低行人重識別技術對部分衣物特征的依賴問題。圖1.6PCB網(wǎng)絡結構1.1.4注意力(Attention)模塊行人重識別任務需要深度學習模型抑制背景區(qū)域的噪聲干擾,著眼于目標行人區(qū)域,因此注意力機制在行人重識別問題上大有用武之地。然而傳統(tǒng)被廣泛使用的SE注意力模塊只考慮了通過建模通道相互關系來衡量通道之間的重要性,而忽略了特征圖的位置關系,即空間注意力部分。但位置信息對于特征圖像生成空間結構注意力權重,劃分不同位置特征的重要性具有重要意義。因此本文通過引入聯(lián)合注意力CA(CoordinateAttention)REF_Ref24671\r\h[30]模塊,增強MSTN網(wǎng)絡全局分支特征提取的網(wǎng)絡性能。圖1.7CA注意力在MobileNetV2上的性能CA注意力機制模塊旨在增強移動網(wǎng)絡學習特征的表達能力,擁有著計算開銷小,多任務(目標檢測、語義分割)性能優(yōu)越的優(yōu)勢,對于輕量級網(wǎng)絡如EfficientNet、EfficientNetV2、MobileNetV2REF_Ref24808\r\h[31]等網(wǎng)絡有著很強的適應性與應用價值。圖1.8CABlock結構CA注意力模塊通過在兩個方向上的位置信息精確編碼來生成聯(lián)合注意力,具體分為Coordinate信息嵌入和CoordinateAttention生成兩個步驟。在Coordinate信息嵌入部分,通過全局平均池化分別從水平坐標和垂直坐標兩個方向進行通道注意力編碼,使用尺寸(H,1)與(1,W)的池化核分別進行池化運算。得到一對方向感知的特征圖,聚合了沿水平以及垂直方向的空間特征,有助于網(wǎng)絡更加準確地定位感興趣的目標。通過信息嵌入的變換后,使用Concat操作疊加兩個方向上的空間特征,1x1卷積運算過后進行批歸一化與非線性映射處理。接著將特征圖按照原來的高度和寬度進行1x1卷積運算恢復通道數(shù),經(jīng)過Sigmoid激活函數(shù)后分別得到特征圖在高度和寬度上的注意力權重。最后將得到的兩組注意力權重在原始特征圖上進行乘法加權計算,得到在寬度和高度方向上帶有注意力權重的特征圖。1.1.5時空特征流(Spatial-TemporalStream)模塊在行人重識別問題中由于圖像底庫信息量龐大,不同相機視圖之間的外觀模糊導致基于視覺特征提取的方法存在性能瓶頸。為了解決這一問題,本文引入ST-ReID(Spatial-TemporalPersonRe-identification,ST-ReID)REF_Ref24886\r\h[32]時空約束方法,通過建立數(shù)據(jù)底庫圖像之間的時空約束,消除大量無關圖像的檢索,輔助視覺特征流提高重識別的精度與效率。不同于基于視頻行人重識別中關注時間和空間不變的視覺特征處理,本文采用的時空流并不關注于圖像的視覺特征表示,而是利用行人跨不同相機之間的時空約束。例如一個在時刻被Camera1捕獲的人,具有很低的概率在時刻被距離Camera1較遠的Camera2捕獲(較?。?。圖1.9DukeMTMC-reID攝像機位置時空流信息的構建首先需要估計數(shù)據(jù)集時空直方圖(圖1.10),然后使用ParzenWindowMethod對直方圖進行平滑處理(圖1.11),最后得到行人時空相似性分數(shù)。圖1.10多機位時空頻率直方圖(平滑前)圖1.11多機位時空頻率直方圖(平滑后)對于數(shù)據(jù)集中任意兩張圖片,可以建立式(1.2)概率直方圖描述,其中表示直方圖某一時間區(qū)域,表示相機,表示時間,y=1代表圖像對i和j是同一行人,y=0表示不同行人,表示直方圖第時間區(qū)域中有多少個圖像對的時間差在這一范圍內(nèi)。(1.2)式1.2中時間圖像對i和j的時間關系滿足,即圖像時間差位于直方圖第時間區(qū)域中。通過以上數(shù)學模型可以得到圖1.10多機位時空頻率直方圖,最后在頻率直方圖的基礎上引入Parzenwindow概率密度估計方法對直方圖進行平滑(式1.3)。是高斯核,屬于歸一化因子。(1.3)1.1.6聯(lián)合度量(JointMetric)模塊聯(lián)合量度模塊將視覺特征流與時空流數(shù)據(jù)進行聯(lián)合計算,通過拉普拉斯平滑(Laplacesmoothing)方法處理行人移動的突然概率事件,采取邏輯平滑(LogisticFunction)函數(shù)分別精修處理視覺特征與時空相似度兩個數(shù)值最后相乘。聯(lián)合量度模塊的設計在傳統(tǒng)行人識別與跨攝像機多目標追蹤之間架起橋梁。視覺特征流中采取余弦相似度的概念來評價兩個圖片的向量表達相似程度。而對于兩個向量,可以知道兩者之間的夾角越小,我們認為兩個向量越相似。式1.4利用余弦相似度得到兩個圖像視覺特征流的相似性分數(shù),分別代表行人的視覺特征向量。(1.4)傳統(tǒng)經(jīng)驗如果認為視覺特征流與時空流互不相關,互為獨立事件,得到的概率表達式可以理解為直接相乘如式1.5。(1.5)然而這種描述在視覺特征方面并不嚴謹,利用視覺相似得分作為概率進行計算并不合理,即:;其次在時空特征上,由于行人行走軌跡和速度的不確定性,直接使用時空相似度分數(shù)作為時空概率函數(shù),在保持精度的同時會導致低召回率。圖1.12拉普拉斯平滑應用價值舉例由圖1.12可以得到由于概率為零導致的整體(晴朗,風力弱,濕度低)情況下運動概率為零,而概率為零情況在聯(lián)合量度設計中應該避免。加入拉普拉斯平滑后,能夠調(diào)整罕見事件的概率值,將概率值收縮到(式1.6),避免上述頻率為0的問題。因此在行人重識別任務中,Laplacesmoothing方法能夠優(yōu)化模型對于行人移動突然性、隨意性的概率描述,兼顧了精度與召回率。(1.6)經(jīng)過拉普拉斯平滑后,引入邏輯平滑LogisticFunction方法對視覺特征流與時空流概率評分進行微調(diào),同時將時空流概率轉換為二元分類概率。對于式1.7,是平滑因子,是收縮因子,且兩者都是常數(shù)變量。(1.7)最后基于上述Laplacesmoothing與Logisticfunction轉換,得到最終概率見式1.8。(1.8)1.2損失函數(shù)設計1.2.1IDLoss與LabelSmooth將行人重識別以圖像分類的角度來看,每一個行人編號ID都代表著不同的類別,例如Market1501數(shù)據(jù)集就有751類。模型測試階段,我們移除最后的全連接層,將最后池化層過后的矩陣作為特征輸出,給定具有標簽的圖像,則被識別為的預測概率經(jīng)過softmax函數(shù),表示為。身份損失(IdentityLoss)由交叉熵計算:(4.1)普通的交叉熵(式4.2)對于正樣本而言,輸出概率越大損失越大,對于負樣本而言,輸出概率越小則損失越小。但在ReID實際應用過程中還是存在許多的負樣本,類別越多負樣本的數(shù)量越大,為了做好負樣本的合理建模而不是直接忽略,可以在交叉熵中引入LabelSmooth(式4.3)來計算負樣本的概率,而不是單純二分。通過標簽平滑的方式可以防止部分行人圖片量太少導致的訓練集過擬合,提高模型的泛化能力。(4.2)(4.3)1.2.2TripletLoss三元組損失TripletLoss最初是在FaceNet的論文中提出,能夠較好地學習到人臉的embedding,相似的圖像在嵌入空間里是相近的,可以根據(jù)距離來判斷是否是同一張人臉。TripletLoss的訓練目標就

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論