基于深度學(xué)習(xí)的行人跟蹤與應(yīng)用_第1頁(yè)
基于深度學(xué)習(xí)的行人跟蹤與應(yīng)用_第2頁(yè)
基于深度學(xué)習(xí)的行人跟蹤與應(yīng)用_第3頁(yè)
基于深度學(xué)習(xí)的行人跟蹤與應(yīng)用_第4頁(yè)
基于深度學(xué)習(xí)的行人跟蹤與應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-[22]也逐漸趨于成熟,但外部因素的影響存在著很多的不確定,還有很多問(wèn)題需要得到解決,未來(lái)基于深度學(xué)習(xí)行人跟蹤技術(shù)的發(fā)展擁有許多無(wú)限可能并會(huì)更加的先進(jìn)。1.3主要研究?jī)?nèi)容本文主要針對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域的行人跟蹤問(wèn)題展開(kāi)研究,主要是利用YOLOv4檢測(cè)算法和SORT追蹤算法相結(jié)合,實(shí)現(xiàn)對(duì)行人的有效跟蹤。在此基礎(chǔ)上使DeepSORT跟蹤算法與YOLOv4檢測(cè)算法結(jié)合,對(duì)比兩者之間的效率和跟蹤精準(zhǔn)率,得出最終的結(jié)論。YOLOv4檢測(cè)算法基于卷積神經(jīng)網(wǎng)絡(luò),能高精度實(shí)時(shí)檢測(cè)圖像中的行人并且檢測(cè)速度較高,其運(yùn)用的主干網(wǎng)絡(luò)模型為CSPDarknet結(jié)構(gòu),該模型網(wǎng)絡(luò)層數(shù)較大,會(huì)消耗大量的資源和時(shí)間,又因?yàn)槭褂酶畹木W(wǎng)絡(luò)結(jié)構(gòu)會(huì)增加參數(shù)數(shù)量和計(jì)算機(jī)內(nèi)存,所以引入了通道注意力機(jī)制改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)并在提取圖像的特征時(shí)保持信息的豐富性,同時(shí)運(yùn)用CBAM注意力機(jī)制用來(lái)減少目標(biāo)檢測(cè)的局限性。SORT和DeepSORT跟蹤算法是近年運(yùn)用比較多的算法,SORT算法是通過(guò)對(duì)未采用將來(lái)幀的實(shí)時(shí)跟蹤,對(duì)下一幀檢查框的狀態(tài)進(jìn)行預(yù)測(cè),并將其與下一幀的檢測(cè)結(jié)果相匹配。DeepSORT算法在此基礎(chǔ)上入了運(yùn)動(dòng)信息和表觀信息,在對(duì)運(yùn)動(dòng)目標(biāo)的圖像幀進(jìn)行檢測(cè)和追蹤之后,都會(huì)進(jìn)一步將目標(biāo)的表觀特征進(jìn)行提取處出來(lái)并存儲(chǔ)起來(lái)。兩算法均運(yùn)用了卡爾曼濾波算法和匈牙利算法,DeepSORT算法主要是加入級(jí)聯(lián)匹配和新軌跡的確認(rèn)。最后使YOLOv4檢測(cè)算法分別與兩種跟蹤算法相結(jié)合,比較出那種跟蹤算法較優(yōu)。1.4論文結(jié)構(gòu)安排本文分為五個(gè)章節(jié),文章結(jié)構(gòu)如下:第一章:緒論。重點(diǎn)介紹了行人跟蹤和檢測(cè)的研究背景和意義,對(duì)國(guó)內(nèi)外關(guān)于行人跟蹤和檢測(cè)的研究狀況進(jìn)行了系統(tǒng)的梳理,從中獲取該技術(shù)所存在的困難和缺陷,引出本課題研究的意義,并簡(jiǎn)要敘述本文主要的工作和研究的內(nèi)容。第二章:行人跟蹤和檢測(cè)的基礎(chǔ)理論。首先對(duì)傳統(tǒng)的特征提取方法進(jìn)行了詳細(xì)闡述,對(duì)于行人檢測(cè)算法,分別介紹了二和一階段檢測(cè)算法。接著概述行人跟蹤算法,主要闡述的是SORT跟蹤算法和DeepSORT跟蹤算法里都需要的卡爾曼濾波算法,最后對(duì)行人檢測(cè)的評(píng)估指標(biāo)進(jìn)行了介紹。第三章:通過(guò)將YOLOv4分別與SORT和DeepSORT算法相結(jié)合的形式,完成對(duì)行人的跟蹤。首先介紹了目標(biāo)跟蹤算法和目標(biāo)檢測(cè)算法YOLOv4的學(xué)習(xí)過(guò)程,然后分別描述跟蹤流程和一些相關(guān)指標(biāo)。將檢測(cè)到的行人位置信息傳給目標(biāo)跟蹤算法,從而實(shí)現(xiàn)行人跟蹤,最后用創(chuàng)建的數(shù)據(jù)對(duì)其做對(duì)比實(shí)驗(yàn)得到有效的驗(yàn)證。第四章:通過(guò)將檢測(cè)到的行人位置信息傳給目標(biāo)跟蹤算法,實(shí)現(xiàn)行人跟蹤。接著與現(xiàn)如今相關(guān)算法進(jìn)行比較,無(wú)論從跟蹤精確度、識(shí)別精度和誤報(bào)總數(shù)上看,YOLOv4與DeepSORT算法相結(jié)合是較優(yōu)和較突出的,最后用用創(chuàng)建的數(shù)據(jù)對(duì)其做對(duì)比實(shí)驗(yàn)得到有效的驗(yàn)證,得出該算法較優(yōu)。第五章:總結(jié)與展望。對(duì)論文主題的研究結(jié)果作了小結(jié),分析本次實(shí)驗(yàn)存在的不足,并且對(duì)今后研究方向和實(shí)際應(yīng)用方向作出展望。2行人檢測(cè)和跟蹤基礎(chǔ)理論本章主要介紹提取特征的卷積神經(jīng)網(wǎng)絡(luò)和基于深度學(xué)習(xí)的一階段算法里的YOLOv4網(wǎng)絡(luò)模型,接著是行人跟蹤算法中的KalmanFilter算法和行人檢測(cè)評(píng)估指標(biāo),為后續(xù)研究?jī)?nèi)容埋下堅(jiān)實(shí)的伏筆。2.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)擁有獨(dú)特的卷積結(jié)構(gòu),能夠大大降低深層神經(jīng)網(wǎng)絡(luò)對(duì)內(nèi)存的占用,這種設(shè)計(jì)提高了模型的效率和準(zhǔn)確性。卷積神經(jīng)網(wǎng)絡(luò)采用后向算法對(duì)其參數(shù)進(jìn)行相應(yīng)更新,使模型自動(dòng)學(xué)習(xí),其結(jié)構(gòu)如圖2.1所示:圖2.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2.1.1卷積層卷積層作為卷積神經(jīng)網(wǎng)絡(luò)的核心部分,通過(guò)卷積運(yùn)算從輸入圖像中提取局部的特征,并進(jìn)一步對(duì)提取的特征進(jìn)行分析和處理。卷積運(yùn)算是把輸入圖像與卷積核看作一個(gè)矩陣來(lái)處理,根據(jù)縱向水平步幅的大小在輸入圖像上滑動(dòng)卷積核,使卷積核和圖像上每個(gè)位置進(jìn)行相乘并相加,最后得到特征圖。常使用的卷積核有(1*1)、(3*3)和(5*5),其高寬度通常為奇數(shù),數(shù)學(xué)公式表達(dá)如2-1所示,接著我們對(duì)于一個(gè)3×3的卷積核進(jìn)行詳細(xì)卷積描述,如圖2.2所示:(2-1)圖2.2卷積操作示意圖如果將卷積核心的大小設(shè)為w×h,輸入圖像的尺寸大小為w1×h1,卷積核對(duì)輸入圖像的移動(dòng)步長(zhǎng)為s,則所獲得的特征圖的寬度為(w1?1)/s+1,輸出的特征圖的高度為(?1??)/s+1。對(duì)一幅1920×1080的高清圖片,如[[0,25,75],[0,75,80],[0,75,80]]區(qū)域與卷積核[[-1,0,1],[-2,0,2],[-1,0,1]]相乘得到結(jié)果為[[0,0,75],[0,0,80],[0,0,80]],最后將全部值累計(jì)得到235,即特征圖的235表示的是輸入圖像在3×3區(qū)域的特征值。卷積操作不但能提取圖片里的豐富的特征,還減少了對(duì)圖片進(jìn)行大量計(jì)算和處理。2.1.2池化層卷積神經(jīng)網(wǎng)絡(luò)里通常會(huì)在卷積層后引入池化層,池化層主要通過(guò)在兩個(gè)卷積層間進(jìn)行壓縮運(yùn)算,能提取輸入圖像中的關(guān)鍵特征,去除冗余信息,有效的規(guī)避過(guò)擬合。池化層有兩種常用的操作方式,最大池化是在各個(gè)區(qū)域內(nèi)選擇最大值進(jìn)行池化,而平均池化是計(jì)算各個(gè)區(qū)域的平均值,最后輸出對(duì)應(yīng)的特征圖。(1)最大值池化。是通過(guò)取最大值來(lái)減少數(shù)據(jù)量,對(duì)卷積層提取的信息進(jìn)行更深入的降維,提高圖像特征的不變性。假設(shè)特征圖是4×4,池化過(guò)程中的步長(zhǎng)為2,池化窗口大小為2×2,其目的是將特征圖分為四個(gè)2×2的小特征塊,在每個(gè)小特征塊里選擇最大值來(lái)作為下一層的輸入。其最大值池化操作過(guò)程如下圖2.3所示:圖2.3最大池化示意圖(2)平均值池化。是通過(guò)求均值來(lái)得到特征圖像中的所有特征信息,能較好地保留圖像的背景信息,并突出背景信息。會(huì)在一定程度上減少噪聲,相比于最大值池化,平均值池化會(huì)盡可能保留特征圖大部分的語(yǔ)義信息。假設(shè)特征圖是4×4,池化過(guò)程中的步長(zhǎng)為2,池化窗口大小為2×2,其目的是將特征圖分為四個(gè)2×2的小特征塊,在每個(gè)小特征塊里選擇平均值(向上取整保留)來(lái)作為下一層的輸入。其平均值池化操作過(guò)程如下圖2.4所示:圖2.4平均池化示意圖2.1.3全連接層全連接層也稱為密集連接層,該方法的核心在于將提取的特征進(jìn)行非線性組合,并以全連接的方式送出輸出層,實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的最后輸出。其模型的參數(shù)是共享的,可減少需要優(yōu)化的參數(shù)量,結(jié)構(gòu)簡(jiǎn)單易實(shí)現(xiàn)。全連接層的運(yùn)作機(jī)制在于將每個(gè)結(jié)點(diǎn)都與上層的所有結(jié)點(diǎn)相連接,把前面提取的特征蹤合起來(lái),假設(shè)全連接層的輸入為m1,m2,m3,輸出結(jié)果為n1,n2,n3,如圖2.5所示:圖2.5全連接示意圖2.2YOLOv4網(wǎng)絡(luò)模型YOLOv4算法在目前看來(lái),也算是比較具有代表性的YOLO算法,在速度與精度方面都有極大的性能提升。該算法通過(guò)Mosaic數(shù)據(jù)增強(qiáng)技術(shù)來(lái)提高模型的學(xué)習(xí)效率,并以CSPDarknet53作為基準(zhǔn)網(wǎng)絡(luò)來(lái)用于特征提取,有效提高模型的泛化能力。最后通過(guò)自下向上的PAN特征金字塔來(lái)反復(fù)提取改進(jìn)點(diǎn),提高網(wǎng)絡(luò)特征提取性能。YOLOv4網(wǎng)絡(luò)主要由四個(gè)部分組成,如圖2.6所示:圖2.6YOLOv4模型結(jié)構(gòu)圖2.3卡爾曼濾波算法卡爾曼濾波早期是由Kalman設(shè)計(jì)出的狀態(tài)預(yù)估算法,也稱為線性二次估計(jì),通過(guò)線性系統(tǒng)狀態(tài)模型和觀測(cè)模型來(lái)對(duì)目標(biāo)狀態(tài)進(jìn)行最優(yōu)的估計(jì)??柭鼮V波器具有較低的運(yùn)算量和較高的實(shí)時(shí)處理的效果,能運(yùn)用于宇宙飛船的引導(dǎo)、導(dǎo)航、機(jī)器人運(yùn)動(dòng)規(guī)化和控制等領(lǐng)域。卡爾曼濾波算法預(yù)報(bào)是根據(jù)前一刻狀態(tài)估計(jì)和控制輸入生成當(dāng)前狀態(tài)的預(yù)報(bào)值,利用狀態(tài)變量和觀測(cè)變量來(lái)獲取比較接近目標(biāo)的真實(shí)數(shù)據(jù),讓其作為下一周期的狀態(tài)變量,又利用觀測(cè)變量不斷迭代,減小兩者間的區(qū)別和誤差,最后得到一個(gè)十分真實(shí)的預(yù)測(cè)數(shù)據(jù),有效對(duì)目標(biāo)進(jìn)行預(yù)測(cè)??柭鼮V波算法預(yù)估計(jì)算如下2-2,2-3所示:預(yù)測(cè)狀態(tài)向量:(2-2)該式子是根據(jù)前一刻的狀態(tài)來(lái)對(duì)當(dāng)前狀態(tài)進(jìn)行預(yù)測(cè),其中是k時(shí)刻預(yù)測(cè)狀態(tài)向量的預(yù)估值,A是狀態(tài)轉(zhuǎn)移矩陣,刻畫狀態(tài)在不同時(shí)間的變化,是k-1時(shí)刻狀態(tài)向量的估計(jì)值,B作為輸入控制矩陣,反應(yīng)外部輸入對(duì)系統(tǒng)狀態(tài)的影響,是k時(shí)刻的控制量。預(yù)測(cè)協(xié)方差矩陣:(2-3)該式子為協(xié)方差預(yù)測(cè),是通過(guò)上一刻協(xié)方差來(lái)估計(jì)當(dāng)前時(shí)刻的協(xié)方差矩陣,是i-1時(shí)刻的狀態(tài)估計(jì)的最佳值,是系統(tǒng)過(guò)程中的高斯噪聲協(xié)方差矩陣,描述模型里的不確定因素。更新使用傳感器測(cè)量到的數(shù)據(jù)來(lái)修正預(yù)測(cè)的狀態(tài)估計(jì),卡爾曼濾波增益值可由當(dāng)前時(shí)間狀態(tài)估計(jì)值的協(xié)方差矩陣計(jì)算得出,如下2-4,2-5,2-6所示:(2-4)該式是對(duì)i時(shí)刻卡爾曼權(quán)重值進(jìn)行計(jì)算,其中是卡爾曼濾波增益值,權(quán)衡預(yù)估值和觀測(cè)值的狀態(tài)修正估計(jì),是系統(tǒng)的觀測(cè)矩陣,是觀測(cè)噪聲的協(xié)方差矩陣。更新的狀態(tài)估計(jì):(2-5)該式子是對(duì)k時(shí)刻的觀測(cè)值和預(yù)測(cè)結(jié)果進(jìn)行加權(quán)處理,其中zk更新協(xié)方差矩陣:(2-6)該式子是k時(shí)刻的狀態(tài)估計(jì)協(xié)方差矩陣的最佳值,其中I是單位矩陣。2.4行人檢測(cè)的評(píng)估指標(biāo)在深度學(xué)習(xí)的目標(biāo)檢測(cè)任務(wù)中,根據(jù)需求的不同,可將其劃分為分類任務(wù)和回歸任務(wù)。在行人檢測(cè)問(wèn)題中,判定模型的好壞主要的評(píng)價(jià)標(biāo)準(zhǔn)為mAP,本節(jié)會(huì)對(duì)其算法進(jìn)行詳細(xì)介紹,涵蓋其中比較重要的算法。平均檢測(cè)準(zhǔn)確度平均檢測(cè)準(zhǔn)確度(mAP)是評(píng)估目標(biāo)位置和分類的性能度量標(biāo)準(zhǔn),其是通過(guò)所有類別的平均精度(AP)求平均得到的。AP計(jì)算見(jiàn)公式(2-7):(2-7)其中n為數(shù)據(jù)總量,N為需要檢測(cè)的圖像樣本數(shù)量,是預(yù)測(cè)精確率,是第k個(gè)預(yù)測(cè)結(jié)果,若有M個(gè)類別,則mAP可表示檢測(cè)圖像準(zhǔn)確度的平均值,用所有類別的AP值來(lái)求均值。mAP求解公式如(2-8)所示:(2-8)(2)準(zhǔn)確率和召回率準(zhǔn)確率和召回率是評(píng)估行人檢測(cè)算法性能的主要指標(biāo),其中準(zhǔn)確率是檢測(cè)為正樣本的與總檢測(cè)數(shù)量之比,它是用來(lái)衡量本分類器分出來(lái)的是否是一個(gè)正類的可能性,公式如(2-9)所示:(2-9)該式中TP為正的抽樣數(shù)量且預(yù)測(cè)的結(jié)果是準(zhǔn)確的,F(xiàn)P為正的抽樣數(shù)量但預(yù)測(cè)的結(jié)果是錯(cuò)誤的。召回率是正確的檢測(cè)到的行人數(shù)量與實(shí)際擁有的行人數(shù)量之比,公式如(2-10)所示:(2-10)該式中FN是預(yù)測(cè)被分為負(fù)樣本但預(yù)測(cè)結(jié)果是錯(cuò)誤的,Precious與Recall是成比的關(guān)系,一般查全率高則查準(zhǔn)率就低。2.5本章小結(jié)本章主要講述了卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)概念,接著概述了YOLOv4網(wǎng)絡(luò)模型的組成,本文主要以YOLOv4網(wǎng)絡(luò)模型為第三第四章的目標(biāo)檢測(cè)框架,與跟蹤算法相結(jié)合所能達(dá)到的效果,還介紹了相關(guān)行人跟蹤算法里的卡爾曼濾波算法理論基礎(chǔ),最后描述行人檢測(cè)幾個(gè)常使用的評(píng)估指標(biāo),該章基礎(chǔ)技術(shù)的講述為后續(xù)論文的書寫以及實(shí)驗(yàn)做了良好的鋪墊。3基于YOLOv4網(wǎng)絡(luò)模型的行人跟蹤本章主要介紹將YOLOv4網(wǎng)絡(luò)模型與跟蹤算法相結(jié)合所實(shí)現(xiàn)行人跟蹤,跟蹤算法分別是SORT算法和DeepSORT算法,對(duì)比其效果得到最優(yōu)結(jié)合算法,為后續(xù)研究?jī)?nèi)容埋下鋪墊。3.1基于YOLOv4與SORT算法的行人跟蹤隨著信息技術(shù)不斷的發(fā)展,各類視頻圖像數(shù)據(jù)量變得更龐大,而從海量的視頻和圖像中提取隱藏信息,是重要研究方向。增加深度學(xué)習(xí)技術(shù)進(jìn)行特征提取,是一種良好的方式,深度神經(jīng)網(wǎng)絡(luò)的引入,提升了視頻目標(biāo)的特征提取的效能。深度神經(jīng)網(wǎng)絡(luò)是由多個(gè)神經(jīng)元層層堆疊的方式組成的網(wǎng)絡(luò)模型,逐步自動(dòng)提取輸入數(shù)據(jù)里的高層次和多次特征表達(dá),相比人工手動(dòng)生成目標(biāo)特征,自動(dòng)自學(xué)提取特征提升了目標(biāo)跟蹤的準(zhǔn)確度。深度學(xué)習(xí)里的卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),在目標(biāo)特征提取和分類處理的能力較好,跟蹤能力較好,但是這不能滿足如今想要達(dá)到的實(shí)時(shí)跟蹤的效果,僅僅是對(duì)第一幀的位置信息進(jìn)行標(biāo)注,在后續(xù)的跟蹤過(guò)程里,正負(fù)樣本數(shù)量很少,這使深度學(xué)習(xí)技術(shù)很難處理?yè)碛写罅繑?shù)據(jù)的跟蹤任務(wù)。監(jiān)控視頻里的目標(biāo)并不是單一靜態(tài)的,單目標(biāo)跟蹤方法已經(jīng)達(dá)不到想要的效果,而YOLO檢測(cè)框架的出現(xiàn)打破了現(xiàn)在的困境。其中,YOLOv4目標(biāo)檢測(cè)算法性能好速度快,能達(dá)到高精度的檢測(cè)效果。僅靠目標(biāo)檢測(cè)算法還不能實(shí)現(xiàn)準(zhǔn)確穩(wěn)定的目標(biāo)跟蹤,在復(fù)雜場(chǎng)景需要處理多目標(biāo)同時(shí)跟蹤的問(wèn)題時(shí),與SORT跟蹤算法結(jié)合,能高效的對(duì)目標(biāo)進(jìn)行實(shí)時(shí)追蹤。本小節(jié)主要使用YOLOv4網(wǎng)絡(luò)模型將SORT算法相結(jié)合,完成行人的跟蹤。3.1.1SORT目標(biāo)跟蹤算法SORT是一種實(shí)時(shí)多目標(biāo)跟蹤算法,一般會(huì)使用矩形將目標(biāo)給框起來(lái),以此來(lái)表示目標(biāo)所在位置。SORT算法計(jì)算資源消耗小,在沒(méi)有遮擋的情況下速度。其核心過(guò)程是主要是用目標(biāo)檢測(cè)結(jié)果來(lái)作為輸入,匈牙利算法來(lái)對(duì)目標(biāo)進(jìn)行匹配,結(jié)合卡爾曼算法提取目標(biāo)的運(yùn)動(dòng)特征,以預(yù)測(cè)行人的下一幀位置,最后通過(guò)行人目標(biāo)軌跡檢測(cè)框和預(yù)測(cè)框之間的交集和相互關(guān)系矩陣IOU,使各目標(biāo)間相互關(guān)聯(lián)起來(lái),IOU結(jié)構(gòu)如3.1所示,來(lái)實(shí)現(xiàn)最佳匹配連續(xù)跟蹤。該算法操作關(guān)鍵步驟是:首先是通過(guò)目標(biāo)的特征建立一個(gè)運(yùn)動(dòng)模型,如3-5所示,然后利用前一幀數(shù)據(jù)信息,使用卡爾曼濾波技術(shù)來(lái)對(duì)下一幀數(shù)據(jù)進(jìn)行預(yù)測(cè),通過(guò)匈牙利算法與前一幀的檢測(cè)信息進(jìn)行比較,得出相似數(shù)據(jù)。圖3.1IOU模型示意圖圖中A為行人的預(yù)測(cè)邊框,B是經(jīng)檢測(cè)器后輸出的真實(shí)的邊框,而A∩B為交叉部分。IOU運(yùn)算公式如3-1所示:(3-1)該公式中SA為預(yù)測(cè)邊框的面積,S在IOU操作中,是將上一幀的預(yù)測(cè)框映射到當(dāng)前的幀中,并將邊界的位置用左上角、右下角坐標(biāo)來(lái)表示,其中A=[ax1,ay1,ax2,ay2],B=[bx1,b圖3.2坐標(biāo)標(biāo)識(shí)示意圖當(dāng)A和B產(chǎn)生交集時(shí),該相交框通過(guò)左上方坐標(biāo)max(A的左上部坐標(biāo),B的左上部坐標(biāo)),右下方坐標(biāo)min(A的右下部坐標(biāo),B的右下部坐標(biāo)),因此SA,SB,SA(3-2)將3-1式與3-2式相結(jié)合得公式3-3:(3-3)IOU計(jì)算出可得預(yù)測(cè)框與真實(shí)框間的交并比距離矩陣,交并比距離計(jì)算方法如下公式3-4所示:(3-4)運(yùn)動(dòng)模型表式如下:(3-5)其中,x是檢測(cè)框的中心坐標(biāo),v是檢測(cè)框在當(dāng)前幀的橫坐標(biāo)和縱坐標(biāo),s是面積大小,r是檢測(cè)框的橫縱比例,是下一幀的預(yù)測(cè)信息。SORT跟蹤算法的核心在于利用卡爾曼濾波技術(shù)和目標(biāo)檢測(cè)算法獲取u,v,s的信息,隨后結(jié)合匈牙利算法進(jìn)行精準(zhǔn)匹配,并更新?tīng)顟B(tài)以實(shí)現(xiàn)軌跡預(yù)測(cè),最終實(shí)現(xiàn)跟蹤的效果,其主要實(shí)現(xiàn)流程如下圖3.3所示:圖3.3SORT算法流程圖從圖中可以看出,目標(biāo)跟蹤SORT算法被劃分為兩部分,卡爾曼濾波預(yù)測(cè)和更新過(guò)程與匈牙利匹配過(guò)程,在執(zhí)行匈牙利匹配時(shí),若當(dāng)IOU低于規(guī)定的閾值時(shí),會(huì)刪除該檢測(cè)框相應(yīng)信息。主要還是利用匈牙利算法對(duì)當(dāng)前幀的檢測(cè)結(jié)果Detections與預(yù)測(cè)后的Tracker進(jìn)行匹配,這一匹配過(guò)程會(huì)有三種結(jié)果出現(xiàn),第一種是Tracker未能匹配成功;第二種是Detection未匹配,這時(shí)會(huì)用該框的幾何信息為初始狀態(tài)來(lái)創(chuàng)建一個(gè)Tracker;第三種是檢測(cè)結(jié)果Detection與Tracker匹配成功,則使用該檢測(cè)結(jié)果來(lái)作為觀測(cè)值更新Tracker狀態(tài)。3.1.2YOLOv4網(wǎng)絡(luò)模型預(yù)訓(xùn)練YOLOv4網(wǎng)絡(luò)模型在過(guò)去算法的基礎(chǔ)上進(jìn)行了大量?jī)?yōu)化,主要由四個(gè)部分組成來(lái)提升模型性能。使用數(shù)據(jù)集VOC2007在PyTorch里訓(xùn)練YOLOv4網(wǎng)絡(luò)模型,PyTorch框架在物體檢測(cè)、圖像分類以及分割等領(lǐng)域被廣泛使用,PyTorch采用動(dòng)態(tài)計(jì)算圖的方式,使得在編寫過(guò)程里可以輕松的修改網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù);PyTorch是依循三個(gè)層級(jí)的抽象,可以同時(shí)被修改和操縱。訓(xùn)練主要過(guò)程如下:首先是數(shù)據(jù)集的準(zhǔn)備,本小節(jié)使用的是VOC2007數(shù)據(jù)集,該數(shù)據(jù)集具有豐富的類別標(biāo)注,可以作為圖像分類識(shí)別能級(jí)的基準(zhǔn)。接著是通過(guò)目標(biāo)檢測(cè)的標(biāo)注工具來(lái)對(duì)圖像中的行人進(jìn)行標(biāo)記,這時(shí)會(huì)生成與圖像對(duì)應(yīng)的含有坐標(biāo)位置信息的xml文件,該文件主要包含相應(yīng)的影像名稱和標(biāo)注點(diǎn)的坐標(biāo),然后是把xml文件轉(zhuǎn)換為yolo指定格式的txt文件,轉(zhuǎn)換后xml文件就不需要了,可以將xml文件移動(dòng)到其他文件夾里面,生成的train.txt文件里面含有所有圖像的路徑和目標(biāo)行人的位置信息以及種類。輸入到網(wǎng)絡(luò)的圖片尺寸會(huì)影響處理效率,需要在train.py程序中對(duì)input_shape進(jìn)行更改,由于電腦顯存較小訓(xùn)練需要圖像尺寸偏小,將要使用的input_shape參數(shù)設(shè)為(416,416),假設(shè)設(shè)置為(608,608)會(huì)使得訓(xùn)練速度較慢,在訓(xùn)練過(guò)程里利用裁剪、縮放和顏色抖動(dòng)等技術(shù),可以有效的提升模型的泛化性能。其次是將置信度設(shè)為0.5,輸入到網(wǎng)絡(luò)的圖片尺寸大小設(shè)為(416,416)。首先是計(jì)算出輸入的圖片的高寬數(shù)值,接著是對(duì)圖片進(jìn)行l(wèi)etterbox_image操作,保持圖片高寬比不變能等比例縮放,確保圖片不出現(xiàn)失真和形變的情況出現(xiàn)。將原始圖片的尺寸調(diào)整為416×416,然后是用灰色填充短邊沒(méi)有匹配的的部分,保證圖片的尺寸符合模型要求。接著進(jìn)行歸一化處理,直接將圖像像素除以255傳入到網(wǎng)絡(luò)中,圖像像素轉(zhuǎn)換為0-1之間,使得圖像像素值縮放到較小的范圍,不同通道的圖像像素值具有相似的尺度,有助于模型更穩(wěn)定更好的提取圖像的特征,最終得到預(yù)測(cè)結(jié)果。將解碼后的結(jié)果用非極大值抑制保留一定區(qū)域里面的概率最高的候選框,遍歷完所有剩余的框,所有沒(méi)有被限制的框作為最后的檢測(cè)框,將其調(diào)整到與原始圖相符合的形狀(去除灰條),此時(shí)就能檢測(cè)圖像。3.1.3基于YOLOv4與SORT算法的行人跟蹤流程本節(jié)是將YOLOv4檢測(cè)算法與SORT目標(biāo)跟蹤算法相結(jié)合,從而實(shí)現(xiàn)對(duì)行人的精準(zhǔn)跟蹤。跟蹤主要分為兩部分行人的檢測(cè)與行人的跟蹤,導(dǎo)入指定路徑的視頻,讀取視頻里的每一幀圖像,調(diào)整圖像的顯示窗口的大小,然后用lableImg對(duì)圖像里的行人目標(biāo)進(jìn)行標(biāo)記,圖像對(duì)應(yīng)的xml文件中會(huì)生成目標(biāo)的位置信息。YOLOv4訓(xùn)練用的是VOC2007數(shù)據(jù)集,將YOLOv4模型訓(xùn)練的參數(shù)存儲(chǔ)到pt模型里,簡(jiǎn)化使用方式,進(jìn)行輕量級(jí)部署。當(dāng)損失loss數(shù)值發(fā)生收斂后,行人檢測(cè)就可以進(jìn)行,將檢測(cè)到的T1,T2,T3時(shí)刻的行人位置數(shù)左上角坐標(biāo)標(biāo)為(x1,y1)且右下角坐標(biāo)標(biāo)為(x2,y2)輸入到相應(yīng)的SORT算法里。首先采用卡爾曼濾波器,實(shí)現(xiàn)對(duì)目標(biāo)初步定位,其次利用匈牙利算法,通過(guò)IOU匹配,將預(yù)測(cè)結(jié)果和當(dāng)前幀中的Detecions相關(guān)聯(lián)起來(lái),最后對(duì)卡爾曼濾波器進(jìn)行更新,本節(jié)跟蹤的具體流程如下圖3.4所示:圖3.4基于YOLOv4與SORT算法的行人跟蹤流程圖3.2基于YOLOv4與DeepSORT算法的行人跟蹤近年來(lái)目標(biāo)檢測(cè)成為技術(shù)發(fā)展不可或缺的一部分,實(shí)現(xiàn)行人跟蹤的前提是對(duì)目標(biāo)行人進(jìn)行特征分析處理和軌跡預(yù)測(cè)。對(duì)目標(biāo)行人的標(biāo)識(shí)是較重要的一部分,目標(biāo)檢測(cè)的算法有很多,配合較優(yōu)的目標(biāo)跟蹤算法能較精準(zhǔn)的對(duì)行人進(jìn)行跟蹤,在目標(biāo)出現(xiàn)遮擋、光照變化等情況也能保持穩(wěn)定的研究效果,是深度學(xué)習(xí)研究的方向。SORT目標(biāo)跟蹤算法較為簡(jiǎn)單,場(chǎng)景出現(xiàn)遮擋或者其他因素影響,都會(huì)使跟蹤任務(wù)暫時(shí)中斷,在高幀率場(chǎng)景下會(huì)有良好的性能表現(xiàn)。該小節(jié)采用YOLOv4檢測(cè)算法與DeepSORT跟蹤算法相結(jié)合進(jìn)行行人跟蹤,使用的數(shù)據(jù)集為MOT2017,還將其與其它跟蹤算法作比較,如YOLOv3檢測(cè)算法與DeepSORT目標(biāo)跟蹤算法相結(jié)合的行人跟蹤和SSD網(wǎng)絡(luò)與DeepSORT目標(biāo)跟蹤算法相結(jié)合的行人跟蹤,得出一個(gè)較表觀的結(jié)論。3.2.1DeepSORT目標(biāo)跟蹤算法DeepSORT算法是在SORT算法的基礎(chǔ)上進(jìn)行了優(yōu)化,將表觀遺傳信息添加到檢測(cè)和預(yù)測(cè)框的排列中,并使用級(jí)聯(lián)匹配來(lái)確保行人身份信息不易丟失。DeepSORT算法對(duì)目標(biāo)被遮擋和發(fā)生變形等情況擁有很好的適應(yīng)能力,能實(shí)時(shí)相對(duì)穩(wěn)定的對(duì)目標(biāo)進(jìn)行追蹤,不會(huì)在遮擋的情況下丟失跟蹤的目標(biāo),有很好的連續(xù)跟蹤能力。其跟蹤原理是通過(guò)目標(biāo)檢測(cè)的檢測(cè)結(jié)果信息,使用一個(gè)八維的空間來(lái)表示某時(shí)刻目標(biāo)的狀態(tài),分別用中心坐標(biāo)、長(zhǎng)寬比例尺寸大小和圖像坐標(biāo)對(duì)應(yīng)的速度信息來(lái)描述檢測(cè)框。表示方式如3-6所示:(3-6)其中(??,??)是邊界框中心點(diǎn)的橫縱軸信息,??代表長(zhǎng)寬比,?代表高度。u,v,y,?分別表示在圖像坐標(biāo)系中的速度信息,將邊界坐標(biāo)為(??,??,??,?)作為作為觀測(cè)對(duì)像的狀態(tài)。在運(yùn)動(dòng)信息相關(guān)性方面,通過(guò)馬氏距離來(lái)實(shí)現(xiàn)對(duì)檢測(cè)目標(biāo)運(yùn)動(dòng)信息的關(guān)聯(lián),馬氏距離相關(guān)性度量的計(jì)算公式如3-7所示:(3-7)該公式中的dn表示的是第n個(gè)檢測(cè)框的位置,ym表示為第m個(gè)跟蹤器對(duì)目標(biāo)位置進(jìn)行的預(yù)測(cè),Sm為檢測(cè)的目標(biāo)位置和平均追蹤位置間的協(xié)方差,利用協(xié)方差矩陣Sm對(duì)其進(jìn)行歸一化處理,最后得出第m利用兩種測(cè)量方法,對(duì)運(yùn)動(dòng)信息相關(guān)性和物體表觀信息相關(guān)性進(jìn)行線性加權(quán),這能度量跟蹤結(jié)果相關(guān)性,其計(jì)算公式如3-8所示:(3-8)在深入研究的過(guò)程中,卡爾曼濾波器在視覺(jué)檢測(cè)任務(wù)中的關(guān)鍵作用。該技術(shù)通過(guò)實(shí)時(shí)更新預(yù)測(cè)值來(lái)增強(qiáng)模型的對(duì)圖像識(shí)別和分類的準(zhǔn)確性。更進(jìn)一步地,通過(guò)對(duì)檢測(cè)框之間的表觀特征進(jìn)行相關(guān)性分析,可以揭示不同檢測(cè)框與目標(biāo)物體之間的關(guān)聯(lián)性,并利用先驗(yàn)信息來(lái)估計(jì)檢測(cè)框和跟蹤框間的耦合程度,從而實(shí)現(xiàn)對(duì)目標(biāo)的連續(xù)跟蹤。DeepSORT算法具體流程如下圖3.5所示:圖3.5DeepSORT目標(biāo)算法流程圖其算法主要詳細(xì)步驟如下:將第一幀檢測(cè)到的目標(biāo)框創(chuàng)建對(duì)應(yīng)的Tracks,并通過(guò)卡爾曼濾波預(yù)測(cè)下個(gè)觀測(cè)狀態(tài),這時(shí)Tracks是Unconfirmed的。將當(dāng)前幀的目標(biāo)檢測(cè)框與上一幀通過(guò)Tracks預(yù)測(cè)得到的框進(jìn)行IOU匹配。將(2)步驟獲取的信息作為匈牙利算法的輸入,以獲取線性匹配的結(jié)果。反復(fù)進(jìn)行前兩步驟,直到結(jié)果Confirmed或者是視頻幀結(jié)束。將確認(rèn)狀態(tài)的Tracks和新檢測(cè)框完成相關(guān)匹配操作。將(5)獲取的信息作為匈牙利算法的輸入,獲得最后的匹配結(jié)果。重復(fù)第5至第6步驟,直到視頻幀結(jié)束為止。3.2.2基于YOLOv4與DeepSORT算法的行人跟蹤流程本小節(jié)主要內(nèi)容是將YOLOv4檢測(cè)算法和DeepSORT跟蹤算法相結(jié)合的形式,實(shí)現(xiàn)對(duì)行人的精確跟蹤。使用的數(shù)據(jù)集為MOT2017,該數(shù)據(jù)集有7個(gè)序列含行人類別,通過(guò)YOLOv4網(wǎng)絡(luò)模型訓(xùn)練的參數(shù)存儲(chǔ)在pt模型中,在行人識(shí)別過(guò)程中,將這些參數(shù)輸入到網(wǎng)絡(luò)中,保留最優(yōu)權(quán)值,使其收斂更快,預(yù)測(cè)效果更好。收斂后將檢測(cè)到的行人位置信息傳入DeepSORT算法里,對(duì)輸入的信息進(jìn)行檢測(cè)并獲取檢測(cè)框的表觀特征,使用非極大值抑制算法去除檢測(cè)重疊框,確認(rèn)軌跡為正確狀態(tài)后就進(jìn)行最小值匈牙利匹配,最后通過(guò)卡爾曼濾波器更新軌跡。跟蹤的具體流程如下圖3.6所示:圖3.6基于YOLOv4與DeepSORT算法的行人跟蹤流程圖3.2.3MOT指標(biāo)YOLOv4檢測(cè)模型與DeepSORT目標(biāo)跟蹤算法相結(jié)合的行人跟蹤,通過(guò)該方法來(lái)驗(yàn)證行人跟蹤的準(zhǔn)確性。性能測(cè)試的視頻幀數(shù)為630,在此基礎(chǔ)上與其他跟蹤算法相比較,即與基于YOLOv3檢測(cè)算法與DeepSORT跟蹤算法結(jié)合與基于SSD網(wǎng)絡(luò)與DeepSORT目標(biāo)跟蹤算法結(jié)合所表現(xiàn)的效果作對(duì)比,用MOT指標(biāo)作為該實(shí)驗(yàn)的比較結(jié)果,該指標(biāo)評(píng)估了目標(biāo)跟蹤任務(wù)中的多個(gè)方面,含有識(shí)別精度、跟蹤準(zhǔn)確度、多目標(biāo)重疊度等,能夠全面的評(píng)價(jià)跟蹤算法的性能,各指標(biāo)的含義如表4.2所示:表4.2MOT指標(biāo)評(píng)估指標(biāo)指標(biāo)含義MOTA(∝)目標(biāo)跟蹤準(zhǔn)確度MOTP(∝)目標(biāo)跟蹤精度Rcll(∝)準(zhǔn)確匹配的目標(biāo)檢測(cè)數(shù)量IDSW(∝)ID切換總數(shù)IDF1(∝)關(guān)聯(lián)性比率FP(↓)誤報(bào)數(shù)量FN(↓)漏報(bào)數(shù)量其中∝反映該值與跟蹤性能成正比的;下箭頭↓反映該值與跟蹤性能呈負(fù)相關(guān)。為了評(píng)估目標(biāo)跟蹤的性能,需跟蹤模型滿足以下要求,以確保MOT評(píng)估指標(biāo)的準(zhǔn)確性和有效性:模型能在行人第一次出現(xiàn)的情況下,準(zhǔn)確的定位出目標(biāo)。對(duì)行人預(yù)測(cè)與實(shí)際位置信息盡量一致。每一個(gè)目標(biāo)行人都擁有獨(dú)一無(wú)二的識(shí)別碼,在整個(gè)追蹤過(guò)程中盡量保持不變。MOTA代表目標(biāo)跟蹤準(zhǔn)確度,計(jì)算公式如3-9所示:(3-9)該式子中,F(xiàn)Ni表示的是第i幀漏檢測(cè)的數(shù)量,F(xiàn)Pi表示第i幀誤檢驗(yàn)的數(shù)量,GTi為第i幀是真實(shí)值物體的數(shù)量,IDSWi是第i幀軌跡發(fā)生轉(zhuǎn)變的目標(biāo)數(shù)量。MOTA最大值為MOTP代表目標(biāo)跟蹤精度,能求出檢測(cè)框和實(shí)際注釋框間的一致性,計(jì)算公式如3-10所示:(3-10)該式子中,cm表式第m幀預(yù)測(cè)軌跡和GT軌跡匹配的數(shù)量,dm,n代表第m個(gè)幀里第Rcll為正確匹配的目標(biāo)檢測(cè)數(shù)量,衡量檢測(cè)器性能的。IDF1是用來(lái)衡量模型在跟蹤過(guò)程中保證追蹤目標(biāo)身份的準(zhǔn)確性,IDF1的計(jì)算公式如3-11所示:(3-11)該式子中,IDTP表示實(shí)際目標(biāo)與跟蹤結(jié)果正確匹配,IDFP表示未將實(shí)際目標(biāo)與跟蹤結(jié)果正確匹配,IDFN表示沒(méi)有將實(shí)際目標(biāo)與任何跟蹤結(jié)果進(jìn)行匹配,IDTN表示沒(méi)有將實(shí)際目標(biāo)與跟蹤結(jié)果進(jìn)行匹配且也沒(méi)有錯(cuò)誤匹配。IDP為識(shí)別精度,計(jì)算公式如3-12所示:(3-12)IDR表示目標(biāo)跟蹤的召回率,計(jì)算公式如3-13所示:(3-13)3.3本章小結(jié)本章內(nèi)容主要是將YOLOv4檢測(cè)算法分別與SORT目標(biāo)跟蹤算法和DeepSORT目標(biāo)跟蹤算法相結(jié)合實(shí)現(xiàn)行人跟蹤。設(shè)計(jì)出相應(yīng)的跟蹤流程,起初使用YOLOv4模型對(duì)行人進(jìn)行標(biāo)注、預(yù)測(cè),再由跟蹤算法進(jìn)行跟蹤,從而實(shí)現(xiàn)對(duì)行人的持續(xù)跟蹤。

4實(shí)驗(yàn)結(jié)果與分析4.1實(shí)驗(yàn)環(huán)境配置本文實(shí)驗(yàn)是以Anaconda為實(shí)驗(yàn)平臺(tái),該平臺(tái)自帶許多常用的庫(kù)和工具,能減少手動(dòng)安裝和配置環(huán)境的工作量,從而提高實(shí)驗(yàn)進(jìn)行的效率。行人跟蹤實(shí)驗(yàn)是使用的一段人員走動(dòng)復(fù)雜的視頻進(jìn)行的,實(shí)驗(yàn)所采用的計(jì)算機(jī)規(guī)格為:操作系統(tǒng)是Windows10家庭中文版64位,中央處理器為IntelCorei5-10200H,主頻2.4GHz,內(nèi)存為32G。在實(shí)驗(yàn)環(huán)境方面,具體見(jiàn)表4.1。表4.1實(shí)驗(yàn)主要配置參數(shù)配置CPUIntelCorei5-10200HGPUNVIDIAGeForceGTX1650內(nèi)存32G操作系統(tǒng)Windows10IDEAnaconda開(kāi)發(fā)環(huán)境Pytorch、Python3.8、CUDA11.34.2基于YOLOv4與SORT算法的結(jié)論4.2.1實(shí)驗(yàn)數(shù)據(jù)集本小節(jié)所使用的數(shù)據(jù)集為VOC2007,包含二十個(gè)類別,每個(gè)圖都有相關(guān)聯(lián)的邊界框和對(duì)象的類別標(biāo)簽,該數(shù)據(jù)集還提供了用于圖像分割工作所要的像素級(jí)標(biāo)注。共有9963張圖片,其中用于訓(xùn)練的有5011張,行人數(shù)量較多其他類別數(shù)量不多,比較適合做關(guān)于行人方面的實(shí)驗(yàn)。該數(shù)據(jù)集包含五個(gè)文件夾,其中有一個(gè)是訓(xùn)練集一個(gè)是測(cè)試的視頻序列,視頻序列里含有每張圖片的位置xml文件信息,以下是數(shù)據(jù)集存儲(chǔ)的部分圖片如圖4.1所示:圖4.1VOC2007數(shù)據(jù)集圖片示例4.2.2結(jié)果分析圖4.2是基于YOLOv4與SORT算法的行人跟蹤結(jié)果圖,從圖片4.2(a)中可以看到被檢測(cè)并跟蹤到的14個(gè)人的運(yùn)動(dòng)軌跡,有些距離較遠(yuǎn)的,特征的表現(xiàn)不明顯,無(wú)法預(yù)測(cè)生成檢測(cè)框;圖4.2(b)中可以看到從遠(yuǎn)處走來(lái)的行人被遮擋了,運(yùn)動(dòng)軌跡也會(huì)相繼消失,還有由于缺少特征,一直沒(méi)有被框住,運(yùn)動(dòng)軌跡就不復(fù)存在的,也有從遠(yuǎn)處進(jìn)入處理檢測(cè)區(qū)域的行人被檢測(cè)并持續(xù)進(jìn)行跟蹤,但其他行人沒(méi)有受到影響如期的被檢測(cè)并通過(guò)運(yùn)動(dòng)軌跡進(jìn)行持續(xù)的跟蹤。若目標(biāo)跟蹤過(guò)程中Tlost幀沒(méi)有被檢測(cè)到,目標(biāo)會(huì)消失軌跡會(huì)終止,這有助于避免跟蹤器的數(shù)量過(guò)大??梢詮膱D4.2(c)和圖4.2(d)中看出在圖4.2(b)中被遮擋的行人后續(xù)又會(huì)被跟蹤,最初跟蹤的軌跡會(huì)消失,由于沒(méi)有遮擋會(huì)出現(xiàn)一個(gè)新的跟蹤軌跡,而圖4.2(e)存在的問(wèn)題是當(dāng)有大人推著小孩時(shí),檢測(cè)到的只有大人,而嬰兒車?yán)锏男『⒑茈y被檢測(cè)和標(biāo)識(shí),同樣可能是因?yàn)椴糠种w被推車遮擋了造成的結(jié)果。盡管會(huì)存在遮蔽情況出現(xiàn)而導(dǎo)致的軌跡跟蹤失敗,但本章提出的實(shí)驗(yàn)實(shí)現(xiàn)對(duì)行人進(jìn)行跟蹤這方面的準(zhǔn)確性較好效能也不差。 圖4.2基于YOLOv4與SORT算法的行人跟蹤結(jié)果圖為了證實(shí)本小節(jié)提出的相關(guān)算法實(shí)現(xiàn)行人跟蹤的精準(zhǔn)性,本小節(jié)還做了其他比較實(shí)驗(yàn),將YOLOv3檢測(cè)算法合YOLOv4檢測(cè)算法分別對(duì)數(shù)據(jù)集里的行人數(shù)據(jù)進(jìn)行處理和測(cè)試,并且還將檢測(cè)算法分別與SORT算法相結(jié)合,對(duì)實(shí)現(xiàn)行人跟蹤所呈現(xiàn)的結(jié)果進(jìn)行了對(duì)比,對(duì)比實(shí)驗(yàn)如下圖4.3,表4.2,和圖4.4所示。圖4.3YOLOv3與YOLOv4在不同數(shù)據(jù)下驗(yàn)證結(jié)果圖表4.2YOLOv3與YOLOv4在不同數(shù)據(jù)下驗(yàn)證結(jié)果輸入圖片尺寸YOLOv4YOLOv3mAP(%)FPS(幀/秒)mAP(%)FPS(幀/秒)256×25687.2627.880.8321.5374×37490.3316.285.4315.2416×41690.8314.887.2615.7512×51291.1812.388.5412.8為了讓該算法能應(yīng)用于不同的多目標(biāo)場(chǎng)景,適應(yīng)多種類的環(huán)境,本章通過(guò)使用訓(xùn)練好的YOLOv3與YOLOv4網(wǎng)絡(luò)模型,在數(shù)據(jù)集VOC2007上對(duì)行人數(shù)據(jù)進(jìn)行分析與測(cè)試。圖4.3和表4.2反映出了兩種檢測(cè)算法與SORT目標(biāo)跟蹤算法相結(jié)合所得出的結(jié)果,分別統(tǒng)計(jì)了圖片尺寸為256×256、384×384、416×416以及512×512的特征信息和檢測(cè)效果,通過(guò)計(jì)算出的mAP-FPS曲線和驗(yàn)證結(jié)果表,可以觀察到無(wú)論是在YOLOv3網(wǎng)絡(luò)模型中還是在YOLOv4網(wǎng)絡(luò)模型中,若輸入的圖像尺寸大小越大,則圖像所含的細(xì)節(jié)特征信息就會(huì)更多,從整體還是能看出YOLOv4檢測(cè)算法比YOLOv3檢測(cè)算法的平均檢測(cè)準(zhǔn)確度高。圖4.4是兩種網(wǎng)絡(luò)模型在圖片中對(duì)行人進(jìn)行跟蹤所呈現(xiàn)出的效果,圖4.4(a1)和圖4.4(a2)展現(xiàn)的是YOLOv3和SORT算法的行人跟蹤結(jié)果,從圖片(a1)和(a2)可以看到左下角出現(xiàn)的行人,該跟蹤算法從行人出現(xiàn)到T幀后都沒(méi)有檢測(cè)到該行人的位置信息并實(shí)現(xiàn)跟蹤,還有的是部分被檢測(cè)到了,由于不確定因素,從而沒(méi)有實(shí)現(xiàn)持續(xù)跟蹤,部分行人軌跡時(shí)不時(shí)會(huì)終止,當(dāng)滿足模型訓(xùn)練要求時(shí)又會(huì)生成新的軌跡進(jìn)行預(yù)測(cè)和持續(xù)跟蹤。圖4.4(b1)和圖4.4(b2)顯示的是YOLOv4和SORT算法的行人跟蹤結(jié)果,從圖像里的(b1)和(b2)可以觀察到左下角出現(xiàn)的行人被檢測(cè)框框住的,處于不同環(huán)境下,目標(biāo)所存在狀態(tài)難免有所不同,在實(shí)際場(chǎng)景里,遮擋是無(wú)法避免的,但遮擋的范圍與程度不會(huì)太大。從結(jié)果圖中可以得出盡管跟蹤結(jié)果中會(huì)有遮擋問(wèn)題的存在,但本小節(jié)提出算法較優(yōu)。圖4.4部分實(shí)驗(yàn)對(duì)比結(jié)果圖由上文可以知道基于YOLOv4和SORT算法的行人跟蹤算法能實(shí)現(xiàn)行人的運(yùn)動(dòng)軌跡跟蹤,通過(guò)與其余算法比對(duì),雖然可能會(huì)存在同樣的問(wèn)題,即在遮擋條件下行人追蹤會(huì)失敗,但整體上看是YOLOv4算法的平均檢測(cè)準(zhǔn)確度高、跟蹤精準(zhǔn)性強(qiáng)。4.3基于YOLOv4與DeepSORT算法的結(jié)論4.3.1實(shí)驗(yàn)數(shù)據(jù)集本小節(jié)所使用的數(shù)據(jù)集為MOT2017,包含七個(gè)類別14個(gè)序列,其中有7個(gè)序列有行人類別標(biāo)注,每個(gè)序列里含有的一個(gè)或者多個(gè)對(duì)象的運(yùn)動(dòng)軌跡,每個(gè)視頻序列都有GroundTruth文件,詳細(xì)記錄了每一幀視頻中的目標(biāo)對(duì)象,包含它們?cè)诋嬅嬷械木唧w位置、尺寸大小以及唯一標(biāo)識(shí)符等關(guān)鍵信息。所有數(shù)據(jù)是由單眼攝像機(jī)拍攝的,攝像機(jī)角度既有固定的,也有移動(dòng)的,既有從人群視角拍攝的長(zhǎng)鏡頭,也有特寫鏡頭,包含了室外、人群、交通場(chǎng)景等多種不同的場(chǎng)景和環(huán)境。該數(shù)據(jù)集中的img1文件存儲(chǔ)的是圖片幀序列如下圖4.5所示:圖4.5MOT2017數(shù)據(jù)集圖片示例視頻文件信息存儲(chǔ)在seqinfo.ini里,其中imDir表示圖片存儲(chǔ)路徑,frameRate表示視頻幀率,seqLength是對(duì)應(yīng)存儲(chǔ)路徑下的圖片數(shù)量,imWidth和imHeight表示圖片的寬高度,具體信息如下圖4.6所示:圖4.6視頻文件信息4.3.2結(jié)果分析在表4.2和表4.3中,詳細(xì)展示了該實(shí)驗(yàn)方法與其他幾種流行的跟蹤算法在多個(gè)關(guān)鍵性能指標(biāo)上的對(duì)比分析。表4.23種跟蹤算法的MOT指標(biāo)對(duì)比1算法MOTAMOTPRcllIDFIYOLOv3+DeepSORT18%68.3%24.3%27%YOLOv4+DeepSORT20.3%79%21.1%25.3%SSD+DeepSORT9.6%73%12.3%13.2%表4.33種跟蹤算法的MOT指標(biāo)對(duì)比2算法IDPIDRFPFNYOLOv3+DeepSORT59.6%17%929%14060YOLOv4+DeepSORT59.9%15.6%338%14664SSD+DeepSORT50.7%7.3%461%16270其中目標(biāo)跟蹤準(zhǔn)確度較YOLOv3和DeepSORT相結(jié)合的算法高2.7%,比SSD和DeepSORT相結(jié)合的算法高10.7%;目標(biāo)跟蹤精度較YOLOv3+DeepSORT高10.7%,但比SSD+DeepSORT高6%;Rcll為準(zhǔn)確匹配的目標(biāo)檢測(cè)數(shù)量,較YOLOv3和DeepSORT相結(jié)合的跟蹤算法低3.2%,但比SSD和DeepSORT相結(jié)合的跟蹤算法高9.8%;IDF1較YOLOv3+DeepSORT低1.7%,但比SSD+DeepSORT高12.1%;識(shí)別精度較YOLOv3+DeepSORT高0.3%,比SSD+DeepSORT高9.2%;目標(biāo)跟蹤的召回率較YOLOv3+DeepSORT低1.4%,但比SSD+DeepSORT高8.3%;誤報(bào)(FP)的數(shù)量較YOLOv3+DeepSORT低591%,比SSD+DeepSORT低123%;漏報(bào)(FN)的數(shù)量較YOLOv3+DeepSORT高,但比SSD+DeepSORT要低2406。經(jīng)過(guò)以上MOT指標(biāo)的對(duì)比,可以知道本章算法在目標(biāo)跟蹤準(zhǔn)確度、目標(biāo)跟蹤精度、識(shí)別精度以及誤報(bào)數(shù)量等四個(gè)方面較突出,但是該跟蹤算法也存在許多不足。以下是三種算法經(jīng)MOT2017數(shù)據(jù)集訓(xùn)練實(shí)現(xiàn)的跟蹤結(jié)果。圖4.7YOLOv3+DeepSORT行人跟蹤效果圖圖4.7是YOLOv3+DeepSORT的行人跟蹤效果圖,在人群比較密集的地方能看出不能將所有人給檢測(cè)出來(lái),有行人被遮擋時(shí)檢測(cè)起來(lái)比較困難。圖4.8SSD+DeepSORT行人跟蹤效果圖圖4.8是SSD+DeepSORT的行人跟蹤效果圖,相比上一個(gè)算法檢測(cè)和跟蹤能力都比較次,在遇到暗角、人群較密集和遮擋的情況下,表現(xiàn)的效果都不好,跟蹤只能檢測(cè)到少部分行人。圖4.9YOLOv4+DeepSORT行人跟蹤效果圖圖4.9是YOLOv4+DeepSORT的行人跟蹤效果圖,該方法在暗角和行人密集的情況下都能精準(zhǔn)的檢測(cè)到所有行人,并持續(xù)對(duì)行人進(jìn)行跟蹤。從圖中可以看出在行人密集和出現(xiàn)暗角的情況下,YOLOv3+DeepSORT算法和SSD+DeepSORT算法都有漏跟和一開(kāi)始就未能檢測(cè)到行人生成相應(yīng)軌跡的情況出現(xiàn),整體可以看出本小結(jié)節(jié)研究所采用的算法在實(shí)際運(yùn)用過(guò)程中的效果較好。4.4本章小結(jié)本章是將YOLOv4檢測(cè)算法分別與SORT算法和DeepSORT算法相結(jié)合實(shí)現(xiàn)行人跟蹤。先對(duì)YOLOv4網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,然后使用YOLOv4網(wǎng)絡(luò)檢測(cè)行人,并將其行人位置信息傳送到跟蹤算法中,以實(shí)現(xiàn)行人跟蹤。經(jīng)過(guò)實(shí)驗(yàn)表明,YOLOv4與DeepSORT算法聯(lián)合跟蹤效果較優(yōu)。

5總結(jié)與展望5.1總結(jié)行人跟蹤與檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的重要方向,其在輔助駕駛、視頻監(jiān)控、智能交通和軍事等諸多領(lǐng)域發(fā)揮著重要作用,尤其是在交通方面,給予駕駛員重要信號(hào),挽救了千千萬(wàn)萬(wàn)弱小的生命。因此,提高行人檢測(cè)和跟蹤的精準(zhǔn)性則成為研究的重要目標(biāo),目標(biāo)跟蹤面臨的挑戰(zhàn)有很多,外界環(huán)境的因素是現(xiàn)今不可避免的存在,這是跟蹤過(guò)程可能會(huì)隨時(shí)中斷的情況出現(xiàn),目前目標(biāo)跟蹤可能不適應(yīng)任何場(chǎng)景,還需不斷研究和優(yōu)化。本文是以深度學(xué)習(xí)跟蹤算法為基礎(chǔ),該學(xué)習(xí)能自動(dòng)從數(shù)據(jù)里提取重要特征,擁有強(qiáng)大的擬合能力,而目標(biāo)跟蹤僅提供第一幀圖像作為訓(xùn)練數(shù)據(jù),這會(huì)使行人位置預(yù)測(cè)和跟蹤進(jìn)行不佳,基于深度學(xué)習(xí)的目標(biāo)跟蹤相對(duì)較好。重點(diǎn)是將YOLOv4網(wǎng)絡(luò)作為檢測(cè)模型,并分別與SORT算法和DeepSORT算法相結(jié)合進(jìn)行比較。主要從兩方面對(duì)行人跟蹤進(jìn)行了討論:從行人跟蹤技術(shù)的研究意義出發(fā),歸納了當(dāng)前的研究狀況以及今后的發(fā)展方向。本文首先簡(jiǎn)要介紹了幾個(gè)經(jīng)典跟蹤檢測(cè)算法及其原理,接著描述了目標(biāo)檢測(cè)方法的評(píng)估指標(biāo)將YOLOv4檢測(cè)算法分別與SORT和DeepSORT算法相結(jié)合來(lái)實(shí)現(xiàn)行人跟蹤。起初使用YOLOv4模型檢測(cè)出行人,隨后將信息輸入到跟蹤算法中以實(shí)現(xiàn)行人追蹤。通過(guò)對(duì)輸入的視頻中的各幀圖片進(jìn)行特征提取、處理和預(yù)測(cè),得出預(yù)想效果。通過(guò)與實(shí)測(cè)數(shù)據(jù)的比較,可以看出本文最后所給出的算法具有更好的追蹤性能。5.1展望本課題所研究的是以深度學(xué)習(xí)為基礎(chǔ)的目標(biāo)跟蹤算法,通過(guò)實(shí)驗(yàn)結(jié)果來(lái)看,整體上本文所研究的算法有效地提升目標(biāo)跟蹤準(zhǔn)確率。由于學(xué)習(xí)經(jīng)驗(yàn)不足,本文的研究仍有很多需要完善的地方,如:與YOLOv3相比,YOLOv4網(wǎng)絡(luò)識(shí)別精度更高,數(shù)據(jù)處理和分析能力也更強(qiáng)。但在實(shí)際測(cè)驗(yàn)中,由于周圍建筑物的遮擋或距離原因,會(huì)有漏跟情況出現(xiàn),從而造成一些運(yùn)動(dòng)軌跡中斷。本文最后將YOLOv4和DeepSORT算法相結(jié)合進(jìn)行行人跟蹤,不足的地方存在于正確匹配的檢測(cè)對(duì)象數(shù)、目標(biāo)跟蹤的召回率等方面,下一步會(huì)從模型參數(shù)入手反復(fù)修正和優(yōu)化。在實(shí)際目標(biāo)跟蹤過(guò)程中,外部環(huán)境的影響是不可避免的,提升該算法在復(fù)雜環(huán)境影響下的實(shí)現(xiàn)效果是有必要的。-參考文獻(xiàn)張夢(mèng)華,陸奎,高正康.基于YOLO的視頻行人檢測(cè)研究[J].忻州師范學(xué)院學(xué)報(bào),2022,38(05):27-30.曹自強(qiáng),賽斌,呂欣.行人跟蹤算法及應(yīng)用綜述[J].物理學(xué)報(bào),2020,69(08):41-58.鄒志博.基于檢測(cè)跟蹤的行人跟蹤方法研究[D].重慶郵電大學(xué),2020.王志強(qiáng),樊景峰.基于互信息量的視頻關(guān)鍵幀提取方法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2021,33(04):67-69.楊傳兵.基于深度學(xué)習(xí)的車輛行人實(shí)時(shí)檢測(cè)跟蹤算法研究與實(shí)現(xiàn)[D].重慶大學(xué),2020(04).王蘇蘇,張碩,沈永良.基于深度學(xué)習(xí)的行人目標(biāo)檢測(cè)與跟蹤[J].黑龍江大學(xué)工程學(xué)報(bào)(中英俄文),2023,14(03):61-67.DOI:10.13524/j.2097-2873.2023.03.36.張少偉.基于深度學(xué)習(xí)的人流量統(tǒng)計(jì)[D].中國(guó)石油大學(xué)(華東),2016.PapageorgiouC,PoggioT.Atrainablesystemforobjectdetection[J].InternationalJournalofComputerVision,2000,38(1):15-33.DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C].2005IEEEcomputersocietyconferenceoncomput

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論