版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第頁密集場景遮擋行人檢測:FasterR-CNN算法的優(yōu)化與實踐目錄TOC\o"1-3"\h\u10765摘要 II19846第一章前言 1317101.1研究背景及意義 1238211.2國內(nèi)外研究現(xiàn)狀 15546第二章相關(guān)理論知識 6213422.1WiderPerson行人檢測數(shù)據(jù)集 6223942.2卷積神經(jīng)網(wǎng)絡(luò) 8161762.3相關(guān)評價參數(shù) 10268462.3.1精準率、準確率、召回率、交并比 10211372.3.2行人檢測評價指標 1114542.4本章小結(jié) 1128266第三章FasterR-CNN算法 13301943.1FasterR-CNN算法原理 135953.2FasterR-CNN算法流程 15316643.3算法流程中相關(guān)結(jié)構(gòu)的理論介紹 16240113.3.1主干特征提取網(wǎng)絡(luò) 1640463.3.2RPN網(wǎng)絡(luò) 18266183.3.3ROIPooling層 19284923.3.4分類預測和回歸預測 19231753.4本章小結(jié) 2017200第四章實驗設(shè)計與結(jié)果分析 21164774.1實驗目的 21165874.2實驗環(huán)境介紹 21162064.3實驗設(shè)計 21197894.3.1主干特征提取網(wǎng)絡(luò)的設(shè)計 21112414.3.2注意力機制的設(shè)計 21181064.3.3損失函數(shù)的設(shè)計 2284594.4實驗過程 23260434.5實驗結(jié)果與分析 24248174.5.1訓練過程 2417734.5.2預測過程 25132654.5.3評估過程 26244624.6本章小結(jié) 2722598第五章總結(jié)與展望 281955.1研究總結(jié) 28317625.2期望 2826050參考文獻 30 摘要 行人檢測技術(shù)一直都備受人們關(guān)注,這是因為它的價值能夠體現(xiàn)在很多日常的領(lǐng)域當中。近年來深度學習技術(shù)的崛起,使得輸入進來的數(shù)據(jù)特征能夠被提取得更加完好,以至于行人檢測技術(shù)的應用領(lǐng)域更為廣泛。不過,由于檢測場景越來越復雜,現(xiàn)有的檢測算法并不能很好地滿足需求,對密集場景下被遮擋行人的檢測效果并不是很完美。本文主要通過比對主干網(wǎng)絡(luò)、添加注意力機制來實現(xiàn)FasterR-CNN算法的改進。本次實驗中使用resnet50和vgg16作為該算法框架中的主干網(wǎng)絡(luò),使用WiderPerson數(shù)據(jù)集完成本次實驗的訓練、預測和評估。本次實驗中考慮主干網(wǎng)絡(luò)是否會對檢測的結(jié)果產(chǎn)生影響,結(jié)果表明主干網(wǎng)絡(luò)為vgg16時能夠更好地去識別被擋住的行人。同時,在該算法的主干網(wǎng)絡(luò)中添加注意力機制,添加的地方位于得到特征圖的后面。這種做法使得網(wǎng)絡(luò)能夠聚焦于輸入進來的關(guān)鍵性數(shù)據(jù)信息,從而提高該算法對于被遮擋行人的識別精度。結(jié)果表明添加注意力機制后,該算法對于被遮擋行人的識別精度有了提升。關(guān)鍵字:密集場景,行人檢測,F(xiàn)asterR-CNN第一章前言1.1研究背景及意義對計算機的視覺任務這一概念的闡述是論述行人檢測的大前提。它簡單地說就是一門關(guān)于研究使用某些電子設(shè)備去完成人的眼睛功能的科學學科,而這門學科研究的內(nèi)容是“某些電子設(shè)備是使用什么方法去感受、去觀察這個世界的”。在這類任務中比較重要的一個就是對目標的檢測,它會把檢測目標的識別和分割這兩任務組合在一起。行人檢測REF_Ref12484\w\h[1]技術(shù)可以被當成是目標檢測的一個特別的例子,該技術(shù)專門以行人為目標,它是一種要利用某些電子設(shè)備來獲取行人在視頻幀或單幀圖片中的準確位置,并且會用矩形框標定出視頻幀或單幀圖片中的行人的位置和大小的視覺任務(林濤,付婉清,2022)。此外,對于行人檢測REF_Ref14427\w\h[2]算法的研究也對許多研究課題是至關(guān)重要的,比如說目標的跟蹤與識別以及人體姿態(tài)的估計等(陳文天,陳奇遠,2023)。同時,行人檢測技術(shù)也廣泛地應用在如車輛的自動駕駛等領(lǐng)域當中。具體如,近年來大街上的車輛變得越來越多,在這樣的狀態(tài)中但因這種情況而帶來的交通事故發(fā)生的數(shù)量也在逐年的增加。而行人檢測技術(shù)中的一個名為智能駕駛的應用就可以很好地減少這種事故的發(fā)生次數(shù),這個應用是通過使用將位于車輛前后方的物體和人體檢測出來的方法來減少這類事故的發(fā)生(陳昊忠,趙奇朝,2021)REF_Ref10386\w\h[3]。圖形處理單元(GPU)在不斷革新的過程中會使得電腦的計算數(shù)據(jù)的能力不斷地增強(付嘉瑞,孫怡忠,2021)。同時,如今的電腦在處理圖像數(shù)據(jù)的時候有了更為可靠的硬件支持,在這樣的布局下而且在計算機視覺等領(lǐng)域也廣泛地去應用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)等技術(shù)。也就是由于這些計算機軟件和硬件技術(shù)的不斷革新,行人檢測才能夠得以快速地發(fā)展。目前,在密集場景下有可能會存在檢測行人被擋住的情形,而一些現(xiàn)有的行人檢測算法在這種情況下的檢測效果仍然可以有很大的提升空間(孫志恒,楊慧萍,2019)。受到視頻幀或單幀圖片中的行人姿態(tài)、衣著變化以及場景中的光照、氣候和景物遮擋等問題REF_Ref14427\w\h[2]的影響,對于場景中檢測目標過多且目標可能存在被擋住的情況仍然是行人檢測算法實現(xiàn)中的一大難點。1.2國內(nèi)外研究現(xiàn)狀現(xiàn)如今的許多行人檢測算法框架已經(jīng)非常成熟了,不過這些框架算法對于密集場景下的行人檢測的性能仍然還有很大的提升空間,而對檢測行人有影響的因素REF_Ref11268\w\h[4]主要有以下幾點:被擋住的行人的走路姿勢;在此類情境中檢測場景的被拍攝角度、檢測場景的光照和被擋住的行人的遮擋水平等(孫奇倩,高明澤,2023)。國內(nèi)外的一些研究人員這些年提出了很多可以解決以上問題的研究成果。目前,行人檢測方法REF_Ref11409\w\h[5]主要有兩類(鄭澤羽,孫雅琪,2019):一、傳統(tǒng)的目標檢測方法。這種方法主要包括光流法等三類。光流法會根據(jù)檢測場景中像素的運動向量的持續(xù)變化和根據(jù)像素創(chuàng)建起來的光流場這兩個標準來檢測是不是存在目標。在1981年Horn等人REF_Ref19231\r\h[6]提出了一種關(guān)于光流的具有實際應用效果的計算方法,這個方法也為光流計算的日后發(fā)展打下了基礎(chǔ)。這在一定程度上預示了不過在單獨使用這個算法的時侯,它的計算量會比較大且處理的過程也會較為復雜(許潤天,鄧怡忠,2019)。幀差法會先計算一個差分結(jié)果,這個結(jié)果是使用基于像素的時間差分這一方法在相鄰圖片序列的兩幀或者是三幀之間進行的,然后要對得到的這個結(jié)果進行一個閉值化操作。這在某種程度上傳達不過,這個方法的計算量雖然不是太大,但仍然還是存在一些問題,如在檢測時就可能會出現(xiàn)“空洞”或者是“鬼影”等現(xiàn)象。背景建模法中的最重要的操作就是對背景進行抽取(許潤天,鄧怡忠,2019)。具體的例子如彭宏等人通過融合小波變換和多幀平均法這兩個方法以此來得到所需的背景圖像REF_Ref8241\r\h[7],范長軍等人對運動中的無人機進行檢測是通過將單高斯與光流法這兩個方法相互結(jié)合以此來進行的REF_Ref10210\r\h[8]等。不過,這類檢測方法也是存在一些問題的,如單獨使用一個算法的計算效果并不是很好等。且因這種做法對硬件的要求比較高而且會使整個算法的流程變得更為復雜,所以該類方法不適合被使用在現(xiàn)如今的一些智能系統(tǒng)當中(成學天,成怡彤,2020)。二、基于特征檢測目標的方法。早期的目標檢測算法如Bilal等人提出的非線性量化方法并沒有通過深度學習來進行特征的提取,而且Bilal等人提出的這個算法是可以在計算量不變多的情況下使得漏檢率變得更低。在這種模式下近幾年來由于深度學習技術(shù)的崛起,這種特征的抽取是通過深度卷積神經(jīng)網(wǎng)絡(luò)來進行的且需要從輸入的圖片中去了解規(guī)律以及會使用了解到的規(guī)律來獲得測試圖片中的檢測目標的信息的算法越來越多。單階段的和雙階段的這兩類檢測算法都是把檢測特征做為核心操作的目標檢測算法。那種基于回歸問題的算法如YOLO、SSD等可以將檢測目標的位置和它的種類信息僅僅經(jīng)過一步就可以檢測完成,R-CNN、FastR-CNN、FasterR-CNN等雙階段檢測算法是那種基于候選框并且可以將檢測目標的位置和其種類信息要分成兩步才能檢測完成的算法(孫天羽,馮學文,2022)。在2014年Girshick等人提出了一種以區(qū)域卷積網(wǎng)絡(luò)作為核心的關(guān)于目標檢測的模型REF_Ref7041\r\h[9]。在2016年Joseph等人為了解決雙階段的檢測算法在實際應用時具有很大的計算量等問題從而提出了YOLO算法,該算法包含了v1到v5這五個版本(周佳妮,韓旭東,2019)。該算法最大的特點就是檢測的速度足夠快,在此類條件作用下可以推知其發(fā)展方向不過它對小目標的檢測效果卻不是很好,以至于該算法的檢測精度要比FasterR-CNN算法的略微低一點。在2016年被提出的SSD算法首先會通過訓練好的分類網(wǎng)絡(luò)對輸入圖片提取不同大小的特征層,該算法正因為如此才可以用來預測不同大小的目標,然后在位于conv4_3等六個層REF_Ref11118\r\h[10]中的特征圖上面的每一個點上都構(gòu)造出不同大小的六個邊界框,因此該算法的網(wǎng)絡(luò)中會由六個輸出特征層,最后會使用非極大值的抑制方法來去除掉在這些特征圖中的具有相同部分的或者是不正確的邊界框,剩下的邊界框的集合就是最終的檢測結(jié)果了(高奇倩,周文天,2021)。該結(jié)果與劉曉天教授的研究成果在思路導向上大致相仿,無論是研究進程還是最終成果解讀。最初在研究方法的選用上,兩者都秉持了嚴謹?shù)目茖W態(tài)度和系統(tǒng)性的分析框架。這種一致性不僅體現(xiàn)在對基礎(chǔ)理論的遵循和運用,更在于通過定量分析結(jié)合定性探討的手段,深度挖掘了問題的本質(zhì)屬性。在模型構(gòu)建方面,本研究參考了劉教授關(guān)于動態(tài)調(diào)整參數(shù)以適配不同環(huán)境變化的思路,提出相應的改進辦法,其中包括引入新的變量等。這些改進使本文的研究成果不僅在理論上有所創(chuàng)新,而且在實際運用中也展現(xiàn)出更高的準確性和可靠性。之后隨著技術(shù)的發(fā)展,許多新的目標檢測算法不斷問世,面對這種情況如YannLeCun等人提出了一種可以克服空間限制但是在實際應用中的泛化能力較弱的以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的無監(jiān)督方法來進行行人檢測的框架REF_Ref11862\r\h[11],在2019年陳彥斌,陳佳琪等人提出了一種基于將排斥力應用于YOLOv3算法中進行行人目標檢測的框架REF_Ref11963\r\h[12]等??傮w來說,雙階段目標檢測算法將會在原圖片上生成候選框并且會以類別為標準進行目標的檢測,這類算法為了能夠得以完好地部署并且能夠?qū)崿F(xiàn)實時檢測將會要求機器需要有很高的硬件條件(徐昊忠,孫倩文,2020)。而單階段目標檢測算法將會直接在原圖片上預測邊界框的偏移量和檢測目標的置信度,這種做法雖然可以使模型能夠?qū)崿F(xiàn)實時檢測,卻會使算法的檢測精度變得更低。從這些言論可以知道以深度學習為核心的檢測方法與傳統(tǒng)的檢測算法相比較具有較高的檢測適應性、較低的背景模型更新要求、更好的檢測實時性等優(yōu)點,這使得以深度學習為核心的目標檢測算法在近幾年更加地受到了人們的歡迎REF_Ref30686\r\h[13]。本文主要是去實現(xiàn)行人檢測算法--FasterR-CNN算法,并根據(jù)該算法在密集場景下的檢測情況來研究其存在的一些問題并得到一些對算法的改進意見。
第二章相關(guān)理論知識2.1WiderPerson行人檢測數(shù)據(jù)集WiderPerson行人檢測數(shù)據(jù)集REF_Ref12411\r\h[14]是比較擁擠環(huán)境下的行人檢測基準數(shù)據(jù)集,該數(shù)據(jù)集中的圖片大部分都是在網(wǎng)絡(luò)上收集的(付語嫣,成志剛,2019)?,F(xiàn)如今已經(jīng)存在的大部分數(shù)據(jù)集中的圖片的來源均為交通場景,從這些證據(jù)中可以看出而該數(shù)據(jù)集中的圖片是從多種場景中選擇拍攝的,以至于它可以彌補現(xiàn)如今大部分數(shù)據(jù)集中圖片的環(huán)境為交通場景而導致的數(shù)據(jù)多樣性的不足。該數(shù)據(jù)集中的圖片共計有13382張,而在這其中的所有圖片中共包含近四十萬個不同遮擋程度的人體。該數(shù)據(jù)集的三個子集中的一些注釋統(tǒng)計如表2.1所示(陳雪怡,成承昊,2021):表2.1WiderPerson數(shù)據(jù)集的注釋統(tǒng)計trainvaltest共計image80001000438213382persons23607327762122518386353ignoreregions8979661379313433person/images29.5127.7627.7628.87這些圖片中檢測人體的類別共包含5類。其中,“pedestrians”表示比較完整的人體,即這個類包括的是沒有被擋住的行人和被遮擋的不是非常嚴重的行人,數(shù)據(jù)集中的部分標注圖如圖2.1中的(a)所示;“riders”表示騎著自行車的人,數(shù)據(jù)集中的部分標注圖如圖2.1中的(b)所示(陳昊羽,吳麗娜,2019);“partially-visiblepersons”表示被遮擋住了一部分的人,這個類包括的是被遮擋的程度是非常嚴重的行人,數(shù)據(jù)集中的部分標注圖如圖2.1中的(c)所示;“ignoreregions”表示“假人”,如大型的玩偶以及圖片中的屏幕上的人體,數(shù)據(jù)集中的部分標注圖如圖中2.1的(d)所示;“crowd”表示一大群人,即這群人是聚集在一起的,數(shù)據(jù)集中部分標注圖如圖2.1中的(e)所示(成朝羽,徐麗娜,2022)。不過,由于“ignoreregions”和“crowd”這兩個類在實際中并不常用,這些行為透露出一些意圖所以我在項目中將這兩個類刪除了。(a)(b)(c)(d)(e)圖2.1WiderPerson行人檢測數(shù)據(jù)集中的部分圖片此外,該數(shù)據(jù)集中的檢測人體的類別的比例如圖2.2所示,占比最高的檢測人體是那些“完整的行人”和被遮擋的不是很嚴重的人體,大約占總量的百分之六十,其次是“partially-visiblepersons”這個類,大約占總量的百分之三十,而“riders”這個類占總量不到百分之一,但由于該數(shù)據(jù)集中大約有236000個檢測人體,所以在數(shù)據(jù)集中這個類別的信息的數(shù)量還是很可觀的(徐澤羽,孟菲菲,2023)。圖2.2WiderPerson上的細粒度人物類別2.2卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)被提出的標志是由Hubel等人在1962年研究貓的視覺皮層上的細胞REF_Ref12558\r\h[15]的時候而提出的一個叫做“感受野”的概念和在1980年Fukushima提出的神經(jīng)認知機REF_Ref12597\r\h[16]這二者共同配合奠基的(丁奇成,馬鈺倩,2021)。在這樣的狀態(tài)中卷積神經(jīng)網(wǎng)絡(luò)從理論研究階段進入到了算法的實現(xiàn)階段的標志是由LeCun等人在1998年提出的LeNetREF_Ref12633\r\h[17]來確定的,這一結(jié)構(gòu)是世界上第一個真正意義上的卷積神經(jīng)網(wǎng)絡(luò)。之后,有先后出現(xiàn)了AlexNet、VGG、Resnet等結(jié)構(gòu)(吳奇雨,張語嫣,2021)。本研究在行為方式上獨具匠心,創(chuàng)新性地結(jié)合了前人關(guān)于此主題的研究成果,使研究深度得到了有力拓展。通過對既往文獻的科學整理與統(tǒng)合,深度發(fā)掘該領(lǐng)域尚未被充分重視的核心問題以及潛在的研究方向。不僅對已有理論進行了更為透徹的解析,還在此基礎(chǔ)上搭建了新的研究視角與分析模型。在實際研究工作中,運用先進的研究方法與技術(shù)手段,對該主題展開多角度、全方位的探究。沖破了傳統(tǒng)研究的局限,從微觀層面揭示了事物的內(nèi)在規(guī)律和相互作用,并參考其他相關(guān)領(lǐng)域的理論與實踐范例,為解決該主題的問題提供了更豐富多元的思考路徑。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以分成五個部分,它的結(jié)構(gòu)可以用圖2.3來表示。圖2.3卷積神經(jīng)網(wǎng)絡(luò)·輸入層該層可以被看成是一個三維的輸入像素的矩陣,它一般情況下都會包括一個\t"/item/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/_blank"RGB通道和一個位于平面上的二維的像素點。在此類情境中除此之外,關(guān)于該層的理論還需要知道得是輸入圖像的大小是使用該矩陣的長和寬來表示的,而輸入圖片的色彩通道則是使用該矩陣的深度來表示的,在這里需要說明的是,RGB彩色圖片的深度的值為3,黑白圖片的深度的值為1REF_Ref4923\r\h[18]。·卷積層卷積層所做的工作就是要去抽取輸入數(shù)據(jù)的特征,由于該層的輸出結(jié)果是由它的三個參數(shù)(卷積核、步長以及填充)來決定的,因此它在整個卷積神經(jīng)網(wǎng)絡(luò)中都是具有舉足輕重的地位的,所以有關(guān)這三個參數(shù)的一些知識還是需要去了解一點的(田睿澤、周凱羽、馮若旭,2023)。這在一定程度上預示了卷積核可以被看成是上一層的卷積神經(jīng)網(wǎng)絡(luò)中一個小塊的一部分,而這個小塊中的這一部分也可以被看成是本層的卷積神經(jīng)網(wǎng)絡(luò)的輸入,在這其中還需要知道的是輸入的圖片的尺寸的值應該要比卷積核的尺寸的值大一點,這在某種程度上傳達而且在卷積神經(jīng)網(wǎng)絡(luò)中的被卷積的區(qū)域的大小是與卷積核的大小有關(guān)的,當卷積神經(jīng)網(wǎng)絡(luò)對于整個項目是起作用的時候,卷積核會掃描輸出的FeatureMap,進行這個過程的原則是按照步長參數(shù)被設(shè)置的值和抽取到的輸入圖片的特征來進行制定的(成雅倩,付奇琦,張瑞羽,2022)。本研究突出體現(xiàn)了跨學科融合的研究特色,廣泛吸收了多學科的理論精華和研究方法,旨在實現(xiàn)研究視角的多元化和研究深度的最大化。借助這種跨界研究模式,本文不僅能夠更深入地揭示研究對象的復雜性和多樣性,還能發(fā)現(xiàn)單一學科研究難以揭示的新規(guī)律和新現(xiàn)象。同時,本研究強調(diào)理論與實踐的緊密結(jié)合,致力于將抽象的理論應用于具體實踐問題的解決,以驗證理論的有效性和實用性。在研究過程中,本文綜合運用了多渠道的數(shù)據(jù)收集和分析方法,采用定量與定性相結(jié)合的研究手段,以確保研究結(jié)果的科學性和準確性。步長代表的是一個距離的值,這個值表示的是卷積核在特征圖上每一次位置移動的距離的值,在這種模式下當卷積核會將得到的特征圖中的所有像素依次掃過的時候表示步長的值被設(shè)置為1,而當卷積核在下一次掃描時跳過n-1個得到的特征圖中的像素的時候則表示步長的值被設(shè)置為nREF_Ref5174\r\h[19]。填充的作用就是為了更好地去利用特征圖上的信息,這些信息使用那些位于角落位置的像素來表示,常見的方法有重復的邊界值的填充和0填充(付星辰,周夢琪,2019)REF_Ref5174\r\h[19]。·激勵函數(shù)層激勵函數(shù)的作用就是去提升卷積神經(jīng)網(wǎng)絡(luò)的非線性的表達能力,它同樣是網(wǎng)絡(luò)中的不可或缺的一部分,該函數(shù)的種類主要有表達形式為(公式2-1)的線性整流(RELU),表達形式為(公式2-2)的雙曲正切函數(shù),表達形式為(公式2-3)的Sigmoid函數(shù)(殷雅琪,汪志遠,2017)REF_Ref4923\r\h[18]。(公式2-1)(公式2-2)(公式2-3)·池化層池化層(別名下采樣層)中會形成一個由池化大小、步長和填充來決定大小的矩形區(qū)域,該區(qū)域是通過相互連接的神經(jīng)元構(gòu)成的。在此類條件作用下可以推知其發(fā)展方向該層所發(fā)揮的功能就是使特征圖的維度變得更低以及使特征圖的尺寸能夠保持不變。而池化的種類主要有如下幾種(羅向陽,林澤天,2022):1.使用被卷積區(qū)域的平均值來表示池化后的結(jié)果的池化叫做平均池化REF_Ref5174\r\h[19]。2.使用被卷積區(qū)域的最大值來表示池化后的結(jié)果的池化叫做最大池化REF_Ref5174\r\h[19]?!とB接層全連接層可以被當作是一個“分類器”,它的目的是對抽取到的輸入的數(shù)據(jù)的特征進行非線性的組合使得它們得以輸出。面對這種情況卷積核的長和寬的大小都設(shè)置為1的卷積是由該操作中的那些全連接層的前層是全連接的全連接層轉(zhuǎn)化得來的,而卷積核的長和寬的大小分別用h和w來表示的全局卷積的前層是由該操作中的那些卷積層是全連接層的全連接層而轉(zhuǎn)化得來的(鐘睿哲,陳明和,2020)REF_Ref8564\r\h[20]。2.3相關(guān)評價參數(shù)2.3.1精準率、準確率、召回率、交并比在論述這幾個參數(shù)的時候,要先闡明幾個觀點。其中,對于那些預測結(jié)果是正確的樣本使用參數(shù)P來表示,對于那些預測結(jié)果是不正確的樣本使用參數(shù)N來表示,對于那些預測結(jié)果和實際情況是一樣的樣本使用參數(shù)T來表示,對于那些預測結(jié)果和實際情況是不一樣的樣本使用參數(shù)F來表示(陳嘉怡,成彤彤,2020)REF_Ref10386\r\h[3]。而且還可以將這四個參數(shù)相互組合成4類:將檢測器中的那種樣本實際上是正確的且預測結(jié)果也是正確的情況稱為正陽性(TP);將檢測器中的那種樣本實際上是不正確的但預測結(jié)果也是不正確的情況稱為正陰性(TN);從這些言論可以知道將檢測器中的那種樣本實際上是不正確的但預測結(jié)果卻是正確的情況稱為假陽性(FP);將檢測器中的那種樣本實際上是正確的但預測結(jié)果卻是不正確的情況稱為假陰性(FN)(張文博,丁詩雨,2021)。用實際上是正確的且預測結(jié)果也是正確的樣本(TP)與總樣本中預測結(jié)果是正確的示例(TP+FP)的比值來表示精準率(precision),它的表示形式為(公式2-4)(鄭瑞澤,胡雨珂,2022)REF_Ref10386\r\h[3]。(公式2-4)用總樣本中預測結(jié)果和實際情況是相同的示例(TP+TN)與所有樣本中的所有示例(TP+TN+FP+FN)的比值來表示準確率(accuracy),它的表示形式為(公式2-5)REF_Ref10386\r\h[3]。(公式2-5)用實際上是正確的且預測結(jié)果也是正確的樣本(TP)與總樣本中實際情況是正確的示例(TP+FN)的比值來表示召回率(recall),它的表示形式與靈敏度的是一樣的,表示形式為(公式2-6)(殷君和,霍慧君,2022)REF_Ref10386\r\h[3]。(公式2-6)2.3.2行人檢測評價指標mAP的計算過程是先要計算每一個檢測類別的平均精度(AP),這些行為透露出一些意圖然后對平均精度進行求平均值的這個操作REF_Ref8779\r\h[21]。它的表達形式為(公式2-7)。(公式2-7)既然說到了mAP,那就不能不說一下AP了。平均精度(AP)的大小近似于每個可能的閾值處的召回率的變化值乘以精確度,然后再將得到的乘積相加求和,它的表達形式為(公式2-8)(項嘉潤,虞婉君,2023)。在(公式2-8)除了mAP之外,綜合評價指標(F-Measure)也常被用來解決在精準率(precision)和召回率(recall)之間可能出現(xiàn)的矛盾,它的求解方式便是求精準率和召回率的加權(quán)倒數(shù)平均值。其中,最常使用的F-Measure是在α為1的時候,在這樣的狀態(tài)中這個時候的F-Measure也被叫做F1Score。它的值將精準率和召回率組合起來考慮,其能夠說明實驗是否是有效的2.4本章小結(jié)本章的內(nèi)容是對本論文所用到的某些理論的介紹(費嘉潤,陸婉君,2023)。首先介紹了WiderPerson行人檢測數(shù)據(jù)集;其次對卷積神經(jīng)網(wǎng)絡(luò)中包括激勵函數(shù)在內(nèi)的五個部分進行了簡要的闡述;最后是對相關(guān)評價指標的介紹,包括精準率、準確率、召回率、交并比、平均精度以及mAP。第三章FasterR-CNN算法3.1FasterR-CNN算法原理FasterR-CNNREF_Ref9014\r\h[22]算法是在2015年由任少慶、何凱明等為了解決FastR-CNN算法的缺點而提出的一種雙階段的目標檢測算法。它是一種端到端的檢測算法,該算法可以看成是一個有體系的系統(tǒng),這個系統(tǒng)中包括RPN和FastR-CNN這兩個部分,它沒有利用選擇性搜索的方式而是利用了RPN。換句話說,RPN和FastR-CNN共同構(gòu)成了FasterR-CNN算法的結(jié)構(gòu),它的組成可以用圖3.1來表示(欒文昊,姜慧君,2018)。為保障研究結(jié)果的可信度和可靠性,本文伊始便大量收集國內(nèi)外相關(guān)領(lǐng)域的文獻資料,系統(tǒng)整理了當前研究的前沿走向和理論依據(jù)。在此前提下,依據(jù)研究主題,精心構(gòu)思了科學合理的研究方案,其中包含數(shù)據(jù)收集手段、樣本選取標準以及分析體系。為保證數(shù)據(jù)的準確性和完整性,本文借助多種數(shù)據(jù)來源進行交叉驗證,真切反映研究對象的真實情形。在數(shù)據(jù)分析進程中,運用先進的統(tǒng)計分析工具和方法對數(shù)據(jù)進行嚴謹處置與闡釋,確保研究結(jié)論具有科學性和客觀性。同時,對研究過程中可能出現(xiàn)的誤差和偏差進行敏感性分析,進一步強化研究結(jié)果的穩(wěn)健性。圖3.1FasterR-CNN的構(gòu)成FasterR-CNN算法在結(jié)構(gòu)上會把特征提取、proposalbox的提取、boundingbox的回歸和分類這四個步驟整合在了一起,在這樣的布局下這樣會使其綜合的功能性得到大大的加強。但與單階段檢測算法比較,F(xiàn)asterR-CNN算法的檢測精度固然更高,可是該算法的步驟更加繁瑣,練習與檢測的速率都還有進步的可能性。FasterR-CNN算法的基本結(jié)構(gòu)REF_Ref5664\r\h[22]如圖3.2所示(華俊天,陶靜宜,2022)。圖3.2FasterR-CNN的網(wǎng)絡(luò)架構(gòu)從上圖中不難看出FasterR-CNN算法的架構(gòu)大體上可以分成四個部分:一、ConvLayers:在FasterR-CNN算法中會先將輸入圖片的短邊resize到600,然后經(jīng)由一系列的conv層、relu層和pooling層操作以此來對輸入的圖片進行提取特征的操作,最終獲得FeatureMap。在本節(jié)內(nèi)容的撰寫中,本文借鑒了何其飛教授的相關(guān)研究成果,尤其是在研究思路和方法上。在思路上,本文遵循了其對問題進行逐層剖析的方式,通過設(shè)定明確的研究目標和假設(shè),構(gòu)建了嚴謹?shù)难芯靠蚣?。本文采用了定量與定性相結(jié)合的方法,力求在數(shù)據(jù)收集和分析過程中做到客觀、準確,以確保研究結(jié)論的科學性和可靠性。盡管本研究受到了何其飛教授的啟發(fā),但本文在多個環(huán)節(jié)中融入了自己的創(chuàng)新點,例如在研究設(shè)計階段采用了更加靈活多樣的數(shù)據(jù)收集方式,并在數(shù)據(jù)分析過程中探索了不同變量之間的復雜關(guān)系,以使研究不僅具有理論價值,還具備一定的實踐指導意義。二、RegionProposalNetworks:這一步驟的結(jié)果RegionProposal是經(jīng)由ConvLayers中的FeatureMap進行卷積以此來獲得的。這在一定程度上預示了該層包括兩個分支,一個分支用來計算相應的先驗框的boundingbox的偏移量以此來獲得該檢測目標的位置;另一個分支用來預測是前景還是背景,通過計算相應的先驗框是前景還是背景的概率以此來判斷計算的這個先驗框中是否包含被用來檢測的目標,在這種模式下但是在這個過程中卻不會對被用來檢測的目標進行種類的區(qū)分(徐博文,謝夢琪,2022)。三、ROIPooling:該層會結(jié)合第一步和第二部得到的FeatureMap和RegionProposal的信息,利用RegionProposal對FeatureMap進行截取以此來得到大小一致的ProposalFeatureMap。四、Classification:該層包括兩個分支,一個分支用來區(qū)分檢測到的行人;另一個分支用來移動RPN中獲得的boundingbox以此來獲得更加準確的檢測框。3.2FasterR-CNN算法流程實際上,F(xiàn)asterR-CNN算法實現(xiàn)的過程是很復雜的,參考圖3.3和圖3.4對該算法流程的進行更加具體的總結(jié)REF_Ref5664\r\h[22]:第一步,F(xiàn)asterR-CNN算法中會先將輸入圖片的短邊resize到600;第二步,調(diào)整后的圖片將會利用主干特征提取網(wǎng)絡(luò)(Backbone)進行提取特征以此來獲得共享特征層(FeatureMap),在此類條件作用下可以推知其發(fā)展方向在本次實驗進行到這一步驟的時候還可以選擇是否使用注意力機制(鄭博文,謝婉瑩,2021);第三步,將會對第一個步驟中獲得的FeatureMap經(jīng)由一次3*3的卷積,然后再對獲得的卷積經(jīng)由兩次1*1的卷積,經(jīng)由這三次卷積之后就會獲得proposalbox;第四步,proposalbox會與FeatureMap相結(jié)合,然后傳入到ROIPooling層中,ROIPooling層就會使用proposalbox對FeatureMap截取。面對這種情況由于截取的結(jié)果的shape是不一樣的,這時就需要ROIPooling層會對所有的局部的特征圖進行池化處理以此來改變特征圖的shape的大小(陳煜祺,陳欣怡,2020);第五步,對獲得的每一個局部特征層進行分類和回歸預測。圖3.3FasterR-CNN算法流程圖3.4FasterR-CNN網(wǎng)絡(luò)圖3.5則是為了更好的理解FasterR-CNN算法的流程,以resnet50為主干提取網(wǎng)絡(luò),在沒有用注意力機制的情況下畫出來的FasterR-CNN算法的流程結(jié)構(gòu)圖。圖3.5FasterR-CNN+resnet50流程結(jié)構(gòu)圖3.3算法流程中相關(guān)結(jié)構(gòu)的理論介紹3.3.1主干特征提取網(wǎng)絡(luò)FasterR-CNN網(wǎng)絡(luò)中的主干特征提取網(wǎng)絡(luò)(Backbone)包含的僅僅是壓縮了長和寬四次的內(nèi)容,而第五次的內(nèi)容是存在于ROI中的。本次實驗所用的Backbone是resnet50和vgg16。resnet50中共包括50層,它的結(jié)構(gòu)可以被分成五個階段,但是,其中的第二到第五個階段在結(jié)構(gòu)上是差不多的。其中,Stage1階段可以被分成兩個操作步驟,第一個操作步驟中包含卷積層(conv)、BN(BatchNorm)層和激活函數(shù)(ReLU)這三個部分,第二個操作步驟是池化操作,從這些言論可以知道將輸入圖像的shape改變后得到輸出結(jié)果;Stage2階段主要就是進行ConvBlock和IDBlock操作。它的總體結(jié)構(gòu)如圖3.6所示(陳昊忠,張澤怡,2022)。圖3.6resnet50整體結(jié)構(gòu)上面提到的ConvBlock和IdentityBlock是resnet50模型中兩個重要的塊,這兩個塊都是殘差網(wǎng)絡(luò)結(jié)構(gòu)。其中,ConvBlock塊是不能夠被用來進行連續(xù)串聯(lián)的且它的輸入與輸出的維度也應該是不一樣的,這些行為透露出一些意圖它的功能就是用于去改變卷積神經(jīng)網(wǎng)絡(luò)的維度,IdentityBlock塊是能夠被用來進行連續(xù)串聯(lián)的且它的輸入與輸出的維度是一樣的,它的功能就是用于去加深卷積神經(jīng)網(wǎng)絡(luò)(鐘麗娜,黃昊羽,2022)?;谇拔牡姆治觯梢猿浞肿C明前文的理論探討,特別是對核心概念的理解在理論上得到了進一步的深化與擴展。這種深化不僅表現(xiàn)在對概念本質(zhì)的詳細解析上,還體現(xiàn)在對其應用范圍的廣泛探索中。通過對相關(guān)文獻的整理和實證數(shù)據(jù)的分析,本文更加清晰地界定了這些核心概念在理論框架中的位置和功能,以及它們之間的內(nèi)在聯(lián)系。同時,這種擴展為本文開辟了新的研究視角和思考路徑,有助于推動該領(lǐng)域理論的持續(xù)進步。本文的研究還突出了理論與實踐的緊密聯(lián)系,通過將理論分析應用于實際問題的解決,驗證了理論的可行性和實用性,這種結(jié)合也為相關(guān)領(lǐng)域的實踐提供了堅實的理論依據(jù)。二者的結(jié)構(gòu)如下圖3.7和圖3.8所示:圖3.7ConvBlock的結(jié)構(gòu)圖3.8IdentityBlock的結(jié)構(gòu)深度為16的vgg16是VGGNet模型中比較經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)。在這里將輸入模塊的大小設(shè)定為224*224*3,畫出的vgg16網(wǎng)絡(luò)結(jié)構(gòu)的各個模塊層次表如表3.1所示:表3.1vgg16網(wǎng)絡(luò)結(jié)構(gòu)的模塊層次表模塊模塊中的層次模塊模塊中的層次輸入模塊224*224*3第四個模塊conv3-512conv3-512conv3-512maxpool第一個模塊conv3-64conv3-64maxpool表3.1(續(xù))vgg16網(wǎng)絡(luò)結(jié)構(gòu)的模塊層次表第二個模塊conv3-128conv3-128maxpool第五個模塊conv-512conv3-512conv3-512maxpool第三個模塊conv3-256conv3-256conv3-256maxpool第六個模塊FC-4096FC-4096FC-1000softmax3.3.2RPN網(wǎng)絡(luò)在3.2節(jié)中已經(jīng)提到了這一階段需要進行一次3*3的卷積以及分別進行一次通道數(shù)為18和36的1*1的卷積。在這里的幾個數(shù)字的含義需要去說明一下。FeatureMap會將輸入進來的圖片分成38*38的網(wǎng)格,在這樣的狀態(tài)中每一個網(wǎng)格上都會有9個先驗框;每次預測都會出現(xiàn)背景和前景這兩種情況;在一幅圖片中確定一個目標的位置需要四個參數(shù),分別是中心點的坐標,先驗框的長、寬,正如圖3.9所示(蔣澤光,史雪峰,2021)。所以,從我們將通道數(shù)18拆分成9*2就可以看出這一卷積的作用就是用于判斷先驗框是否包含物體;而另一卷積的作用就是用于對先驗框進行調(diào)整以此來獲得一個新的更加準確的先驗框,故而我們將通道數(shù)36拆分成9*4。圖3.9目標位置參數(shù)3.3.3ROIPooling層ROIPOOLing層的操作主要可以被分成三個部分:第一,利用輸入圖像把proposalsbox映射到共享特征層中的ROLs上的對應位置;第二,把上一步中獲得的位置分成同樣尺寸的sections,這里的sections的數(shù)目與輸出維度是同樣的;第三,對分好的sections使用最大池化(鄧瑞波,崔玉鳳,2022)。表3.2是為了闡明ROIPOOLing層所做的事情而隨機提出的一個數(shù)據(jù)表,后續(xù)的過程會依據(jù)這個表來進行。首先,該過程要在獲得的局部共享特征層上劃分一個小一點的區(qū)塊,在下表中就分成了四個區(qū)塊,在這樣的布局下這四個區(qū)塊會使用加粗的外框線來跟表中的其余位置進行區(qū)分,不過,在具體的FasterR-CNN算法里面卻會在獲得的局部共享特征層上劃分處出來196個區(qū)塊;然后要對每一個區(qū)塊各自進行最大池化的操作,完成池化操作后就可以得到一個尺寸為2*2的FeatureMap(以該表為例),它的值分別為0.91、0.82、0.66、0.81。這在一定程度上預示了這就是該層的工作了,在接下來的過程中,就可以對這些局部的FeatureMap進行下一步的處理(魏澤怡,成雪瑩,2021):判斷這些局部共享特征層是不是包含物體,并且可以對這個建議框進行調(diào)整,以此來獲得比較準確的預測框。表3.2poolingsections0.680.740.340.060.370.570.660.860.990.970.560.160.630.330.710.110.690.530.820.220.490.460.800.210.650.290.760.770.330.820.670.370.370.880.910.690.520.430.270.590.380.230.340.570.630.550.960.470.110.540.160.460.810.110.010.360.130.440.640.500.763.3.4分類預測和回歸預測分類預測(cls_pred)的目標值的數(shù)量是有限的且是無順序的離散量,而且該預測的目標值只有相同與否的區(qū)別,該預測的功能是為了去獲得最終的預測框來對建議框進行調(diào)整;回歸預測(bbox_pred)的目標值是有順序的連續(xù)變量,而且該它的目標值可取任意的實數(shù),這在某種程度上傳達該預測的功能是為了去判定proposalsbox內(nèi)部是不是包括物體及物體的種類(朱曉東,成澤鳴,2022)。3.4本章小結(jié)本章是對本次實驗所使用的檢測算法--FasterR-CNN的論述。本章的內(nèi)容主要是關(guān)于FasterR-CNN算法的原理理解、算法的實現(xiàn)流程及其中的Backbone、RPN網(wǎng)絡(luò)、ROIPooling層以及分類預測和回歸預測。第四章實驗設(shè)計與結(jié)果分析4.1實驗目的本次實驗的目的是研究FasterR-CNN算法在主干特征提取網(wǎng)絡(luò)分別為resnet50和vgg16以及主干特征提取網(wǎng)絡(luò)是否加入注意力機制的情況下對WiderPerson數(shù)據(jù)集的檢測情況以及性能情況如何。4.2實驗環(huán)境介紹這個項目是在服務器上運行的,GPU的類型是TITANXP*1的,顯存是12G大小的;CPU的類型是7核Inter(R)Xeon(R)CPUE5-2680v4@2.40GHz的,內(nèi)存是16GB大小的;項目的語言為Python3.8,項目的環(huán)境為PyTorch1.7.0,Cuda11.0。4.3實驗設(shè)計這部分的內(nèi)容主要從主干特征提取網(wǎng)絡(luò)的具體情況、使用了何種注意力機制以及使用了哪種損失函數(shù)這三個方面來介紹實驗是怎么進行設(shè)計的(林卓忠,張紫朝,2020)。4.3.1主干特征提取網(wǎng)絡(luò)的設(shè)計對于本次實驗中的主要操作部分就是主干特征提取網(wǎng)絡(luò)包括,該網(wǎng)絡(luò)分別采用resnet50和vgg16這兩種。并且分別對在這兩種情況下的主干網(wǎng)絡(luò)中是不是加入注意力機制的情況下的檢測情況進行了對比,在這種模式下分析這幾種情況下哪種情況得到的檢測效果是更為完美的。4.3.2注意力機制的設(shè)計注意力機制是一種手段,它是將定量的計算機資源分配給更為重要的任務以此來處理更為重要的信息,當然,這種手段的前提是計算機的計算能力也應該是定量的REF_Ref6768\r\h[23]?,F(xiàn)如今共有二類注意力機制,一類是自下而上的和與顯著性有關(guān)聯(lián)的注意力機制,它是無意識的、需要外部的刺激才可以進行驅(qū)動的注意力,如最大匯聚、門控機制等,另一類是自上而下的和基于最大聚焦方式的注意力機制,它是一種有意識的,可以主動集中于某一對象上的注意力(魏雪莉,趙若彤,2021)REF_Ref6768\r\h[23]。在上述這部分當中,創(chuàng)新主要體現(xiàn)在視角的創(chuàng)新方面。首先體現(xiàn)在對研究對象展開了全新的觀察與思考。傳統(tǒng)的研究往往側(cè)重于對象的常見屬性和普遍聯(lián)系,而本文卻獨具慧眼,深入探究研究對象那些被忽視的邊緣特性和潛在關(guān)聯(lián)。在研究方法的選擇上,突破了傳統(tǒng)單一方法的束縛,創(chuàng)新性地融合了多學科的研究手段。再者,在理論運用方面,嘗試從不同的理論體系中吸取營養(yǎng),構(gòu)建起綜合性的理論分析體系。通過這種方式,既能發(fā)現(xiàn)以往研究中未曾涉及的理論空白區(qū)域,又能為相關(guān)領(lǐng)域的理論發(fā)展增添新的動力,拓寬了理論研究的范圍,為后續(xù)研究提供了更豐富的思考空間。除此之外,在此類條件作用下可以推知其發(fā)展方向深度學習中的注意力機制這個技巧手段模仿的是人眼。也就是說該機制可以像人眼一樣快速而簡要地看完所有的信息,然后將注意力放在特定的地方。使用這個技巧手段就可以讓網(wǎng)絡(luò)去關(guān)注需要注意的地方,而不是去關(guān)注所有的細節(jié)。在這個項目中所利用的注意力機制是通道注意力機制(SE),該機制的結(jié)構(gòu)可以用圖4.1表示。SE的實現(xiàn)方式不是很復雜。面對這種情況首先就是對輸進來的特征層進行全局的平均池化這個操作,這是為了把通道中的特征進行壓縮使得其變成實數(shù)(成君昊,成澤天,2021);然后就是給特征通道賦予權(quán)值;最后就是把權(quán)值系數(shù)與原始輸入的特征層逐個相乘以此來得到最后的結(jié)果。圖4.1SE基本結(jié)構(gòu)4.3.3損失函數(shù)的設(shè)計算法的損失嚴格上意義上可以分成分類損失和回歸損失REF_Ref9596\r\h[24]。在本次實驗中的回歸損失使用的函數(shù)的名稱叫做soomthL1Loss,該函數(shù)的求解可以通過以下的方法進行計算:當真實值與預測值的相減得到的結(jié)果x()的絕對值小于1時,它的表達形式為(公式4-1),(公式4-1)其它情況下該函數(shù)的表達形式為(公式4-2)。(公式4-2)在本次實驗中的分類損失使用的函數(shù)的名稱叫做交叉熵損失函數(shù),它可以把預測目標與groundtruth的差異值看作學習的損失,它的表達式為(公式4-3),(公式4-3)其中,P和Q分別表示分類任務中的真實的分布和模型預測的概率分布REF_Ref19837\r\h[25]。4.4實驗過程本次實驗的步驟大致上可以分成四步,分別是數(shù)據(jù)集的準備、訓練步驟、預測步驟和評估步驟。具體為(徐天昊,林文和,2023):第一步:數(shù)據(jù)集的處理。首先為了實現(xiàn)將項目中用到的數(shù)據(jù)集的格式變?yōu)閂OC的目的從而會去運行項目中的一個名為widerpersonVOC.py的文件,從這些言論可以知道兩種情況下的數(shù)據(jù)集的結(jié)構(gòu)如圖4.2所示。其次會運行項目中的一個名為clear.py的文件,這個過程是為了刪除數(shù)據(jù)集中的不常用的類(韓一鳴,成瑾瑜,2022)。更改前更改后圖4.2WiderPerson行人檢測數(shù)據(jù)集格式第二步:訓練步驟。首先,要將項目中的一個名為train.py的文件中的model_path參數(shù)設(shè)置成本次實驗所對應的主干網(wǎng)絡(luò)的權(quán)值文件。其次,運行項目中的一個名為train.py的文件。訓練過程可以分成凍結(jié)和解凍兩個階段,每個階段各有70個Epoch,以至于在程序運行結(jié)束后會得到140個權(quán)值文件。第三步:預測步驟。首先,將項目中的一個名為frcnn.py的文件中的model_path參數(shù)設(shè)置成上一步中生成的驗證損失較小的權(quán)值文件。其次,運行項目中的一個名為predict.py的文件而且在這個過程中要輸入要輸入的圖片的路徑。第四步:評估步驟。首先,劃分數(shù)據(jù)集。其次,將項目中的一個名為frcnn.py的文件中的參數(shù)model_path設(shè)置成訓練過程中獲得的一個權(quán)值文件。在最后要去運行項目中的一個名為get_map.py的文件。4.5實驗結(jié)果與分析這個項目按照Backbone的情況可以被分成四種情況,分別是:resnet50+通道注意力機制、resnet50、vgg16+通道注意力機制、vgg16。在這里就可以通過這四種情況的實驗結(jié)果來分析與對比,從這些證據(jù)中可以看出發(fā)現(xiàn)這個算法在哪種情況下對該數(shù)據(jù)集的檢測結(jié)果是更好的。4.5.1訓練過程該過程會分析這兩種主干網(wǎng)絡(luò)各自的損失的情況以及在同一主干網(wǎng)絡(luò)中是不是添加注意力機制這一情況下的損失。本研究在確保研究結(jié)論精準性的道路上,深入考量了研究流程中可能潛藏的各類偏差風險,并在研究設(shè)計的多個層面實施了嚴格的管控策略。在研究藍圖規(guī)劃階段,本文以科學為基石,精心設(shè)計了研究框架,確保了研究問題的明確聚焦與假設(shè)的嚴謹構(gòu)建。在數(shù)據(jù)采集環(huán)節(jié),本文秉承多元化原則,整合了多源數(shù)據(jù)資源,通過數(shù)據(jù)的相互補充與驗證提升了數(shù)據(jù)質(zhì)量,并借助標準化操作流程有效降低了數(shù)據(jù)采集中的主觀偏差。圖4.3表示的是主干網(wǎng)絡(luò)分別是resnet50和vgg16而得到的與訓練過程中的損失有關(guān)系的圖像。其中,這組圖片的左側(cè)部分對應的主干網(wǎng)絡(luò)采用的是resnet50。從這兩幅圖中可以發(fā)現(xiàn)一些規(guī)律,根據(jù)這兩幅圖的loss曲線的趨勢都可以將其分成兩部分,這是因為整個訓練過程分為凍結(jié)階段和解凍階段(張語朝,陳睿澤,2023)。其中,在凍結(jié)階段模型的主干被凍結(jié)了,特征提取網(wǎng)絡(luò)不會發(fā)生變化,這些行為透露出一些意圖不過卻可以加快訓練的速度;而解凍階段的情況則與凍結(jié)階段階段的情況正好相反。而且,這兩個網(wǎng)絡(luò)的訓練損失和驗證損失的值都在不斷下降并且在最后逐步趨于平穩(wěn),證明模型在整個過程中是在不斷地進行學習的且最后會逐漸收斂。圖4.3resnet50和vgg16的損失圖4.4表示的是主干網(wǎng)絡(luò)為resnet50和在該網(wǎng)絡(luò)中加上SE機制而得到的與訓練過程中的損失有關(guān)聯(lián)的圖像(譚羽軒,陳雅靜,2023)。在這組圖片的左側(cè)部分對應的主干網(wǎng)絡(luò)采用的是resnet50且沒有加注意力機制的情況。在這樣的狀態(tài)中對比這兩幅圖中可以發(fā)現(xiàn)一些規(guī)律,加入SE機制后,loss曲線的波動變得更大了。發(fā)生這種情況的原因就是因為SE機制會使得模型中的那些表示信息量最大的channel特征變得更多,而會使得那些不重要的channel特征REF_Ref7163\r\h[25]變得更少。圖4.4resnet50和resnet50+SE的損失4.5.2預測過程該過程會對比分析這兩種主干網(wǎng)絡(luò)各自的預測情況以及在同一主干網(wǎng)絡(luò)中是不是添加注意力機制這一情況下的預測結(jié)果。眼下的研究方向和結(jié)論跟既有的成熟理論范式相一致,在研究過程中嚴格恪守科學研究的規(guī)范流程與嚴謹做派。從研究設(shè)計之初,便充分參考經(jīng)典理論結(jié)構(gòu)的構(gòu)建理念,確保研究框架的合理性與穩(wěn)定性。數(shù)據(jù)統(tǒng)計階段采用多種被理論認可有效的方式,對收集到的數(shù)據(jù)運用適宜的統(tǒng)計分析工具。在結(jié)果闡釋環(huán)節(jié)緊緊圍繞已有成熟理論展開。將研究結(jié)論與理論模型作全面比對,分析其一致之處與分歧之處。對于一致之處,進一步強調(diào)研究如何充實和驗證了理論;對于分歧之處,深入思考背后的動因,為后續(xù)研究提供指引。圖4.5表示的是主干網(wǎng)絡(luò)分別采用resnet50和vgg16而得到的預測結(jié)果。其中,這組圖片的左側(cè)部分對應的主干網(wǎng)絡(luò)采用的是resnet50。以下兩幅圖片中的每個框內(nèi)都會顯示出類別,并將得分標記出來。這兩種情況的結(jié)果大體上還是可以的,大部分被遮擋的行人也都被識別出來了,不過仍有一些被漏掉了。而且采用vgg16能夠更好地去識別那種遮擋程度很嚴重的行人,如只露出一小部分身體的行人,這使得該框架得到的結(jié)果更加的完善、完美(陳昊忠,趙奇朝,2021)。圖4.5預測結(jié)果展示圖4.5表示的是主干網(wǎng)絡(luò)為resnet50和在該網(wǎng)絡(luò)中加上SE機制而得到的預測結(jié)果。其中,這組圖片的左側(cè)部分對應的主干網(wǎng)絡(luò)采用的是resnet50。以下兩幅圖片中的每個框內(nèi)都會顯示出類別,在這樣的布局下并將得分標記出來。這兩種情況的結(jié)果大體上還是可以的,大部分被遮擋的行人也都被識別出來了,不過仍有一些被漏掉了(付嘉瑞,孫怡忠,2021)。而且在網(wǎng)絡(luò)中添加注意力機制后能夠使得網(wǎng)絡(luò)去關(guān)注整個圖片,這樣就可以更好地去識別那種遮擋程度很嚴重的行人,如只露出一小部分身體的行人,這使得該框架得到的結(jié)果更加的完善、完美。圖4.6預測結(jié)果展示4.5.3評估過程該過程會對比分析這兩種主干網(wǎng)絡(luò)以及在同一主干網(wǎng)絡(luò)中是不是添加注意力機制這兩情況下對于該數(shù)據(jù)集中的“pedestrians”類的識別精度。圖4.7表示的是主干網(wǎng)絡(luò)分別是resnet50和vgg16而得到的對于“完整的行人”和被遮擋的不是非常嚴重的行人這個類的識別精度的圖像。其中,這組圖片的左側(cè)部分對應的主干網(wǎng)絡(luò)采用的是resnet50。從下面的兩幅圖中不難發(fā)現(xiàn),主干網(wǎng)絡(luò)采用vgg16的情況下對于那些對于“完整的行人”和被遮擋的不是非常嚴重的檢測目標的識別效果是更完美的,這也說明了主干網(wǎng)絡(luò)的類型對與算法的識別效果是有影響的(孫志恒,楊慧萍,2019)。圖4.7預測結(jié)果展示圖4.8表示的是主干網(wǎng)絡(luò)為vgg16和在該網(wǎng)絡(luò)中加上SE機制而得到的對于“完整的行人”和被遮擋的不是非常嚴重的行人這個類的識別精度的圖像。這在一定程度上預示了其中,這組圖片的左側(cè)部分對應的主干網(wǎng)絡(luò)采用的是resnet50。因而,本文針對結(jié)論進行了再次審核。首要工作是在理論方面確認研究假設(shè)的合理性與邏輯的嚴密性。通過對相關(guān)文獻進行系統(tǒng)梳理和深入對比分析,證實了研究框架的科學性與適用性。在此基礎(chǔ)上,進一步采用多種實證手段對研究結(jié)論加以驗證,以保證結(jié)果的可靠性和穩(wěn)健性。通過與其他相關(guān)研究成果的對比,驗證了研究結(jié)論的普遍適用性和創(chuàng)新性。在與已有文獻結(jié)論對比分析后,發(fā)現(xiàn)本文研究結(jié)果不僅支撐了部分已有的觀點,還提出了新的看法,為相關(guān)領(lǐng)域的理論發(fā)展提供了新的思路和證據(jù)。同時,本文還探究了研究結(jié)論在實際應用中的潛在作用,為后續(xù)研究提供了指引和建議。這在某種程度上傳達從下面的兩幅圖中不難發(fā)現(xiàn),加入注意力機制后,對于那些對于“完整的行人”和被遮擋的不是非常嚴重的檢測目標的識別效果是更完美的,因此可以才用這種方法對該算法進行改進(孫奇倩,高明澤,2023)。圖4.8預測結(jié)果展示4.6本章小結(jié)本章節(jié)首先對本次實驗的目的以及實驗環(huán)境進行了介紹,之后從主干特征提取網(wǎng)絡(luò)、注意力機制以及損失函數(shù)三個方面來對實驗的設(shè)計進行了闡述,接下來敘述了本次實驗的實驗步驟,最后對在本項目中得到的實驗結(jié)果進行展示和分析。第五章總結(jié)與展望5.1研究總結(jié)今朝,行人檢測算法可以說只要有行人就會有它的用武之地,不只是應用于自動駕駛、智能機器人等領(lǐng)域??墒?,對于場景中檢測目標過多的行人檢測,由于行人與行人之間和行人與環(huán)境之間的存在的遮擋以及場景中可能會存在一些小尺度的檢測行人等情況的發(fā)生可能會使行人檢測算法的性能下降。同時,被用來進行檢測的行人的姿態(tài)、行人的視角以及拍攝設(shè)備的拍攝角度、場景中的光照等因素也會使密集場景中存在遮擋現(xiàn)象的行人檢測出現(xiàn)漏檢等現(xiàn)象?;谏鲜龅姆N種原因,現(xiàn)在仍然有很多的學者投身于行人檢測算法的研究當中,他們也提出了很多優(yōu)秀的行人檢測算法。本文是對FasterR-CNN行人檢測算法的了解與實現(xiàn),\t"/report/74a8a055-c563-4175-b920-086732e41276/html/resultFrame"針對的場景是被用來檢測的行人過多且他們之間可能被遮擋的情況。下面的內(nèi)容是對本文所做的工作的總結(jié):一、本文說明的是關(guān)于行人檢測算法的意義以及詳細論述了它的國內(nèi)和國外的現(xiàn)有研究水平。二、對FasterR-CNN算法所需要的理論進行了說明,包括WiderPerson行人檢測數(shù)據(jù)集的統(tǒng)計特性;關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的知識論述;精準率、準確率、召回率、交并比、AP和mAP等行人檢測算法中可能會用到的評價指標。三、對FasterR-CNN算法的理論研究和該算法在密集場景下的實現(xiàn)。闡述了該算法的原理、流程及其中的Backbone、RPN網(wǎng)絡(luò)、ROIPOOLing層以及分類和回歸預測這四個算法結(jié)構(gòu)進行了理論介紹。從主干特征提取網(wǎng)絡(luò)、注意力機制以及損失函數(shù)這三個方面對實驗設(shè)計進行了介紹。展示了四種情況下獲得的實驗結(jié)果,并對其進行分析。5.2期望通過對本次實驗的分析,對于本文所做的工作還有以下幾個可以被改進地方。一、本文所使用的的數(shù)據(jù)集僅僅是WiderPerson,由于時間緊任務重,該數(shù)據(jù)集的格式被改為VOC后就直接使用了,并沒有考慮其它數(shù)據(jù)集在這種情況下的使用情況。盡管該數(shù)據(jù)集包括了絕大多數(shù)的密集的場景,但在后續(xù)的研究中,仍然需要對其它的數(shù)據(jù)集進行檢測,以便于檢查該算法的競爭性和適合性如何。二、本文的代碼是參照FasterR-CNN算法的理論寫出來的,所以它也具有一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤層氣液化工崗前班組協(xié)作考核試卷含答案
- 2025年長江生態(tài)環(huán)保集團有限公司社會招聘57人(第二批)筆試參考題庫附帶答案詳解(3卷)
- 2025年度山西太原儲備糧管理集團有限公司社會招聘9人筆試參考題庫附帶答案詳解(3卷)
- 2025年安徽美術(shù)出版社勞務委派崗位公開招聘2人筆試參考題庫附帶答案詳解(3卷)
- 2025年中國有研科技集團有限公司夏季招聘200人+正式啟動筆試參考題庫附帶答案詳解(3卷)
- 2025屆中鐵三局集團畢業(yè)生校園招聘筆試參考題庫附帶答案詳解(3卷)
- 2025中石化保險經(jīng)紀有限公司公開招聘1人(北京)筆試參考題庫附帶答案詳解(3卷)
- 浙江省2024年浙江省水利廳所屬事業(yè)單位特殊專業(yè)技術(shù)崗位招聘261人事業(yè)單位編制筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)
- 廣州市2024年3月廣東廣州開發(fā)區(qū)建筑材料和工程技術(shù)管理服務中心招聘1人筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)
- 2026招聘茶葉加工人員面試題及答案
- 美團外賣騎手合同范本
- 綠化黃土采購合同協(xié)議
- 醫(yī)保中心對定點二級醫(yī)院建立住院信息月報制度
- DB50/T 675-2016 資源綜合利用發(fā)電機組單位產(chǎn)品能源消耗限額
- 2024年檢驗檢測機構(gòu)管理評審報告
- 小區(qū)監(jiān)控系統(tǒng)工程改造方案
- 液壓升降平臺技術(shù)協(xié)議模板
- 2024年高考英語 (全國甲卷)真題詳細解讀及評析
- DB36-T 1865-2023 濕地碳匯監(jiān)測技術(shù)規(guī)程
- 福建省部分地市2025屆高中畢業(yè)班第一次質(zhì)量檢測 化學試卷(含答案)
- JJF(陜) 036-2020 單相機攝影測量系統(tǒng)校準規(guī)范
評論
0/150
提交評論