基于雙注意力機(jī)制YOLO的車輛檢測(cè)方法研究_第1頁(yè)
基于雙注意力機(jī)制YOLO的車輛檢測(cè)方法研究_第2頁(yè)
基于雙注意力機(jī)制YOLO的車輛檢測(cè)方法研究_第3頁(yè)
基于雙注意力機(jī)制YOLO的車輛檢測(cè)方法研究_第4頁(yè)
基于雙注意力機(jī)制YOLO的車輛檢測(cè)方法研究_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

引言1.1研究背景與意義伴隨著交通基礎(chǔ)設(shè)施不斷拓展,汽車保有量呈炸裂式的高速增長(zhǎng),龐大的車輛數(shù)和駕駛員數(shù),引發(fā)了交通流量大幅上漲。面對(duì)這種局面,傳統(tǒng)的交通管理模式逐步顯現(xiàn)出管理力度不夠、交通堵塞、事故頻繁發(fā)生等一系列急需解決的問題,國(guó)家為應(yīng)對(duì)眼下交通量增多和安全管理缺失的矛盾,實(shí)現(xiàn)交通經(jīng)濟(jì)的可持續(xù)發(fā)展,助力交通管理的智能化水平提升,厘定了“數(shù)字交通強(qiáng)國(guó)”的戰(zhàn)略目標(biāo),其中重點(diǎn)是發(fā)展智能交通系統(tǒng)REF_Ref21335\r\h[1]。智能交通系統(tǒng)中的主要技術(shù)依托就是車輛目標(biāo)檢測(cè)技術(shù),它起到了不可替代的關(guān)鍵作用,它可借助整合深度學(xué)習(xí)算法和多源感知數(shù)據(jù)REF_Ref19714\r\h[2],攻克復(fù)雜場(chǎng)景中車輛、道路與環(huán)境的協(xié)同矛盾,車輛目標(biāo)檢測(cè)技術(shù)能夠?qū)崟r(shí)精準(zhǔn)確定道路上車輛的數(shù)量、位置、行駛狀態(tài)等信息。利用這些信息,交通管理服務(wù)部門可以更合理地管理交通標(biāo)志、謀劃路線并做好資源分配,有效緩解交通擁堵等情形,提高道路的通行效率,提升整體交通資源的配置水平。在自動(dòng)駕駛技術(shù)的研究與應(yīng)用中,車輛目標(biāo)檢測(cè)是自動(dòng)駕駛汽車實(shí)現(xiàn)安全行駛的關(guān)鍵技術(shù)之一。自動(dòng)駕駛汽車必須借助精準(zhǔn)的目標(biāo)檢測(cè)系統(tǒng)來識(shí)別周圍環(huán)境中的車、人以及障礙物等各類目標(biāo)實(shí)體,從而為路徑規(guī)劃和決策提供可靠依據(jù)。實(shí)現(xiàn)精準(zhǔn)的決策跟控制,保障行車過程安全又平穩(wěn);在助力環(huán)保交通進(jìn)步方面,車輛目標(biāo)檢測(cè)技術(shù)同樣能起到積極作用,采用對(duì)車輛開展實(shí)時(shí)監(jiān)控與分析,可實(shí)現(xiàn)交通流量的優(yōu)化,縮減車輛于道路上的停滯時(shí)長(zhǎng)與低效行車現(xiàn)象,進(jìn)而降低能源消耗和尾氣的排放,協(xié)助達(dá)成綠色低碳交通發(fā)展的愿景。1.2國(guó)內(nèi)外研究現(xiàn)狀傳統(tǒng)的目標(biāo)檢測(cè)主要基于手工特征提取,如HOG(HistogramofOrientedGradients)REF_Ref29052\r\h[3]、SIFT(Scale-InvariantFeatureTransform)REF_Ref29075\r\h[4]等,這些方法都需要人工設(shè)計(jì)特征,并且對(duì)光照、姿態(tài)、遮擋等因素比較敏感,檢測(cè)精度和魯棒性也比較低。在深度學(xué)習(xí)技術(shù)不斷進(jìn)步的背景下,其在車輛檢測(cè)領(lǐng)域的優(yōu)勢(shì)愈發(fā)顯著,逐漸成為該領(lǐng)域的研究熱點(diǎn)與核心方向。傳統(tǒng)目標(biāo)檢測(cè)算法逐漸被基于深度學(xué)習(xí)的檢測(cè)算法所替代。以R-CNN系列REF_Ref29094\r\h[5]算法為代表的傳統(tǒng)的兩階段檢測(cè)方法,采用選擇性的搜索機(jī)制,用來生成候選區(qū)域,并通過多個(gè)階段的特征提取和分類操作來實(shí)現(xiàn)目標(biāo)的精確定位。然而,此類兩階段檢測(cè)算法存在顯著缺陷:由于需要對(duì)每一個(gè)候選區(qū)域分別進(jìn)行特征提取和分類處理,計(jì)算量巨大,導(dǎo)致檢測(cè)速度緩慢,難以滿足實(shí)時(shí)性要求。而YOLO系列的單階段檢測(cè)算法REF_Ref29117\r\h[6],則通過單次網(wǎng)絡(luò)向前進(jìn)行傳播完成目標(biāo)識(shí)別和定位,極大地減少了計(jì)算量,使檢測(cè)效率顯著提升,能夠?qū)崿F(xiàn)車輛的快速檢測(cè),滿足實(shí)時(shí)應(yīng)用場(chǎng)景的需求。YOLO模型的結(jié)構(gòu)相對(duì)簡(jiǎn)單,訓(xùn)練過程也更加簡(jiǎn)便。YOLOv8通過輕量化網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的損失函數(shù),在檢測(cè)性能上達(dá)到新的高度。在復(fù)雜多變的交通環(huán)境中,盡管相關(guān)技術(shù)已經(jīng)取得了一定進(jìn)展,但對(duì)于小目標(biāo)車輛的檢測(cè)精度仍然有待提升,這一問題在實(shí)際應(yīng)用中尤為突出,限制了檢測(cè)系統(tǒng)的整體性能表現(xiàn)。針對(duì)以上問題,HuoREF_Ref28960\r\h[7]等人提出了一種基于YOLOv8算法的大內(nèi)核、多尺度梯度組合的道路交通小目標(biāo)車輛檢測(cè)模型RGGE-YOLOv8,該模型使用RepLayer模型替換YOLOv8網(wǎng)絡(luò)的主干部分,創(chuàng)新性地引入大內(nèi)核深度可分離卷積結(jié)構(gòu),以此拓展上下文信息,顯著增強(qiáng)了模型對(duì)小目標(biāo)的信息捕獲能力,有效改善了小目標(biāo)易被忽略的問題。ZhangREF_Ref28872\r\h[8]等人針對(duì)上述難題,提出基于YOLOv8的車輛目標(biāo)檢測(cè)模型YOLO-CDC,該模型引入融合Transformer結(jié)構(gòu)全局特征提取優(yōu)勢(shì)的C2Former模塊,取代傳統(tǒng)C2f模塊,構(gòu)建多尺度特征融合分支,精準(zhǔn)捕捉目標(biāo)邊緣細(xì)節(jié)。然而,這種深度結(jié)構(gòu)可能增加模型訓(xùn)練的復(fù)雜度與計(jì)算量。在復(fù)雜光照條件下,對(duì)微小目標(biāo)的特征提取仍存在優(yōu)化空間。為提升車輛檢測(cè)的效率與智能化水平,Zhang等學(xué)者REF_Ref28764\r\h[9]構(gòu)建了一種基于CPU+FPGA異構(gòu)計(jì)算的車輛檢測(cè)系統(tǒng)。具體而言,他們?cè)贑PU端開發(fā)了基于MobileNet的檢測(cè)算法,用于高效處理圖像數(shù)據(jù),并將訓(xùn)練完成的網(wǎng)絡(luò)參數(shù)傳輸至FPGA。在FPGA端,利用邏輯電路構(gòu)建檢測(cè)模型,對(duì)攝像頭采集的圖像進(jìn)行實(shí)時(shí)處理,并通過HDMI接口輸出圖像及其檢測(cè)結(jié)果。在眾多研究中,Hu等人REF_Ref28457\r\h[10]的工作也非常值得關(guān)注。他們針對(duì)無人機(jī)航拍圖像的特點(diǎn),提出了一種創(chuàng)新的車輛目標(biāo)檢測(cè)模型。該模型的核心優(yōu)勢(shì)在于其錨框自適應(yīng)機(jī)制,能夠根據(jù)無人機(jī)拍攝圖像中車輛目標(biāo)的實(shí)際尺度分布,靈活調(diào)整錨框的大小,以精準(zhǔn)匹配不同大小的車輛目標(biāo)。這種自適應(yīng)調(diào)整策略不僅提高了檢測(cè)的靈活性,還顯著提升了目標(biāo)檢測(cè)的精度。與傳統(tǒng)檢測(cè)方法相比,該模型在處理復(fù)雜交通場(chǎng)景時(shí)表現(xiàn)出色,有效克服了傳統(tǒng)方法在面對(duì)復(fù)雜背景和多尺度目標(biāo)時(shí)的檢測(cè)局限性,為無人機(jī)航拍圖像中的車輛檢測(cè)提供了一種更為高效和準(zhǔn)確的解決方案。1.3論文章節(jié)安排第一章:引言。簡(jiǎn)要介紹車輛目標(biāo)檢測(cè)研究的背景及意義,闡述傳統(tǒng)的目標(biāo)檢測(cè)方法和目前車輛目標(biāo)檢測(cè)存在的問題。歸納目前針對(duì)這些問題國(guó)內(nèi)外研究的方法及研究現(xiàn)狀,分析現(xiàn)有的方法的優(yōu)勢(shì)與不足列明本文組織結(jié)構(gòu),并且明確本文的研究方向與創(chuàng)新點(diǎn)。第二章:相關(guān)理論概念及基礎(chǔ)技術(shù)。首先,對(duì)深度學(xué)習(xí)基礎(chǔ)理論進(jìn)行闡述。對(duì)目標(biāo)檢測(cè)技術(shù)進(jìn)行系統(tǒng)分類與論述,梳理其在計(jì)算機(jī)視覺領(lǐng)域的演進(jìn)脈絡(luò),并深入探討這些技術(shù)在車輛目標(biāo)檢測(cè)領(lǐng)域的潛在優(yōu)勢(shì)。第三章:模型改進(jìn)。本章節(jié)為核心創(chuàng)新部分,詳細(xì)闡述基于YOLOv8的車輛目標(biāo)檢測(cè)算法的整體框架。針對(duì)目前存在的難題,結(jié)合論文的核心改進(jìn)策略和自己繪制的網(wǎng)絡(luò)結(jié)構(gòu)圖進(jìn)行闡述。第四章:實(shí)驗(yàn)設(shè)計(jì)。先說明車輛目標(biāo)檢測(cè)數(shù)據(jù)集選取和預(yù)處理方法,結(jié)合YOLOv8算法進(jìn)行的改進(jìn)策略設(shè)計(jì)消融實(shí)驗(yàn),通過消融實(shí)驗(yàn)驗(yàn)證本文的方法的可行性,最后對(duì)改進(jìn)后算法的實(shí)驗(yàn)結(jié)果進(jìn)行分析。第五章:結(jié)論。總結(jié)車輛目標(biāo)檢測(cè)技術(shù)在實(shí)際應(yīng)用中的重要性,通過對(duì)實(shí)驗(yàn)結(jié)果的分析,論述本文所提的方法的可行性。同時(shí)分析本文方法的不足之處,并且對(duì)未來的研究方向進(jìn)行展望。2相關(guān)理論概念與基礎(chǔ)技術(shù)2.1深度學(xué)習(xí)基礎(chǔ)理論深度學(xué)習(xí)REF_Ref21533\r\h[11]作為人工智能領(lǐng)域的核心技術(shù),其基礎(chǔ)理論圍繞多層非線性網(wǎng)絡(luò)的構(gòu)建與優(yōu)化展開,旨在通過層級(jí)化特征提取實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的高效處理。其核心架構(gòu)體現(xiàn)為從原始數(shù)據(jù)到抽象語義的層級(jí)躍遷,以圖像識(shí)別為例,輸入層接收像素信息后,卷積層通過局部連接和權(quán)值共享提取邊緣、紋理等低級(jí)特征,池化層壓縮特征空間以增強(qiáng)不變性,高層網(wǎng)絡(luò)進(jìn)一步整合形成物體結(jié)構(gòu)的語義理解。在學(xué)習(xí)機(jī)制方面,深度學(xué)習(xí)依賴數(shù)據(jù)驅(qū)動(dòng)的參數(shù)調(diào)整,以最小化預(yù)測(cè)誤差。監(jiān)督學(xué)習(xí)利用標(biāo)注數(shù)據(jù)訓(xùn)練模型,反向傳播算法通過鏈?zhǔn)椒▌t計(jì)算梯度指導(dǎo)參數(shù)優(yōu)化,隨機(jī)梯度下降及其變體因效率高被廣泛采用。值得注意的是,模型泛化能力與數(shù)據(jù)規(guī)模質(zhì)量密切相關(guān),小樣本場(chǎng)景下預(yù)訓(xùn)練模型如BERT通過遷移學(xué)習(xí)提升下游任務(wù)表現(xiàn),體現(xiàn)了學(xué)習(xí)機(jī)制從單一訓(xùn)練到策略優(yōu)化的演進(jìn)。典型模型在不同模態(tài)任務(wù)中各具優(yōu)勢(shì):卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為計(jì)算機(jī)視覺基石,通過卷積、池化和全連接層設(shè)計(jì),在醫(yī)學(xué)影像分析(如DeepDKD系統(tǒng)篩查糖尿病腎?。?、自動(dòng)駕駛等領(lǐng)域?qū)崿F(xiàn)高效特征提?。谎h(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其改進(jìn)版LSTM擅長(zhǎng)處理序列數(shù)據(jù),結(jié)合注意力機(jī)制的Transformer模型更突破長(zhǎng)距離依賴限制,成為自然語言處理的標(biāo)桿;生成對(duì)抗網(wǎng)絡(luò)(GAN)通過生成器與判別器的博弈學(xué)習(xí)數(shù)據(jù)分布,在圖像生成和醫(yī)學(xué)影像合成中緩解數(shù)據(jù)不足問題,其變體WGAN通過優(yōu)化目標(biāo)函數(shù)提升了訓(xùn)練穩(wěn)定性。盡管深度學(xué)習(xí)應(yīng)用廣泛,仍面臨可解釋性差、數(shù)據(jù)依賴性強(qiáng)等挑戰(zhàn)。例如深度網(wǎng)絡(luò)決策過程難以解釋,在醫(yī)療診斷等領(lǐng)域可能引發(fā)信任問題;大規(guī)模標(biāo)注數(shù)據(jù)需求限制了資源匱乏場(chǎng)景的應(yīng)用。從圖像識(shí)別到自然語言處理,從基礎(chǔ)理論到跨領(lǐng)域應(yīng)用,深度學(xué)習(xí)通過層級(jí)化特征提取、數(shù)據(jù)驅(qū)動(dòng)優(yōu)化和模型創(chuàng)新,持續(xù)拓展人工智能的邊界。隨著關(guān)鍵挑戰(zhàn)的逐步解決,其將在更多領(lǐng)域?qū)崿F(xiàn)智能化躍遷,成為驅(qū)動(dòng)科技變革的核心動(dòng)力。2.2目標(biāo)檢測(cè)技術(shù)計(jì)算機(jī)視覺領(lǐng)域中的目標(biāo)檢測(cè)作為核心研究問題,在安全監(jiān)控、智能交通、醫(yī)療影像分析等眾多關(guān)鍵領(lǐng)域發(fā)揮著不可替代的作用。其核心任務(wù)是通過分類與定位兩個(gè)核心環(huán)節(jié),在圖像或視頻中精準(zhǔn)識(shí)別目標(biāo)物體的具體類別,并確定其在空間中的精確位置。然而,由于現(xiàn)實(shí)場(chǎng)景中物體外觀存在顯著差異,形狀、姿態(tài)變化多樣,加之光照條件不穩(wěn)定、背景環(huán)境復(fù)雜多變等因素的干擾,目標(biāo)檢測(cè)始終面臨著如何在復(fù)雜視覺信息中實(shí)現(xiàn)魯棒識(shí)別的技術(shù)挑戰(zhàn)。目標(biāo)檢測(cè)技術(shù)的發(fā)展歷程大致可劃分為傳統(tǒng)方法與深度學(xué)習(xí)方法兩大關(guān)鍵階段。在傳統(tǒng)方法主導(dǎo)時(shí)期,研究者主要依賴人工設(shè)計(jì)的特征提取算子來完成目標(biāo)檢測(cè)任務(wù)。例如,SIFT(尺度不變特征變換)算子通過檢測(cè)圖像中的極值點(diǎn)并計(jì)算局部梯度方向直方圖,能夠提取具有尺度和旋轉(zhuǎn)不變性的特征;HOG(方向梯度直方圖)則通過統(tǒng)計(jì)局部區(qū)域內(nèi)梯度方向的分布來描述物體的邊緣和形狀信息。這些特征提取方法需要結(jié)合滑動(dòng)窗口機(jī)制,在圖像的不同位置和尺度上逐一掃描,判斷是否存在目標(biāo)物體。然而,這種基于人工特征的檢測(cè)模式存在明顯局限性:一方面,特征設(shè)計(jì)過程高度依賴研究者的領(lǐng)域知識(shí)和經(jīng)驗(yàn),需要耗費(fèi)大量人力進(jìn)行反復(fù)調(diào)試和優(yōu)化;另一方面,人工設(shè)計(jì)的特征在復(fù)雜場(chǎng)景下的泛化能力較弱,難以有效應(yīng)對(duì)光照變化、視角轉(zhuǎn)換或背景噪聲等干擾因素,導(dǎo)致檢測(cè)精度和魯棒性難以滿足實(shí)際應(yīng)用需求。隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,目標(biāo)檢測(cè)領(lǐng)域迎來了革命性突破。深度神經(jīng)網(wǎng)絡(luò)能夠從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)目標(biāo)的多層次特征,無需人工干預(yù)即可實(shí)現(xiàn)從像素級(jí)原始輸入到語義級(jí)目標(biāo)表征的端到端映射,顯著提升了檢測(cè)的準(zhǔn)確性和效率。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩大技術(shù)路線:分階段檢測(cè)方法與單階段檢測(cè)方法。以R-CNN系列為代表的分階段檢測(cè)方法采用“候選區(qū)域生成-特征提取-分類定位”的三級(jí)處理架構(gòu)。首先,通過選擇性搜索(SelectiveSearch)等算法在圖像中生成數(shù)千個(gè)可能包含目標(biāo)的候選區(qū)域,這些區(qū)域覆蓋了圖像中潛在的目標(biāo)位置和尺度;隨后,利用卷積神經(jīng)網(wǎng)絡(luò)(如AlexNet、VGGNet)對(duì)每個(gè)候選區(qū)域進(jìn)行特征提取,將二維圖像轉(zhuǎn)換為高維特征向量;最后,通過分類器(如Softmax)和回歸器對(duì)候選區(qū)域進(jìn)行類別判斷和位置精修。這類方法的優(yōu)勢(shì)在于通過兩階段的精細(xì)化處理,能夠?qū)崿F(xiàn)較高的檢測(cè)精度,尤其在小目標(biāo)檢測(cè)和復(fù)雜場(chǎng)景下表現(xiàn)優(yōu)異。例如,F(xiàn)asterR-CNN引入?yún)^(qū)域提議網(wǎng)絡(luò)(RPN)替代傳統(tǒng)候選區(qū)域生成方法,將候選區(qū)域生成與特征提取過程集成到同一網(wǎng)絡(luò)中,大幅提升了檢測(cè)速度。然而,分階段方法的固有缺陷在于計(jì)算復(fù)雜度較高——每個(gè)候選區(qū)域需要獨(dú)立進(jìn)行特征提取和參數(shù)計(jì)算,導(dǎo)致模型推理速度較慢,難以滿足實(shí)時(shí)檢測(cè)任務(wù)(如自動(dòng)駕駛、視頻監(jiān)控)的需求。針對(duì)分階段方法的效率瓶頸,單階段檢測(cè)算法應(yīng)運(yùn)而生,其代表包括YOLO(YouOnlyLookOnce)系列和SSD(SingleShotMultiBoxDetector)。這類方法摒棄了候選區(qū)域生成環(huán)節(jié),直接在特征圖上進(jìn)行目標(biāo)位置和類別的聯(lián)合預(yù)測(cè)。具體而言,單階段算法將輸入圖像劃分為網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)其覆蓋范圍內(nèi)的目標(biāo),通過回歸方式直接輸出目標(biāo)的邊界框坐標(biāo)和類別概率。以YOLOv3為例,其采用多尺度特征融合策略,在不同分辨率的特征圖上檢測(cè)不同尺度的目標(biāo),平衡了檢測(cè)速度與精度;YOLOv5進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),引入自適應(yīng)錨框和模型輕量化技術(shù),使其在移動(dòng)端設(shè)備上也能實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。單階段方法的核心優(yōu)勢(shì)在于計(jì)算效率大幅提升,檢測(cè)速度可達(dá)每秒數(shù)十幀甚至更高,非常適合對(duì)實(shí)時(shí)性要求苛刻的場(chǎng)景。3基于雙注意力機(jī)制的YOLOv8車輛檢測(cè)模型設(shè)計(jì)與實(shí)現(xiàn)3.1YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)概述2023年發(fā)布的YOLO系列模型YOLOv8REF_Ref1271\r\h[12],它在維持模型性能的同時(shí),基于YOLO系列做了多項(xiàng)創(chuàng)新性的改良工作,增強(qiáng)了模型的靈活性以及可擴(kuò)展性,成為了進(jìn)行目標(biāo)檢測(cè)、圖像分割、姿態(tài)估計(jì)等任務(wù)的不二之選,本文選擇YOLO系列的YOLOv8模型作為基礎(chǔ)完成車輛目標(biāo)檢測(cè)任務(wù)。YOLOv8是YOLO系列檢測(cè)算法中起到關(guān)鍵作用的版本,依照了YOLO系列算法單階段檢測(cè)的設(shè)計(jì)理念,實(shí)現(xiàn)了迅速且精準(zhǔn)的目標(biāo)檢測(cè),其關(guān)鍵目的是在維持檢測(cè)精度的情形下,最大限度提升檢測(cè)速度,以滿足如智能交通系統(tǒng)里車輛實(shí)時(shí)檢測(cè)這類實(shí)際應(yīng)用場(chǎng)景的需求。跟傳統(tǒng)的目標(biāo)檢測(cè)手段相比,YOLOv8的模型架構(gòu)采用端到端設(shè)計(jì),可直接從輸入圖像中完成目標(biāo)類別與位置的聯(lián)合預(yù)測(cè)。相較于傳統(tǒng)雙階段檢測(cè)框架需先生成候選區(qū)域再進(jìn)行分類定位的復(fù)雜流程,該算法摒棄了獨(dú)立的區(qū)域提議環(huán)節(jié),通過一體化網(wǎng)絡(luò)結(jié)構(gòu)將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為回歸問題。它的網(wǎng)絡(luò)在特征提取后直接對(duì)預(yù)設(shè)網(wǎng)格內(nèi)的目標(biāo)進(jìn)行邊界框坐標(biāo)與類別概率的同步輸出,省略了候選區(qū)域篩選、二次特征提取等中間步驟,從而顯著降低了計(jì)算開銷。這種設(shè)計(jì)使得模型在保持檢測(cè)精度的同時(shí),推理速度得到大幅提升,尤其適用于實(shí)時(shí)性要求較高的場(chǎng)景。模型的具體結(jié)構(gòu)可參見圖1所示的網(wǎng)絡(luò)架構(gòu)示意圖。骨干網(wǎng)絡(luò)方面采用基于CSPDarknet修改而成的YOLOv8。基本理念是基于CSPDarknet的設(shè)計(jì)思路,通過采用多層次局部網(wǎng)絡(luò)對(duì)特征圖進(jìn)行處理,從而降低計(jì)算負(fù)擔(dān)并提升捕捉特征的效果。在這個(gè)設(shè)計(jì)框架里,輸入的圖片經(jīng)過一系列卷積層完成初始化的特征抽取,每個(gè)卷積層都采用了各種大小的卷積核以便從各個(gè)尺度的視角獲取特征數(shù)據(jù)。CSPNet結(jié)構(gòu)開始發(fā)揮作用,將特征圖拆分成兩部分,一部分利用正常卷積層完成特征轉(zhuǎn)換,一部分直接連接后續(xù)層,這種操作節(jié)省了很多不必要的特征計(jì)算并且加強(qiáng)了梯度的傳播,使得網(wǎng)絡(luò)在訓(xùn)練過程中更加穩(wěn)定,利用CSP結(jié)構(gòu)多次嵌套堆疊之后網(wǎng)絡(luò)會(huì)逐漸提取出圖像深層語義信息,以便后續(xù)的目標(biāo)檢測(cè)任務(wù)利用不同的特征表達(dá)。YOLOv8頸部網(wǎng)絡(luò)采用的是PAFPN結(jié)構(gòu)改進(jìn)版,PAFPN是用來融合特征來提高模型對(duì)不同的目標(biāo)的檢測(cè)能力,在傳統(tǒng)的FPN結(jié)構(gòu)之內(nèi),特征信息一般是從高層往低層傳送,雖然能把高層的語義信息傳達(dá)至低層,但在利用低層細(xì)節(jié)信息上存在欠缺。PAFPN依托FPN進(jìn)行了相關(guān)改進(jìn),添加了額外的自底至上的路徑,采用這種雙向的特征融合路線,不僅能把高層語義信息傳遞給低層,還可把低層的細(xì)節(jié)信息反饋至高層,促使不同尺度的特征信息實(shí)現(xiàn)更充分的相互交融,在YOLOv8里,PAFPN采用一系列卷積層和上采樣、下采樣操作,實(shí)現(xiàn)了不同尺度特征圖間的信息互動(dòng)和整合,進(jìn)而提升了模型對(duì)不同大小車輛目標(biāo)的檢測(cè)可靠性。YOLOv8頭部網(wǎng)絡(luò)采用的是解耦頭設(shè)計(jì)方法,把目標(biāo)檢測(cè)的分類與回歸任務(wù)分開處理,在傳統(tǒng)的目標(biāo)檢測(cè)算法當(dāng)中,分類與回歸任務(wù)一般會(huì)在同一個(gè)分支里進(jìn)行處理工作,這有概率造成不同任務(wù)之間的干擾,影響檢測(cè)成效,解耦頭設(shè)計(jì)以獨(dú)立分支分別處理分類和回歸這兩個(gè)任務(wù),讓網(wǎng)絡(luò)能更有針對(duì)性地學(xué)習(xí)每個(gè)任務(wù)特征。在分類分支這塊,網(wǎng)絡(luò)采用一系列的卷積層和全連接層,對(duì)特征圖進(jìn)行處理,預(yù)測(cè)每個(gè)目標(biāo)的類別概率大小,在回歸分支這里,網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的位置及大小詳情,以預(yù)測(cè)目標(biāo)的邊界框坐標(biāo)的方式實(shí)現(xiàn)目標(biāo)定位,這種解耦設(shè)計(jì)弱化了不同任務(wù)之間的耦合關(guān)系,帶動(dòng)了模型檢測(cè)精度的增強(qiáng)。對(duì)于分級(jí)工作而言,YOLOv8采用了經(jīng)過優(yōu)化過的FocalLoss作為其類別損耗功能,該Loss通過增加調(diào)整系數(shù)來降低對(duì)良好識(shí)別樣例的影響力,從而使得系統(tǒng)更加關(guān)注困難案例的研究學(xué)習(xí)問題,以此解決了靶標(biāo)定位過程中的正面與反面數(shù)據(jù)平衡的問題.在回溯工作中,使用CIoUlossfunction的則是YOLOv8,這個(gè)loss不僅僅考慮到了預(yù)估邊界盒體跟實(shí)際物體的交集區(qū)域大小,同時(shí)也加入了解析兩者中央位置偏移量及其長(zhǎng)短比例一致性的因素進(jìn)去,計(jì)算公式如下:L(1)α=(2)ν=(3)L(4)在以上四個(gè)式子中:A是人工標(biāo)注的真實(shí)框,B為模型預(yù)測(cè)框。LIoU即交并比損失,通過真實(shí)框與預(yù)測(cè)框交集面積和并集面積之比A∩BA∪B計(jì)算,反映二者重疊程度。b和bgt分別是預(yù)測(cè)框與真實(shí)框中心點(diǎn)坐標(biāo),ρb,bgt為二者中心點(diǎn)歐氏距離,衡量位置偏離,c用于歸一化該距離。wgt、?gt是真實(shí)框?qū)捀撸瑆、?是預(yù)測(cè)框?qū)捀撸瑅通過公式(3)衡量寬高比一致性,圖1:YOLOv8的模型結(jié)構(gòu)3.2模型總體架構(gòu)設(shè)計(jì)在智能交通場(chǎng)景下,車輛目標(biāo)的多樣性和復(fù)雜的背景信息給車輛檢測(cè)帶來極大挑戰(zhàn),本文針對(duì)的YOLOv8模型作為一種高效的單階段目標(biāo)檢測(cè)算法,即便在車輛檢測(cè)任務(wù)上已展現(xiàn)出卓越的性能,然而在面對(duì)小型目標(biāo)車輛時(shí),鑒于其特征信息微弱表現(xiàn)突出,易受背景噪聲的干擾,引起檢測(cè)精度下降。為增進(jìn)YOLOv8n模型在該場(chǎng)景下的性能,對(duì)其架構(gòu)做了優(yōu)化,引入了SEREF_Ref1424\r\h[13]和CBAMREF_Ref2701\r\h[14]雙注意力機(jī)制,引入注意力機(jī)制使模型可自動(dòng)聚焦輸入數(shù)據(jù)里的關(guān)鍵部分,減弱無關(guān)內(nèi)容的影響,以此提升模型的性能跟效能,與最初的YOLOv8n架構(gòu)對(duì)比,改進(jìn)后的模型造就了“通道和空間”雙重特征篩選機(jī)制。SE模塊借助通道權(quán)重的重新分配,優(yōu)先強(qiáng)化諸如車輛輪廓、車燈等關(guān)鍵特征通道;CBAM于空間維度上定位目標(biāo)區(qū)域,減少像道路標(biāo)識(shí)、建筑物這類無關(guān)信息的干擾,這種布局讓特征信息在網(wǎng)絡(luò)體系中流動(dòng)時(shí),可實(shí)現(xiàn)動(dòng)態(tài)的篩選及增強(qiáng),大幅增強(qiáng)了車輛特征的表達(dá)水平。圖2:基于雙注意力機(jī)制的YOLOv8車輛檢測(cè)模型網(wǎng)絡(luò)架構(gòu)圖2中,在骨干網(wǎng)絡(luò)中,將SE模塊嵌入到SPPF層之后。SPPF層主要用于對(duì)特征進(jìn)行多尺度融合,經(jīng)過該層處理后的特征圖包含了豐富的語義信息和多尺度的特征。之選擇在這個(gè)位置加入SE模塊,是因?yàn)槟軌驅(qū)@些融合后的特征進(jìn)行通道層面的重要性評(píng)估和調(diào)整,突出那些與車輛檢測(cè)相關(guān)的關(guān)鍵特征通道。對(duì)于CBAM模塊,采用每隔一個(gè)Concat模塊添加的策略。在YOLOv8架構(gòu)的頸部網(wǎng)絡(luò)中,Concat操作負(fù)責(zé)將不同尺度或來源的特征進(jìn)行拼接融合,使得特征圖信息更加豐富多元化,但也難免夾雜冗余和干擾信息。在部分Concat模塊輸出后接入CBAM模塊,能對(duì)融合后的特征加以梳理。通過通道注意力篩選出對(duì)車輛檢測(cè)真正有用的通道信息,再借助空間注意力在特征圖上精準(zhǔn)定位車輛目標(biāo)區(qū)域,排除背景等無關(guān)信息的干擾,讓后續(xù)特征處理更聚焦于車輛目標(biāo)。3.3核心改進(jìn)策略3.3.1SE模塊與骨干網(wǎng)絡(luò)的融合優(yōu)化在實(shí)施車輛目標(biāo)檢測(cè)時(shí),不同通道的特征對(duì)車輛識(shí)別的貢獻(xiàn)程度各不相同,涉及車輛顏色、紋理的特征通道對(duì)車輛檢測(cè)較為重要,而部分通道更多的是體現(xiàn)背景的信息,對(duì)車輛檢測(cè)的成效較小,SE注意力機(jī)制可借助學(xué)習(xí)通道之間的依賴關(guān)系,自適應(yīng)地調(diào)整通道特征的響應(yīng)水平,增強(qiáng)跟車輛特征相關(guān)的通道,抑制那些無關(guān)的通道。在YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)中,將SE注意力機(jī)制放在YOLOv8骨干網(wǎng)絡(luò)中的SPPF模塊后面,SPPF層可以把特征進(jìn)行有效融合,在這之后添加SE模塊,原因是此刻的特征圖已經(jīng)包含了大量的車輛特征信息,諸如車輛的整體模樣、主要組件等。SE模塊可針對(duì)這些特征進(jìn)行通道層面加權(quán),進(jìn)一步突出與車輛檢測(cè)相聯(lián)系的特征通道,針對(duì)包含車輛輪廓相關(guān)信息的通道,SE模塊可利用計(jì)算其重要性權(quán)重,提升該通道特征的響應(yīng)水平,讓模型在后續(xù)的處理環(huán)節(jié)更關(guān)注車輛輪廓特征。SE注意力機(jī)制先針對(duì)輸入的特征圖實(shí)施全局平均池化操作,將每一個(gè)通道的特征圖進(jìn)行壓縮,得到通道的整體情況,C代表的是通道數(shù),H和W依次為特征圖的高度與寬度,在全局平均池化之后,其中各個(gè)元素的計(jì)算如式(5)所示:z(5)然后,利用全連接網(wǎng)絡(luò)對(duì)全局特征向量進(jìn)行非線性變換,生成通道權(quán)重向量。全連接網(wǎng)絡(luò)包含兩個(gè)全連接層,中間使用ReLU激活函數(shù),最后通過Sigmoid函數(shù)將輸出映射到[0,1]區(qū)間。最后,將原始特征圖逐通道乘以通道權(quán)重向量s,這樣就生成了加權(quán)之后的特征圖,實(shí)現(xiàn)了對(duì)通道特征的調(diào)整。具體公式如式(6-7),SE注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3:s=(6)x(7)圖3:SE注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)圖設(shè)定神經(jīng)元數(shù)量為輸入通道數(shù)的1/16,一方面減少了參數(shù)的數(shù)量,降低了模型整體的計(jì)算復(fù)雜度,另一方面還可以保留足量的信息用于學(xué)習(xí)通道彼此間的依賴關(guān)系,就激活函數(shù)的選擇上,本文采用了ReLU這一函數(shù)。它讓模型有能力學(xué)習(xí)到更復(fù)雜的特征映射關(guān)系,用車輛檢測(cè)當(dāng)作例子,ReLU函數(shù)可協(xié)助模型掌握車輛特征里諸如形狀、紋理等復(fù)雜的非線性關(guān)系。當(dāng)計(jì)算通道權(quán)重的時(shí)候,嚴(yán)格依照SE模塊的原始計(jì)算邏輯,將每一個(gè)通道的信息都?jí)嚎s,用它來反映該通道在整個(gè)特征圖上的全局信息,把這些標(biāo)量值進(jìn)行降維、ReLU激活、升維等一系列操作后,繼而采用Sigmoid激活函數(shù),讓輸出值限定在0至1的特定范圍里,進(jìn)而得到各通道的權(quán)重?cái)?shù)值。這些權(quán)重體現(xiàn)出對(duì)應(yīng)通道對(duì)車輛檢測(cè)任務(wù)的重要程度,隨后會(huì)跟原始輸入特征圖的對(duì)應(yīng)通道相乘,實(shí)現(xiàn)對(duì)通道特征的加權(quán),強(qiáng)化關(guān)鍵特征通道的影響,抑制無關(guān)聯(lián)的通道。通過SE模塊對(duì)主干網(wǎng)絡(luò)提取的汽車特征是否有效果,進(jìn)行消融實(shí)驗(yàn),增加了SE模塊后,相比原始的YOLOv8n模型,精確率提升1.1%,mAP@0.5提升了1.5%,mAP@0.5:0.95提升了1.1%,召回率提高了1.2%。3.3.2CBAM模塊與頸部網(wǎng)絡(luò)的協(xié)同設(shè)計(jì)在實(shí)際交通場(chǎng)景之中,車輛目標(biāo)大概率會(huì)受到遮擋,而且背景復(fù)雜,僅僅借助通道維度的特征增強(qiáng),難以契合高精度檢測(cè)需求,CBAM作為一種多元混合注意力機(jī)制,可同時(shí)在通道和空間兩個(gè)維度對(duì)特征開展優(yōu)化,它能在通道范疇增強(qiáng)跟車輛有關(guān)的特征響應(yīng),針對(duì)小規(guī)格的車輛,著重聚焦高分辨率細(xì)節(jié)特征通道,諸如車牌、車輪;就大尺寸的車輛而言,則留意整體輪廓以及結(jié)構(gòu)特征通道。從空間這個(gè)層面上,精準(zhǔn)測(cè)定車輛所在的區(qū)域,抵御背景的干擾,加強(qiáng)模型在復(fù)雜場(chǎng)景下對(duì)車輛目標(biāo)的檢測(cè)力。本文把CBAM模塊加入到Y(jié)OLOv8的頸部網(wǎng)絡(luò)中,在頸部網(wǎng)絡(luò)既定的架構(gòu)當(dāng)中,本文采取每隔一個(gè)Concat模塊就添加CBAM模塊的辦法。CBAM注意力機(jī)制整體網(wǎng)絡(luò)架構(gòu)圖如圖4:圖4:CBAM注意力機(jī)制網(wǎng)絡(luò)架構(gòu)圖CBAM模塊首先使用通道注意力模塊,然后對(duì)特征圖進(jìn)行最大池化和平均池化操作,從而得到特征圖在通道維度上的最大值和平均值。將它們拼接后經(jīng)過共享的全連接網(wǎng)絡(luò),使用Sigmoid函數(shù)生成通道注意力。具體公式如式(8),網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5:M(8)圖5:CBAM通道注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)圖F替代了輸入特征圖,全局平均池化和最大池化操作分別表示AvgPool和MaxPool,多層感知機(jī)被縮寫為MLP,Sigmoid激活函數(shù)簡(jiǎn)寫為σ。在這個(gè)空間注意力的部分里,通過計(jì)算F'的平均值和最大值來對(duì)其在通道方向上進(jìn)行處理,然后將其與之前連接起來的數(shù)據(jù)一起輸入到卷積層和Sigmoid函數(shù)中,從而生成空間注意力圖像Ms。最后,將Ms與F'按照每個(gè)元素的形式進(jìn)行相乘,以此產(chǎn)生要輸出的特征圖,實(shí)現(xiàn)了對(duì)于特征的雙通道優(yōu)化。具體公式如式(9),網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6:M(9)圖6:CBAM空間注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)圖其中,f7×7表示一個(gè)7×7的卷積操作,AvgPool引入CBAM注意力機(jī)制,使模型在應(yīng)對(duì)遮擋車輛以及復(fù)雜背景場(chǎng)景時(shí)表現(xiàn)良好,在含有大量車輛被遮擋狀態(tài)的測(cè)試數(shù)據(jù)里面,精確率提升1.9%,召回率提升了1.7%,mAP@0.5提升了2.3%,mAP@0.5:0.95提升了2.3%,有效強(qiáng)化了模型對(duì)部分被遮擋車輛的檢測(cè)力,同時(shí)減少了背景干擾引發(fā)的誤檢情況。4實(shí)驗(yàn)4.1數(shù)據(jù)集與評(píng)價(jià)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)選取公開的BDD100K數(shù)據(jù)集構(gòu)建車輛檢測(cè)樣本庫(kù)。該數(shù)據(jù)集包含城市道路、高速路段等多元駕駛場(chǎng)景,總計(jì)10萬張標(biāo)注圖像,能夠反映不同天氣狀況與光照條件下的車輛視覺特征。具體數(shù)據(jù)預(yù)處理步驟如下:首先執(zhí)行數(shù)據(jù)清洗操作,通過人工篩查篩除標(biāo)注有誤或成像模糊的樣本,最終從原始數(shù)據(jù)中篩選出10,000張有效圖像。隨后按8:1:1的比例劃分為8000張訓(xùn)練樣本、1000張驗(yàn)證樣本及1000張測(cè)試樣本。針對(duì)訓(xùn)練集實(shí)施數(shù)據(jù)增強(qiáng)策略以提升模型泛化性能,具體包括隨機(jī)水平翻轉(zhuǎn)、尺度縮放及旋轉(zhuǎn)變換等操作。所有圖像在輸入模型前統(tǒng)一進(jìn)行尺寸歸一化處理,調(diào)整為640×640像素的標(biāo)準(zhǔn)分辨率,確保輸入數(shù)據(jù)格式的一致性。圖7:數(shù)據(jù)處理使用精確率(Precision)、召回率(Recall)、平均精度均值(meanAveragePrecision,mAP)作為性能評(píng)估的首要指標(biāo);使用參數(shù)量(Parameters)作為復(fù)雜度評(píng)估指標(biāo),使用FPS為效率評(píng)估指標(biāo)。精確率定義為將一個(gè)類別預(yù)測(cè)結(jié)果看成一個(gè)正樣本的預(yù)測(cè)準(zhǔn)確率,表示模型預(yù)測(cè)的正確程度;召回率用于度量檢測(cè)出的真實(shí)的正樣本占比,表示模型對(duì)正樣本的捕獲率;mAP@0.5表示IoU(IntersectionoverUnion)閾值0.5時(shí)的平均精度均值,其度量不同類別車輛的檢測(cè)精度;mAP@0.5:0.95:當(dāng)IoU的閾值在0.5:0.95時(shí)以0.05步長(zhǎng)變化時(shí)的平均精度均值,能更全面的判斷模型在不同重疊度下的檢測(cè)性能。4.2實(shí)驗(yàn)結(jié)果與分析4.2.1實(shí)驗(yàn)環(huán)境與參數(shù)配置本實(shí)驗(yàn)采用加速版顯卡NVIDIAGeForceRTX3060LaptopGPU,版本CUDA11.3,編程采用PythonPython3.7版本的OpenCV庫(kù)用于進(jìn)行圖像處理,深度學(xué)習(xí)采用框架PyTorch1.12.1,操作系統(tǒng)為Windows11,顯存12GB。本文實(shí)驗(yàn)所用訓(xùn)練參數(shù)配置如表1所示。表1環(huán)境配置表配置名稱版本及型號(hào)操作系統(tǒng)Windows11CPUIntel(R)Core(TM)i7-12700GPUNVIDIAGeForceRTX3060LaptopGPU編譯語言Python3.7CUDA11.3深度學(xué)習(xí)框架PyTorch1.12.1表2訓(xùn)練參數(shù)表參數(shù)名稱參數(shù)值訓(xùn)練輪次150批量大小20輸入圖片尺寸640x6404.2.2消融實(shí)驗(yàn)為了探究在YOLOv8算法中引入SE模塊和CBAM機(jī)制對(duì)車輛目標(biāo)檢測(cè)性能的影響,包括檢測(cè)精度、推理速度等方面,驗(yàn)證改進(jìn)后模型在復(fù)雜交通場(chǎng)景圖片中對(duì)車輛目標(biāo)的檢測(cè)能力。本文設(shè)置了消融實(shí)驗(yàn),在表3中:Baseline表示原始YOLOv8n基線模型,模塊A代表基于原始基線模型加入SE模塊,模塊B代表基于原始基線模型加入CBAM模塊,模塊C代表基于原始基線模型加入SE模塊和CBAM模塊。訓(xùn)練過程如圖8所示,實(shí)驗(yàn)結(jié)果如表3所示:圖8:訓(xùn)練過程圖從損失函數(shù)這一維度看,在開展訓(xùn)練期間,train/box_loss、train/cls_loss以及train/dfl_loss都隨著訓(xùn)練輪次的遞增顯著下降,表明模型有能力有效學(xué)習(xí)車輛目標(biāo)的特征信息,持續(xù)改進(jìn)預(yù)測(cè)產(chǎn)出,讓它與真實(shí)值的差異逐步變小。在驗(yàn)證集上,val/box_loss、val/cls_loss和val/dfl_loss也呈現(xiàn)出下降走向,并且與訓(xùn)練集損失變化的趨勢(shì)相一致,這體現(xiàn)了模型在訓(xùn)練集上具備良好的擬合能力,同樣具備較好的泛化本領(lǐng),能在從未見過的數(shù)據(jù)上保持性能穩(wěn)定呈現(xiàn),有效杜絕了過擬合現(xiàn)象。在性能指標(biāo)方面,精確率指標(biāo)metrics/precision,IoU閾值設(shè)成0.5)以及metrics/mAP50-95(B)(平均的精度水平,IoU閾值為0.5-0.95的區(qū)間)都隨訓(xùn)練輪次不斷地提升。引入了SE與CBAM注意力機(jī)制,極大提升了模型對(duì)車輛目標(biāo)的檢測(cè)成效,檢測(cè)結(jié)果下誤檢現(xiàn)象縮減,可以更精準(zhǔn)地認(rèn)出車輛目標(biāo);模型對(duì)實(shí)際存在車輛的檢測(cè)覆蓋規(guī)模擴(kuò)大,漏檢情形得到有效優(yōu)化。以下是測(cè)試集圖片檢測(cè)樣例:圖9:測(cè)試結(jié)果表3消融實(shí)驗(yàn)?zāi)P蛓olov8nSECBAM精確率/%召回率/%\o"mailto:mAP@0.5/%"mAP@0.5/%\o"mailto:mAP@0.5:0.95/%"mAP@0.5:0.95參數(shù)量(M)FPS\o"mailto:mAP@0.5:0.95/%"/%Baseline√81.283.5115ModelA(SE)√√82.384.783.657.93.3110ModelB(CBAM)√√83.185.284.459.13.4108ModelC(SE+CBAM)√√√84.586.185.761.43.5105通過在原始YOLOv8n模型基礎(chǔ)上加入SE、CBAM及同時(shí)加入SE和CBAM兩種方案的YOLOv8n模型與原始模型相比,模型整體性能水平均有提升,比基線模型有明顯優(yōu)勢(shì),在ModelA基礎(chǔ)上加入SE模塊,精確率增加了1.1%,召回率提升了1.2%,mAP@0.5提升了1.5%,mAP@0.5:0.95提升了1.1%;ModelB加入CBAM模塊,精確率提升了1.9%,召回率提升了1.7%,mAP@0.5提升了2.3%,mAP@0.5:0.95提升了2.3%,ModelC同時(shí)加入SE和CBAM兩個(gè)模塊后,整體性能表現(xiàn)最優(yōu),精確率上升3.3%,召回率上升2.6%,mAP@0.5上升了3.6%,mAP@0.5:0.95上升了4.6%。就模型復(fù)雜度與效率而言,ModelC參數(shù)量跟基線相比上升了12.9%,幀率出現(xiàn)了8.7%的下降,但依舊維持105FPS,可實(shí)現(xiàn)實(shí)時(shí)檢測(cè)要求,實(shí)驗(yàn)結(jié)果說明,SE與CBAM機(jī)制相結(jié)合,可有效提升YOLOv8n的車輛檢測(cè)性能,而且在性能提升與效率保障之間達(dá)成了良好平衡,但小目標(biāo)檢測(cè)依舊有優(yōu)化的空間。4.3方法優(yōu)缺點(diǎn)評(píng)估同時(shí)使用SE與CBAM兩個(gè)注意力模塊與原YOLOv8n模型相比,ModelC的關(guān)鍵性能指標(biāo)均有提高,mAP@0.5:0.95提升4.6%,召回率有2.6%的提高,特別是小目標(biāo)的檢測(cè)定位以及在復(fù)雜場(chǎng)景下的檢測(cè)定位優(yōu)勢(shì)十分顯著,大大提升了模型對(duì)小目標(biāo)的多尺度車輛目標(biāo)的檢測(cè)能力,雖引入注意力機(jī)制增加參數(shù)量12.9%、降低幀率8.7%,但ModelC仍然能夠保證105FPS的檢測(cè)實(shí)時(shí)率,保持性能提升同時(shí)兼顧實(shí)際應(yīng)用的能耗和計(jì)算速度的平衡。但在引入SE和CBAM這兩個(gè)模塊后,模型計(jì)算量明顯上升,提高了對(duì)GPU性能的要求,在硬件配置偏低的環(huán)境里面,推理速度也許會(huì)再進(jìn)一步下降,阻礙了模型在資源有限設(shè)備上的部署,鑒于網(wǎng)絡(luò)復(fù)雜程度的增高,和基線模型相比,ModelC的訓(xùn)練時(shí)長(zhǎng)增加,在大規(guī)模數(shù)據(jù)集的操作或者超參數(shù)調(diào)整階段,訓(xùn)練效率欠佳,造成模型開發(fā)周期延長(zhǎng),SE和CBAM的超參數(shù)設(shè)置應(yīng)結(jié)合具體任務(wù)精細(xì)調(diào)校。各個(gè)交通場(chǎng)景下最優(yōu)參數(shù)存在差別,提升了模型優(yōu)化的難度及工作量,經(jīng)驗(yàn)匱乏的使用者大概難以迅速獲取最佳性能。5結(jié)論本文聚焦于復(fù)雜交通場(chǎng)景里車輛目標(biāo)檢測(cè)出現(xiàn)的精度不足、小目標(biāo)識(shí)別有困難等問題,提出一種運(yùn)用雙注意力機(jī)制的YOLOv8車輛檢測(cè)模型,該模型采用YOLOv8n作為基礎(chǔ)架構(gòu),借助融合Squeeze-and-Excitation(SE)模塊和ConvolutionalBlockAttentionModule(CBAM)模塊,期望增強(qiáng)模型提取車輛特征的實(shí)力,增進(jìn)檢測(cè)的精度水平。在模型搭建的過程中,為進(jìn)一步提高對(duì)車輛特征的提取,進(jìn)一步提高小目標(biāo)車輛的檢測(cè)水平,在YOLOv8模型的骨干網(wǎng)絡(luò)中引入SE模塊,如此模型即可根據(jù)輸入特征即時(shí)校準(zhǔn)通道權(quán)重,對(duì)車輛輪廓、車燈等重要特征增加響應(yīng),增強(qiáng)特征表達(dá)的針對(duì)性,而將CBAM模塊配置于neck網(wǎng)絡(luò)中,利用其通道注意機(jī)制與空間注意機(jī)制協(xié)同作用,即可凸顯出車輛目標(biāo)的關(guān)鍵信息,又可濾除復(fù)雜背景產(chǎn)生的雜音,使模型聚焦目標(biāo)檢測(cè)。實(shí)驗(yàn)數(shù)據(jù)充分說明,經(jīng)改進(jìn)的模型關(guān)鍵指標(biāo)上,跟基線模型對(duì)比,實(shí)現(xiàn)了進(jìn)步,模型在維持105FPS的實(shí)時(shí)檢測(cè)速度之際,有效實(shí)現(xiàn)了檢測(cè)精度與效率之間的合理均衡,這充分顯示了該模型在復(fù)雜交通場(chǎng)景中的適應(yīng)性十分良好,能滿足車輛檢測(cè)任務(wù)在準(zhǔn)確性及實(shí)時(shí)性方面的標(biāo)準(zhǔn)。對(duì)于后續(xù)的研究工作,主要可圍繞兩個(gè)核心方向開展,深度探求更為輕量化的注意力機(jī)制結(jié)構(gòu),由此高效降低模型的計(jì)算復(fù)雜度,進(jìn)而提升其在邊緣設(shè)備上的部署成效;探究惡劣天氣狀況下的圖像預(yù)處理辦法,通過優(yōu)化去雨、去霧算法與檢測(cè)模型之間的協(xié)同關(guān)系,進(jìn)一步增強(qiáng)模型在極端環(huán)境下的檢測(cè)穩(wěn)定性,由此切實(shí)促進(jìn)智能交通檢測(cè)技術(shù)在實(shí)際應(yīng)用當(dāng)中的廣泛發(fā)展。主要參考文獻(xiàn):ZouZ,ShiZ,GuoY,etal.ObjectDetectionin20Years:ASurvey.[J].CoRR,2019,abs/1905.05055.鄒伙宗,鄧守城.基于深度學(xué)習(xí)的車輛目標(biāo)檢測(cè)算法綜述[J].時(shí)代汽車,2023,(15):16-18.MarziehG,MasoodV,SaiedP,etal.OptimizingSectorRingHistogramofOrientedGradie

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論