版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一階段目標(biāo)檢測(cè)算法中特征與類(lèi)別不平衡問(wèn)題剖析與應(yīng)對(duì)策略一、引言1.1研究背景與意義目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)之一,旨在識(shí)別圖像或視頻中感興趣的目標(biāo),并確定其位置和類(lèi)別。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,目標(biāo)檢測(cè)算法取得了顯著的進(jìn)展,在自動(dòng)駕駛、智能安防、圖像識(shí)別等眾多領(lǐng)域得到了廣泛應(yīng)用。在實(shí)際應(yīng)用中,實(shí)時(shí)性和準(zhǔn)確性是目標(biāo)檢測(cè)算法追求的關(guān)鍵性能指標(biāo)。一階段目標(biāo)檢測(cè)算法應(yīng)運(yùn)而生,它摒棄了傳統(tǒng)兩階段算法中生成候選區(qū)域的復(fù)雜過(guò)程,直接在一次前向傳播中完成目標(biāo)的分類(lèi)和定位,大大提高了檢測(cè)速度,使其在對(duì)實(shí)時(shí)性要求較高的場(chǎng)景中具有明顯優(yōu)勢(shì),如實(shí)時(shí)視頻監(jiān)控、自動(dòng)駕駛中的實(shí)時(shí)目標(biāo)識(shí)別等。然而,一階段目標(biāo)檢測(cè)算法在發(fā)展過(guò)程中也面臨著諸多挑戰(zhàn),其中特征和類(lèi)別不平衡問(wèn)題尤為突出。特征不平衡主要體現(xiàn)在不同尺度、不同背景下目標(biāo)所提取到的特征存在差異。小目標(biāo)在圖像中所占像素比例較小,其特征難以有效提取,容易被忽略或誤判;而大目標(biāo)則相對(duì)容易獲取豐富的特征信息,導(dǎo)致模型在檢測(cè)時(shí)對(duì)大小目標(biāo)的性能表現(xiàn)不均衡。同時(shí),復(fù)雜背景下的目標(biāo)可能會(huì)受到背景噪聲的干擾,使得其特征提取變得困難,進(jìn)一步加劇了特征不平衡問(wèn)題。類(lèi)別不平衡問(wèn)題則是指數(shù)據(jù)集中不同類(lèi)別的樣本數(shù)量存在顯著差異。某些常見(jiàn)類(lèi)別的樣本數(shù)量可能極為豐富,而一些稀有類(lèi)別或小樣本類(lèi)別的樣本數(shù)量卻寥寥無(wú)幾。在訓(xùn)練過(guò)程中,模型往往會(huì)過(guò)度關(guān)注多數(shù)類(lèi)樣本,對(duì)少數(shù)類(lèi)樣本的學(xué)習(xí)效果不佳,從而導(dǎo)致模型在面對(duì)少數(shù)類(lèi)目標(biāo)時(shí)檢測(cè)準(zhǔn)確率大幅下降,嚴(yán)重影響了算法的泛化能力和整體性能。這些問(wèn)題的存在不僅限制了一階段目標(biāo)檢測(cè)算法在復(fù)雜場(chǎng)景下的應(yīng)用效果,也阻礙了其進(jìn)一步發(fā)展。因此,深入研究一階段目標(biāo)檢測(cè)算法中的特征和類(lèi)別不平衡問(wèn)題具有重要的現(xiàn)實(shí)意義和理論價(jià)值。通過(guò)解決這些問(wèn)題,可以提升算法對(duì)各類(lèi)目標(biāo)的檢測(cè)精度,增強(qiáng)算法在復(fù)雜環(huán)境下的適應(yīng)性和魯棒性,推動(dòng)目標(biāo)檢測(cè)技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展,為實(shí)現(xiàn)智能化、自動(dòng)化的目標(biāo)檢測(cè)任務(wù)提供更有力的支持。1.2國(guó)內(nèi)外研究現(xiàn)狀在目標(biāo)檢測(cè)領(lǐng)域,一階段目標(biāo)檢測(cè)算法因其實(shí)時(shí)性?xún)?yōu)勢(shì)備受關(guān)注,然而其中的特征和類(lèi)別不平衡問(wèn)題也吸引了眾多學(xué)者的研究。國(guó)外方面,早期的一階段目標(biāo)檢測(cè)算法如YOLO系列和SSD,在檢測(cè)速度上取得了突破,但在處理特征和類(lèi)別不平衡問(wèn)題時(shí)存在不足。例如,YOLOv1直接將圖像劃分為多個(gè)網(wǎng)格進(jìn)行目標(biāo)檢測(cè),對(duì)小目標(biāo)的特征提取能力較弱,在面對(duì)類(lèi)別不平衡數(shù)據(jù)時(shí),少數(shù)類(lèi)別的檢測(cè)精度較低。隨后,RetinaNet提出了FocalLoss,通過(guò)減少易分類(lèi)樣本的權(quán)重,增加難分類(lèi)樣本的權(quán)重,有效緩解了類(lèi)別不平衡問(wèn)題,在COCO數(shù)據(jù)集上取得了較好的檢測(cè)效果,使得一階段目標(biāo)檢測(cè)算法在精度上有了顯著提升。在特征不平衡問(wèn)題上,F(xiàn)PN(FeaturePyramidNetwork)被提出用于多尺度特征融合,通過(guò)自上而下的結(jié)構(gòu)和橫向連接,將不同層次的特征進(jìn)行融合,提升了模型對(duì)不同尺度目標(biāo)的特征提取能力,一定程度上緩解了特征不平衡問(wèn)題,在目標(biāo)檢測(cè)任務(wù)中得到了廣泛應(yīng)用。之后,還有一些研究致力于改進(jìn)特征提取網(wǎng)絡(luò),如EfficientNet通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),在提高模型性能的同時(shí),也對(duì)不同尺度目標(biāo)的特征提取和融合有一定的改善作用,增強(qiáng)了模型對(duì)特征不平衡問(wèn)題的適應(yīng)性。國(guó)內(nèi)學(xué)者也在這方面展開(kāi)了深入研究。有研究針對(duì)小目標(biāo)特征提取困難的問(wèn)題,在YOLOv5算法的基礎(chǔ)上,通過(guò)在骨干與頸部網(wǎng)絡(luò)中融入SE(Squeeze-and-Excitation)注意力模塊,提高了對(duì)重要特征的關(guān)注度,增強(qiáng)了模型對(duì)小目標(biāo)物體的辨識(shí)能力;同時(shí)設(shè)計(jì)四尺度目標(biāo)檢測(cè)網(wǎng)絡(luò),增加小尺度檢測(cè)層來(lái)檢測(cè)更小的目標(biāo),優(yōu)化損失函數(shù)以解決目標(biāo)檢測(cè)過(guò)程中尺度變化的問(wèn)題,有效提升了對(duì)小目標(biāo)的檢測(cè)性能。針對(duì)類(lèi)別不平衡問(wèn)題,國(guó)內(nèi)研究采用數(shù)據(jù)增強(qiáng)、重采樣等方法對(duì)數(shù)據(jù)集進(jìn)行處理,如對(duì)少數(shù)類(lèi)別的樣本進(jìn)行旋轉(zhuǎn)、縮放、裁剪等數(shù)據(jù)增強(qiáng)操作,增加其樣本數(shù)量;或通過(guò)重采樣技術(shù)減少多數(shù)類(lèi)別的樣本數(shù)量,以平衡數(shù)據(jù)集,從而提高模型對(duì)少數(shù)類(lèi)別的檢測(cè)能力。盡管?chē)?guó)內(nèi)外在一階段目標(biāo)檢測(cè)算法的特征和類(lèi)別不平衡問(wèn)題上取得了一定成果,但仍存在一些不足之處。現(xiàn)有方法在處理極端類(lèi)別不平衡數(shù)據(jù)時(shí),效果仍有待提升,模型對(duì)于稀有類(lèi)別目標(biāo)的檢測(cè)準(zhǔn)確率和召回率仍不理想。在特征融合方面,雖然多尺度特征融合方法取得了一定進(jìn)展,但不同尺度特征之間的融合效率和效果還可以進(jìn)一步優(yōu)化,以更好地適應(yīng)復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)任務(wù)。此外,當(dāng)前的研究大多在公開(kāi)數(shù)據(jù)集上進(jìn)行驗(yàn)證,而實(shí)際應(yīng)用場(chǎng)景中的數(shù)據(jù)分布和復(fù)雜程度往往與公開(kāi)數(shù)據(jù)集存在差異,如何使算法在實(shí)際場(chǎng)景中更有效地應(yīng)對(duì)特征和類(lèi)別不平衡問(wèn)題,還需要進(jìn)一步探索和研究。1.3研究方法與創(chuàng)新點(diǎn)在本研究中,采用了多種研究方法,以確保對(duì)一階段目標(biāo)檢測(cè)算法中的特征和類(lèi)別不平衡問(wèn)題進(jìn)行全面且深入的探究。文獻(xiàn)研究法是本研究的基礎(chǔ)方法之一。通過(guò)廣泛查閱國(guó)內(nèi)外關(guān)于目標(biāo)檢測(cè)算法的學(xué)術(shù)文獻(xiàn)、期刊論文、會(huì)議報(bào)告等資料,全面了解一階段目標(biāo)檢測(cè)算法的發(fā)展歷程、研究現(xiàn)狀以及當(dāng)前在解決特征和類(lèi)別不平衡問(wèn)題上已有的方法和成果。梳理出不同算法在處理這兩個(gè)問(wèn)題時(shí)的思路、優(yōu)勢(shì)與不足,為后續(xù)的研究提供理論支持和研究方向指引。例如,通過(guò)對(duì)RetinaNet中FocalLoss的研究,深入理解了其在緩解類(lèi)別不平衡問(wèn)題上的原理和應(yīng)用效果;對(duì)FPN在多尺度特征融合方面的分析,明確了其在解決特征不平衡問(wèn)題中的作用機(jī)制。實(shí)驗(yàn)分析法也是關(guān)鍵研究方法。搭建實(shí)驗(yàn)平臺(tái),選擇具有代表性的一階段目標(biāo)檢測(cè)算法作為基礎(chǔ)模型,如YOLO系列、SSD等。針對(duì)特征不平衡問(wèn)題,設(shè)計(jì)一系列實(shí)驗(yàn),如在模型中引入不同的注意力機(jī)制模塊,觀察模型對(duì)不同尺度目標(biāo)特征提取能力的變化;通過(guò)調(diào)整特征融合方式,對(duì)比模型在檢測(cè)不同尺度目標(biāo)時(shí)的性能差異。在解決類(lèi)別不平衡問(wèn)題時(shí),利用數(shù)據(jù)增強(qiáng)、重采樣等方法對(duì)數(shù)據(jù)集進(jìn)行處理,然后在處理后的數(shù)據(jù)集上訓(xùn)練模型,分析模型對(duì)少數(shù)類(lèi)目標(biāo)檢測(cè)性能的提升情況。通過(guò)大量的實(shí)驗(yàn)對(duì)比和數(shù)據(jù)分析,驗(yàn)證所提出方法的有效性和優(yōu)越性。本研究的創(chuàng)新點(diǎn)主要體現(xiàn)在以下幾個(gè)方面。在解決特征不平衡問(wèn)題上,提出了一種新型的多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)在傳統(tǒng)的特征金字塔網(wǎng)絡(luò)基礎(chǔ)上,引入了自適應(yīng)特征融合模塊,能夠根據(jù)不同尺度目標(biāo)的特征分布特點(diǎn),自動(dòng)調(diào)整特征融合的權(quán)重,使得模型在融合不同尺度特征時(shí)更加合理,有效提升了對(duì)小目標(biāo)和復(fù)雜背景下目標(biāo)的特征提取能力。相比傳統(tǒng)的特征融合方法,該結(jié)構(gòu)能夠更好地適應(yīng)復(fù)雜多變的目標(biāo)檢測(cè)場(chǎng)景,提高了模型對(duì)特征不平衡問(wèn)題的魯棒性。針對(duì)類(lèi)別不平衡問(wèn)題,提出了一種基于動(dòng)態(tài)權(quán)重分配的損失函數(shù)改進(jìn)方法。該方法在訓(xùn)練過(guò)程中,根據(jù)樣本的類(lèi)別分布和難分程度動(dòng)態(tài)調(diào)整樣本的權(quán)重。對(duì)于少數(shù)類(lèi)樣本和難分樣本,賦予較高的權(quán)重,使其在損失計(jì)算中占據(jù)更大的比重,從而引導(dǎo)模型更加關(guān)注這些樣本的學(xué)習(xí);對(duì)于多數(shù)類(lèi)樣本和易分樣本,降低其權(quán)重,避免模型過(guò)度關(guān)注這些樣本而忽略了少數(shù)類(lèi)樣本。與傳統(tǒng)的FocalLoss等損失函數(shù)相比,該方法能夠更靈活地應(yīng)對(duì)不同程度的類(lèi)別不平衡問(wèn)題,有效提高了模型對(duì)少數(shù)類(lèi)目標(biāo)的檢測(cè)精度和召回率。本研究通過(guò)綜合運(yùn)用多種研究方法,從不同角度深入研究一階段目標(biāo)檢測(cè)算法中的特征和類(lèi)別不平衡問(wèn)題,并提出具有創(chuàng)新性的解決思路和方法,有望為目標(biāo)檢測(cè)領(lǐng)域的發(fā)展做出積極貢獻(xiàn)。二、一階段目標(biāo)檢測(cè)算法基礎(chǔ)2.1算法概述一階段目標(biāo)檢測(cè)算法是目標(biāo)檢測(cè)領(lǐng)域中重要的一類(lèi)算法,其基本原理是直接在輸入圖像上應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)進(jìn)行端到端的檢測(cè),一次性完成目標(biāo)的分類(lèi)和定位,無(wú)需像二階段目標(biāo)檢測(cè)算法那樣先生成候選區(qū)域再進(jìn)行后續(xù)處理。在一階段目標(biāo)檢測(cè)算法中,模型會(huì)將輸入圖像劃分為多個(gè)網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)落入該網(wǎng)格內(nèi)的目標(biāo)的類(lèi)別和位置信息。以YOLO(YouOnlyLookOnce)系列算法為例,在YOLOv1中,將輸入圖像劃分為7×7的網(wǎng)格,每個(gè)網(wǎng)格預(yù)測(cè)2個(gè)邊界框(boundingbox)以及這些邊界框所屬的類(lèi)別概率和置信度。這些邊界框的坐標(biāo)通常以相對(duì)于網(wǎng)格的偏移量以及寬度和高度的比例來(lái)表示,通過(guò)回歸的方式進(jìn)行預(yù)測(cè)。對(duì)于類(lèi)別概率,模型會(huì)針對(duì)每個(gè)網(wǎng)格預(yù)測(cè)其可能包含的各類(lèi)目標(biāo)的概率值。置信度則反映了該網(wǎng)格內(nèi)存在目標(biāo)的可能性以及預(yù)測(cè)框與真實(shí)目標(biāo)的匹配程度,通過(guò)計(jì)算預(yù)測(cè)框與真實(shí)框之間的交并比(IntersectionoverUnion,IoU)來(lái)衡量。SSD(SingleShotMultiBoxDetector)算法也是典型的一階段目標(biāo)檢測(cè)算法。它在不同尺度的特征圖上進(jìn)行檢測(cè),通過(guò)在特征圖的每個(gè)位置設(shè)置不同尺度和長(zhǎng)寬比的先驗(yàn)框(priorbox,也稱(chēng)為defaultbox或anchor),模型直接預(yù)測(cè)每個(gè)先驗(yàn)框?qū)?yīng)的目標(biāo)類(lèi)別和相對(duì)于先驗(yàn)框的位置偏移。例如,在SSD算法中,使用VGG16作為基礎(chǔ)網(wǎng)絡(luò),并在其基礎(chǔ)上添加額外的卷積層,從這些不同層的特征圖中進(jìn)行檢測(cè)。大尺度的特征圖(靠前的層)用于檢測(cè)小目標(biāo),因?yàn)槠涓惺芤靶。懿蹲降礁嗉?xì)節(jié);小尺度的特征圖(靠后的層)用于檢測(cè)大目標(biāo),其感受野大,適合檢測(cè)較大范圍的物體。每個(gè)特征圖位置的先驗(yàn)框數(shù)量和尺度、長(zhǎng)寬比各不相同,以適應(yīng)不同形狀和大小的目標(biāo)檢測(cè)需求。與二階段目標(biāo)檢測(cè)算法相比,一階段目標(biāo)檢測(cè)算法在檢測(cè)流程上具有明顯差異。二階段目標(biāo)檢測(cè)算法,如FasterR-CNN,首先通過(guò)區(qū)域提議網(wǎng)絡(luò)(RegionProposalNetwork,RPN)生成一系列候選區(qū)域,這些候選區(qū)域是可能包含目標(biāo)的圖像區(qū)域;然后將這些候選區(qū)域輸入到后續(xù)的分類(lèi)和回歸網(wǎng)絡(luò)中,對(duì)每個(gè)候選區(qū)域進(jìn)行目標(biāo)類(lèi)別判斷和位置的精確調(diào)整。這種兩階段的流程使得二階段算法在目標(biāo)定位和分類(lèi)上相對(duì)更加精細(xì),但也增加了計(jì)算復(fù)雜度和檢測(cè)時(shí)間。而一階段目標(biāo)檢測(cè)算法省去了生成候選區(qū)域這一中間步驟,直接從輸入圖像到最終的檢測(cè)結(jié)果,大大簡(jiǎn)化了檢測(cè)流程,提高了檢測(cè)速度。在性能表現(xiàn)方面,一階段目標(biāo)檢測(cè)算法的優(yōu)勢(shì)在于其檢測(cè)速度快,能夠滿(mǎn)足實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景,如實(shí)時(shí)視頻監(jiān)控、自動(dòng)駕駛中的實(shí)時(shí)目標(biāo)識(shí)別等。由于不需要進(jìn)行候選區(qū)域的生成和后續(xù)復(fù)雜的處理,一階段算法可以在短時(shí)間內(nèi)對(duì)大量圖像進(jìn)行檢測(cè)。然而,一階段算法在檢測(cè)精度上往往相對(duì)二階段算法略低。這是因?yàn)橐浑A段算法直接在大量的密集位置上進(jìn)行預(yù)測(cè),容易產(chǎn)生類(lèi)別不平衡問(wèn)題,即正樣本(包含目標(biāo)的樣本)和負(fù)樣本(不包含目標(biāo)的樣本)數(shù)量差異巨大,導(dǎo)致模型在訓(xùn)練過(guò)程中容易被大量的負(fù)樣本主導(dǎo),對(duì)正樣本的學(xué)習(xí)效果不佳,從而影響檢測(cè)精度。同時(shí),對(duì)于小目標(biāo)和復(fù)雜背景下的目標(biāo),一階段算法的特征提取和定位能力也相對(duì)較弱,容易出現(xiàn)漏檢或誤檢的情況。相比之下,二階段算法通過(guò)候選區(qū)域的篩選和精細(xì)的分類(lèi)回歸過(guò)程,能夠更好地處理這些問(wèn)題,在檢測(cè)精度上表現(xiàn)更優(yōu),但犧牲了檢測(cè)速度。2.2典型算法介紹2.2.1YOLO系列算法YOLO系列算法作為一階段目標(biāo)檢測(cè)算法的典型代表,在目標(biāo)檢測(cè)領(lǐng)域具有重要地位,其發(fā)展歷程見(jiàn)證了一階段目標(biāo)檢測(cè)算法的不斷演進(jìn)和優(yōu)化。YOLOv1于2016年提出,它的出現(xiàn)打破了傳統(tǒng)兩階段目標(biāo)檢測(cè)算法的固有模式,開(kāi)創(chuàng)了一階段目標(biāo)檢測(cè)的先河。YOLOv1的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)潔高效,它將輸入圖像劃分為S×S的網(wǎng)格,在PASCALVOC數(shù)據(jù)集中,S取值為7。每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)落入該網(wǎng)格內(nèi)的目標(biāo),每個(gè)網(wǎng)格預(yù)測(cè)B個(gè)邊界框以及這些邊界框所屬的類(lèi)別概率和置信度,在YOLOv1中B取值為2。其檢測(cè)機(jī)制是直接通過(guò)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行處理,一次性輸出所有網(wǎng)格的預(yù)測(cè)結(jié)果。在特征提取方面,YOLOv1使用了24個(gè)卷積層和2個(gè)全連接層,卷積層用于提取圖像的特征,全連接層則將提取到的特征映射到樣本標(biāo)記空間,最后輸出邊界框的位置及其所屬的類(lèi)別。然而,YOLOv1在處理小目標(biāo)時(shí)存在明顯不足,由于小目標(biāo)在圖像中所占像素比例小,特征不明顯,在劃分網(wǎng)格時(shí),小目標(biāo)可能被分配到較少的網(wǎng)格中,導(dǎo)致特征提取不充分,檢測(cè)精度較低。同時(shí),對(duì)于復(fù)雜背景下的目標(biāo),背景噪聲容易干擾特征提取,使得模型難以準(zhǔn)確識(shí)別目標(biāo)。在面對(duì)類(lèi)別不平衡問(wèn)題時(shí),由于模型在訓(xùn)練過(guò)程中對(duì)各類(lèi)樣本同等對(duì)待,而實(shí)際數(shù)據(jù)集中不同類(lèi)別的樣本數(shù)量差異較大,這使得模型對(duì)少數(shù)類(lèi)樣本的學(xué)習(xí)效果不佳,檢測(cè)準(zhǔn)確率較低。YOLOv2在2017年發(fā)布,它在YOLOv1的基礎(chǔ)上進(jìn)行了多項(xiàng)改進(jìn)。網(wǎng)絡(luò)結(jié)構(gòu)方面,YOLOv2采用了Darknet-19作為骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)比YOLOv1的網(wǎng)絡(luò)更深,包含19個(gè)卷積層和5個(gè)最大池化層。在檢測(cè)機(jī)制上,YOLOv2引入了錨點(diǎn)框(AnchorBoxes)機(jī)制,通過(guò)聚類(lèi)分析在數(shù)據(jù)集中提取不同尺度和長(zhǎng)寬比的先驗(yàn)框,每個(gè)網(wǎng)格根據(jù)這些先驗(yàn)框預(yù)測(cè)多個(gè)邊界框,這大大提高了對(duì)不同形狀目標(biāo)的檢測(cè)能力,尤其是對(duì)小目標(biāo)的檢測(cè)效果有了顯著提升。同時(shí),YOLOv2采用了多尺度訓(xùn)練策略,在訓(xùn)練過(guò)程中隨機(jī)調(diào)整輸入圖像的分辨率,使模型能夠適應(yīng)不同尺度的目標(biāo)。在特征提取上,通過(guò)在卷積層后加入批量歸一化(BatchNormalization,BN),改善了模型的收斂性和穩(wěn)定性,增強(qiáng)了特征提取能力。對(duì)于類(lèi)別不平衡問(wèn)題,雖然YOLOv2沒(méi)有專(zhuān)門(mén)針對(duì)此問(wèn)題的改進(jìn)措施,但通過(guò)引入錨點(diǎn)框和多尺度訓(xùn)練等方法,在一定程度上提高了模型對(duì)各類(lèi)目標(biāo)的檢測(cè)能力,緩解了類(lèi)別不平衡帶來(lái)的部分影響。YOLOv3于2018年推出,進(jìn)一步提升了檢測(cè)性能。其網(wǎng)絡(luò)結(jié)構(gòu)使用了新的骨干網(wǎng)絡(luò)Darknet-53,該網(wǎng)絡(luò)具有更深的層次和更多的參數(shù),采用了殘差結(jié)構(gòu),增強(qiáng)了特征提取能力,能夠?qū)W習(xí)到更豐富的圖像特征。YOLOv3的檢測(cè)機(jī)制中,最顯著的改進(jìn)是多尺度預(yù)測(cè)。它在三個(gè)不同尺度上進(jìn)行檢測(cè),分別處理大、中、小目標(biāo)。具體來(lái)說(shuō),通過(guò)從骨干網(wǎng)絡(luò)的不同層輸出特征圖,這些特征圖具有不同的分辨率和感受野,大尺度的特征圖(靠前的層)用于檢測(cè)小目標(biāo),小尺度的特征圖(靠后的層)用于檢測(cè)大目標(biāo),顯著提升了對(duì)小目標(biāo)的檢測(cè)能力。每個(gè)網(wǎng)格單元預(yù)測(cè)3個(gè)anchorboxes,使得每個(gè)單元可以預(yù)測(cè)更多的框,提高了密集目標(biāo)檢測(cè)的效果。在類(lèi)別預(yù)測(cè)方面,YOLOv3采用了logistic回歸替代softmax進(jìn)行多標(biāo)簽分類(lèi),能夠更好地處理類(lèi)別之間的重疊問(wèn)題。對(duì)于類(lèi)別不平衡問(wèn)題,YOLOv3同樣沒(méi)有直接的解決方案,但多尺度預(yù)測(cè)和改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)使得模型對(duì)各類(lèi)目標(biāo)的檢測(cè)更加均衡,一定程度上減輕了類(lèi)別不平衡對(duì)檢測(cè)結(jié)果的影響。YOLOv4在2020年發(fā)布,在保持YOLO系列高速檢測(cè)的同時(shí),對(duì)算法結(jié)構(gòu)和訓(xùn)練過(guò)程進(jìn)行了全面優(yōu)化。網(wǎng)絡(luò)結(jié)構(gòu)上,使用CSPDarknet53作為骨干網(wǎng)絡(luò),CSPNet(CrossStagePartialNetwork)優(yōu)化了Darknet53,通過(guò)跨階段局部連接,減少了計(jì)算量并提高了準(zhǔn)確性。同時(shí)引入了空間金字塔池化網(wǎng)絡(luò)(SpatialPyramidPoolingNetwork,SPPNet),通過(guò)不同尺度的池化操作,進(jìn)一步增強(qiáng)了特征提取能力,提高了模型對(duì)不同尺度目標(biāo)的適應(yīng)性。在訓(xùn)練過(guò)程中,引入了一系列不增加推理成本的技巧,如Mosaic數(shù)據(jù)增強(qiáng)、Self-AdversarialTraining(SAT)等,這些方法豐富了訓(xùn)練數(shù)據(jù)的多樣性,增強(qiáng)了模型的魯棒性。還采用了Mish激活函數(shù)、CIoU損失函數(shù)等,進(jìn)一步提升了模型性能。對(duì)于類(lèi)別不平衡問(wèn)題,雖然沒(méi)有專(zhuān)門(mén)針對(duì)類(lèi)別不平衡的新算法,但Mosaic數(shù)據(jù)增強(qiáng)等方法增加了少數(shù)類(lèi)樣本在訓(xùn)練數(shù)據(jù)中的出現(xiàn)頻率,使得模型對(duì)少數(shù)類(lèi)樣本的學(xué)習(xí)效果有所提升,從而在一定程度上緩解了類(lèi)別不平衡問(wèn)題。YOLOv5在2020年出現(xiàn),它并非由原YOLO團(tuán)隊(duì)開(kāi)發(fā),但以其出色的性能和易用性獲得了廣泛應(yīng)用。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)在設(shè)計(jì)上更加注重模型大小、速度和準(zhǔn)確性之間的平衡。它引入了Focus層,通過(guò)切片操作將輸入圖像的信息進(jìn)行重組,在不增加計(jì)算量的前提下,豐富了特征信息。在訓(xùn)練過(guò)程中,自動(dòng)錨點(diǎn)計(jì)算功能可以根據(jù)數(shù)據(jù)集自動(dòng)選擇最優(yōu)的anchorboxes,減少了手動(dòng)調(diào)參的需求。同時(shí)集成了一系列改進(jìn)方法,如使用SiLU激活函數(shù)、高效的損失函數(shù)(CIoU)等,進(jìn)一步提高了檢測(cè)性能。在處理類(lèi)別不平衡問(wèn)題時(shí),YOLOv5通過(guò)數(shù)據(jù)增強(qiáng)和損失函數(shù)的調(diào)整來(lái)緩解這一問(wèn)題。例如,通過(guò)對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣或?qū)Χ鄶?shù)類(lèi)樣本進(jìn)行欠采樣,使得訓(xùn)練數(shù)據(jù)集中各類(lèi)樣本的數(shù)量更加均衡;在損失函數(shù)中,對(duì)不同類(lèi)別的樣本設(shè)置不同的權(quán)重,提高模型對(duì)少數(shù)類(lèi)樣本的關(guān)注度。YOLO系列算法的不斷發(fā)展,從網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化、檢測(cè)機(jī)制的改進(jìn)到訓(xùn)練技巧的創(chuàng)新,逐步提升了對(duì)不同尺度目標(biāo)的特征提取能力,在一定程度上緩解了類(lèi)別不平衡問(wèn)題,使得一階段目標(biāo)檢測(cè)算法在速度和精度上都取得了顯著的進(jìn)步。2.2.2SSD算法SSD(SingleShotMultiBoxDetector)算法作為一階段目標(biāo)檢測(cè)算法的重要代表,其設(shè)計(jì)理念獨(dú)特,對(duì)解決目標(biāo)檢測(cè)問(wèn)題具有重要意義。SSD算法的核心設(shè)計(jì)理念是在不同尺度的特征圖上進(jìn)行檢測(cè),通過(guò)多尺度特征融合來(lái)提升對(duì)不同大小目標(biāo)的檢測(cè)能力。它以VGG16作為基礎(chǔ)網(wǎng)絡(luò),并在此基礎(chǔ)上進(jìn)行了一系列的改進(jìn)。在網(wǎng)絡(luò)結(jié)構(gòu)上,將VGG16的兩個(gè)全連接層改成卷積層,然后添加了4個(gè)卷積層,構(gòu)建出用于目標(biāo)檢測(cè)的網(wǎng)絡(luò)。這種結(jié)構(gòu)的設(shè)計(jì)使得網(wǎng)絡(luò)能夠從不同層次的特征圖中提取信息,不同尺度的特征圖具有不同的感受野,大尺度特征圖(靠前的層)感受野小,能夠捕捉到更多細(xì)節(jié),適合檢測(cè)小目標(biāo);小尺度特征圖(靠后的層)感受野大,適合檢測(cè)大目標(biāo)。例如,在SSD中,Conv4_3層的特征圖尺寸較大,其感受野相對(duì)較小,對(duì)小目標(biāo)的細(xì)節(jié)信息捕捉能力強(qiáng),因此主要用于檢測(cè)小目標(biāo);而Conv7層的特征圖尺寸較小,感受野較大,更適合檢測(cè)大目標(biāo)。通過(guò)綜合利用這些不同尺度特征圖的信息,SSD能夠有效地檢測(cè)出不同大小的目標(biāo),提高了檢測(cè)的全面性和準(zhǔn)確性。先驗(yàn)框(PriorBox)的設(shè)置是SSD算法的另一個(gè)關(guān)鍵設(shè)計(jì)。SSD借鑒了FasterR-CNN中anchor的理念,在特征圖的每個(gè)位置設(shè)置不同尺度和長(zhǎng)寬比的先驗(yàn)框。每個(gè)先驗(yàn)框都對(duì)應(yīng)一個(gè)固定的大小和形狀,通過(guò)這些先驗(yàn)框,模型可以在不同位置和尺度上對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。先驗(yàn)框的尺度和長(zhǎng)寬比是根據(jù)數(shù)據(jù)集的目標(biāo)尺寸和形狀分布進(jìn)行設(shè)計(jì)的,以適應(yīng)不同形狀和大小的目標(biāo)檢測(cè)需求。在PASCALVOC數(shù)據(jù)集中,針對(duì)不同尺度的特征圖,每個(gè)位置設(shè)置了不同數(shù)量和參數(shù)的先驗(yàn)框。在較小尺度的特征圖上,先驗(yàn)框的尺寸相對(duì)較大,以適應(yīng)大目標(biāo)的檢測(cè);在較大尺度的特征圖上,先驗(yàn)框的尺寸相對(duì)較小,用于檢測(cè)小目標(biāo)。這種先驗(yàn)框的設(shè)置方式使得模型在訓(xùn)練過(guò)程中能夠更好地學(xué)習(xí)到目標(biāo)的位置和形狀信息,提高了目標(biāo)定位的準(zhǔn)確性。在檢測(cè)過(guò)程中,SSD直接使用卷積對(duì)不同的特征圖進(jìn)行處理,輸出檢測(cè)結(jié)果。對(duì)于每個(gè)特征圖位置的先驗(yàn)框,模型會(huì)預(yù)測(cè)其對(duì)應(yīng)的目標(biāo)類(lèi)別和相對(duì)于先驗(yàn)框的位置偏移。通過(guò)對(duì)這些預(yù)測(cè)結(jié)果的處理,最終得到檢測(cè)到的目標(biāo)的類(lèi)別和位置信息。在訓(xùn)練過(guò)程中,SSD通過(guò)先驗(yàn)框匹配策略將先驗(yàn)框與真實(shí)目標(biāo)進(jìn)行匹配,確定正樣本和負(fù)樣本。對(duì)于與真實(shí)目標(biāo)IoU(IntersectionoverUnion)大于一定閾值(通常為0.5)的先驗(yàn)框,將其視為正樣本,其余為負(fù)樣本。通過(guò)這種方式,模型能夠?qū)W習(xí)到如何準(zhǔn)確地預(yù)測(cè)目標(biāo)的類(lèi)別和位置。同時(shí),為了解決正負(fù)樣本不平衡的問(wèn)題,SSD采用了HardNegativeMining策略,選擇一部分負(fù)樣本進(jìn)行訓(xùn)練,以提高模型的訓(xùn)練效果。SSD算法通過(guò)多尺度特征圖的運(yùn)用和先驗(yàn)框的設(shè)置,有效地提升了對(duì)不同大小目標(biāo)的檢測(cè)能力,在目標(biāo)檢測(cè)領(lǐng)域取得了較好的性能表現(xiàn)。它的設(shè)計(jì)理念為后續(xù)一階段目標(biāo)檢測(cè)算法的發(fā)展提供了重要的參考和借鑒。2.2.3RetinaNet算法RetinaNet算法在一階段目標(biāo)檢測(cè)領(lǐng)域具有重要地位,其獨(dú)特的結(jié)構(gòu)和創(chuàng)新的FocalLoss有效提升了目標(biāo)檢測(cè)的性能,尤其是在解決類(lèi)別不平衡問(wèn)題上取得了顯著成果。RetinaNet的網(wǎng)絡(luò)結(jié)構(gòu)主要由一個(gè)骨干網(wǎng)絡(luò)(BackboneNetwork)、特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,F(xiàn)PN)和兩個(gè)全卷積(FullyConvolutionalNetwork,F(xiàn)CN)子網(wǎng)絡(luò)組成。骨干網(wǎng)絡(luò)通常采用ResNet50等經(jīng)典網(wǎng)絡(luò),負(fù)責(zé)對(duì)輸入圖像進(jìn)行初步的特征提取。FPN則在骨干網(wǎng)絡(luò)的基礎(chǔ)上,通過(guò)自上而下的結(jié)構(gòu)和橫向連接,將不同層次的特征進(jìn)行融合,生成多尺度的特征圖。這些多尺度特征圖能夠兼顧不同大小目標(biāo)的特征提取,小尺度特征圖(如P7)感受野大,適合檢測(cè)大目標(biāo);大尺度特征圖(如P3)感受野小,對(duì)小目標(biāo)的細(xì)節(jié)信息捕捉能力強(qiáng)。兩個(gè)全卷積子網(wǎng)絡(luò)分別負(fù)責(zé)分類(lèi)和框回歸,它們不共享參數(shù),各自獨(dú)立地對(duì)多尺度特征圖進(jìn)行處理,最終輸出目標(biāo)的類(lèi)別和位置信息。在分類(lèi)子網(wǎng)絡(luò)中,每個(gè)特征圖位置對(duì)應(yīng)A個(gè)anchor(在RetinaNet中,通常A為9,由3種比例和3種尺度構(gòu)成),輸出KA維的結(jié)果,其中K為要分類(lèi)的類(lèi)別數(shù)量(不包括背景);在框回歸子網(wǎng)絡(luò)中,輸出4A維的結(jié)果,用于預(yù)測(cè)anchor相對(duì)于真實(shí)框的位置偏移。FocalLoss是RetinaNet算法的核心創(chuàng)新點(diǎn),其設(shè)計(jì)目的是解決目標(biāo)檢測(cè)中嚴(yán)重的類(lèi)別不平衡問(wèn)題。在傳統(tǒng)的目標(biāo)檢測(cè)算法中,正負(fù)樣本比例極度失衡,例如在一些數(shù)據(jù)集中,正負(fù)樣本比可能達(dá)到1:1000甚至更高。大量的負(fù)樣本會(huì)主導(dǎo)損失函數(shù)的計(jì)算,使得模型在訓(xùn)練過(guò)程中偏向于優(yōu)化易分樣本,而忽略了真正需要關(guān)注的難分樣本和少數(shù)類(lèi)樣本,從而導(dǎo)致模型對(duì)正樣本和少數(shù)類(lèi)樣本的檢測(cè)能力下降。FocalLoss通過(guò)對(duì)交叉熵?fù)p失函數(shù)進(jìn)行改進(jìn),引入了兩個(gè)超參數(shù)α和γ,來(lái)調(diào)整不同樣本在損失計(jì)算中的權(quán)重。具體來(lái)說(shuō),F(xiàn)ocalLoss的表達(dá)式為:FL(p_t)=-(1-p_t)^{\gamma}\alpha_t\log(p_t),其中p_t是模型預(yù)測(cè)的概率,當(dāng)真實(shí)標(biāo)簽為1時(shí),p_t=p;當(dāng)真實(shí)標(biāo)簽為0時(shí),p_t=1-p。\alpha_t是平衡正負(fù)樣本的權(quán)重因子,對(duì)于正樣本,\alpha_t=\alpha;對(duì)于負(fù)樣本,\alpha_t=1-\alpha,通常\alpha取值為0.25。\gamma是調(diào)制因子,用于調(diào)整易分樣本和難分樣本的權(quán)重,當(dāng)\gamma取不同值時(shí),Loss曲線(xiàn)會(huì)發(fā)生變化。對(duì)于易分樣本,p_t接近1,此時(shí)(1-p_t)^{\gamma}接近0,即大大減小了易分樣本的loss值,降低了其在總體loss中的比重;而對(duì)于難分樣本,p_t很小,此時(shí)(1-p_t)^{\gamma}接近1,對(duì)難分樣本的loss影響很小。例如,當(dāng)\gamma=2時(shí),對(duì)于p_t=0.9的易分樣本,F(xiàn)ocalLoss的值相比于CEloss小了100倍,而對(duì)于錯(cuò)分的難分樣本,F(xiàn)ocalLoss相比于CEloss至多小4倍。通過(guò)這種方式,F(xiàn)ocalLoss使得模型能夠更加專(zhuān)注于難分樣本和少數(shù)類(lèi)樣本的學(xué)習(xí),有效緩解了類(lèi)別不平衡問(wèn)題。在實(shí)際應(yīng)用中,RetinaNet搭配FocalLoss在保持一階段目標(biāo)檢測(cè)算法速度優(yōu)勢(shì)的基礎(chǔ)上,顯著提高了檢測(cè)精度。它能夠在復(fù)雜數(shù)據(jù)集上取得較好的檢測(cè)效果,對(duì)各類(lèi)目標(biāo)的檢測(cè)準(zhǔn)確率都有明顯提升,尤其是對(duì)少數(shù)類(lèi)目標(biāo)的檢測(cè)能力得到了極大改善。然而,RetinaNet引入的FocalLoss也存在一定的局限性,它易受噪聲干擾,對(duì)圖像標(biāo)注的準(zhǔn)確性要求非常高,一旦有標(biāo)錯(cuò)的樣本,就會(huì)被FocalLoss當(dāng)做困難樣本,干擾樣本對(duì)loss貢獻(xiàn)很大,從而影響學(xué)習(xí)效果。三、特征問(wèn)題分析3.1特征提取難點(diǎn)3.1.1小目標(biāo)特征提取困難小目標(biāo)在實(shí)際場(chǎng)景中廣泛存在,然而其在圖像中占比小、特征不明顯的特性給目標(biāo)檢測(cè)算法帶來(lái)了巨大挑戰(zhàn)。以遙感圖像中的車(chē)輛檢測(cè)為例,在高分辨率的遙感圖像中,車(chē)輛作為小目標(biāo),其像素?cái)?shù)量相較于整幅圖像而言極為稀少。當(dāng)圖像分辨率為5000×5000像素時(shí),一輛普通汽車(chē)可能僅占據(jù)幾十到幾百個(gè)像素。如此微小的像素占比使得小目標(biāo)的特征難以有效提取,容易被算法忽略或誤判。在安防監(jiān)控場(chǎng)景中,遠(yuǎn)距離的行人檢測(cè)也面臨同樣的問(wèn)題,行人在監(jiān)控畫(huà)面中可能只是一個(gè)模糊的小點(diǎn),其輪廓、細(xì)節(jié)等特征難以被準(zhǔn)確捕捉。小目標(biāo)特征提取困難對(duì)算法性能產(chǎn)生了多方面的影響。在檢測(cè)準(zhǔn)確率方面,由于難以提取到小目標(biāo)的有效特征,算法對(duì)小目標(biāo)的識(shí)別能力下降,容易出現(xiàn)漏檢和誤檢的情況。在一些交通監(jiān)控場(chǎng)景中,對(duì)于遠(yuǎn)處的小型摩托車(chē)或自行車(chē)等小目標(biāo),算法常常無(wú)法準(zhǔn)確檢測(cè),導(dǎo)致交通流量統(tǒng)計(jì)不準(zhǔn)確,影響交通管理決策的制定。在召回率上,小目標(biāo)的漏檢使得召回率降低,無(wú)法全面檢測(cè)出圖像中的所有目標(biāo)。在智能安防系統(tǒng)中,如果對(duì)小目標(biāo)的召回率不足,可能會(huì)導(dǎo)致一些潛在的安全威脅被忽視,無(wú)法及時(shí)發(fā)現(xiàn)和處理。小目標(biāo)特征提取困難還會(huì)影響算法的穩(wěn)定性和魯棒性,使得算法在面對(duì)不同場(chǎng)景和復(fù)雜環(huán)境時(shí),對(duì)小目標(biāo)的檢測(cè)性能波動(dòng)較大,難以滿(mǎn)足實(shí)際應(yīng)用的需求。3.1.2復(fù)雜背景下特征干擾復(fù)雜背景是目標(biāo)檢測(cè)中常見(jiàn)的挑戰(zhàn)之一,以交通場(chǎng)景為例,其中包含了豐富多樣的元素,如道路、車(chē)輛、行人、交通標(biāo)志、綠化帶以及各種建筑物等。這些元素相互交織,形成了復(fù)雜的背景環(huán)境。在十字路口,車(chē)輛和行人的流動(dòng)頻繁,交通標(biāo)志和信號(hào)燈分布密集,同時(shí)周?chē)€有建筑物和樹(shù)木等背景物體。這些雜物的存在會(huì)干擾目標(biāo)特征的提取,使得算法難以準(zhǔn)確區(qū)分目標(biāo)與背景。例如,當(dāng)檢測(cè)車(chē)輛時(shí),周?chē)慕ㄖ锖蜆?shù)木的紋理、顏色等特征可能與車(chē)輛的特征產(chǎn)生混淆,導(dǎo)致算法誤將背景物體識(shí)別為車(chē)輛,或者無(wú)法準(zhǔn)確識(shí)別出車(chē)輛的位置和類(lèi)別。自然場(chǎng)景同樣具有高度的復(fù)雜性,在森林場(chǎng)景中,樹(shù)木、草叢、巖石以及光影變化等因素相互作用,構(gòu)成了復(fù)雜的背景。在這種場(chǎng)景下進(jìn)行動(dòng)物目標(biāo)檢測(cè)時(shí),光影變化會(huì)對(duì)動(dòng)物的特征產(chǎn)生顯著影響。陽(yáng)光透過(guò)樹(shù)葉的縫隙灑在地面上,形成斑駁的光影,動(dòng)物身上的光影也會(huì)隨之變化,這使得動(dòng)物的顏色、紋理等特征變得不穩(wěn)定,增加了特征提取的難度。當(dāng)陽(yáng)光直射動(dòng)物時(shí),其身體部分區(qū)域可能會(huì)過(guò)亮,導(dǎo)致細(xì)節(jié)信息丟失;而處于陰影部分的區(qū)域則可能過(guò)暗,特征難以被捕捉。這種光影變化還可能導(dǎo)致動(dòng)物的輪廓變得模糊,進(jìn)一步干擾了目標(biāo)特征的提取,使得算法在檢測(cè)時(shí)容易出現(xiàn)漏檢或誤判的情況。在復(fù)雜背景下,背景噪聲和目標(biāo)特征之間的界限模糊,使得算法難以準(zhǔn)確提取目標(biāo)特征。這不僅會(huì)降低目標(biāo)檢測(cè)的準(zhǔn)確率和召回率,還會(huì)增加算法的計(jì)算復(fù)雜度和運(yùn)行時(shí)間。為了應(yīng)對(duì)復(fù)雜背景下的特征干擾,需要對(duì)算法進(jìn)行優(yōu)化,提高其對(duì)背景噪聲的魯棒性和對(duì)目標(biāo)特征的提取能力。三、特征問(wèn)題分析3.2特征融合問(wèn)題3.2.1不同尺度特征融合策略在一階段目標(biāo)檢測(cè)算法中,多尺度特征融合是解決特征不平衡問(wèn)題的關(guān)鍵策略之一,其中FPN(FeaturePyramidNetwork)是最為經(jīng)典的多尺度特征融合方法。FPN的設(shè)計(jì)靈感來(lái)源于傳統(tǒng)圖像處理中的圖像金字塔概念,旨在通過(guò)構(gòu)建一個(gè)金字塔形的特征層次結(jié)構(gòu),有效整合不同尺度的特征,提升模型對(duì)不同大小目標(biāo)的檢測(cè)能力。FPN的結(jié)構(gòu)主要由三個(gè)部分組成:自底向上(Bottom-up)、自頂向下(Top-down)和橫向連接(LateralConnection)。在自底向上的過(guò)程中,圖片輸入到網(wǎng)絡(luò)后,通過(guò)骨干網(wǎng)絡(luò)(如ResNet)進(jìn)行特征提取,從每個(gè)模塊中提取出最后一層輸出的特征。以ResNet為例,將卷積層conv2、conv3、conv4、conv5的輸出定義為{C2,C3,C4,C5},這些特征圖的尺寸分別是原圖的{1/4,1/8,1/16,1/32}倍。例如,當(dāng)輸入圖像為640×640×3時(shí),C2-C5尺寸分別為{160×160×256,80×80×512,40×40×1024,20×20×2048},它們特征圖之間尺寸和channel都是2倍的關(guān)系。自頂向下的過(guò)程則是將高層的特征圖經(jīng)過(guò)上采樣(通常采用最近鄰插值方法)從上往下傳遞,由于高層的特征具有豐富的語(yǔ)義信息,這樣從上往下傳播就能使具有豐富物理信息的低層次特征也能包含豐富的語(yǔ)義信息。橫向連接主要包括三個(gè)步驟:首先,對(duì)于每個(gè)階段輸出的特征圖{C_n},都先進(jìn)行一個(gè)1×1的卷積統(tǒng)一并降低維度;然后將得到的特征和上一層特征上采樣得到特征圖P_{n+1}進(jìn)行融合,本質(zhì)就是elementwiseaddition;相加完之后需要經(jīng)過(guò)一個(gè)33的卷積才能得到本層的特征輸出{P_n},使用這個(gè)33卷積的目的是為了消除上采樣產(chǎn)生的混疊效應(yīng)。在論文中,因?yàn)榻鹱炙袑拥妮敵鎏卣鞫脊蚕韈lassifiers/regressors,所以輸出的維度都被統(tǒng)一為256。在實(shí)際應(yīng)用中,F(xiàn)PN在目標(biāo)檢測(cè)任務(wù)中展現(xiàn)出了顯著的優(yōu)勢(shì)。在COCO數(shù)據(jù)集上的實(shí)驗(yàn)表明,使用FPN的目標(biāo)檢測(cè)模型在小目標(biāo)檢測(cè)上的準(zhǔn)確率相比未使用FPN的模型有了大幅提升。FPN也存在一定的局限性。它增加了額外的計(jì)算量,尤其是在處理高分辨率圖像時(shí),計(jì)算復(fù)雜度明顯增加;FPN的參數(shù)需要精心調(diào)優(yōu),以確保不同尺度特征的有效融合,否則可能會(huì)影響模型的性能。除了FPN,還有其他一些多尺度特征融合方法。如SSD(SingleShotMultiBoxDetector)算法,它直接從網(wǎng)絡(luò)不同層抽取不同尺度的特征做預(yù)測(cè),沒(méi)有上采樣過(guò)程,這種方式不會(huì)增加額外的計(jì)算量。然而,SSD在特征融合方面也存在不足,它沒(méi)有用到足夠低層的特征,在檢測(cè)小目標(biāo)時(shí)效果不如FPN。還有一些方法通過(guò)注意力機(jī)制來(lái)進(jìn)行特征融合,如SE(Squeeze-and-Excitation)注意力模塊,它能夠通過(guò)學(xué)習(xí)的方式自動(dòng)獲取到不同通道特征的重要程度,對(duì)重要的特征進(jìn)行增強(qiáng),對(duì)不重要的特征進(jìn)行抑制,從而提升特征融合的效果。在一些基于YOLO算法改進(jìn)的模型中,引入SE模塊后,對(duì)不同尺度目標(biāo)的檢測(cè)性能都有了一定的提升。不同尺度特征融合策略在一階段目標(biāo)檢測(cè)算法中起著至關(guān)重要的作用,雖然各種方法都在一定程度上緩解了特征不平衡問(wèn)題,但也都面臨著各自的挑戰(zhàn),需要進(jìn)一步的研究和改進(jìn)。3.2.2融合過(guò)程中的信息損失在特征融合過(guò)程中,信息損失是一個(gè)不容忽視的問(wèn)題,它會(huì)對(duì)目標(biāo)檢測(cè)算法的精度產(chǎn)生顯著影響。從理論角度分析,在多尺度特征融合中,不同尺度的特征圖具有不同的分辨率和感受野,當(dāng)進(jìn)行特征融合時(shí),為了使不同尺度的特征能夠進(jìn)行有效的融合,往往需要對(duì)特征圖進(jìn)行上采樣或下采樣操作。上采樣過(guò)程通常采用插值方法,如最近鄰插值或雙線(xiàn)性插值,這些方法在擴(kuò)大特征圖尺寸時(shí),只是簡(jiǎn)單地復(fù)制或根據(jù)相鄰像素進(jìn)行估算,會(huì)導(dǎo)致一些細(xì)節(jié)信息的丟失。在將高層低分辨率的特征圖上采樣與低層高分辨率的特征圖融合時(shí),上采樣后的特征圖可能無(wú)法準(zhǔn)確還原原始的細(xì)節(jié)信息,使得融合后的特征圖在細(xì)節(jié)表達(dá)上存在缺失。下采樣操作雖然能夠減少計(jì)算量,但也會(huì)丟失一些空間信息,導(dǎo)致特征圖對(duì)目標(biāo)的定位能力下降。在卷積神經(jīng)網(wǎng)絡(luò)中,每一次下采樣都會(huì)使特征圖的尺寸減小,一些小目標(biāo)的特征可能會(huì)在這個(gè)過(guò)程中被弱化或丟失,從而影響后續(xù)的目標(biāo)檢測(cè)。實(shí)驗(yàn)數(shù)據(jù)也充分證明了特征融合過(guò)程中信息損失對(duì)檢測(cè)精度的影響。在一項(xiàng)對(duì)比實(shí)驗(yàn)中,使用基于FPN的目標(biāo)檢測(cè)模型,分別對(duì)融合過(guò)程中是否存在信息損失的情況進(jìn)行測(cè)試。在正常的FPN融合過(guò)程中,存在上采樣和下采樣操作,會(huì)產(chǎn)生信息損失;而在改進(jìn)的實(shí)驗(yàn)設(shè)置中,通過(guò)一些特殊的處理方法盡量減少信息損失,如使用可學(xué)習(xí)的上采樣模塊替代傳統(tǒng)的插值方法。實(shí)驗(yàn)結(jié)果顯示,在正常FPN融合情況下,模型在小目標(biāo)檢測(cè)上的平均精度均值(mAP)為0.35;而在減少信息損失的情況下,小目標(biāo)檢測(cè)的mAP提升到了0.38。在大目標(biāo)檢測(cè)上,正常FPN融合時(shí)mAP為0.48,減少信息損失后提升到了0.51。這表明信息損失會(huì)降低模型對(duì)不同尺度目標(biāo)的檢測(cè)精度,尤其是對(duì)小目標(biāo)的影響更為明顯。信息損失還會(huì)導(dǎo)致模型對(duì)目標(biāo)的分類(lèi)準(zhǔn)確率下降。當(dāng)特征融合過(guò)程中丟失了關(guān)鍵的語(yǔ)義信息時(shí),模型在判斷目標(biāo)類(lèi)別時(shí)容易出現(xiàn)錯(cuò)誤。在一些復(fù)雜場(chǎng)景的圖像中,目標(biāo)的特征與背景特征較為相似,信息損失可能會(huì)使模型無(wú)法準(zhǔn)確區(qū)分目標(biāo)與背景,從而將背景誤判為目標(biāo),或者將目標(biāo)的類(lèi)別判斷錯(cuò)誤。為了減少特征融合過(guò)程中的信息損失,研究人員提出了多種改進(jìn)方法。一些方法采用更復(fù)雜的上采樣和下采樣策略,如反卷積操作,它在一定程度上能夠恢復(fù)丟失的信息,但計(jì)算量較大。還有一些方法通過(guò)引入注意力機(jī)制,使模型能夠自動(dòng)聚焦于重要的特征信息,減少信息損失的影響。在基于注意力機(jī)制的特征融合方法中,模型可以根據(jù)不同區(qū)域特征的重要性,對(duì)特征進(jìn)行加權(quán)融合,從而保留更多的有效信息,提高檢測(cè)精度。四、類(lèi)別不平衡問(wèn)題分析4.1問(wèn)題表現(xiàn)與影響4.1.1數(shù)據(jù)集中類(lèi)別樣本數(shù)量差異在目標(biāo)檢測(cè)領(lǐng)域,數(shù)據(jù)集中類(lèi)別樣本數(shù)量差異是類(lèi)別不平衡問(wèn)題的主要表現(xiàn)形式之一,以COCO數(shù)據(jù)集為例,其包含超過(guò)33萬(wàn)張圖像,涵蓋80個(gè)對(duì)象類(lèi)別。在這些類(lèi)別中,“person”類(lèi)別的樣本數(shù)量占據(jù)了較大比重。在COCO數(shù)據(jù)集的訓(xùn)練集中,“person”類(lèi)別的標(biāo)注框數(shù)量約為41萬(wàn)個(gè),而“tv”類(lèi)別的標(biāo)注框數(shù)量?jī)H約為5000個(gè),兩者相差近80倍。這種數(shù)量上的巨大差異使得模型在訓(xùn)練過(guò)程中更容易學(xué)習(xí)到“person”類(lèi)別的特征,而對(duì)于“tv”等樣本數(shù)量較少的類(lèi)別,模型難以充分學(xué)習(xí)到其特征,導(dǎo)致在檢測(cè)這些類(lèi)別時(shí)性能下降。PASCALVOC數(shù)據(jù)集同樣存在明顯的類(lèi)別不平衡現(xiàn)象,該數(shù)據(jù)集包含20個(gè)類(lèi)別,在VOC2007的訓(xùn)練集中,“person”類(lèi)別的樣本數(shù)量達(dá)到2008個(gè),而“sheep”類(lèi)別的樣本數(shù)量?jī)H為96個(gè)。這種不平衡程度使得模型在訓(xùn)練時(shí)會(huì)過(guò)度關(guān)注“person”類(lèi)樣本,而對(duì)“sheep”類(lèi)樣本的學(xué)習(xí)相對(duì)不足,從而影響模型對(duì)“sheep”類(lèi)目標(biāo)的檢測(cè)能力。類(lèi)別樣本數(shù)量差異在實(shí)際應(yīng)用中廣泛存在,在交通場(chǎng)景的目標(biāo)檢測(cè)數(shù)據(jù)集中,車(chē)輛類(lèi)別的樣本數(shù)量通常遠(yuǎn)多于行人或交通標(biāo)志等其他類(lèi)別。在城市道路監(jiān)控視頻中,每天可能會(huì)采集到數(shù)千張包含車(chē)輛的圖像,而行人或交通標(biāo)志的圖像數(shù)量可能只有幾百?gòu)垺_@種不平衡的數(shù)據(jù)分布會(huì)導(dǎo)致模型在訓(xùn)練時(shí)對(duì)車(chē)輛類(lèi)別的學(xué)習(xí)效果較好,但對(duì)行人或交通標(biāo)志的檢測(cè)準(zhǔn)確率較低。4.1.2對(duì)模型訓(xùn)練和檢測(cè)性能的影響類(lèi)別不平衡問(wèn)題對(duì)模型訓(xùn)練和檢測(cè)性能產(chǎn)生了多方面的負(fù)面影響。在模型訓(xùn)練過(guò)程中,由于多數(shù)類(lèi)樣本數(shù)量占優(yōu),模型容易對(duì)多數(shù)類(lèi)樣本過(guò)擬合。在一個(gè)包含大量“汽車(chē)”類(lèi)樣本和少量“行人”類(lèi)樣本的數(shù)據(jù)集上訓(xùn)練目標(biāo)檢測(cè)模型時(shí),模型會(huì)花費(fèi)更多的精力去學(xué)習(xí)“汽車(chē)”類(lèi)樣本的特征,使得模型在訓(xùn)練集上對(duì)“汽車(chē)”類(lèi)的檢測(cè)準(zhǔn)確率很高。然而,當(dāng)模型面對(duì)測(cè)試集中的“行人”類(lèi)樣本時(shí),由于訓(xùn)練過(guò)程中對(duì)“行人”類(lèi)樣本的學(xué)習(xí)不足,模型可能無(wú)法準(zhǔn)確識(shí)別,導(dǎo)致檢測(cè)準(zhǔn)確率大幅下降。在檢測(cè)性能方面,類(lèi)別不平衡會(huì)導(dǎo)致模型對(duì)少數(shù)類(lèi)別的檢測(cè)能力下降。在醫(yī)學(xué)圖像目標(biāo)檢測(cè)中,疾病相關(guān)的目標(biāo)(如腫瘤)通常是少數(shù)類(lèi),而正常組織是多數(shù)類(lèi)。如果數(shù)據(jù)集中存在類(lèi)別不平衡問(wèn)題,模型在訓(xùn)練過(guò)程中會(huì)偏向于學(xué)習(xí)正常組織的特征,對(duì)腫瘤的特征學(xué)習(xí)不充分。當(dāng)使用該模型對(duì)醫(yī)學(xué)圖像進(jìn)行檢測(cè)時(shí),可能會(huì)出現(xiàn)漏檢腫瘤或誤將正常組織判斷為腫瘤的情況,嚴(yán)重影響醫(yī)學(xué)診斷的準(zhǔn)確性。類(lèi)別不平衡還會(huì)影響模型的泛化能力。由于模型在訓(xùn)練過(guò)程中過(guò)度依賴(lài)多數(shù)類(lèi)樣本,其學(xué)到的特征可能具有局限性,無(wú)法很好地適應(yīng)不同場(chǎng)景下的目標(biāo)檢測(cè)任務(wù)。在安防監(jiān)控場(chǎng)景中訓(xùn)練的目標(biāo)檢測(cè)模型,如果存在類(lèi)別不平衡問(wèn)題,當(dāng)應(yīng)用到其他場(chǎng)景(如交通監(jiān)控)時(shí),對(duì)于少數(shù)類(lèi)目標(biāo)的檢測(cè)性能會(huì)明顯下降,無(wú)法滿(mǎn)足實(shí)際應(yīng)用的需求。四、類(lèi)別不平衡問(wèn)題分析4.2產(chǎn)生原因探究4.2.1數(shù)據(jù)采集與標(biāo)注偏差在數(shù)據(jù)采集過(guò)程中,存在諸多局限性,這些因素往往導(dǎo)致數(shù)據(jù)集中不同類(lèi)別的樣本數(shù)量出現(xiàn)顯著差異。從采集設(shè)備的角度來(lái)看,不同的傳感器在感知能力上存在差異。在使用攝像頭進(jìn)行圖像采集時(shí),攝像頭的分辨率、視野范圍以及拍攝角度都會(huì)影響數(shù)據(jù)的采集效果。如果攝像頭的分辨率較低,對(duì)于一些細(xì)節(jié)特征豐富的小目標(biāo),可能無(wú)法清晰地捕捉到其特征,導(dǎo)致這些小目標(biāo)在數(shù)據(jù)集中的樣本數(shù)量較少。攝像頭的視野范圍有限,可能無(wú)法覆蓋到所有類(lèi)型的目標(biāo),使得某些目標(biāo)難以被采集到,進(jìn)而造成數(shù)據(jù)集中相應(yīng)類(lèi)別的樣本缺失。在交通場(chǎng)景的圖像采集過(guò)程中,如果攝像頭安裝位置不合理,可能無(wú)法拍攝到遠(yuǎn)處的小型車(chē)輛或行人,導(dǎo)致這些類(lèi)別的樣本數(shù)量不足。標(biāo)注誤差也是導(dǎo)致類(lèi)別不平衡的重要原因之一。在目標(biāo)檢測(cè)數(shù)據(jù)集中,標(biāo)注錯(cuò)誤可能導(dǎo)致某些類(lèi)別的樣本數(shù)量偏離預(yù)期。標(biāo)注人員的專(zhuān)業(yè)水平和經(jīng)驗(yàn)參差不齊,可能會(huì)出現(xiàn)標(biāo)注錯(cuò)誤的情況。一個(gè)類(lèi)別的樣本被錯(cuò)誤地標(biāo)注為另一個(gè)類(lèi)別,或者一個(gè)類(lèi)別的樣本被漏標(biāo)注。在醫(yī)學(xué)圖像目標(biāo)檢測(cè)數(shù)據(jù)集中,標(biāo)注人員對(duì)醫(yī)學(xué)知識(shí)的理解程度不同,可能會(huì)將正常組織誤標(biāo)注為病變組織,或者遺漏一些病變組織的標(biāo)注,從而影響病變組織類(lèi)別的樣本數(shù)量統(tǒng)計(jì),導(dǎo)致數(shù)據(jù)集中類(lèi)別不平衡問(wèn)題加劇。4.2.2目標(biāo)在實(shí)際場(chǎng)景中的出現(xiàn)頻率差異在現(xiàn)實(shí)場(chǎng)景中,目標(biāo)出現(xiàn)頻率的差異是導(dǎo)致類(lèi)別不平衡的關(guān)鍵因素之一,在交通監(jiān)控場(chǎng)景中,車(chē)輛是常見(jiàn)的目標(biāo),其出現(xiàn)頻率較高。在城市主干道上,每天車(chē)流量巨大,攝像頭能夠捕捉到大量的車(chē)輛圖像。相比之下,行人在交通監(jiān)控場(chǎng)景中的出現(xiàn)頻率相對(duì)較低。尤其是在一些車(chē)流量較大、行人較少的路段,行人的樣本數(shù)量會(huì)明顯少于車(chē)輛。而像交通標(biāo)志這樣的目標(biāo),其出現(xiàn)頻率更低。交通標(biāo)志通常分布在道路的特定位置,不像車(chē)輛那樣頻繁出現(xiàn)在監(jiān)控畫(huà)面中,這使得交通標(biāo)志類(lèi)別的樣本在數(shù)據(jù)集中相對(duì)稀少。安防監(jiān)控場(chǎng)景同樣存在類(lèi)似情況,在小區(qū)安防監(jiān)控中,人員是主要的監(jiān)控目標(biāo),但不同身份的人員出現(xiàn)頻率有所不同。小區(qū)居民每天正常出入,在監(jiān)控畫(huà)面中出現(xiàn)的次數(shù)較多,而外來(lái)訪客的出現(xiàn)頻率則相對(duì)較低。對(duì)于一些特殊情況,如盜竊行為,在實(shí)際場(chǎng)景中發(fā)生的概率極低,這導(dǎo)致與盜竊相關(guān)的目標(biāo)樣本在數(shù)據(jù)集中極為罕見(jiàn)。如果模型在訓(xùn)練過(guò)程中沒(méi)有充分考慮到這些不同目標(biāo)出現(xiàn)頻率的差異,就會(huì)導(dǎo)致對(duì)出現(xiàn)頻率低的目標(biāo)學(xué)習(xí)不足,從而影響模型在實(shí)際應(yīng)用中的檢測(cè)性能。五、現(xiàn)有解決方法分析5.1特征問(wèn)題解決方法5.1.1改進(jìn)的特征提取網(wǎng)絡(luò)在一階段目標(biāo)檢測(cè)算法中,為了提升特征提取能力,解決小目標(biāo)和復(fù)雜背景下的特征提取難題,眾多學(xué)者對(duì)特征提取網(wǎng)絡(luò)進(jìn)行了改進(jìn),其中DenseNet和ResNeXt是具有代表性的改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)。DenseNet(DenselyConnectedConvolutionalNetworks)于2016年被提出,其核心特點(diǎn)是密集連接。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,各層之間通常是順序連接,而DenseNet打破了這種常規(guī),每個(gè)卷積層的輸出都會(huì)與該層之后的所有卷積層的輸入相連接。這種密集連接方式帶來(lái)了多方面的優(yōu)勢(shì)。它促進(jìn)了特征的重用,使得淺層的特征能夠直接傳遞到深層,避免了特征在傳遞過(guò)程中的丟失,這對(duì)于小目標(biāo)的特征提取尤為重要。小目標(biāo)由于像素占比小,特征信息有限,通過(guò)密集連接,其特征可以在網(wǎng)絡(luò)中多次被利用,增強(qiáng)了模型對(duì)小目標(biāo)特征的學(xué)習(xí)能力。DenseNet還能有效緩解梯度消失問(wèn)題。在深度神經(jīng)網(wǎng)絡(luò)中,梯度在反向傳播過(guò)程中容易逐漸減小,導(dǎo)致模型難以訓(xùn)練。而DenseNet的密集連接使得梯度能夠更順暢地傳播,模型可以訓(xùn)練得更深,從而學(xué)習(xí)到更豐富的特征。在處理復(fù)雜背景下的目標(biāo)時(shí),DenseNet通過(guò)其密集連接結(jié)構(gòu),能夠充分提取目標(biāo)和背景的特征,并對(duì)它們進(jìn)行有效的區(qū)分。在交通場(chǎng)景中,面對(duì)包含車(chē)輛、行人、道路標(biāo)志等復(fù)雜背景的圖像,DenseNet可以更好地捕捉到車(chē)輛的特征,減少背景干擾對(duì)車(chē)輛檢測(cè)的影響。在COCO數(shù)據(jù)集上的實(shí)驗(yàn)表明,基于DenseNet的目標(biāo)檢測(cè)模型在小目標(biāo)檢測(cè)的平均精度均值(mAP)上比傳統(tǒng)網(wǎng)絡(luò)有顯著提升,證明了其在解決小目標(biāo)特征提取問(wèn)題上的有效性。ResNeXt是另一種具有創(chuàng)新性的網(wǎng)絡(luò)結(jié)構(gòu),它引入了基數(shù)(cardinality)的概念。在傳統(tǒng)的殘差網(wǎng)絡(luò)中,主要通過(guò)殘差連接來(lái)解決梯度消失問(wèn)題,提升網(wǎng)絡(luò)性能。而ResNeXt在殘差單元的基礎(chǔ)上增加了多個(gè)并行分支,每個(gè)分支執(zhí)行相同的轉(zhuǎn)換操作,最后將這些分支的結(jié)果相加或連接起來(lái)形成最終輸出。這種設(shè)計(jì)允許網(wǎng)絡(luò)在同一層內(nèi)探索更多樣化的映射關(guān)系,從而增強(qiáng)了模型的表達(dá)能力。具體來(lái)說(shuō),特征圖被分成若干個(gè)小組(groups),每組獨(dú)立處理輸入信息后再匯總結(jié)果。對(duì)于給定的一組輸入(\mathbf{x}),經(jīng)過(guò)一系列變換后得到輸出(\mathbf{y}=\sum_{i=1}^{C}\mathcal{T}_{i}(\mathbf{x})),其中(C)表示路徑數(shù)量即基數(shù)大小,(\mathcal{T}_i())則代表第i條路徑上的線(xiàn)性/非線(xiàn)性運(yùn)算組合。在處理小目標(biāo)時(shí),ResNeXt的多分支結(jié)構(gòu)能夠從不同角度對(duì)小目標(biāo)的特征進(jìn)行提取和融合,提高了對(duì)小目標(biāo)特征的敏感度。在復(fù)雜背景下,它能夠更全面地捕捉目標(biāo)和背景的特征信息,通過(guò)對(duì)不同分支特征的整合,更好地識(shí)別出目標(biāo),減少背景噪聲的干擾。在一些復(fù)雜場(chǎng)景的圖像檢測(cè)任務(wù)中,使用ResNeXt作為特征提取網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型,相比傳統(tǒng)網(wǎng)絡(luò),在檢測(cè)準(zhǔn)確率和召回率上都有明顯提高,展現(xiàn)了其在解決復(fù)雜背景下特征提取問(wèn)題的優(yōu)勢(shì)。DenseNet和ResNeXt等改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)獨(dú)特的設(shè)計(jì)理念,在提升特征提取能力方面取得了顯著成效,為解決一階段目標(biāo)檢測(cè)算法中的特征不平衡問(wèn)題提供了新的思路和方法。5.1.2注意力機(jī)制的應(yīng)用注意力機(jī)制在一階段目標(biāo)檢測(cè)算法中得到了廣泛應(yīng)用,其中SE(Squeeze-and-Excitation)和CBAM(ConvolutionalBlockAttentionModule)是兩種典型的注意力機(jī)制,它們?cè)谔嵘龑?duì)關(guān)鍵特征的關(guān)注度方面發(fā)揮了重要作用。SE注意力機(jī)制是一種通道注意力機(jī)制,其核心思想是通過(guò)自適應(yīng)地學(xué)習(xí)通道權(quán)重來(lái)增強(qiáng)有用的特征通道。它主要由兩個(gè)步驟組成:壓縮和激勵(lì)。在壓縮步驟中,通過(guò)全局平均池化操作來(lái)降低每個(gè)通道的維度。對(duì)于輸入的特征圖,全局平均池化將每個(gè)通道的特征信息壓縮為一個(gè)數(shù)值,這個(gè)數(shù)值代表了該通道在整個(gè)特征圖中的全局特征。在激勵(lì)步驟中,使用一個(gè)全連接層來(lái)生成每個(gè)通道的權(quán)重向量,并將其應(yīng)用于輸入特征圖上的每個(gè)通道。通過(guò)全連接層的學(xué)習(xí),模型可以自動(dòng)判斷每個(gè)通道的重要性,對(duì)于重要的通道,生成的權(quán)重值較大,從而增強(qiáng)該通道的特征;對(duì)于不重要的通道,權(quán)重值較小,抑制其特征。這樣,SE注意力機(jī)制可以自適應(yīng)地調(diào)整每個(gè)通道的重要性。在目標(biāo)檢測(cè)任務(wù)中,面對(duì)小目標(biāo)時(shí),SE注意力機(jī)制能夠自動(dòng)聚焦于包含小目標(biāo)特征的通道,增強(qiáng)這些通道的特征表達(dá),使得模型更容易檢測(cè)到小目標(biāo)。在復(fù)雜背景下,它可以抑制背景噪聲相關(guān)通道的特征,突出目標(biāo)所在通道的特征,提高模型對(duì)目標(biāo)的識(shí)別能力。在基于YOLO算法改進(jìn)的模型中引入SE注意力機(jī)制后,模型在小目標(biāo)檢測(cè)上的準(zhǔn)確率有了明顯提升,同時(shí)在復(fù)雜背景場(chǎng)景下的檢測(cè)性能也得到了改善。CBAM注意力機(jī)制是一種空間和通道注意力機(jī)制的組合,它由通道注意力模塊和空間注意力模塊兩個(gè)子模塊組成。通道注意力模塊通過(guò)學(xué)習(xí)每個(gè)通道的重要性來(lái)調(diào)整特征圖的通道維度。它通過(guò)對(duì)輸入特征圖進(jìn)行全局平均池化和全局最大池化操作,分別得到通道的平均特征和最大特征,然后將這兩個(gè)特征通過(guò)全連接層進(jìn)行融合,生成通道注意力權(quán)重??臻g注意力模塊則通過(guò)學(xué)習(xí)每個(gè)像素的重要性來(lái)調(diào)整特征圖的空間維度。它對(duì)輸入特征圖分別進(jìn)行沿通道維度的平均池化和最大池化操作,將得到的結(jié)果在通道維度上進(jìn)行拼接,再通過(guò)卷積層生成空間注意力權(quán)重。CBAM注意力機(jī)制可以同時(shí)關(guān)注特征圖的通道和空間維度,以提取最具代表性的特征。在檢測(cè)小目標(biāo)時(shí),通道注意力模塊可以增強(qiáng)小目標(biāo)所在通道的特征,空間注意力模塊可以精確定位小目標(biāo)在空間中的位置,兩者結(jié)合提高了對(duì)小目標(biāo)的檢測(cè)能力。在復(fù)雜背景下,CBAM能夠從通道和空間兩個(gè)方面對(duì)目標(biāo)和背景的特征進(jìn)行區(qū)分和強(qiáng)化,有效抑制背景干擾,提升目標(biāo)檢測(cè)的準(zhǔn)確性。在一些實(shí)驗(yàn)中,將CBAM應(yīng)用于SSD算法中,模型在復(fù)雜背景數(shù)據(jù)集上的檢測(cè)精度有了顯著提高,證明了CBAM在解決特征不平衡問(wèn)題上的有效性。SE和CBAM等注意力機(jī)制通過(guò)對(duì)特征的通道和空間維度進(jìn)行自適應(yīng)調(diào)整,顯著提升了一階段目標(biāo)檢測(cè)算法對(duì)關(guān)鍵特征的關(guān)注度,有效緩解了特征不平衡問(wèn)題,為目標(biāo)檢測(cè)任務(wù)帶來(lái)了更好的性能表現(xiàn)。五、現(xiàn)有解決方法分析5.2類(lèi)別不平衡問(wèn)題解決方法5.2.1數(shù)據(jù)層面的方法在數(shù)據(jù)層面,解決類(lèi)別不平衡問(wèn)題主要通過(guò)重采樣和數(shù)據(jù)增強(qiáng)等方法,以調(diào)整數(shù)據(jù)集中各類(lèi)別樣本的分布,提升模型對(duì)少數(shù)類(lèi)樣本的學(xué)習(xí)效果。過(guò)采樣是一種常用的重采樣方法,其核心原理是增加少數(shù)類(lèi)樣本的數(shù)量,使數(shù)據(jù)集的類(lèi)別分布更加均衡。隨機(jī)過(guò)采樣是最簡(jiǎn)單的過(guò)采樣方式,它通過(guò)隨機(jī)復(fù)制少數(shù)類(lèi)樣本,直到所有類(lèi)別的樣本數(shù)量大致相同。在一個(gè)包含“汽車(chē)”和“行人”類(lèi)別的目標(biāo)檢測(cè)數(shù)據(jù)集中,若“行人”類(lèi)樣本數(shù)量較少,隨機(jī)過(guò)采樣會(huì)隨機(jī)復(fù)制“行人”類(lèi)樣本,以增加其在數(shù)據(jù)集中的占比。這種方法操作簡(jiǎn)單,能快速平衡數(shù)據(jù)集。然而,它也存在明顯的缺點(diǎn),容易導(dǎo)致模型過(guò)擬合。由于只是簡(jiǎn)單地復(fù)制樣本,沒(méi)有增加新的樣本信息,模型可能會(huì)過(guò)度學(xué)習(xí)這些重復(fù)的樣本,而無(wú)法很好地泛化到其他數(shù)據(jù)。為了克服隨機(jī)過(guò)采樣的不足,SMOTE(SyntheticMinorityOver-samplingTechnique)算法應(yīng)運(yùn)而生。SMOTE算法基于插值原理,為每個(gè)少數(shù)類(lèi)樣本在其k近鄰樣本之間的連線(xiàn)上生成新的合成樣本。具體來(lái)說(shuō),對(duì)于每個(gè)少數(shù)類(lèi)樣本a,從其k近鄰樣本中隨機(jī)選擇一個(gè)樣本b,然后在a與b的連線(xiàn)上隨機(jī)選取一個(gè)點(diǎn),生成新的少數(shù)類(lèi)樣本。這樣生成的新樣本具有一定的多樣性,避免了簡(jiǎn)單復(fù)制樣本帶來(lái)的過(guò)擬合問(wèn)題。在處理醫(yī)學(xué)圖像目標(biāo)檢測(cè)數(shù)據(jù)集中的疾病類(lèi)別樣本時(shí),SMOTE算法能夠生成更多的疾病樣本,使模型學(xué)習(xí)到更豐富的疾病特征,從而提高對(duì)疾病的檢測(cè)能力。SMOTE算法也有其局限性,當(dāng)少數(shù)類(lèi)樣本過(guò)少時(shí),效果欠佳;在數(shù)據(jù)離散度高或噪聲較多的情況下,生成的合成樣本可能會(huì)受到噪聲的影響,導(dǎo)致樣本質(zhì)量下降。欠采樣則是通過(guò)減少多數(shù)類(lèi)樣本的數(shù)量來(lái)平衡數(shù)據(jù)集。隨機(jī)欠采樣是直接從多數(shù)類(lèi)樣本中隨機(jī)選擇一部分刪除,直至其數(shù)量與少數(shù)類(lèi)相當(dāng)。在一個(gè)包含大量“貓”類(lèi)樣本和少量“狗”類(lèi)樣本的圖像數(shù)據(jù)集中,隨機(jī)欠采樣會(huì)隨機(jī)刪除部分“貓”類(lèi)樣本,使“貓”和“狗”類(lèi)樣本數(shù)量接近。這種方法的優(yōu)點(diǎn)是簡(jiǎn)單快速,且可以減少計(jì)算量。但它可能會(huì)丟失一些重要的樣本信息,導(dǎo)致模型學(xué)習(xí)到的特征不全面。在某些情況下,刪除的樣本可能包含關(guān)鍵信息,使得模型在檢測(cè)時(shí)出現(xiàn)偏差。TomekLinks是一種基于數(shù)據(jù)清洗的欠采樣方法,它旨在消除類(lèi)別之間的模糊邊界。如果數(shù)據(jù)集中存在一對(duì)樣本,它們分屬兩個(gè)不同的類(lèi)別,且互為最近鄰,則稱(chēng)這一對(duì)樣本構(gòu)成一個(gè)TomekLink。TomekLinks方法會(huì)刪除所有這些TomekLink中來(lái)自多數(shù)類(lèi)的樣本。在一個(gè)包含“蘋(píng)果”和“橙子”類(lèi)別的水果檢測(cè)數(shù)據(jù)集中,對(duì)于那些位于“蘋(píng)果”和“橙子”類(lèi)別邊界上,且互為最近鄰的樣本對(duì)(TomekLink),如果其中一個(gè)樣本來(lái)自多數(shù)類(lèi)(假設(shè)“蘋(píng)果”類(lèi)樣本較多),則刪除該多數(shù)類(lèi)樣本。這樣可以減少類(lèi)別邊界上的噪聲,使類(lèi)別界限更加清晰。TomekLinks方法在類(lèi)別界限模糊不清的數(shù)據(jù)集上效果較好,但如果類(lèi)別本身界限分明,其效果則有限。數(shù)據(jù)增強(qiáng)也是解決類(lèi)別不平衡問(wèn)題的有效手段,它通過(guò)對(duì)現(xiàn)有樣本進(jìn)行變換來(lái)增加數(shù)據(jù)的多樣性。對(duì)于圖像數(shù)據(jù),常見(jiàn)的數(shù)據(jù)增強(qiáng)操作包括旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪、縮放等。在交通標(biāo)志檢測(cè)數(shù)據(jù)集中,對(duì)少數(shù)類(lèi)別的交通標(biāo)志圖像進(jìn)行旋轉(zhuǎn)操作,將原本水平的交通標(biāo)志圖像旋轉(zhuǎn)一定角度(如30度、60度等),使其在不同角度下呈現(xiàn),從而增加了樣本的多樣性。通過(guò)對(duì)圖像進(jìn)行水平翻轉(zhuǎn),生成新的圖像樣本,使模型能夠?qū)W習(xí)到不同方向上的目標(biāo)特征。數(shù)據(jù)增強(qiáng)可以在不增加實(shí)際樣本數(shù)量的情況下,豐富樣本的特征,提高模型的泛化能力。它對(duì)于解決類(lèi)別不平衡問(wèn)題具有重要作用,能夠使模型更好地學(xué)習(xí)到少數(shù)類(lèi)樣本的特征,提升對(duì)少數(shù)類(lèi)目標(biāo)的檢測(cè)性能。5.2.2算法層面的方法在算法層面,為了解決類(lèi)別不平衡問(wèn)題,研究人員提出了多種改進(jìn)策略,其中損失函數(shù)的改進(jìn)以及代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)等方法在提升模型對(duì)少數(shù)類(lèi)別的檢測(cè)能力方面發(fā)揮了重要作用。FocalLoss是目標(biāo)檢測(cè)領(lǐng)域中用于解決類(lèi)別不平衡問(wèn)題的經(jīng)典損失函數(shù)改進(jìn)方法。在傳統(tǒng)的目標(biāo)檢測(cè)中,正負(fù)樣本比例嚴(yán)重失衡,大量的負(fù)樣本主導(dǎo)了損失計(jì)算,導(dǎo)致模型對(duì)正樣本和少數(shù)類(lèi)樣本的學(xué)習(xí)效果不佳。FocalLoss通過(guò)對(duì)交叉熵?fù)p失函數(shù)進(jìn)行改進(jìn),引入了調(diào)制因子(1-p_t)^{\gamma}和平衡因子\alpha_t。其中,p_t是模型預(yù)測(cè)的概率,\gamma是調(diào)制因子,用于調(diào)整易分樣本和難分樣本的權(quán)重;\alpha_t是平衡因子,用于平衡正負(fù)樣本的權(quán)重。當(dāng)樣本容易分類(lèi)時(shí),p_t接近1,此時(shí)(1-p_t)^{\gamma}接近0,大大減小了易分樣本的損失值,降低了其在總體損失中的比重;而對(duì)于難分樣本,p_t較小,(1-p_t)^{\gamma}接近1,對(duì)難分樣本的損失影響較小。通過(guò)這種方式,F(xiàn)ocalLoss使得模型能夠更加關(guān)注難分樣本和少數(shù)類(lèi)樣本,有效緩解了類(lèi)別不平衡問(wèn)題。在RetinaNet算法中,使用FocalLoss后,模型在COCO數(shù)據(jù)集上對(duì)少數(shù)類(lèi)目標(biāo)的檢測(cè)精度有了顯著提升。GHM(GradientHarmonizedMechanism)損失函數(shù)則從梯度的角度對(duì)類(lèi)別不平衡問(wèn)題進(jìn)行了改進(jìn)。它通過(guò)計(jì)算樣本的梯度直方圖來(lái)確定每個(gè)樣本的權(quán)重,進(jìn)而調(diào)整損失。具體來(lái)說(shuō),GHM定義了梯度密度(GradientDensity),用來(lái)衡量在一定梯度范圍內(nèi)樣本的數(shù)量。對(duì)于梯度密度較大(即樣本數(shù)量較多)的區(qū)域,說(shuō)明該區(qū)域的樣本相對(duì)容易分類(lèi),此時(shí)降低這些樣本的權(quán)重;對(duì)于梯度密度較小(即樣本數(shù)量較少)的區(qū)域,說(shuō)明該區(qū)域的樣本相對(duì)難分類(lèi),增加這些樣本的權(quán)重。這種方法能夠更準(zhǔn)確地反映樣本之間的難易程度,使得模型更關(guān)注難以分類(lèi)的樣本,從而提高模型對(duì)難樣本的學(xué)習(xí)能力。與FocalLoss相比,GHM損失函數(shù)在樣本權(quán)重計(jì)算和梯度調(diào)整方面更加精細(xì)和平滑,能夠更好地處理類(lèi)別不平衡問(wèn)題,提高模型的泛化性能。在一些復(fù)雜數(shù)據(jù)集上的實(shí)驗(yàn)表明,使用GHM損失函數(shù)的目標(biāo)檢測(cè)模型在對(duì)少數(shù)類(lèi)別的檢測(cè)上表現(xiàn)更優(yōu)。代價(jià)敏感學(xué)習(xí)是解決類(lèi)別不平衡問(wèn)題的另一種重要方法。在實(shí)際應(yīng)用中,不同類(lèi)別的誤分類(lèi)代價(jià)往往不同,錯(cuò)分少數(shù)類(lèi)樣本的代價(jià)通常更高。代價(jià)敏感學(xué)習(xí)通過(guò)賦予不同類(lèi)別不同的錯(cuò)分代價(jià),使模型在訓(xùn)練時(shí)更加關(guān)注少數(shù)類(lèi)樣本。在醫(yī)學(xué)圖像目標(biāo)檢測(cè)中,將疾病樣本誤判為正常樣本的代價(jià)要遠(yuǎn)高于將正常樣本誤判為疾病樣本的代價(jià)。通過(guò)設(shè)置較高的疾病樣本誤判代價(jià),模型在訓(xùn)練過(guò)程中會(huì)更加努力地學(xué)習(xí)疾病樣本的特征,減少對(duì)疾病樣本的誤判。代價(jià)敏感學(xué)習(xí)的實(shí)現(xiàn)方式通常是在損失函數(shù)中引入代價(jià)敏感矩陣,根據(jù)樣本的類(lèi)別和錯(cuò)分情況,對(duì)損失值進(jìn)行加權(quán)。這種方法能夠根據(jù)實(shí)際需求,靈活調(diào)整模型對(duì)不同類(lèi)別樣本的關(guān)注度,從而提高對(duì)少數(shù)類(lèi)別的檢測(cè)準(zhǔn)確率。集成學(xué)習(xí)也是一種有效的解決類(lèi)別不平衡問(wèn)題的策略。它通過(guò)組合多個(gè)分類(lèi)器的預(yù)測(cè)結(jié)果,來(lái)提高模型的性能。平衡隨機(jī)森林是集成學(xué)習(xí)在解決類(lèi)別不平衡問(wèn)題中的一種應(yīng)用。該方法對(duì)正類(lèi)和反類(lèi)分別進(jìn)行重采樣,然后多次重采樣后采用多數(shù)投票的方法進(jìn)行集成學(xué)習(xí)。在一個(gè)包含少數(shù)類(lèi)“珍稀動(dòng)物”和多數(shù)類(lèi)“常見(jiàn)動(dòng)物”的圖像分類(lèi)數(shù)據(jù)集中,平衡隨機(jī)森林會(huì)對(duì)“珍稀動(dòng)物”類(lèi)進(jìn)行過(guò)采樣,對(duì)“常見(jiàn)動(dòng)物”類(lèi)進(jìn)行欠采樣,然后基于這些重采樣后的數(shù)據(jù)集訓(xùn)練多個(gè)決策樹(shù),最后通過(guò)多數(shù)投票的方式確定最終的分類(lèi)結(jié)果。通過(guò)這種方式,平衡隨機(jī)森林能夠綜合多個(gè)分類(lèi)器的優(yōu)勢(shì),減少單個(gè)分類(lèi)器對(duì)多數(shù)類(lèi)樣本的依賴(lài),提高對(duì)少數(shù)類(lèi)樣本的檢測(cè)能力。集成學(xué)習(xí)還可以通過(guò)其他方式實(shí)現(xiàn),如將boosting算法與過(guò)采樣方法(如SMOTE)相結(jié)合,先對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,然后使用boosting算法訓(xùn)練多個(gè)分類(lèi)器,逐步提高模型對(duì)少數(shù)類(lèi)樣本的識(shí)別能力。六、實(shí)驗(yàn)與結(jié)果分析6.1實(shí)驗(yàn)設(shè)計(jì)6.1.1實(shí)驗(yàn)數(shù)據(jù)集選擇本實(shí)驗(yàn)選用了COCO(CommonObjectsinContext)數(shù)據(jù)集,這是目前目標(biāo)檢測(cè)領(lǐng)域中應(yīng)用最為廣泛且具有挑戰(zhàn)性的公開(kāi)數(shù)據(jù)集之一。COCO數(shù)據(jù)集于2014年由微軟發(fā)布,其目標(biāo)是為了推動(dòng)上下文相關(guān)的目標(biāo)檢測(cè)、分割和字幕生成等任務(wù)的研究。COCO數(shù)據(jù)集包含超過(guò)33萬(wàn)張圖像,其中訓(xùn)練集包含118287張圖像,驗(yàn)證集包含5000張圖像,測(cè)試集包含20288張圖像。這些圖像涵蓋了80個(gè)不同的對(duì)象類(lèi)別,從常見(jiàn)的人、動(dòng)物、車(chē)輛到各種日常用品等,類(lèi)別豐富多樣,幾乎覆蓋了日常生活中的大部分常見(jiàn)物體。例如,在人這一類(lèi)別下,包含了不同年齡、性別、穿著和姿態(tài)的人物;在動(dòng)物類(lèi)別中,涵蓋了貓、狗、牛、羊等多種常見(jiàn)動(dòng)物。在交通場(chǎng)景相關(guān)的類(lèi)別中,包含了汽車(chē)、摩托車(chē)、自行車(chē)、巴士、火車(chē)等不同類(lèi)型的車(chē)輛。該數(shù)據(jù)集的類(lèi)別分布具有一定的不均衡性,某些類(lèi)別如“person”的樣本數(shù)量較多,在訓(xùn)練集中,“person”類(lèi)別的標(biāo)注框數(shù)量約為41萬(wàn)個(gè);而一些類(lèi)別如“tv”“sheep”等的樣本數(shù)量相對(duì)較少,“tv”類(lèi)別的標(biāo)注框數(shù)量?jī)H約為5000個(gè)。這種類(lèi)別分布的不平衡性使得COCO數(shù)據(jù)集成為研究類(lèi)別不平衡問(wèn)題的理想選擇。COCO數(shù)據(jù)集在樣本數(shù)量方面也具有較大規(guī)模,大量的圖像和豐富的標(biāo)注信息為模型的訓(xùn)練提供了充足的數(shù)據(jù)支持。通過(guò)在COCO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),可以更全面地評(píng)估模型在不同類(lèi)別目標(biāo)檢測(cè)上的性能,以及對(duì)類(lèi)別不平衡問(wèn)題的處理能力。同時(shí),由于該數(shù)據(jù)集在學(xué)術(shù)界和工業(yè)界的廣泛應(yīng)用,使用COCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)也便于與其他研究成果進(jìn)行對(duì)比和分析,從而更好地驗(yàn)證所提出方法的有效性和優(yōu)越性。6.1.2實(shí)驗(yàn)環(huán)境與設(shè)置本實(shí)驗(yàn)的硬件平臺(tái)采用了NVIDIAGeForceRTX3090GPU,該GPU具有強(qiáng)大的計(jì)算能力,擁有24GB的高速顯存,能夠支持大規(guī)模的深度學(xué)習(xí)模型訓(xùn)練和復(fù)雜的計(jì)算任務(wù)。搭配IntelCorei9-12900KCPU,其具有高性能的計(jì)算核心,能夠快速處理數(shù)據(jù)和指令,為實(shí)驗(yàn)提供穩(wěn)定的計(jì)算支持。同時(shí),配備了64GB的高速內(nèi)存,確保在實(shí)驗(yàn)過(guò)程中數(shù)據(jù)的快速讀取和存儲(chǔ),減少內(nèi)存瓶頸對(duì)實(shí)驗(yàn)效率的影響。軟件框架方面,選用了PyTorch深度學(xué)習(xí)框架。PyTorch具有簡(jiǎn)潔易用、動(dòng)態(tài)計(jì)算圖等特點(diǎn),方便研究人員進(jìn)行模型的構(gòu)建、訓(xùn)練和調(diào)試。在數(shù)據(jù)處理和可視化方面,使用了Python的相關(guān)庫(kù),如OpenCV用于圖像的讀取和預(yù)處理,Matplotlib用于實(shí)驗(yàn)結(jié)果的可視化展示。在超參數(shù)設(shè)置上,初始學(xué)習(xí)率設(shè)置為0.001,采用余弦退火學(xué)習(xí)率調(diào)整策略,隨著訓(xùn)練的進(jìn)行,學(xué)習(xí)率逐漸下降,以避免模型在訓(xùn)練后期出現(xiàn)過(guò)擬合現(xiàn)象。權(quán)重衰減設(shè)置為0.0005,通過(guò)對(duì)權(quán)重進(jìn)行衰減,防止模型參數(shù)過(guò)大導(dǎo)致過(guò)擬合。批大?。╞atchsize)設(shè)置為16,在保證GPU內(nèi)存能夠容納的前提下,選擇合適的批大小可以提高訓(xùn)練的穩(wěn)定性和效率。在訓(xùn)練過(guò)程中,使用Adam優(yōu)化器,該優(yōu)化器結(jié)合了Adagrad和RMSProp的優(yōu)點(diǎn),能夠自適應(yīng)地調(diào)整學(xué)習(xí)率,加快模型的收斂速度。對(duì)于模型的訓(xùn)練輪數(shù)(epoch),設(shè)置為100輪,通過(guò)足夠的訓(xùn)練輪數(shù),使模型充分學(xué)習(xí)數(shù)據(jù)集中的特征和模式。6.1.3對(duì)比算法選擇為了驗(yàn)證所提出方法在解決一階段目標(biāo)檢測(cè)算法中特征和類(lèi)別不平衡問(wèn)題的有效性,選擇了具有代表性的一階段目標(biāo)檢測(cè)算法作為對(duì)比,包括YOLOv5、SSD和RetinaNet。選擇YOLOv5作為對(duì)比算法,是因?yàn)樗谝浑A段目標(biāo)檢測(cè)算法中具有廣泛的應(yīng)用和較高的知名度。YOLOv5在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行了優(yōu)化,引入了Focus層、CSP結(jié)構(gòu)等,使其在檢測(cè)速度和精度上都有較好的表現(xiàn)。在解決特征不平衡問(wèn)題方面,YOLOv5通過(guò)多尺度特征融合和自適應(yīng)錨點(diǎn)計(jì)算等方法,提升了對(duì)不同尺度目標(biāo)的檢測(cè)能力。對(duì)于類(lèi)別不平衡問(wèn)題,它采用了數(shù)據(jù)增強(qiáng)和損失函數(shù)調(diào)整等策略。將其與本文提出的方法進(jìn)行對(duì)比,可以直觀地看出在處理特征和類(lèi)別不平衡問(wèn)題上的差異和優(yōu)勢(shì)。SSD算法同樣是經(jīng)典的一階段目標(biāo)檢測(cè)算法,其核心設(shè)計(jì)理念是在不同尺度的特征圖上進(jìn)行檢測(cè),通過(guò)多尺度特征融合和先驗(yàn)框的設(shè)置來(lái)提升對(duì)不同大小目標(biāo)的檢測(cè)能力。在解決特征不平衡問(wèn)題上,SSD通過(guò)直接從網(wǎng)絡(luò)不同層抽取不同尺度的特征做預(yù)測(cè),一定程度上緩解了不同尺度目標(biāo)的特征提取差異。在處理類(lèi)別不平衡問(wèn)題時(shí),采用了HardNegativeMining策略來(lái)選擇負(fù)樣本進(jìn)行訓(xùn)練。與SSD對(duì)比,可以進(jìn)一步驗(yàn)證本文方法在特征融合和類(lèi)別不平衡處理上的改進(jìn)效果。RetinaNet算法以其創(chuàng)新的FocalLoss有效解決了類(lèi)別不平衡問(wèn)題而備受關(guān)注。它通過(guò)對(duì)交叉熵?fù)p失函數(shù)進(jìn)行改進(jìn),引入調(diào)制因子和平衡因子,使得模型能夠更加關(guān)注難分樣本和少數(shù)類(lèi)樣本。在網(wǎng)絡(luò)結(jié)構(gòu)上,RetinaNet采用了特征金字塔網(wǎng)絡(luò)(FPN)進(jìn)行多尺度特征融合,提升了對(duì)不同尺度目標(biāo)的檢測(cè)能力。將RetinaNet作為對(duì)比算法,可以重點(diǎn)對(duì)比在解決類(lèi)別不平衡問(wèn)題上,本文提出的基于動(dòng)態(tài)權(quán)重分配的損失函數(shù)改進(jìn)方法與FocalLoss的性能差異。對(duì)比的主要目的是評(píng)估本文所提出方法在檢測(cè)精度、召回率、平均精度均值(mAP)等指標(biāo)上的表現(xiàn)。檢測(cè)精度反映了模型正確檢測(cè)出目標(biāo)的能力,召回率體現(xiàn)了模型對(duì)所有目標(biāo)的覆蓋程度,mAP則綜合考慮了不同類(lèi)別目標(biāo)的檢測(cè)精度,是目標(biāo)檢測(cè)算法中最重要的評(píng)估指標(biāo)之一。通過(guò)與這些對(duì)比算法在相同數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境下進(jìn)行比較,可以全面、客觀地驗(yàn)證本文方法在解決一階段目標(biāo)檢測(cè)算法中特征和類(lèi)別不平衡問(wèn)題上的有效性和優(yōu)越性。六、實(shí)驗(yàn)與結(jié)果分析6.2實(shí)驗(yàn)結(jié)果與討論6.2.1特征問(wèn)題解決方法實(shí)驗(yàn)結(jié)果在特征問(wèn)題解決方法的實(shí)驗(yàn)中,主要對(duì)比了改進(jìn)特征提取網(wǎng)絡(luò)和應(yīng)用注意力機(jī)制前后模型在小目標(biāo)檢測(cè)和復(fù)雜背景檢測(cè)方面的性能。首先,對(duì)于改進(jìn)特征提取網(wǎng)絡(luò)的實(shí)驗(yàn),將基于DenseNet和ResNeXt的目標(biāo)檢測(cè)模型與未改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)模型進(jìn)行對(duì)比。在小目標(biāo)檢測(cè)上,以COCO數(shù)據(jù)集中的“mouse”類(lèi)小目標(biāo)為例,基礎(chǔ)模型對(duì)“mouse”類(lèi)的平均精度(AP)僅為0.25,而基于DenseNet的模型AP提升到了0.32,基于ResNeXt的模型AP達(dá)到了0.35。這表明改進(jìn)的特征提取網(wǎng)絡(luò)能夠更有效地提取小目標(biāo)的特征,提高了對(duì)小目標(biāo)的檢測(cè)能力。在復(fù)雜背景檢測(cè)方面,選取了包含多種雜物的室內(nèi)場(chǎng)景圖像進(jìn)行測(cè)試。在這種復(fù)雜背景下,基礎(chǔ)模型的檢測(cè)準(zhǔn)確率為0.68,召回率為0.62;基于DenseNet的模型檢測(cè)準(zhǔn)確率提升到了0.75,召回率為0.68;基于ResNeXt的模型檢測(cè)準(zhǔn)確率達(dá)到了0.78,召回率為0.72??梢钥闯?,改進(jìn)的特征提取網(wǎng)絡(luò)在復(fù)雜背景下能夠更好地抑制背景噪聲,提取目標(biāo)特征,從而提升了檢測(cè)性能。在應(yīng)用注意力機(jī)制的實(shí)驗(yàn)中,對(duì)比了引入SE和CBAM注意力機(jī)制前后模型的性能。以小目標(biāo)檢測(cè)為例,在引入SE注意力機(jī)制后,模型對(duì)COCO數(shù)據(jù)集中“keyboard”類(lèi)小目標(biāo)的AP從0.28提升到了0.34;引入CBAM注意力機(jī)制后,AP進(jìn)一步提升到了0.37。這說(shuō)明注意力機(jī)制能夠增強(qiáng)模型對(duì)小目標(biāo)特征的關(guān)注,提高小目標(biāo)的檢測(cè)精度。在復(fù)雜背景檢測(cè)實(shí)驗(yàn)中,選擇了交通場(chǎng)景中包含大量車(chē)輛、行人、交通標(biāo)志等復(fù)雜背景的圖像。未引入注意力機(jī)制的模型檢測(cè)準(zhǔn)確率為0.70,召回率為0.65;引入SE注意力機(jī)制后,檢測(cè)準(zhǔn)確率提升到了0.76,召回率為0.70;引入CBAM注意力機(jī)制后,檢測(cè)準(zhǔn)確率達(dá)到了0.80,召回率為0.74。CBAM注意力機(jī)制由于同時(shí)關(guān)注了通道和空間維度的特征,在復(fù)雜背景下能夠更全面地捕捉目標(biāo)特征,有效抑制背景干擾,相比SE注意力機(jī)制,進(jìn)一步提升了檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,改進(jìn)特征提取網(wǎng)絡(luò)和應(yīng)用注意力機(jī)制都能夠有效提升模型在小目標(biāo)檢測(cè)和復(fù)雜背景檢測(cè)方面的性能,為解決一階段目標(biāo)檢測(cè)算法中的特征不平衡問(wèn)題提供了有效的解決方案。6.2.2類(lèi)別不平衡問(wèn)題解決方法實(shí)驗(yàn)結(jié)果在類(lèi)別不平衡問(wèn)題解決方法的實(shí)驗(yàn)中,分別對(duì)數(shù)據(jù)層面和算法層面的解決方法進(jìn)行了測(cè)試和分析。在數(shù)據(jù)層面,采用過(guò)采樣方法SMOTE和欠采樣方法TomekLinks對(duì)數(shù)據(jù)集進(jìn)行處理,然后訓(xùn)練目標(biāo)檢測(cè)模型。以COCO數(shù)據(jù)集中樣本數(shù)量較少的“sheep”類(lèi)和樣本數(shù)量較多的“person”類(lèi)為例,在未進(jìn)行重采樣處理時(shí),模型對(duì)“sheep”類(lèi)的檢測(cè)精度為0.30,召回率為0.25;對(duì)“person”類(lèi)的檢測(cè)精度為0.85,召回率為0.80。使用SMOTE過(guò)采樣方法后,“sheep”類(lèi)樣本數(shù)量增加,模型對(duì)“sheep”類(lèi)的檢測(cè)精度提升到了0.42,召回率提高到了0.38;對(duì)“person”類(lèi)的檢測(cè)精度略有下降,為0.82,召回率為0.78。這表明SMOTE過(guò)采樣方法能夠增加少數(shù)類(lèi)樣本的數(shù)量,使模型更好地學(xué)習(xí)到少數(shù)類(lèi)樣本的特征,從而提高了對(duì)少數(shù)類(lèi)的檢測(cè)能力,但對(duì)多數(shù)類(lèi)的檢測(cè)性能會(huì)有一定影響。使用TomekLinks欠采樣方法后,“person”類(lèi)樣本數(shù)量減少,模型對(duì)“sheep”類(lèi)的檢測(cè)精度提升到了0.38,召回率為0.32;對(duì)“person”類(lèi)的檢測(cè)精度為0.83,召回率為0.79。TomekLinks欠采樣方法通過(guò)消除類(lèi)別之間的模糊邊界,減少了多數(shù)類(lèi)樣本中的噪聲,在一定程度上提高了對(duì)少數(shù)類(lèi)的檢測(cè)性能,同時(shí)對(duì)多數(shù)類(lèi)的檢測(cè)性能影響較小。在算法層面,對(duì)比了使用FocalLoss和GHMLoss損失函數(shù)改進(jìn)方法以及代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)方法后的模型性能。在使用FocalLoss時(shí),模型對(duì)少數(shù)類(lèi)“sheep”的AP從0.30提升到了0.40,對(duì)多數(shù)類(lèi)“person”的AP為0.85,基本保持不變。這說(shuō)明FocalLoss通過(guò)調(diào)整樣本權(quán)重,使模型更加關(guān)注少數(shù)類(lèi)樣本,有效提升了對(duì)少數(shù)類(lèi)的檢測(cè)能力。使用GHMLoss時(shí),模型對(duì)“sheep”類(lèi)的AP進(jìn)一步提升到了0.45,對(duì)“person”類(lèi)的AP為0.84,同樣保持了較好的性能。GHMLoss從梯度角度對(duì)樣本權(quán)重進(jìn)行調(diào)整,能夠更準(zhǔn)確地反映樣本的難易程度,對(duì)少數(shù)類(lèi)樣本的檢測(cè)性能提升更為明顯。在代價(jià)敏感學(xué)習(xí)實(shí)驗(yàn)中,根據(jù)實(shí)際應(yīng)用中錯(cuò)分“sheep”類(lèi)樣本的代價(jià)較高,設(shè)置了較高的“sheep”類(lèi)誤判代價(jià)。實(shí)驗(yàn)結(jié)果顯示,模型對(duì)“sheep”類(lèi)的檢測(cè)精度提升到了0.40,召回率為0.35,證明了代價(jià)敏感學(xué)習(xí)能夠根據(jù)不同類(lèi)別的誤判代價(jià),引導(dǎo)模型更好地學(xué)習(xí)少數(shù)類(lèi)樣本的特征。在集成學(xué)習(xí)實(shí)驗(yàn)中,采用平衡隨機(jī)森林方法,對(duì)“sheep”類(lèi)進(jìn)行過(guò)采樣,對(duì)“person”類(lèi)進(jìn)行欠采樣,然后訓(xùn)練多個(gè)決策樹(shù)并進(jìn)行集成。結(jié)果表明,模型對(duì)“sheep”類(lèi)的檢測(cè)精度達(dá)到了0.43,召回率為0.37,有效提高了對(duì)少數(shù)類(lèi)的檢測(cè)能力。實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)層面和算法層面的解決方法都能夠在一定程度上改善類(lèi)別不平衡問(wèn)題對(duì)模型檢測(cè)性能的影響,提高了模型對(duì)少數(shù)類(lèi)目標(biāo)的檢測(cè)精度和召回率。6.2.3綜合性能評(píng)估綜合考慮特征和類(lèi)別不平衡問(wèn)題的解決效果,對(duì)改進(jìn)后的算法進(jìn)行全面性能評(píng)估。在COCO數(shù)據(jù)集上,將改進(jìn)后的算法與Y
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年西安西北有色物化探總隊(duì)有限公司招聘?jìng)淇碱}庫(kù)含答案詳解
- 養(yǎng)老院環(huán)境衛(wèi)生與消毒制度
- 2026年攀枝花市西區(qū)財(cái)政局關(guān)于面向社會(huì)公開(kāi)招聘人員的備考題庫(kù)帶答案詳解
- 2026年石晶光電招聘23人備考題庫(kù)附答案詳解
- 2026年航天時(shí)代低空科技有限公司招聘行政人員勞務(wù)派遣崗位備考題庫(kù)及一套完整答案詳解
- 2026年雅安市人民醫(yī)院四川大學(xué)華西醫(yī)院雅安醫(yī)院 小兒外科、健康管理中心醫(yī)師招聘?jìng)淇碱}庫(kù)及一套參考答案詳解
- 天津中醫(yī)藥大學(xué)第二附屬醫(yī)院2026年第一批公開(kāi)招聘?jìng)淇碱}庫(kù)(博士及高級(jí)職稱(chēng)醫(yī)療人員)帶答案詳解
- 2026年蘇州交投鑫能交通科技有限公司公開(kāi)招聘?jìng)淇碱}庫(kù)及答案詳解1套
- 2026年橫琴粵澳深度合作區(qū)首都師范大學(xué)子期實(shí)驗(yàn)小學(xué)招聘?jìng)淇碱}庫(kù)參考答案詳解
- 2026年部分大專(zhuān)可報(bào)不限專(zhuān)業(yè)武漢大學(xué)人民醫(yī)院招聘7人備考題庫(kù)含答案詳解
- 巖板采購(gòu)合同范本
- 山東高速集團(tuán)有限公司2025年下半年校園招聘(339人)模擬筆試試題及答案解析
- 2025年中國(guó)作家協(xié)會(huì)所屬單位公開(kāi)招聘工作人員13人備考題庫(kù)及一套參考答案詳解
- 走進(jìn)歌樂(lè)山課件
- 混凝土修補(bǔ)方案及質(zhì)量驗(yàn)收標(biāo)準(zhǔn)方案
- DB50∕T 1798-2025 鄉(xiāng)村振興勞務(wù)品牌建設(shè)指南
- 青海西寧市2024-2025學(xué)年七年級(jí)上學(xué)期末調(diào)研測(cè)英語(yǔ)試卷
- 2025至2030雙光束紫外可見(jiàn)近紅外分光光度計(jì)行業(yè)發(fā)展趨勢(shì)分析與未來(lái)投資戰(zhàn)略咨詢(xún)研究報(bào)告
- popchrio歐可芮小紅書(shū)營(yíng)銷(xiāo)方案
- DB44∕T 2722-2025 公路工程造價(jià)管理指南
- (零模)2026屆廣州市高三年級(jí)調(diào)研測(cè)試英語(yǔ)試卷(含答案解析)
評(píng)論
0/150
提交評(píng)論