基于多模態(tài)感知的水果新鮮度評估算法研究_第1頁
基于多模態(tài)感知的水果新鮮度評估算法研究_第2頁
基于多模態(tài)感知的水果新鮮度評估算法研究_第3頁
基于多模態(tài)感知的水果新鮮度評估算法研究_第4頁
基于多模態(tài)感知的水果新鮮度評估算法研究_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章緒論1.1研究背景與意義水果作為人類膳食結(jié)構(gòu)中不可或缺的部分,富含維生素、礦物質(zhì)、膳食纖維及多種生物活性物質(zhì),對維持人體健康至關(guān)重要。中國作為全球最大的水果生產(chǎn)與消費(fèi)國,水果產(chǎn)業(yè)在國民經(jīng)濟(jì)和農(nóng)業(yè)發(fā)展中占據(jù)著舉足輕重的地位。據(jù)國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)REF_Ref2118\r\h[1],2023年我國水果總產(chǎn)量達(dá)32744.28萬噸(同比增長4.63%),人均占有量232.28公斤,產(chǎn)業(yè)規(guī)模穩(wěn)居農(nóng)業(yè)種植業(yè)第三位。其中蘋果作為核心品類REF_Ref2624\r\h[2],以20.7%的占比位居產(chǎn)量第二大水果,其品質(zhì)管控在保障農(nóng)產(chǎn)品價(jià)值鏈方面是較為重要的。在消費(fèi)端,隨著經(jīng)濟(jì)發(fā)展和人民生活水平的提高,消費(fèi)者對水果的需求呈現(xiàn)出量質(zhì)齊升的態(tài)勢。2020年全國居民人均干鮮瓜果類消費(fèi)量為56.3千克REF_Ref2947\r\h[3],較2015年增長26.5%。2023年我國水果零售市場規(guī)模為1.22萬億元,并預(yù)計(jì)2026年這一規(guī)模有望增長至1.8萬億元。消費(fèi)升級趨勢明顯,消費(fèi)者不僅關(guān)注水果的數(shù)量,更對其新鮮度、口感、營養(yǎng)價(jià)值和安全性提出更高要求。與此同時(shí),進(jìn)口水果市場規(guī)模迅速擴(kuò)張REF_Ref2830\r\h[4],從2016年的68.3億美元激增至2023年的183.5億美元,年均復(fù)合增長率超過15%。車?yán)遄?、榴蓮等高價(jià)值品類進(jìn)口額占比超過60%,反映出國內(nèi)市場對高品質(zhì)、特色化水果的旺盛需求。然而進(jìn)口水果的激增,也凸顯國內(nèi)水果產(chǎn)業(yè)在優(yōu)質(zhì)果品供給方面的結(jié)構(gòu)性矛盾。盡管總產(chǎn)量巨大,但標(biāo)準(zhǔn)化程度低、品牌化建設(shè)滯后、采后處理技術(shù)落后等問題導(dǎo)致優(yōu)質(zhì)果供給不足,高端市場競爭力有待提升,水果貿(mào)易逆差持續(xù)擴(kuò)大。當(dāng)前我國水果商品化處理存在顯著短板REF_Ref3186\r\h[5],水果的有效利用率不高,損失數(shù)量大,低端水果受人工成本上升、關(guān)稅限制等影響,商品競爭力有所下降,我國水果供給端仍存在標(biāo)準(zhǔn)化、機(jī)械化偏低的現(xiàn)況。傳統(tǒng)人工分級依賴操作者目測判斷,不同工人因熟練度等個(gè)體差異對水果品質(zhì)在細(xì)節(jié)標(biāo)準(zhǔn)上有區(qū)別。且僅采用人工分級的果園分揀強(qiáng)度大,工作效率受限于人體機(jī)能,熟練工人日均處理量僅1.2-1.8噸,長時(shí)間持續(xù)工作后誤判率上升;人工勞動(dòng)成本上升也是影響水果競爭力的一大因素,2022年,我國蘋果生產(chǎn)平均成本為2580.13元/畝,比2021年上升14.9%;人工成本平均為3344.04元/畝,比2021年上升40.9%;機(jī)械分級設(shè)備通過稱重、篩孔等物理手段實(shí)現(xiàn)初步分選,其優(yōu)勢在于處理速度可達(dá)8-10噸/小時(shí),但檢測維度單一,僅能獲取重量、直徑等基礎(chǔ)參數(shù),對表皮瑕疵、色澤均勻度等關(guān)鍵指標(biāo)的識別率不足;機(jī)械接觸易對果皮果肉造成二次損傷,影響水果品質(zhì)價(jià)值。在這樣的背景下,利用現(xiàn)代信息技術(shù),特別是計(jì)算機(jī)視覺和傳感技術(shù),發(fā)展快速、準(zhǔn)確、無損、自動(dòng)化的水果新鮮度評估方法,對于減少采后損耗、提升水果品質(zhì)、優(yōu)化供應(yīng)鏈管理、增強(qiáng)產(chǎn)業(yè)競爭力是具有重要現(xiàn)實(shí)意義和應(yīng)用價(jià)值的。計(jì)算機(jī)視覺技術(shù)通過分析水果圖像的顏色、紋理、形狀、缺陷等信息,結(jié)合深度學(xué)習(xí)等人工智能算法,能夠?qū)崿F(xiàn)對水果外觀品質(zhì)的客觀、精細(xì)化評估。而電子鼻等氣味傳感技術(shù)則能捕捉水果在成熟和腐敗過程中釋放的揮發(fā)性有機(jī)化合物(VOCs),從“嗅覺”維度提供內(nèi)部生理狀態(tài)變化的信息,有望檢測到早期、內(nèi)部的品質(zhì)變化。利用視覺和嗅覺多模態(tài)信息進(jìn)行分級,有望克服單一模態(tài)信息的局限性,實(shí)現(xiàn)更全面、更可靠的水果新鮮度評估。1.2研究現(xiàn)狀1.2.1基于深度學(xué)習(xí)視覺評估的研究現(xiàn)狀近年來,深度學(xué)習(xí)在圖像識別、目標(biāo)檢測、語義分割等計(jì)算機(jī)視覺任務(wù)中取得突破性進(jìn)展,其強(qiáng)大的特征提取和模式識別能力使其被廣泛應(yīng)用于水果新鮮度的視覺評估中。研究人員利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、視覺Transformer(ViT)等模型,通過分析水果圖像的顏色、紋理、光澤、形狀以及表面缺陷等視覺特征,來判斷其新鮮程度、成熟度或是否存在病害損傷。隨著深度學(xué)習(xí)模型的不斷發(fā)展,為追求更高的評估精度,研究者們傾向于構(gòu)建更深、更寬的網(wǎng)絡(luò)結(jié)構(gòu),例如ResNet、SwinTransformer等。這些大型模型雖然在各項(xiàng)基準(zhǔn)測試中表現(xiàn)出色,但也帶來巨大的計(jì)算成本(FLOPs)、參數(shù)量(Params)。它們受性能制約難以直接部署在資源受限的移動(dòng)設(shè)備、嵌入式系統(tǒng)、物聯(lián)網(wǎng)(IoT)設(shè)備上,限制水果新鮮度評估技術(shù)在實(shí)際生產(chǎn)、消費(fèi)場景中的便捷應(yīng)用。因此研究輕量化神經(jīng)網(wǎng)絡(luò)模型,在保持較高評估性能時(shí),顯著降低模型復(fù)雜度和資源消耗,成為該領(lǐng)域的重要研究方向。研究者們從多個(gè)角度探索模型的輕量化:設(shè)計(jì)高效的卷積模塊與網(wǎng)絡(luò)架構(gòu)MobileNet系列是輕量化模型的代表。MobileNetV1提出深度可分離卷積(DepthwiseSeparableConvolution),有效降低計(jì)算量。MobileNetV2引入倒置殘差塊(InvertedResidualBlock,IRB)和線性瓶頸(LinearBottleneck),成為后續(xù)許多輕量化模型的基礎(chǔ)。2024年5月發(fā)表的最新版本MobileNetV4REF_Ref16552\r\h[6]進(jìn)一步提出通用倒置瓶頸(UniversalInvertedBottleneck,UIB),該結(jié)構(gòu)融合IRB、ConvNeXtREF_Ref16679\r\h[7]、FFN等多種模塊的優(yōu)勢,通過神經(jīng)架構(gòu)搜索(NAS)技術(shù),在多種移動(dòng)硬件平臺(tái)上實(shí)現(xiàn)帕累托最優(yōu)的性能。此外,F(xiàn)asterNet關(guān)注到高FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))的重要性,指出單純降低FLOPs不一定能帶來同等程度的延遲縮減,提出部分卷積(PartialConvolution,PConvREF_Ref16738\r\h[8]),通過減少冗余計(jì)算和內(nèi)存訪問來替代內(nèi)存訪問頻繁的深度卷積(DWConv),實(shí)現(xiàn)更高的實(shí)際運(yùn)行速度。EMO則從統(tǒng)一視角審視IRB和Transformer中的有效組件,提出倒置殘差移動(dòng)塊(iRMB),構(gòu)建僅包含iRMBREF_Ref17055\r\h[9]的高效模型。優(yōu)化特定計(jì)算操作符除骨干網(wǎng)絡(luò)結(jié)構(gòu)外,模型中的特定操作符也對效率有顯著影響。例如,在需要恢復(fù)特征圖分辨率的密集預(yù)測任務(wù)(如水果表面缺陷分割)中,上采樣操作必不可少。傳統(tǒng)的雙線性插值(BilinearInterpolation)雖然簡單,但效果有限。動(dòng)態(tài)上采樣器如CARAFE、FADE和SAPA雖能提升性能,但引入較大的計(jì)算開銷。DySampleREF_Ref17345\r\h[10]提出一種基于點(diǎn)采樣思路的動(dòng)態(tài)上采樣器,無需定制CUDA包,參數(shù)量和計(jì)算量遠(yuǎn)低于前者,且在多種密集預(yù)測任務(wù)中表現(xiàn)更優(yōu),為輕量級模型提供高效的上采樣選擇。引入高效的注意力機(jī)制Transformer架構(gòu)及其注意力機(jī)制在視覺任務(wù)中展現(xiàn)強(qiáng)大的全局建模能力,但自注意力(Self-Attention)的二次方計(jì)算復(fù)雜度限制其在低資源場景的應(yīng)用。研究者們探索多種高效的注意力機(jī)制。RT-DETRREF_Ref17447\r\h[11]在用于實(shí)時(shí)目標(biāo)檢測時(shí),設(shè)計(jì)高效的混合編碼器,解耦尺度內(nèi)交互和跨尺度融合,并提出不確定性最小查詢選擇機(jī)制,保持端到端檢測優(yōu)勢(無需NMS后處理),大幅提升DETR類模型的速度。MobileNetV4則引入MobileMQA(Multi-QueryAttention),通過共享鍵(Key)和值(Value)顯著降低注意力機(jī)制在移動(dòng)端的計(jì)算和內(nèi)存開銷。UniRepLKNetREF_Ref17505\r\h[12]探索使用大卷積核(LargeKernel)替代自注意力的可能性,認(rèn)為大卷積核具備“看得寬而不深”的特性,并通過特定的架構(gòu)設(shè)計(jì)(如使用SE模塊增加深度、使用DilatedReparamBlock等)實(shí)現(xiàn)強(qiáng)大的性能,在音頻、時(shí)序等非視覺領(lǐng)域也展現(xiàn)潛力,其增強(qiáng)的形狀偏置(ShapeBias)能力有助于捕捉水果的形態(tài)變化。利用神經(jīng)架構(gòu)搜索(NAS)和模型壓縮技術(shù)硬件感知的神經(jīng)架構(gòu)搜索(Hardware-awareNAS)技術(shù)能夠自動(dòng)搜索在特定硬件平臺(tái)上精度和延遲達(dá)到最優(yōu)平衡的網(wǎng)絡(luò)結(jié)構(gòu)。MobileNetV3和MobileNetV4的設(shè)計(jì)均受益于NAS技術(shù)。此外,知識蒸餾(KnowledgeDistillation)、模型剪枝(Pruning)、量化(Quantization)等模型壓縮技術(shù)也是提升模型部署效率的常用手段。MobileNetV4就利用新的蒸餾技術(shù)進(jìn)一步提升模型精度。綜上,基于深度學(xué)習(xí)的視覺評估技術(shù)在水果新鮮度領(lǐng)域的研究,正朝著更高效、更精準(zhǔn)、更適應(yīng)實(shí)際部署需求的方向發(fā)展。通過設(shè)計(jì)新穎的輕量化網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化關(guān)鍵計(jì)算單元、引入高效注意力機(jī)制以及利用自動(dòng)化搜索和壓縮技術(shù),研究者們正不斷推動(dòng)算法性能與效率的邊界,為實(shí)現(xiàn)水果新鮮度的實(shí)時(shí)、便捷、低成本評估提供更多可能。1.2.2基于電子鼻氣味評估的研究現(xiàn)狀水果在成熟、后熟及腐敗過程中會(huì)釋放特定的揮發(fā)性有機(jī)化合物(VOCs),其種類和濃度與新鮮度密切相關(guān)。電子鼻系統(tǒng)REF_Ref18812\r\h[13]通過模擬生物嗅覺機(jī)制,利用一組非特異性氣體傳感器陣列對復(fù)雜氣味進(jìn)行整體模式識別。傳感器陣列對樣品揮發(fā)物產(chǎn)生響應(yīng),形成“氣味指紋”。通過模式識別算法(如PCA,LDA,SVM,ANN)分析這些指紋,可以區(qū)分不同新鮮度等級的水果。電子鼻技術(shù)的優(yōu)勢在于能夠檢測到早期、內(nèi)部的腐敗,實(shí)現(xiàn)無損檢測。常見的傳感器類型包括金屬氧化物半導(dǎo)體(MOS)、導(dǎo)電聚合物、石英晶體微天平(QCM)等。近年來,基于低成本MOS傳感器(如MQ系列)和微控制器REF_Ref18913\r\h[14](如Arduino)的簡易電子鼻系統(tǒng)在水果新鮮度檢測中也得到探索。單一傳感技術(shù)往往有其局限性。例如,視覺方法難以檢測內(nèi)部缺陷,電子鼻對環(huán)境溫濕度敏感且易受干擾。因此,融合多種傳感信息REF_Ref19001\r\h\#"[0"[15,REF_Ref19011\r\h\#"0]"16](如視覺+光譜、視覺+電子鼻、光譜+電子鼻等)成為提高評估準(zhǔn)確性和魯棒性的重要趨勢。通過特征層融合(將不同模態(tài)提取的特征拼接或加權(quán))或決策層融合(綜合不同模態(tài)的分類結(jié)果),可以利用不同信息的互補(bǔ)性,獲得比單一模態(tài)更好的評估效果。水果新鮮度評估技術(shù)正朝著無損、快速、準(zhǔn)確、智能化的方向發(fā)展?;谏疃葘W(xué)習(xí)的計(jì)算機(jī)視覺方法在外觀評估方面展現(xiàn)出強(qiáng)大能力,而電子鼻技術(shù)在探測內(nèi)部和早期變化方面具有潛力。多模態(tài)融合是未來的重要發(fā)展方向。1.3研究內(nèi)容與章節(jié)安排1.3.1主要研究內(nèi)容本研究旨在開發(fā)一種基于多模態(tài)感知(圖像與氣味)的水果新鮮度評估系統(tǒng),重點(diǎn)關(guān)注利用深度學(xué)習(xí)進(jìn)行圖像分析和低成本傳感器進(jìn)行氣味檢測,并探索模型的輕量化設(shè)計(jì)。主要研究內(nèi)容包括:水果新鮮度多模態(tài)數(shù)據(jù)集構(gòu)建收集并整合Kaggle、Roboflow等網(wǎng)站的公開水果(以蘋果為例)圖像數(shù)據(jù),涵蓋新鮮、微干、腐爛等不同階段。進(jìn)行數(shù)據(jù)清洗、標(biāo)注(目標(biāo)檢測框+新鮮度類別)。基于YOLO系列的水果新鮮度圖像評估模型研究對比分析YOLOv8與YOLOv11在自建水果新鮮度數(shù)據(jù)集上的基準(zhǔn)性能。基于性能較優(yōu)的YOLO模型進(jìn)行輕量化改進(jìn)研究(由于YOLOv11在自建數(shù)據(jù)集上的表現(xiàn)更好,本研究選擇YOLOv11進(jìn)行改進(jìn))。重點(diǎn)引入StarNet中的StarBlock結(jié)構(gòu)優(yōu)化主干網(wǎng)絡(luò),探究其在提升特征表達(dá)能力和效率方面的作用。研究檢測頭的輕量化與優(yōu)化,包括使用GroupNormalization替代BatchNormalization,采用共享卷積和Scale層特征縮放等技術(shù)壓縮參數(shù)量和計(jì)算量。通過消融實(shí)驗(yàn),系統(tǒng)評估各項(xiàng)改進(jìn)(StarNet主干、GroupNorm、共享卷積、特征縮放)對模型性能(精度mAP)和效率(參數(shù)量Params,計(jì)算量GFLOPs,推理速度FPS)的影響。將最終優(yōu)化后的模型與其他算法進(jìn)行性能對比?;贏rduino與氣體傳感器的水果氣味檢測評估研究設(shè)計(jì)并搭建一個(gè)基于ArduinoUnoR3、MQ-3(乙醇)、MQ-135(廣譜空氣質(zhì)量)等氣體傳感器及ADS1115高精度ADC的氣味檢測硬件系統(tǒng)。編寫數(shù)據(jù)采集程序,在受控環(huán)境下采集不同新鮮度等級蘋果釋放的揮發(fā)性氣體數(shù)據(jù)。對采集到的傳感器信號進(jìn)行預(yù)處理,提取能夠反映氣味變化的特征,初步建立氣味特征與新鮮度等級之間的關(guān)聯(lián)性,探討利用氣味信息區(qū)分新鮮度的可行性,特別是檢測早期腐敗。系統(tǒng)總結(jié)與展望總結(jié)本研究在多模態(tài)感知、模型輕量化等方面的主要工作和結(jié)論,分析存在的局限性,并對未來研究方向進(jìn)行展望。第2章水果新鮮度評估基礎(chǔ)理論本章主要介紹支撐本研究的關(guān)鍵理論與技術(shù)基礎(chǔ),包括目標(biāo)檢測模型YOLOv8、YOLOv11的網(wǎng)絡(luò)結(jié)構(gòu)、用于輕量化改進(jìn)的StarNet理論、GroupNormalization技術(shù)以及氣體傳感器的工作原理。2.1YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)概述YOLOv8,作為Ultralytics于2023年推出的目標(biāo)檢測框架,代表YOLO(YouOnlyLookOnce)系列算法的又一次重要迭代,顯著提升檢測速度、精度以及易用性。YOLO的核心思想在于其“一次看全貌”的機(jī)制,通過單次網(wǎng)絡(luò)前向傳播即可同時(shí)預(yù)測圖像中所有目標(biāo)的邊界框和類別,這種設(shè)計(jì)賦予算法極高的效率以及實(shí)時(shí)處理潛力,與其他需要多階段處理的目標(biāo)檢測技術(shù)形成鮮明對比。YOLOv8在其廣受歡迎的前身YOLOv5的基礎(chǔ)上進(jìn)行多方面革新,其中一項(xiàng)關(guān)鍵性改進(jìn)是采用無錨點(diǎn)(Anchor-free)檢測機(jī)制,這一改變有助于簡化后處理流程,加速非極大值抑制(NMS)的過程。憑借這些優(yōu)化,YOLOv8不僅能在圖像、視頻中快速精準(zhǔn)地識別定位物體,還能有效承擔(dān)圖像分類、實(shí)例分割等多重任務(wù)。從宏觀結(jié)構(gòu)上看(見REF_Ref4369\h圖2-1),YOLOv8的網(wǎng)絡(luò)設(shè)計(jì)可以解構(gòu)為三個(gè)核心組成部分:主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和頭部網(wǎng)絡(luò)(Head),它們協(xié)同工作以完成從特征提取到最終預(yù)測的完整流程。主干網(wǎng)絡(luò)是整個(gè)模型的基石,其主要職責(zé)是高效地從輸入圖像中提取豐富的特征信息。YOLOv8的主干網(wǎng)絡(luò)利用一系列卷積層進(jìn)行特征圖的生成變換,并借鑒現(xiàn)代網(wǎng)絡(luò)設(shè)計(jì)的精髓,如殘差連接和瓶頸結(jié)構(gòu)(BottleneckBlock),在減少網(wǎng)絡(luò)參數(shù)量的同時(shí)保證甚至提升性能。相較于YOLOv5中使用的C3模塊,YOLOv8引入經(jīng)過優(yōu)化的C2f模塊作為其基本的構(gòu)建單元。C2f模塊通過更精巧的結(jié)構(gòu)設(shè)計(jì),實(shí)現(xiàn)更少的參數(shù)量和計(jì)算量,同時(shí)展現(xiàn)出更強(qiáng)的特征提取效能。主干網(wǎng)絡(luò)的卷積塊(ConvBlock)還添加深度可分離卷積(DepthwiseSeparableConvolution)、膨脹卷積(DilatedConvolution)等一些常見的改進(jìn)技術(shù),以進(jìn)一步增強(qiáng)特征提取的能力。頸部網(wǎng)絡(luò)扮演著連接主干網(wǎng)絡(luò)與頭部網(wǎng)絡(luò)的橋梁角色,其核心功能在于對來自主干網(wǎng)絡(luò)不同層級的特征圖進(jìn)行有效的融合與增強(qiáng),以生成更具魯棒性和表達(dá)力的多尺度特征表示。YOLOv8的頸部網(wǎng)絡(luò)整合若干關(guān)鍵組件來實(shí)現(xiàn)這一目標(biāo)。它采用SPPF(SpatialPyramidPoolingFast)模塊,通過并行應(yīng)用不同尺度的池化操作并將結(jié)果拼接,極大地增強(qiáng)模型對不同尺寸目標(biāo)的感知能力。借鑒路徑聚合網(wǎng)絡(luò)PAN(PathAggregationNetwork)的思想,頸部網(wǎng)絡(luò)通過構(gòu)建自底向上和自頂向下的雙向特征傳播路徑,有效地將深層語義信息與淺層細(xì)節(jié)信息相結(jié)合,從而優(yōu)化整體的特征層級結(jié)構(gòu)。最終的預(yù)測任務(wù)由頭部網(wǎng)絡(luò)Head承擔(dān)。YOLOv8的頭部網(wǎng)絡(luò)通常是解耦的,分別處理檢測和分類任務(wù)。檢測部分(DetectionHead)利用一系列卷積層來解析融合后的特征圖,直接預(yù)測目標(biāo)的邊界框位置(例如中心點(diǎn)坐標(biāo)、寬高)以及目標(biāo)存在的置信度分?jǐn)?shù)。值得注意的是,由于采用Anchor-free機(jī)制,頭部網(wǎng)絡(luò)不再依賴預(yù)設(shè)的錨框,而是直接在特征圖的每個(gè)位置上進(jìn)行預(yù)測,簡化設(shè)計(jì),減少相關(guān)的超參數(shù)。分類部分(ClassificationHead)則負(fù)責(zé)判斷檢測到的目標(biāo)屬于哪個(gè)類別,常利用全局平均池化(GlobalAveragePooling)等技術(shù)來聚合特征信息,并輸出對應(yīng)每個(gè)類別的概率分布。YOLOv8的卓越性能還得益于一系列優(yōu)化技術(shù)的引入。其核心的Anchor-free設(shè)計(jì)簡化訓(xùn)練過程,減少對錨框相關(guān)超參數(shù)的依賴,使模型能更靈活地適應(yīng)不同形態(tài)的目標(biāo)。YOLOv8采用改進(jìn)的自適應(yīng)非極大值抑制(NMS)策略,能夠更智能地處理重疊檢測框,有效減少誤檢與漏檢,進(jìn)一步提升檢測精度。在訓(xùn)練層面,對自動(dòng)混合精度(AMP)訓(xùn)練的支持,使模型能夠在不犧牲過多精度的情況下,利用低精度計(jì)算加速訓(xùn)練過程,顯著降低顯存消耗。這些結(jié)構(gòu)上、策略上的創(chuàng)新共同構(gòu)成YOLOv8強(qiáng)大的目標(biāo)檢測能力。2.2YOLOv11網(wǎng)絡(luò)結(jié)構(gòu)概述YOLOv11作為Ultralytics公司推出的新一代實(shí)時(shí)目標(biāo)檢測模型,代表YOLO系列在性能前沿上的又一次探索與突破。該模型在YOLOv8基礎(chǔ)上,實(shí)施顯著的架構(gòu)革新與訓(xùn)練策略優(yōu)化,進(jìn)一步融合速度、精度與計(jì)算效率。一個(gè)突出的成果體現(xiàn)在YOLOv11m版本上,它在COCO數(shù)據(jù)集上取得更高的平均精度均值(mAP),使用的參數(shù)量相較于YOLOv8m減少約22%,實(shí)現(xiàn)性能提升、模型輕量化的雙重目標(biāo)。其推理速度較YOLOv10有約2%的提升,增強(qiáng)模型在實(shí)時(shí)應(yīng)用場景中的潛力。YOLOv11的整體網(wǎng)絡(luò)架構(gòu)遵循經(jīng)典的三段式設(shè)計(jì),如REF_Ref4575\h圖2-2的主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和頭部網(wǎng)絡(luò)(Head)。主干網(wǎng)絡(luò)(Backbone)是YOLOv11特征提取的核心引擎。為提升從復(fù)雜場景的輸入圖像中捕捉關(guān)鍵模式與細(xì)節(jié)的能力,YOLOv11對其結(jié)構(gòu)進(jìn)行精心設(shè)計(jì)。其中一個(gè)關(guān)鍵的改進(jìn)是引入C3K2模塊來處理不同階段的特征提取任務(wù)。C3K2模塊可以視為早期版本中跨階段部分網(wǎng)絡(luò)(CSP)瓶頸結(jié)構(gòu)的演進(jìn),它通過分割特征圖,在分支上應(yīng)用一系列計(jì)算成本更低的3x3小卷積核進(jìn)行處理,之后再進(jìn)行合并。這種設(shè)計(jì)相較于YOLOv8中使用的C2f模塊,能夠在利用更少參數(shù)的情況下優(yōu)化信息流,并有效保留模型捕獲基本特征的能力,從而提升特征表示的效率與質(zhì)量。主干網(wǎng)絡(luò)中還整合C2PSA模塊,該模塊結(jié)構(gòu)上類似C2f,但在其內(nèi)部嵌入兩個(gè)部分空間注意力(PSA)模塊。這些注意力模塊作用于特征圖的不同分支,然后進(jìn)行拼接融合。通過引入空間注意力機(jī)制,C2PSA模塊實(shí)現(xiàn)提升模型對圖像中感興趣區(qū)域選擇性關(guān)注能力這一目標(biāo),使YOLOv11在精確檢測任務(wù)上表現(xiàn)更為出色。SPPF模塊也被沿用,以增強(qiáng)模型對不同尺度目標(biāo)的感知能力。頸部網(wǎng)絡(luò)(Neck)在YOLOv11中繼續(xù)扮演著承上啟下的關(guān)鍵角色,它位于主干網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)之間。其核心功能是對來自主干網(wǎng)絡(luò)不同層級的特征圖進(jìn)行有效的融合與增強(qiáng)。通過整合深層語義信息和淺層空間細(xì)節(jié),頸部網(wǎng)絡(luò)旨在生成更具判別力、適應(yīng)多尺度目標(biāo)檢測的特征表示,為后續(xù)的預(yù)測任務(wù)提供高質(zhì)量的輸入。雖然具體實(shí)現(xiàn)細(xì)節(jié)可能涉及復(fù)雜的路徑聚合策略(如類PAN結(jié)構(gòu)),但其根本目標(biāo)是優(yōu)化特征流,提升整體檢測性能。頭部網(wǎng)絡(luò)(Head)作為目標(biāo)檢測模型的最終決策端,負(fù)責(zé)根據(jù)頸部網(wǎng)絡(luò)輸出的增強(qiáng)特征圖生成具體的檢測結(jié)果,包括目標(biāo)的邊界框位置和類別信息。YOLOv11在頭部網(wǎng)絡(luò)的設(shè)計(jì)上也進(jìn)行了創(chuàng)新優(yōu)化。一個(gè)顯著的變化是在其解耦頭(DecoupledHead)的分類或檢測分支中引入深度卷積(DepthwiseConvolution,DWConv)。原先的一些標(biāo)準(zhǔn)卷積層被替換為兩個(gè)DWConv層,構(gòu)成深度可分離卷積(DepthwiseSeparableConvolution)結(jié)構(gòu)的一部分(通常是DWConv后接一個(gè)1x1的點(diǎn)卷積PointwiseConvolution)。深度卷積通過對每個(gè)輸入通道獨(dú)立進(jìn)行空間卷積,極大地減少計(jì)算量和參數(shù)量,而后續(xù)的點(diǎn)卷積則負(fù)責(zé)通道間的特征融合。這一改變使得YOLOv11的頭部網(wǎng)絡(luò)在保持甚至提升預(yù)測能力的同時(shí),變得更加輕量化和高效。除了上述核心組件的革新,YOLOv11的整體設(shè)計(jì)還體現(xiàn)在對不同模型尺寸(如N,S,M,L,X版本)的網(wǎng)絡(luò)深度(depth)和寬度(width)縮放參數(shù)進(jìn)行大幅度調(diào)整。相較于YOLOv8,這些參數(shù)的改變反映出一種新的平衡策略:通過采用更高效的構(gòu)建模塊(如C3K2、DWConv)來減小基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,同時(shí)調(diào)整縮放系數(shù)以補(bǔ)償可能的能力損失,最終在不同規(guī)模的模型上尋求最優(yōu)的性能與效率平衡點(diǎn)??偠灾?,YOLOv11通過一系列精心設(shè)計(jì)的結(jié)構(gòu)改進(jìn)與優(yōu)化,實(shí)現(xiàn)在準(zhǔn)確性、速度和模型效率上的顯著進(jìn)步。2.3StarNet理論基礎(chǔ)StarNet網(wǎng)絡(luò)結(jié)構(gòu)在CVPR2024的RewritetheStarsREF_Ref17610\r\h[17]被提出,文章重點(diǎn)探討“星形運(yùn)算”(StarOperation,即元素級乘法Element-wiseMultiplication)在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的潛力,并提出一個(gè)輕量且高效的網(wǎng)絡(luò)原型StarNet。其核心思想在于揭示星形運(yùn)算的優(yōu)勢,能夠隱式地將輸入映射到高維非線性特征空間,類似于機(jī)器學(xué)習(xí)中的核技巧(KernelTrick),從而在緊湊的網(wǎng)絡(luò)結(jié)構(gòu)下實(shí)現(xiàn)強(qiáng)大的表示能力。2.3.1StarOperation(星形運(yùn)算)在神經(jīng)網(wǎng)絡(luò)中,特征融合通常通過加法(Summation)或拼接(Concatenation)完成。然而近期一些工作(如FocalNet,HorNet,VAN等)發(fā)現(xiàn)使用元素級乘法(用

*

表示)來融合來自不同分支(或子空間)的特征,可以取得更好的性能和效率。StarNet將這種操作稱為“星形運(yùn)算”。在神經(jīng)網(wǎng)絡(luò)的單層中,輸入特征

X

經(jīng)過兩個(gè)獨(dú)立的線性變換(例如全連接層FC或卷積層Conv,包含權(quán)重

W

和偏置

B)得到兩個(gè)分支的輸出,然后通過星形運(yùn)算融合,星運(yùn)算通常表示為公式REF_Ref6959\h2-1: W1?X+B1?W2?X+B為簡化分析,將權(quán)重和偏置項(xiàng)合并為一個(gè)實(shí)體REF_Ref7302\h2-2,并將輸入

X

增廣,增加一個(gè)常數(shù)1維度以包含偏置REF_Ref7328\h2-3,可以將式REF_Ref6959\h2-1簡化為式REF_Ref7416\h2-4

: W=WB (2-SEQ2-\*ARABIC2) X=X1 (2-SEQ2-\*ARABIC3) W1?X?W2?X (2-StarNet論文通過數(shù)學(xué)推導(dǎo)證明,這個(gè)看似簡單的操作具有強(qiáng)大的能力??紤]單輸出通道、單元素輸入X、輸入通道數(shù)為d(維度為

d+1,包含增廣維度),權(quán)重向量為

W1,

W2(維度也為

d+1)。星形運(yùn)算公式REF_Ref7416\h2-4可以展開為: W1 =i=1d+1W1iXi?j=1 =i=1d+1j=1d+1W1iW2j =α(1,1)x1x1+?+α(4,5)x4公式REF_Ref7576\h2-7的獨(dú)立項(xiàng)數(shù)量大約是

(d+2)(d+1)/2。這個(gè)展開式表明,原始

d

維輸入空間中的特征

xi

xj

的所有二次項(xiàng)(xi*xj)都已被生成,這些二次項(xiàng)構(gòu)成新的特征空間。將星型運(yùn)算擴(kuò)展到多層后,每一層看似在原始

d

維空間進(jìn)行計(jì)算,但其效果等同于在一個(gè)維度約為

d2/2

的高維隱式特征空間中進(jìn)行操作,將特征維度顯著放大。這種能力類似機(jī)器學(xué)習(xí)中的多項(xiàng)式核函數(shù)

k(x1,x2)=(x1·x2+c)d(PolynomialKernel),它也能將輸入映射到包含高次項(xiàng)的高維空間。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)通過增加網(wǎng)絡(luò)寬度(通道數(shù))來提升維度不同,星形運(yùn)算在不增加顯式網(wǎng)絡(luò)寬度的情況下,隱式地、非線性地對特征維度進(jìn)行擴(kuò)展。2.3.2StarNet網(wǎng)絡(luò)結(jié)構(gòu)基于對星形運(yùn)算的研究,StarNet設(shè)計(jì)出4個(gè)階段的層次結(jié)構(gòu),使用層歸一化(Layer

Normalization)替換為批歸一化(BatchNormalization),以便深度卷積后進(jìn)行特征融合。REF_Ref7707\h圖2-3為RewriteTheStarREF_Ref17610\r\h[17]中的圖片,它詳細(xì)展示出StarNet主干網(wǎng)絡(luò)結(jié)構(gòu)與其中基本塊StarBlocks的構(gòu)成:

這種結(jié)構(gòu)通過結(jié)合深度卷積的空間建模能力,星形操作的高效非線性特征映射能力,并利用殘差連接保證訓(xùn)練的穩(wěn)定性,形成一個(gè)輕量、強(qiáng)大的特征提取單元。將StarBlock作為基礎(chǔ)單元堆疊而成的StarNet網(wǎng)絡(luò),展現(xiàn)出以下幾個(gè)顯著優(yōu)勢,使其特別適合用于構(gòu)建高效的神經(jīng)網(wǎng)絡(luò)模型:星型運(yùn)算賦予其更高效的特征表達(dá)能力。如2.3.1節(jié)所述,星形運(yùn)算的核心優(yōu)勢在于,其能夠?qū)⑤斎胩卣麟[式地映射到一個(gè)高維非線性空間,該空間維度遠(yuǎn)超原始輸入維度,類似于核技巧。這使得網(wǎng)絡(luò)在沒有顯著增加寬度(通道數(shù))的情況下,就能獲得強(qiáng)大的特征表達(dá)能力。StarBlock的結(jié)構(gòu)簡潔緊湊,設(shè)計(jì)相對簡單直觀,易于實(shí)現(xiàn)和理解。基于StarBlock構(gòu)建的StarNet架構(gòu)也遵循典型的分層結(jié)構(gòu),沒有過多復(fù)雜的連接或模塊,有利于模型的部署和優(yōu)化.計(jì)算效率高。相比于標(biāo)準(zhǔn)卷積或自注意力機(jī)制(尤其在處理長序列時(shí)),StarBlock中的主要計(jì)算量來自于深度卷積和1x1卷積,這些都是相對計(jì)算高效的操作。星形操作本身的計(jì)算開銷(元素級乘法)非常小。這使得StarNet能夠在較低的GFLOPs下達(dá)到有競爭力的性能。鑒于這些優(yōu)勢,本研究選擇使用StarNet中的StarBlock結(jié)構(gòu)改進(jìn)YOLOv11的主干網(wǎng)絡(luò),期望在水果新鮮度圖像評估任務(wù)中,實(shí)現(xiàn)模型輕量化與高性能的平衡。2.3GroupNormalization組歸一化在深度學(xué)習(xí)模型中,歸一化層(NormalizationLayer)扮演著至關(guān)重要的角色,它有助于加速模型收斂、提高泛化能力、降低對初始化參數(shù)的敏感度。批歸一化(BatchNormalization,BN)是最常用的歸一化技術(shù)之一,但在某些應(yīng)用場景,如目標(biāo)檢測任務(wù)使用小批量(smallbatchsize)訓(xùn)練時(shí),BN存在一些局限性。BatchNormalization通過計(jì)算一個(gè)mini-batch內(nèi)樣本在每個(gè)通道上的均值和方差來進(jìn)行歸一化,性能嚴(yán)重依賴于足夠大的batchsize。當(dāng)設(shè)備GPU顯存限制,batchsize很小時(shí),計(jì)算得到的均值和方差估計(jì)不準(zhǔn)確且噪聲大,會(huì)導(dǎo)致模型性能顯著下降。組歸一化(GroupNormalization,GN)作為一種替代方案,能夠有效克服這些局限。2.3.2GroupNormalization原理GroupNormalizationREF_Ref17685\r\h[18]提出了一種不依賴于batchsize的歸一化方法。其核心思想是將一個(gè)樣本的通道(Channels)分成若干個(gè)組(Groups),在每個(gè)組內(nèi)部計(jì)算均值和方差,并進(jìn)行歸一化。假設(shè)輸入特征圖的維度為(N,C,H,W),其中N是batchsize,C是通道數(shù),H和W是空間高度和寬度。GroupNorm首先將C個(gè)通道分成G個(gè)組,每個(gè)組包含C/G個(gè)通道。然后,對于每個(gè)樣本n和每個(gè)組g,GroupNorm計(jì)算該組內(nèi)所有通道在所有空間位置(h,w)上的均值μng和方差σng2。歸一化過程如公式REF_Ref7945\h2-8: ync?w=γg?xnc?w?μngσ其中xnchw是輸入特征,?nchw是歸一化后的輸出特征。c屬于組g。γg和βg是每個(gè)組可學(xué)習(xí)的仿射變換參數(shù)(縮放和平移)。ε是一個(gè)小的常數(shù)以防止除以零。GroupNormalization的計(jì)算完全在單個(gè)樣本內(nèi)部完成,與batchsizeN無關(guān)。2.3.3GroupNormalization在檢測頭中的應(yīng)用優(yōu)勢在輕量化目標(biāo)檢測模型的檢測頭(DetectionHead)中使用GroupNormalization替換BatchNormalization更具優(yōu)勢,GN對小BatchSize具有更好的魯棒性。由于GN的計(jì)算不依賴于batchsize,因此即使在訓(xùn)練目標(biāo)檢測模型時(shí)使用較小的batchsize,也能保持穩(wěn)定和有效的歸一化效果,有助于模型收斂和性能提升。在小batchsize場景下,GN通常能帶來比BN更好的性能。即使在batchsize較大的情況下,GN的性能也往往與BN相當(dāng)或略優(yōu)。檢測頭通常處理來自Neck的多尺度特征圖,這些特征圖的通道數(shù)可能發(fā)生變化。GN可以靈活地應(yīng)用于不同通道數(shù)的層,只需設(shè)定合適的組數(shù)G(通常G是一個(gè)超參數(shù),如32)。在本研究中,我計(jì)劃在改進(jìn)的YOLOv11檢測頭中使用GroupNormalization(具體體現(xiàn)在Detect_LSCD模塊中的Conv_GN層),預(yù)期能夠提高模型在水果新鮮度檢測任務(wù)中的訓(xùn)練穩(wěn)定性和最終精度,尤其是在可能受限于GPU顯存而采用中等或較小batchsize進(jìn)行訓(xùn)練的情況下。2.4氣體傳感器檢測原理本研究的另一個(gè)模態(tài)是利用氣體傳感器檢測水果在不同新鮮度階段釋放的揮發(fā)性有機(jī)化合物(VolatileOrganicCompounds,VOCs)。MQ系列傳感器是金屬氧化物半導(dǎo)體(MetalOxideSemiconductor,MOS)類型的氣體傳感器,其兼顧廣譜響應(yīng)-低成本特點(diǎn)。MQ系列常見的低成本MOS傳感器如REF_Ref8125\h表2-1所示。水果在成熟、過熟及發(fā)酵腐敗過程中會(huì)產(chǎn)生乙醇,MQ-3傳感器非常適合用于監(jiān)測與酒精釋放相關(guān)的新鮮度變化,特別是發(fā)酵跡象。水果腐敗過程中會(huì)產(chǎn)生氨氣、硫化氫等具有刺激性氣味的氣體,同時(shí)也會(huì)釋放其他復(fù)雜的VOCs,MQ-135作為一種廣譜傳感器,能夠捕捉到這些由腐敗產(chǎn)生的復(fù)雜氣味混合物的整體變化。我基于以上2點(diǎn)考慮,在第4章氣味檢測評估選用MQ-3與MQ-135組成氣體檢測模塊。通過將不同特性的傳感器組成陣列,可以提高識別的準(zhǔn)確性和魯棒性,區(qū)分僅靠單一傳感器難以區(qū)分的氣味模式,本研究的氣體檢測模塊即是基于這種傳感器陣列電子鼻(E-nose)的思想構(gòu)建的。第3章基于YOLO系列的圖像評估本章詳細(xì)闡述利用深度學(xué)習(xí)目標(biāo)檢測模型對水果圖像進(jìn)行新鮮度評估的研究過程。內(nèi)容包括水果新鮮度圖像數(shù)據(jù)集的構(gòu)建與預(yù)處理、基于YOLOv11的輕量化模型設(shè)計(jì)與訓(xùn)練、以及通過一系列對比實(shí)驗(yàn)和消融實(shí)驗(yàn)對模型性能進(jìn)行的評估與分析。3.1圖像數(shù)據(jù)集整合及預(yù)處理針對水果新鮮度評估任務(wù),我整合在線數(shù)據(jù)平臺(tái)上的水果圖像,自行數(shù)據(jù)標(biāo)注,構(gòu)建出一個(gè)包含多種新鮮度狀態(tài)的水果圖像數(shù)據(jù)集。3.1.1數(shù)據(jù)來源與整合本研究的數(shù)據(jù)集主要整合自Kaggle、Roboflow等在線數(shù)據(jù)平臺(tái)公開的水果圖像數(shù)據(jù)集。這些數(shù)據(jù)集包含多種常見水果(如蘋果、香蕉、橙子等)在不同背景、光照條件下的圖像。我選擇其中蘋果的高質(zhì)量圖像數(shù)據(jù)子集進(jìn)行整合,初步構(gòu)建出一個(gè)包含9592張?jiān)紙D像的數(shù)據(jù)池。3.1.2數(shù)據(jù)標(biāo)注與數(shù)據(jù)集劃分我按照YOLO格式對整合的蘋果數(shù)據(jù)進(jìn)行標(biāo)注,保存為與對應(yīng)蘋果圖像同名的.txt

文件,其中包含類別標(biāo)簽與目標(biāo)邊界框信息。根據(jù)研究目標(biāo)和感官觀察,我將蘋果新鮮度劃分為如REF_Ref8272\h圖3-1的三個(gè)等級:0(Fresh):新鮮,表皮光滑、色澤鮮亮、無明顯損傷或萎蔫。1(MildDry):微干,表皮可能出現(xiàn)輕微皺縮、光澤減退、出現(xiàn)小面積褐變或輕微損傷,但整體形態(tài)尚可。2(Rotten):腐爛,出現(xiàn)明顯的腐爛斑點(diǎn)、霉變、組織軟化、嚴(yán)重失水皺縮等。最終得到有效標(biāo)注的圖像9592張,各類別樣本數(shù)量分布為Fresh4723個(gè),MildDry

968個(gè),Rotten3901個(gè)。將標(biāo)注好的圖像按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集(TrainingSet)、驗(yàn)證集(ValidationSet)和測試集(TestSet)。3.2模型訓(xùn)練與結(jié)果分析本節(jié)將詳細(xì)介紹模型訓(xùn)練的實(shí)驗(yàn)設(shè)置、評價(jià)指標(biāo),并展示和分析YOLOv8與YOLOv11基準(zhǔn)模型對比、YOLOv11輕量化改進(jìn)、消融實(shí)驗(yàn)以及與其他算法對比的實(shí)驗(yàn)結(jié)果。3.2.1實(shí)驗(yàn)環(huán)境與評價(jià)指標(biāo)由于我的本地計(jì)算機(jī)無法滿足進(jìn)行深度學(xué)習(xí)訓(xùn)練的硬件配置,故進(jìn)行模型訓(xùn)練時(shí),我使用了恒源云提供的云GPU實(shí)例服務(wù)。所有實(shí)驗(yàn)均在如REF_Ref8334\h表3-1配置的服務(wù)器上進(jìn)行,并按照REF_Ref8353\h表3-2的配置進(jìn)行訓(xùn)練。評價(jià)一個(gè)模型優(yōu)劣的性能指標(biāo)那確實(shí)有很多,為進(jìn)行模型輕量化改進(jìn),我在之后的實(shí)驗(yàn)中主要關(guān)注的指標(biāo)如REF_Ref8598\h表3-3所示,聚焦精度P、召回率R、平均精度均值mAP、參數(shù)量Params、計(jì)算量GFLOPs可以有效體現(xiàn)模型的準(zhǔn)確度與復(fù)雜度。3.2.2YOLOv8與YOLOv11基準(zhǔn)模型對比實(shí)驗(yàn)我首先選擇YOLO系列中較新的YOLOv8、YOLOv11,對比兩個(gè)模型在自建水果新鮮度數(shù)據(jù)集上的性能,表現(xiàn)更好的基準(zhǔn)模型將進(jìn)入后續(xù)的輕量化改進(jìn)。本次模型改進(jìn)的預(yù)期目標(biāo)是輕量化,提升模型在邊緣設(shè)備部署的潛力,因此我采用兩個(gè)模型的小型版本(yolov8n.yaml和yolo11n.yaml)進(jìn)行比較。兩個(gè)模型均使用相同的訓(xùn)練參數(shù)設(shè)置和預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練。如REF_Ref8804\h圖3-2訓(xùn)練完成后,在測試集上評估其性能,最終得到如REF_Ref8735\h表3-4的實(shí)驗(yàn)結(jié)果。我對實(shí)驗(yàn)結(jié)果進(jìn)行對比整理,根據(jù)YOLO11n98.9%的mAP50比YOLOv8n高0.9%,參數(shù)量和計(jì)算量還分別只是YOLOv8的81.9%、70.7%,可以認(rèn)為YOLOv11n在自建數(shù)據(jù)集上,具有更好的性能表現(xiàn)?;谝陨蠈Ρ葘?shí)驗(yàn)結(jié)果,我在本研究的輕量化改進(jìn)實(shí)驗(yàn)中,選擇取YOLO11n作為基準(zhǔn)模型。3.3YOLOv11輕量化改進(jìn)實(shí)驗(yàn)我參考starnet的主干網(wǎng)絡(luò)結(jié)構(gòu)與GroupNorm組歸一化對YOLO11n基準(zhǔn)模型進(jìn)行輕量化和性能優(yōu)化改進(jìn),構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)如REF_Ref9042\h圖3-3的輕量化算法模型,下稱為YOLO11-Lw(Lightweight)。針對YOLOv11的網(wǎng)絡(luò)結(jié)構(gòu),我進(jìn)行如下三部分的改進(jìn):將YOLOv11主干網(wǎng)絡(luò)由Conv和C3k2堆疊構(gòu)成的Backbone替換為starnet_s050,使用StarNet代替原本特征提取的CSPNet-like結(jié)構(gòu);Neck部分的C3k2我于其中引入StarNet_Block的元素級乘法.檢測頭Head部分引入組歸一化GroupNorm、共享卷積、scale層特征縮放,以達(dá)到減少參數(shù)量&計(jì)算量的期望。

3.3.1Starnet_s050內(nèi)部結(jié)構(gòu)Starnet_s050由一個(gè)Stem層和四個(gè)Stage層組成,Stem首先吶就會(huì)對接收的3*640*640原始圖像進(jìn)行步長為2的3*3卷積后接批歸一化BatchNorm,將3通道輸入變?yōu)?2并通過ReLU6激活,輸出32*320*320的P1特征圖。接收Stem層輸入的Stage0層同樣先對P1特征圖進(jìn)行一個(gè)步長為2的3*3卷積接批歸一化BN,但通道數(shù)由32降維至16,隨后進(jìn)入Block進(jìn)行深度卷積DWConv、全連接FullConnect、1*1卷積、元素級乘法ElemMultiple、殘差連接Restdual等操作,輸出16*160*160的P2特征圖,Starnet_s050內(nèi)部的Stem層與Stage層如REF_Ref9245\h圖3-4所示。Stage1~3與Stage0層類似,輸入輸出如下REF_Ref9291\h表3-5所示,最終Stage3輸出128*20*20的P5特征圖經(jīng)過scale特征縮放輸出到SPPF層。

3.3.2C3k2_Star內(nèi)部結(jié)構(gòu)Neck部分的特征融合和處理單元C3k2內(nèi)部的核心處理單元替換為Star_Block,內(nèi)部結(jié)構(gòu)如REF_Ref9376\h圖3-5所示。Star_Block是StarNet的核心思想體現(xiàn),它先對輸入特征圖做一個(gè)深度可分離卷積DWConv,分別提取空間細(xì)節(jié)和通道特征,再將特征流拆分為兩條并行的處理路徑,一條通過1×1卷積實(shí)現(xiàn)跨通道線性變換(Linear1)進(jìn)行通道維度壓縮,類似信息篩選器,保留關(guān)鍵特征;另一組權(quán)重生成路徑使用1×1卷積實(shí)現(xiàn)跨通道線性變換(Linear2)產(chǎn)生動(dòng)態(tài)調(diào)節(jié)系數(shù),兩條路徑的輸出在ReLU6激活后進(jìn)行元素級乘法ElemMultiple實(shí)現(xiàn)特征融合,融合后的特征經(jīng)過全局線性變換(Linear_g)實(shí)現(xiàn)跨通道信息整合,再通過二次深度卷積(DWConv2)強(qiáng)化局部特征關(guān)聯(lián),最終采用殘差連接結(jié)構(gòu),將原始輸入與處理后的特征通過DropPath技術(shù)進(jìn)行概率性融合,防止網(wǎng)絡(luò)過度依賴特定特征通道,提升模型魯棒性。

3.3.3Detect_LSCD內(nèi)部結(jié)構(gòu)Detect_LSCD(LightweightSharedConvolutionalDetectionHead)通過在原Detect檢測頭中引入共享卷積層,讓P3,P4,P5這些不同層級輸出的特征圖在經(jīng)過初步處理后,通過一組相同的卷積層進(jìn)行進(jìn)一步的特征提取,然后再分別進(jìn)行回歸和分類預(yù)測,這樣的方法可以更有效地降低模型的參數(shù)量&計(jì)算量,其內(nèi)部核心結(jié)構(gòu)如REF_Ref9444\h圖3-6所示。輸入的P3/P4/P5特征圖先通過各自獨(dú)立的3x3Conv_GN卷積層,先卷積再組歸一化,使不同層級的輸入特征圖統(tǒng)一到相同的通道維度hidc;各層級特征圖經(jīng)過初始卷積統(tǒng)一后進(jìn)入相同的共享卷積層,ShareConv層其中串聯(lián)一個(gè)3x3Conv_GN卷積層和一個(gè)1x1Conv_GN卷積層(1x1卷積可視為跨通道的線性變換,故稱為LinearGN層),通過共享這部分卷積計(jì)算就無需為P3,P4,P5的頭部單獨(dú)學(xué)習(xí)多層深度卷積,顯著減少參數(shù)量&計(jì)算量。共享卷積的輸出接下來被送入兩個(gè)獨(dú)立的1x1卷積層,回歸頭Linear1采用DistributionFocalLoss進(jìn)行邊界框回歸,輸出模型預(yù)測邊界框坐標(biāo)的概率分布,分類頭Linear2輸出每個(gè)類別的預(yù)測概率;Scale層對回歸頭和分類頭的輸出應(yīng)用一個(gè)可學(xué)習(xí)的標(biāo)量縮放,平衡不同層級回歸預(yù)測的尺度。最終通過torch.cat將經(jīng)過尺度調(diào)整的回歸輸出和分類輸出在通道維度上拼接起來,每個(gè)層級的輸出特征圖現(xiàn)在包含該層級預(yù)測的框的位置分布&類別概率信息。

3.3.4實(shí)驗(yàn)結(jié)果將經(jīng)過輕量化改進(jìn)的YOLO11-Lw在自建數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到如REF_Ref9503\h表3-6的實(shí)驗(yàn)結(jié)果,從實(shí)驗(yàn)結(jié)果來看改進(jìn)后的模型在mAP相近的情況下,參數(shù)量降為基準(zhǔn)模型的67.27%,計(jì)算量降為68.25%,推理速度也有一定提升。為評估每一個(gè)改進(jìn)模塊,即Starnet結(jié)構(gòu)引入、檢測頭輕量化對模型輕量化改進(jìn)的貢獻(xiàn),我進(jìn)行了消融實(shí)驗(yàn),比較YOLO11-Lw、只引入Starnet、C3k2_Star的YOLO11-Star、只對檢測頭進(jìn)行輕量化改進(jìn)的YOLO11-LSCD在相同訓(xùn)練設(shè)置下的性能表現(xiàn),實(shí)驗(yàn)結(jié)果如REF_Ref9545\h表3-7,訓(xùn)練過程的曲線對比如REF_Ref9591\h圖3-7所示。從消融實(shí)驗(yàn)的結(jié)果可以看出,三種輕量化改進(jìn)模型相比YOLO11n均有參數(shù)量&計(jì)算量的下降,且YOLO11-Star對參數(shù)量&計(jì)算量的降低效果更為顯著,而mAP保持穩(wěn)定。這一現(xiàn)象可能的因素是,Starnet具備的隱式高維特征映射能力,彌補(bǔ)了模型尺寸縮減帶來的影響;YOLO11-LSCD輕量化檢測頭在降低參數(shù)量&計(jì)算量的同時(shí)對檢測精度有一定提升,但配合YOLOv11原生CSPNet-like結(jié)構(gòu)反而降低推理速度,此時(shí)替換了Starnet主干網(wǎng)絡(luò)的YOLO11-Lw雖然mAP略微下降,但推理速度加快,且參數(shù)量&計(jì)算量在YOLO11-Star基礎(chǔ)上進(jìn)一步降低,兩項(xiàng)改進(jìn)結(jié)合起來,顯示出良好的協(xié)同效應(yīng)。3.4本章小結(jié)本章針對水果新鮮度視覺評估需求,提出一種面向移動(dòng)端部署的輕量化檢測模型構(gòu)建方案。研究主要從數(shù)據(jù)構(gòu)建、模型優(yōu)化與效果驗(yàn)證三個(gè)層面展開:在數(shù)據(jù)層面,通過整合多源公開數(shù)據(jù)構(gòu)建蘋果新鮮度分級數(shù)據(jù)集,采用自主標(biāo)注流程完成Fresh、MildDry、Rotten三級標(biāo)簽標(biāo)注,并執(zhí)行標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)處理;在模型層面,基于基準(zhǔn)模型對比實(shí)驗(yàn)選擇YOLOv11n作為基礎(chǔ)框架,繼而實(shí)施雙路徑輕量化改造——將原始主干網(wǎng)絡(luò)替換為StarNet結(jié)構(gòu)(starnet_s050),利用其隱式高維映射特性精簡網(wǎng)絡(luò)參數(shù),同時(shí)設(shè)計(jì)融合組歸一化、共享卷積、特征縮放等技術(shù)的LSCD檢測頭,并在Neck層引入StarBlock思想強(qiáng)化特征融合效率。改進(jìn)實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv11-Lw模型在自建數(shù)據(jù)集上取得mAP99%的檢測精度,相較于原模型實(shí)現(xiàn)參數(shù)量壓縮32.73%與計(jì)算量縮減31.75%,推理速度從0.8ms/張加快為0.7ms/張。消融實(shí)驗(yàn)證明了StarNet主干和LSCD檢測頭各自對模型輕量化和性能提升的積極貢獻(xiàn),且二者結(jié)合產(chǎn)生了良好的協(xié)同效應(yīng)。最終我實(shí)現(xiàn)并驗(yàn)證了一種基于改進(jìn)YOLOv11的輕量化水果新鮮度圖像評估算法,其高效率-高性能使它具備部署在移動(dòng)端、嵌入式、物聯(lián)網(wǎng)設(shè)備上的潛力?;贏rduinoUnoR3的氣味檢測評估水果的新鮮度變化不僅體現(xiàn)在外觀上,其內(nèi)部生理生化過程,成熟和腐敗過程中釋放的揮發(fā)性有機(jī)化合物(VOCs),也蘊(yùn)含著重要的信息。本章將重點(diǎn)研究利用低成本氣體傳感器和Arduino微控制器,同樣以蘋果這一水果為例,從“嗅覺”維度對水果新鮮度進(jìn)行評估。4.1氣體檢測模塊硬件設(shè)計(jì)我在之前第3章圖像評估部分將蘋果分為三個(gè)新鮮度階段。每個(gè)新鮮度階段的蘋果釋放的氣味信息存在氣體成分變化,為采集這些信息,我設(shè)計(jì)并搭建出一個(gè)基于ArduinoUnoR3的氣體檢測模塊。蘋果腐爛初期會(huì)釋放多種氣體,包括乙醇、硫化氫、甲醛和丙酮等具有刺激性氣味的等多種特征性VOCs,因此我選擇了MQ-3、MQ-135組成傳感器陣列。ArduinoUnoR3自帶的ADC(Analog-to-DigitalConverter)分辨率為10位(0-1023),對于5V參考電壓,其最小電壓分辨率約為4.9mV(5V/1024)。雖然在大部分情況足夠,但氣體傳感器信號的變化有時(shí)比較微弱,難以檢測。針對此問題,我加裝了ADS1115模數(shù)轉(zhuǎn)換模塊,它內(nèi)置的可編程增益放大器PGA可以放大微弱信號,提高信噪比,分辨率可達(dá)0.1875mV,采樣率可達(dá)860SPS(SamplesPerSecond)。氣體檢測模塊按照如下方式連接:ADS1115的I2C接口(SCL/SDA)連接Arduino的SCL/SDA引腳,ADDR接GND設(shè)地址為0x48。MQ-3和MQ-135的模擬輸出分別接入ADS1115的A0和A1通道。以上連接方案在實(shí)驗(yàn)過程中通過串口輸出當(dāng)前檢測的新鮮度。為更直觀看出當(dāng)前狀態(tài),更準(zhǔn)確判斷新鮮度,我接入三引腳按鈕模塊(S引腳接2號數(shù)字引腳),雙色LED燈模塊(SR接5號數(shù)字引腳,SG接6號數(shù)字引腳),所有VCC接5V,GND共地。最終硬件結(jié)構(gòu)如REF_Ref14535\h圖4-1所示,氣體檢測系統(tǒng)實(shí)例如REF_Ref12128\h圖4-2所示。4.2氣體數(shù)據(jù)采集與處理4.2.1Arduino氣體檢測程序設(shè)計(jì)我按照如下邏輯編寫了燒錄進(jìn)arduino開發(fā)板的程序(程序代碼見REF_Ref12159\h附錄):通電后按下按鈕,記錄當(dāng)前MQ-3與MQ-135檢測的環(huán)境濃度值,之后若檢測的數(shù)值與記錄值的差值超過閾值,則LED燈亮紅色,串口每隔0.5秒輸出”AppleisRotten!“,如果差值接近閾值,則LED亮綠色閃爍,串口輸出”AppleisMildDry.“,若差值不接近閾值則綠燈常亮,串口輸出”AppleisFresh.“。這樣的檢測模式,可以提取水果氣味特征的相對響應(yīng)值,消除環(huán)境溫濕度、傳感器漂移等因素的影響。4.2.2實(shí)驗(yàn)設(shè)置與數(shù)據(jù)采集流程我從超市選購一批新鮮蘋果,將其放入塑料罐中,每隔4天進(jìn)行2~3次數(shù)據(jù)采集。進(jìn)行實(shí)驗(yàn)前,將傳感器系統(tǒng)通電預(yù)熱至少5分鐘,讓傳感器達(dá)到穩(wěn)定的工作溫度和基線狀態(tài),在室內(nèi)環(huán)境按下按鈕,標(biāo)記當(dāng)前環(huán)境檢測值,再將傳感器模組伸入塑料罐中檢測濃度值,持續(xù)采集直到響應(yīng)值穩(wěn)定,取出傳感器模組,在清潔空氣環(huán)境下,用小風(fēng)扇吹洗傳感器。REF_Ref16468\h圖4-3展示正在數(shù)據(jù)采集的狀態(tài),下方的雙色LED燈亮紅代表判定蘋果已腐敗。

4.3實(shí)驗(yàn)結(jié)果與討論我采集同一批蘋果在不同時(shí)期的氣味數(shù)據(jù),進(jìn)行預(yù)處理和特征提取后,得到新鮮、微干、腐爛水果的初步檢測閾值。濃度值變化趨勢如REF_Ref16425\h圖4-4、REF_Ref16370\h圖4-5所示,對于MQ-3傳感器,腐爛蘋果引發(fā)的響應(yīng)峰值顯著高于新鮮和次新鮮蘋果,驗(yàn)證了腐爛過程中乙醇釋放增加的預(yù)期。微干蘋果的MQ-3響應(yīng)略高于新鮮蘋果,但差異不如腐爛蘋果明顯。對于MQ-135傳感器,腐爛蘋果同樣引發(fā)了高響應(yīng)值,說明腐敗產(chǎn)生了大量MQ-135敏感的氣體。但微干蘋果與新鮮蘋果的MQ-135響應(yīng)值差距不大。因此MQ-135與MQ-3組合,可以有效檢測已產(chǎn)生腐爛的蘋果,避免只用MQ-3檢測誤判微干蘋果為腐爛的情況。實(shí)驗(yàn)結(jié)果表明,雖然早期腐敗的蘋果外觀變化不明顯,但其釋放的VOCs已經(jīng)開始發(fā)生變化,能夠被氣體傳感器陣列捕捉到?;跉馕兜男迈r度評估,在識別水果早期、內(nèi)部新鮮度變化方面具有較大潛力,可以作為視覺評估的有效補(bǔ)充。結(jié)論本研究針對當(dāng)前水果產(chǎn)業(yè)中新鮮度評估存在的效率低、主觀性強(qiáng)、檢測維度單一以及采后損耗嚴(yán)重等問題,提出了一種基于多模態(tài)感知(圖像與氣味)的水果新鮮度評估算法。結(jié)合計(jì)算機(jī)視覺和氣體傳感器,實(shí)現(xiàn)對水果新鮮度的快速、準(zhǔn)確、無損評估,實(shí)施圖像識別的輕量化改進(jìn),以適應(yīng)邊緣設(shè)備實(shí)際部署需求。研究的主要?jiǎng)?chuàng)新點(diǎn)與工作如下:輕量化改進(jìn)YOLO11,改進(jìn)后的YOLO11-Lw在自建數(shù)據(jù)集上識別準(zhǔn)確迅速。在REF_Ref9627\h第3章中,我對比分析YOLOv8n與YOLOv11n在自建數(shù)據(jù)集上的性能,選擇精度更高、參數(shù)更少、計(jì)算量更低的YOLOv11n作為輕量化改進(jìn)的基準(zhǔn)模型。引入CVPR2024的StarNet理論,使用starnet_s050替換YOLOv11n的主干網(wǎng)絡(luò)。將StarBlock思想融入Neck部分提升融合效率,形成C3k2_Star模塊。在改進(jìn)檢測頭Detect_LSCD中集成了GroupNormalization、共享卷積、Scale自適應(yīng)縮放等優(yōu)化手段。采取消融實(shí)驗(yàn)驗(yàn)證StarNet主干和Detect_LSCD檢測頭各自的貢獻(xiàn),StarNet主干顯著降低模型復(fù)雜度,憑借星形運(yùn)算所具備的隱式高維特征映射能力,有效保持住特征提取性能。Detect_LSCD檢測頭同樣降低了模型的參數(shù)量&計(jì)算量,有效提升平均精度均值mAP。二者共同作用下的YOLO11-Lw參數(shù)量&計(jì)算量進(jìn)一步下降到1.7million&4.7GFLOPs,且推理速度加快到0.7ms/張。使用Arduino開發(fā)板,結(jié)合MQ氣體傳感器陣列進(jìn)行嗅覺評估探索,初步探明氣味隨新鮮度變化的趨勢,驗(yàn)證氣味評估的可行性。在REF_Ref14810\r\h第4章中,我搭建基于ArduinoUnoR3、ADS1115和MQ-3、MQ-135傳感器的低成本氣味檢測系統(tǒng),通過對采集數(shù)據(jù)的預(yù)處理和特征分析,發(fā)現(xiàn)不同新鮮度等級的蘋果的氣味模式。MQ-3反映乙醇濃度隨新鮮度的變化,MQ-135對腐爛水果氣味響應(yīng)顯著。本研究雖然取得了一定的成果,但也存在一些局限性。如:自建數(shù)據(jù)集僅包含9592張?zhí)O果圖像,數(shù)據(jù)集規(guī)模和多樣性仍可進(jìn)一步擴(kuò)大。氣味檢測部分受限于傳感器性能、實(shí)驗(yàn)條件控制,實(shí)驗(yàn)結(jié)果的穩(wěn)定性、精確度有待提高,需要更先進(jìn)的傳感器、校準(zhǔn)算法、大批量的研究對象、更嚴(yán)格的環(huán)境控制。針對水果新鮮度采用視覺、嗅覺兩種模態(tài)算法進(jìn)行評估,由于研究對象的圖像與氣味數(shù)據(jù)并不對應(yīng),無法進(jìn)行多源信息融合。未來可以從以下幾方面進(jìn)一步開展研究:擴(kuò)展水果種類和數(shù)據(jù)集。優(yōu)化氣味傳感系統(tǒng),

采用性能更優(yōu)、選擇性更好的傳感器;研究更穩(wěn)定的信號處理和校準(zhǔn)算法;探索溫度、濕度對傳感器響應(yīng)的補(bǔ)償模型。深入研究多模態(tài)融合算法,實(shí)現(xiàn)圖像與氣味信息融合模型,利用兩種模態(tài)的互補(bǔ)優(yōu)勢,進(jìn)一步提升評估的準(zhǔn)確性。

將多模態(tài)系統(tǒng)部署到實(shí)際嵌入式設(shè)備上,評估其在真實(shí)場景下的實(shí)用性。將離散的新鮮度等級評估,擴(kuò)展為連續(xù)的新鮮度指標(biāo)預(yù)測。

參考文獻(xiàn)段雨欣,魯冰清.推進(jìn)我國水果貿(mào)易高質(zhì)量發(fā)展[J].中國外資,2024,(17):74-77.觀研天下.中國水果行業(yè)發(fā)展現(xiàn)狀分析與投資趨勢預(yù)測報(bào)告(2025-2032年)[R/OL].觀研報(bào)告網(wǎng),[2025-04-23]./baogao/202502/744220.html#r_data.孫睿,李俊.中國對RCEP其他成員國水果出口增長影響因素分析[J/OL].中國南方果樹,1-9[2025-04-23]./kcms/detail/50.1112.s.20241030.0843.002.htm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論