基于ARM和視覺的智能火災報警器_第1頁
基于ARM和視覺的智能火災報警器_第2頁
基于ARM和視覺的智能火災報警器_第3頁
基于ARM和視覺的智能火災報警器_第4頁
基于ARM和視覺的智能火災報警器_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

煙霧檢測,深度學習,輕量化模型,注意力機制,邊緣計算設備Abstract:Fireisoneofthemaindisastersthatthreatenpeople'ssafetyanddamagenaturalresources.Firenotonlydoseseriousharmtoeconomicandsocialdevelopment,butalsotopersonalsafetyandhealth.Smokeandflamesarethemostobviousfeaturesintheearlystagesofafireoutbreak.Accuratelyandtimelyidentifyingsmokeandflamesisaneffectivemethodtopreventfromthefirespreadingandcausingmoreseriousharm.Infireandsmokedetectiontasks,classicimageanalysismethodsperformpoorly,withproblemssuchasslowprocessingspeedandhighmisjudgmentrate.Withtherapiddevelopmentofdeeplearninginthefieldofimagerecognition,deployingdeeplearningmodelsinedgecomputingdevicesandapplyingthemtofiresmokedetectionisacurrentresearchhotspot.However,thereisstillatechnicalbottleneckinhowtodeploythedeeplearningmodeltoedgecomputingdevicesandusethebuilt-infiresmokeintelligentdetectionsystemtoidentifysmokeinthenaturalenvironment.Duetothelimitationofcomputingresourcesofedgecomputingdevices,onlylightweightneuralnetworkmodelswithdeepcompressioncanbedeployedintheproject.Whendeployingfiresmokedetectionmodelsonedgecomputingdevices,lowfeaturerecognitionaccuracyandslowreal-timedetectionspeedaredoublebottlenecksthatneedtobebroken.Therefore,thispaperusesYOLOv5sastheinfrastructure,buildsalightweightYOLOv5architecturethroughmodelcompression,anddeploysittoedgecomputingdevicestoimprovetherecognitionaccuracyandefficiencyofflameandsmoketargetsincomplexenvironments.Themainresearchworkofthisarticleisasfollows:InviewofthelimitationsofYOLOv5sintheabilityoffiresmokefeatureextraction,thispaperintroducestheattentionmechanismintoYOLOv5s,andproposesadualattentionmechanismfusionalgorithmbasedonspatialattentionandchannelattention,whichimprovestheperceptionoffiresmoke.Experimentsshowthattheaccuracyofsmokedetectionisimprovedaftertheattentionmechanismisintroduced.Thispaperusesedgecomputingequipmenttobuildanintelligentflamesmokedetectionsystem,whichincludeshigh-definitionUSBcamera,mobilepower,edgecomputingequipment,LCDscreen,alarmandothermodules.TheimprovedYOOv5sSElightweightmodelTensorRTcompressionconversionisdeployedonedgecomputingequipment.Enablethesystemtoaccuratelydetectfireandsmokeinformationintheenvironment.Keywords:fireandsmokedetection;deeplearning;lightweightmodel;attentionmechanisms;edgecomputingdevices緒論1.1研究背景火在人類文明進程里是關鍵要素,其使用對社會發(fā)展起到了推動作用,然而這種力量有兩面性,失控的火焰大多時候會變成破壞性災難,災情會危及生命安全與健康,還會帶來難以估量的經濟代價,生態(tài)系統(tǒng)平衡也可能會遭到長期損害,官方數據說明,僅2024年度,全國記錄在案的火災事故就超過74萬次,造成超過四千人傷亡,經濟損失接近68億元。和前一年度相比,事故數量增長近10%,財產損失增幅是突破28%,在建筑安全領域,高層樓宇的消防救援一直是國際性挑戰(zhàn),這類建筑普遍有空間規(guī)模大、垂直高度驚人、功能結構復雜等特點,再加上人員高度集中、可燃物密集分布,一旦發(fā)生火情,火勢往往很快蔓延,濃煙封鎖逃生通道,救援行動面臨多種妨礙。我國現存高層建筑達75萬余棟,其中超高層近萬棟,這兩項數據都位居全球首位,這種特殊建筑格局讓消防救援工作面臨嚴峻考驗,實踐證明,實現災情早期預警并阻斷火勢擴展,是減少損失的核心策略,作為災變初期的關鍵信號,煙氣監(jiān)測技術已成為防火研究的關鍵方向。常規(guī)的火災預警系統(tǒng)主要借助溫度傳感器、氣敏以及光敏元件等物理裝置來達成監(jiān)測的功能,不過這類技術方案的應用范圍相當有限,其檢測所依據的僅僅局限于設備覆蓋區(qū)域內的熱輻射強度、氣溶膠濃度等為數不多的參數,環(huán)境因素同樣會對設備的精度產生負面的影響,像溫濕度出現波動就會影響到設備的精度,在極端的條件之下還可能出現數據偏差的情況。在開放型場景當中,煙霧擴散的速度大多時候會超出設備的響應范圍,當氣溶膠濃度沒有達到臨界值的時候,系統(tǒng)很難觸發(fā)預警機制,更為棘手的是,火災所有的突發(fā)性特征致使設備的利用率比較低,要是想要實現有效的覆蓋,就需要密集地布設監(jiān)測點,形成資源冗余以及維護成本疊加這樣的困境。在復雜的環(huán)境里,傳統(tǒng)系統(tǒng)的可靠性明顯下降,容易受到沙塵侵蝕或者雨水滲透等干擾,造成誤報率升高或者關鍵數據缺失的狀況,隨著視頻監(jiān)控系統(tǒng)的普及以及計算機視覺技術的發(fā)展,研究人員開始探索基于圖像的火災檢測方法,以此來解決煙霧傳感器所帶來的技術問題,這種方法運用圖像處理技術,深度學習當中的目標檢測REF_Ref11078\r\h[2],可應對各種各樣復雜的環(huán)境,克服了傳統(tǒng)傳感器的一些使用限制,提高了火災檢測的有效性,對于早期發(fā)現以及撲滅火災有一定的幫助。近些年來,隨著嵌入式設備算力的提升以及深度學習模型的輕量化REF_Ref12796\r\h[3],這些模型開始在嵌入式平臺上運行,這讓基于圖像的火災檢測系統(tǒng)變得更加便攜且經濟,降低了整體的成本,擴大了實際的應用范圍REF_Ref13025\r\h[4]。1.2國內外研究現狀火災對社會經濟和人民生命財產造成嚴重威脅,及時掌握火情信息對預防火災至關重要。準確識別火災初期的火焰煙霧特征具有重要現實意義[6]。本文研究采用計算機視覺的目標檢測方法進行火焰煙霧識別REF_Ref13302\r\h[5]。因為目標檢測技術快速發(fā)展,這為火焰煙霧檢測提供了技術參考。本節(jié)先說明目標檢測技術的發(fā)展現狀,再分析煙霧檢測領域的研究進展。1.2.1目標檢測算法研究現狀目標檢測技術屬于計算機視覺領域里一項較為關鍵的研究方向,此技術有著廣闊的發(fā)展前景,于諸多領域都存在實際應用,像無人駕駛系統(tǒng)、交通監(jiān)控里的車輛識別、車牌信息提取以及道路障礙物監(jiān)測等方面,該技術可針對輸入圖像展開類別判斷,而且還可以對圖像中的目標位置給予定位REF_Ref13815\r\h[7]。傳統(tǒng)方法時期使用的是基于人工特征如HOG結合滑動窗口的算法,代表算法是Viola-Jones。在檢測目標時,2*2的滑塊在圖像上按2的步長滑動。滑動后計算該2*2像素內的特征值,再將得到的特征值與目標值進行比對,最后得出該范圍是否屬于檢測目標。受限于特征表達能力,這種方法在復雜場景下的泛用性不高。在深度學習初期,加州大學伯克利分校的RossGirshick團隊首次將CNN引入目標檢測,采用Uijlings等人提出的SelectiveSearch算法生成區(qū)域建議,成功將PASCALVOC2012挑戰(zhàn)賽的數據集將mAP從傳統(tǒng)方法的35.1%提升至53.3%,但由于需要進行重復的特征計算導致檢測速度緩慢,僅僅達到0.07FPS,同時特征文件由于體積過大占用了數百GB的磁盤空間,但這奠定了深度學習運用于目標檢測算法的基礎。由于R-CNN的重復計算,訓練階段多和需要大量的儲存空間的缺陷,微軟微軟研究院的RossGirshick受SPPNet(何愷明等,2014)的空間金字塔池化啟發(fā),提出ROIPooling層。ROIPooling層可以對任意尺寸的候選區(qū)域進行映射得到固定尺寸的特征圖。它的實現方式是通過將ROI分割成7*7的網絡,在每個網格內做最大池化,也就是選取每個網格中最大值作為該網格內的所有值,這樣一張圖像只做一次前向傳播,計算量大幅減少。但建議框的生成仍依賴外部區(qū)域建議算法這導致建議框生成速度慢大約2秒一張圖,并且不能直接利用原始數據進行端到端的檢測。2015年微軟亞洲研究院任少卿團隊發(fā)現CNN特征圖本身包含空間信息,可以直接將原始數據作為輸入。任少卿團隊提出區(qū)域建議網絡RPN不再借助外部算法生成建議框,而是將建議框的生成問題轉化為使用二分類尋找特征圖中的目標和背景,再用回歸的方法對建議框進行調整的問題。RPN與FastR-CNN共享基礎CNN網絡不僅避免了重復計算提升了建議框的生成速度,還由于特征圖復用大幅減少了內存的占用。FasterR-CNN的突破建立了"CNN特征提取→RPN建議框→ROI檢測"的標準范式。兩階段檢測器雖然在精度上樹立了標桿,但它因為自身流程帶來的延遲并不能滿足目標檢測的實時性需求。2016年Redmon的團隊推陳出新提出了YOLOv1模型,于是實時檢測的時代到來了。YOLOv1的精髓在于用單次回歸問題來實現目標檢測,這樣僅需一次前向傳播就能得到預測結果。圖像數據輸入模型后,先被放縮到固定尺寸進行一個標準化的操作,然后把圖像分割為相同大小的格子,每一個格子代表圖像的一片區(qū)域,里面包含很多像素點也就是圖像的局部信息。每個格子同時進行20個類別的概率和兩個框坐標的預測,接著根據得到的誤差進行反向傳播更新參數。YOLOv1的關鍵在于它是對整張圖片的每一個區(qū)域可能的類別同時進行預測,避免了多次重復的運算,實現了兩階段檢測到單階段檢測的跨越。區(qū)域劃分的太寬泛是YOLOv1的缺陷,這導致了它對區(qū)域內微小目標的檢測效果和在足球場里找針差不多,同時模型預測的坐標誤差大,導致目標的定位的精度低。Redmon等人提出了YOLOv2模型,來解決v1遺留的問題。他們修改了預測框的生成機制,從單次回歸轉換到偏移預測問題上來。他們先使用K聚類對VOC數據集的所有標注框進行分類,得到五種典型寬高比的先驗框,這樣每個網格能夠預測5個框,覆蓋更多的目標形態(tài),提高了對模型的查全率。為了提升定位精度,他們對預測參數進行了重構。v2框將預測4個偏移量,相比v1直接回歸坐標的方法,預測偏移量更容易收斂。V2的神經網絡架構采用了VGG的堆疊式設計包含19層卷積層和五層池化層。由于v1的全連接層結構使輸入尺寸必須固定,Redmon團隊對網絡結構進行了調整,他們移除了全連接層使用全局平均池化,改用全卷積結構,這樣就能支持任意尺寸的輸入同時使參數量大幅減少至50M。卷積層使用3×3卷積核,每個卷積層后加入BN。BN的引入加速了收斂并提升了模型的預測精度。訓練時每隔10批隨機選擇輸入尺寸,這樣不僅能提高模型對不同尺度對象的泛化性,還能提升對小目標檢測的能力。V3模型的局限一是在于僅僅使用一個尺度的特征圖進行預測,未能結合更深入或更淺顯的特征圖進行聯(lián)合預測。二是對大目標和中小目標使用統(tǒng)一尺寸的感受野,導致v2多尺度的預測能力不足。三是V2網絡架構本身的設計缺陷,19個順序堆疊的卷積層共同組成了YOLOv2的骨干網絡Darknet,梯度傳播路徑單一,特征復用能力缺失是這種設計導致的結果。因為梯度連乘導致數值指數級縮小,所以當網絡深度過深時會發(fā)生梯度消失的現象。多尺度特征金字塔、殘差網絡、多標簽分類機制由Redmon團隊設計V3模型時提出。三個檢測尺度和跨層特征融合是多尺度金字塔FPN的主要技術實現。具體來說在骨干網絡中先將目標區(qū)域映射為大目標、中目標、小目標三個檢測尺度再使用跨層特征融合自頂向下傳遞語義信息,自底向上傳遞細節(jié)信息將提取的特征輸入檢測頭進行預測,小目標漏檢問題就被FPN結構解決了。V3網絡深度增加到53層就得益于殘差模塊的引入。瓶頸結構,跳躍連接,特征復用是殘差模塊的設計特點。1×1卷積使通道數減半,參數量減少75%,計算量大幅降低。V2模型梯度消失的問題被可使梯度直接回傳的跳躍連接解決。同時多級語義信息在原始特征與卷積結果相加得以保留。允許同時預測多個類別標簽和分類頭輸出維度擴展到80是多標簽分類機制的特點,在此機制下復雜場景的分類任務得以實現。但是網絡深度增加導致的計算量大幅增加,實時性下降和錨框參數仍需人工設計等是V3模型未能解決的問題。通過系統(tǒng)性整合目標檢測領域的最新技術,V4模型實現了包括檢測精度、推理速度、泛化能力、輕量化的全面提升。V4的輕量化是通過引入CSPNet進行特征圖分割與部分融合來實現的。通過分割特征圖,網絡參數顯著降低使得計算量大幅減少推理速度得以提升。兩種先進結構空間金字塔池化SPP與路徑聚合網絡PANet組合成特征金字塔,利用這種組合形式實現了多尺度特征融合,提高了檢測精度。V4在泛化能力的提升得益于新的激活函數Mish,與V3所用的LeakyReLU函數相比,Mish圖像更加平滑并且不會像ReLU函數出現梯度消失的問題。V4在訓練方式上創(chuàng)新的使用Mosaic增強(將一張圖片分割為四張小圖片,再重新組合成一張新的同樣大小的圖片)和自對抗訓練。這種訓練方式提高了V4在復雜場景下的查全率和對噪聲和遮擋的魯棒性。V4還通過改進損失函數提高預測精度。V4在檢測精度和推理速度得到了提高但PANet計算成本依舊不容小覷,YOLOv5應運而生。V5的FPN-PAF結構更加輕量化降低了計算成本。V5創(chuàng)新的提出自適應特征金字塔,各層特征的貢獻權重根據目標實際尺寸自動調整是它的核心創(chuàng)新點。V5在訓練策略上使用了動態(tài)訓練策略,利用自適應錨框機制提高了錨框匹配精度。YOLOv5不僅在網絡架構上有所創(chuàng)新,它還在工程化上進行了創(chuàng)新。它可以通過TorchScript導出適用于邊緣計算設備的輕量化模型,實現跨平臺部署。1.2.2煙火檢測研究現狀早期研究者通過人工特征提取,基于傳統(tǒng)的計算機視覺與圖像處理技術實現煙火檢測。煙霧紋理分析,運動特征檢測,顏色空間分析是早期非常典型的方法。2008年Chen等人通過基于Cr分量的動態(tài)閾值分割火焰檢測算法,在標準數據集檢測任務達到78.6%的檢測率,但這種算法對光照變化的魯棒性很小。2012年Yuan等人使用LBP、Gabor濾波器提取紋理特征,提出了煙霧紋理分析算法,使得煙火檢測在復雜場景的檢測準確率得到提高。2015年Toreyin開發(fā)了基于運動矢量分析的煙霧檢測系統(tǒng),該系統(tǒng)結合光流法與背景差分技術,通過計算每個像素點移動的方向來計算運動一致性指標,將誤報率大幅降低。人工特征的泛化能力差,對環(huán)境變化的適應力弱,不能在復雜環(huán)境實現實時檢測是傳統(tǒng)圖像處理技術的三大瓶頸。隨著技術發(fā)展,研究者開始將機器學習應用在煙火檢測任務中。2017年Zhang等人提出融合了12維特征的SVM模型,提高了室內場景檢測的準確率。Kim等人使用預訓練的VGG16網絡,將該模型進行特征特征遷移,在森林火災數據集上表現優(yōu)秀,實現了高達90%的召回率,但模型參數量超過了100M,難以部署到邊緣設備上。卷積神經網絡的不斷革新加速了煙火檢測技術的發(fā)展。研究者通過改進檢測模型框架,針對煙火檢測對YOLOv5等架構進行定制化應用,提高了模型的推理速度和準確率。比如在2022年由王國平等提出的Fire-YOLO改進模型在VisFire上準確率接近80%REF_Ref16022\r\h[8],推理速度也得到大幅提升,能滿足實時檢測任務的需求。2024年Zhao等人開發(fā)了參數量僅1.3M,在樹莓派4B上能實現實時檢測的FireNet-Lite輕量化模型REF_Ref15444\r\h[9],實現了檢測模型在邊緣設備上的部署。1.3論文內容安排與結構第1章“緒論”部分介紹了此課題的背景以及國內外發(fā)展現狀,煙火檢測系統(tǒng)的發(fā)展現狀。最后對本文組織結構進行了介紹。第2章“煙火檢測算法的相關理論與技術”部分介紹了本文研究涉及的相關背景知識和技術,包括對卷積神經網絡相關概念的詳細介紹和YOLOv5網絡的闡述,對本文后續(xù)提出的改進的YOLOv5檢測網絡提供了思想借鑒和理論基礎。第3章“基于改進的YOLOv5-SE煙火檢測算法”部分先介紹了YOLOv5的網絡架構和基本原理。然后增加CAM注意力機制模塊提高網絡對煙火目標的檢測精度。接著介紹了數據集的構建,數據標注的方法,最后分析實驗結果,驗證改進后的算法對煙火目標的檢測效果。第4章“構建邊緣計算設備的煙火檢測系統(tǒng)”在第三章的基礎上,將訓練好的煙火檢測模型部署在邊緣設備樹莓派上。介紹了在智能火災煙火檢測系統(tǒng)的系統(tǒng)總體設計,模型部署和效果測試,通過實驗證明了對模型的改進是有用的。第5章“總結與展望”部分對本課題所完成的進行了一個工作總結。介紹了工作中的重難點,基于實驗數據對算法所進行的改進,對不足之處的期望。煙火檢測算法的相關理論與技術近年來,隨著深度學習的方法快速發(fā)展,使用深度學習的方法來進行煙火檢測的效果比傳統(tǒng)煙火檢測方法更加優(yōu)秀REF_Ref17394\r\h[10]REF_Ref17420\r\h[11]。傳統(tǒng)的圖像處理方法已經逐步被基于深度學習的煙火檢測方法替代,它補足了傳統(tǒng)煙火檢測方式泛化性不足,無法應對復雜場景下檢測任務的短板。本章將對深度學習的概念進行敘述,然后對卷積神經網絡的工作各個模塊進行詳細的分析,最后介紹基于YOLOv5算法模型。2.1深度學習基礎深度學習是是基于人工神經網絡架構的機器學習的一個分支,人工神經網絡如圖2-1使用多層互連節(jié)點(稱為神經元)協(xié)同工作,處理和學習輸入數據。一個輸入層和一個及以上逐級連接的隱藏層組成了一個完整的神經網絡。神經網絡模仿了人類大腦的神經系統(tǒng),數據由輸入層進入神經網絡,每個神經元的輸入來自于前一層神經元的輸出,但每個神經元接收來自上一層神經元的輸出的多少是不同的,它們之間的連接有強弱之分,神經元與神經元之間的關聯(lián)強弱叫做權重,按照這樣的方式一直傳遞到最后一層也就是輸出層,得到神經網絡的輸出。神經網絡的各層通過包括激活函數,池化等一系列非線性變換對輸入的數據進行拆解和提純,再將真實值與預測值的誤差進行反向傳播,不斷更新權重(各神經元之間的連接強弱),從而使網絡能夠學習輸入數據的復雜表示。圖2-SEQ圖\*ARABIC1人工神經網絡結構神經網絡模型能夠對數據自動的進行學習,這一特點使得深度學習在語音和圖像識別、自然語言處理的任務上有天然的優(yōu)勢。前饋神經網絡、卷積神經網絡和循環(huán)神經網絡是深度學習中使用最廣泛的架構:(1)前饋神經網絡FNN是全連接神經網絡,它是一個包含多層隱藏層的神經網絡。網絡中每一層都是全連接的,也就是說任意相鄰兩層的節(jié)點都有連接。信息在網絡的流動是線性的。FNN已廣泛用于圖像分類、語音識別和自然語言處理等任務;(2)循環(huán)神經網絡RNN是一種能夠處理順序數據的神經網絡。RNN引入了時間權重向量故而能夠利用先前輸入的相關信息,這使得自然語言處理、語言翻譯和語音識別等任務讓RNN來做非常合適;(3)卷積神經網絡CNN是一種包含卷積計算的深度前饋神經網絡。它專門用于圖像和視頻識別任務。該網絡架構通過引入局部連接模式與參數共享機制,有效降低了模型參數量級。這種設計不僅提升了優(yōu)化效率,還通過結構精簡化顯著抑制了訓練階段的過擬合傾向。此類特性使其在計算機視覺領域展現出強大適應性,尤其在需要實時處理能力的檢測任務中表現突出。2.2卷積神經網絡介紹卷積神經網絡的設計靈感來自于生物視覺皮層信息處理機制的啟發(fā),研究者構建了具有層級化特征提取能力的深度網絡架構。該模型通過引入滑動卷積核替代全連接結構,使深層網絡的內存占用率較傳統(tǒng)方法下降約76.8%。其創(chuàng)新性體現在三個方面:局部感知單元模擬神經元響應特性,參數復用策略降低模型維度,下采樣模塊增強特征魯棒性。這種結構創(chuàng)新不僅緩解了過參數化問題,更推動了計算機視覺技術的革新,在生成對抗網絡和目標定位等場景中展現出突破性應用價值。卷積神經網絡主要包括輸入層,卷積層,池化層,全連接層,歸一化層,輸出層。2.2.1卷積層在傳統(tǒng)神經網絡中,如圖2-2一個物體在同一個框的不同位置或者擺放角度不同,神經網絡很可能無法識別出來這是同一個物體或形狀。我們對神經網絡識別能力的期望是無論一個物體在畫面中哪個位置,都會被識別為同一物體.卷積神經網絡在卷積層中通過卷積操作實現這樣的目標,卷積操作捕獲的是圖像本身特征所以無論圖像中的目標在哪個位置都能被卷積神經網絡識別出來。圖SEQ圖\*ARABIC2-2同一物體在同一框的不同表現卷積操作是指將一個固定尺寸的滑塊與圖像進行逐元素相乘然后相加的操作。這個滑塊包含是一個權重矩陣,我們通常將它叫做卷積核。為了提取輸入圖像不同的特征,卷積神經網絡需要多個不同尺寸的卷積核對輸入得圖像進行卷積;同時為了提取圖像深層次得特征,也需要多個卷積層進行卷積。2.2.2感受野感受野指的是卷積神經網絡的卷積核在對圖像的一次卷積中能看到的視野范圍,具體來說就是在特征提取階段,輸出的特征圖上每個像素點映射回原圖像能有多大范圍。衡量特征抽象層次的重要指標是感受野。感受野的尺度與特征抽象程度呈正相關。具體表現為:較大的感受野使卷積核具備更廣闊的視野,能夠捕捉輸入數據的整體特征,從而形成更高抽象的特征表征;局部細節(jié)由較小的感受野負責,像素級或紋理級等低層次特征。尺度越大越抽象,尺度越小越具體的對應關系讓我們能夠直觀的理解網絡各層的功能定位:深層網絡進行語義理解因為它使用的感受野大,淺層網絡提取細節(jié)特征因為它使用得感受野小。2.2.3池化層卷積神經網絡中實現特征降維的關鍵之一就是池化層。減少參數計算量;抑制過擬合;增強特征的空間不變性是池化層的三個主要功能。最大值池化和均值池化(如圖2-3)是目前主流的兩種實現方式。池化和卷積類似,都需要用到滑動窗口,最大池化是選取滑動窗中最大激活值作為輸出,這樣在降維的同時有效保留局部細節(jié)。均值池化是通過計算滑動窗內數值均值作為輸出,均值池化可以很好的抑制噪聲干擾圖2-3最大池化與平均池化2.2.4全連接層全連接層其數學本質可表述為h(l)其中W∈Rn×m表示權重矩陣,為偏置向量代表激活函數。全連接層出現的意義就是將神經網絡提取到的各個特征進行組合然后對其進行分類,所以全連接層相當于整個卷積神經網絡的分類器。空間維度壓縮和高階特征組合是全連接層在特征處理中的主要任務。全連接層先將前面卷積層,下采樣層提取的特征進行組合,組合后得到的三維張量被全連接層展平為一維特征向量,最后全連接層對其進行分類。2.2.5歸一化層深度神經網絡學習的主要問題在于參數更新的動態(tài)特征:調整傳輸網絡中每個隱藏層的參數會導致后續(xù)層輸入發(fā)生偏移。傳統(tǒng)的解決方案例如降低學習速度或使用精細參數進行初始化可以緩解這個問題,但會導致學習效率的顯著降低,特別是在采用飽和激活函數如Sigmoid時,這可能會嚴重阻礙模型的融合。批歸一化創(chuàng)新地將數據標準化過程集成到網絡架構中,并在每次訓練迭代中對小批樣本分布進行標準化的基本機制。這種設計策略實現了雙重優(yōu)化:一是通過更快的學習速度加快了學習過程,二是大大降低了模型對參數初始化精度的敏感性。2.2.6上采樣與下采樣降低運算負荷并抑制模型過擬合風險;通過擴大特征感知范圍,幫助后續(xù)網絡層捕獲更全面的語義信息是下采樣層的兩大作用。一開始研究者選擇步長為2的最大池化進行升維操作,因為它運算效率高而且還能通過保留最大值來突出局部細節(jié)。雖然池化層能快速完成下采樣,但這種操作會丟失部分特征信息,而且池化層的參數是固定不變的。后來研究者發(fā)現,改用可學習的卷積層進行下采樣可以取得更好的效果,提升卷積神經網絡在圖像分類等任務中的準確率。在卷積神經網絡處理過程中,圖像特征圖的尺寸會隨著特征提取的深入逐漸縮減。在某些應用場景中,需要將高維度的特征圖恢復到低維度去。這種從高維度到低維度的重建過程稱為上采樣,通常使用插值法實現上采樣操作。這種方法既能生成平滑的重建結果,又不會顯著增加計算量。圖2-4上采樣與下采樣2.2.7激活函數早期神經網絡的標準激活函數是Sigmoid函數,因為它的輸出范圍是(0,1)所以它很適合做概率預測的任務。但在它反向傳播過程中存在梯度消失問題:當輸入絕對值過大時,導數趨近于0,導致梯度消失使深層的參數無法得到更新。圖2-4sigmoid函數圖像ReLU函數又叫整流線性單元,是深度學習的核心激活函數。公式簡單和計算高效是它的核心優(yōu)勢。這使得神經網絡在處理大規(guī)模數據集時,既能保持較低的計算量(相比Sigmoid函數減少一半的運算時間),又能有效提取數據中的高層次語義特征。ReLU的核心價值體現在非線性建模能力上。通過將負值輸入置零的操作,使網絡產生了必要的非線性因素。ReLU函數成為現代人工智能系統(tǒng)的關鍵性技術支撐,就在于能使用它對深度神經網絡構建復雜的特征轉換路徑。圖2-5ReLU函數圖像SiLU結合Sigmoid的平滑特性與ReLU的稀疏激活優(yōu)勢,在提升模型表達能力方面展現出顯著優(yōu)勢。SiLU不會出現sigmoid函數導數趨于0的情況,并且隨著模型網絡深度增加SiLU效果優(yōu)于ReLU。SiLU可以看做是ReLU的改良版。SiLU函數在在計算機視覺和自然語言處理領域的廣泛應用已經證明了其有效性。圖2-6SiLU函數圖像2.2.9本章小結本章首先借助人工神經網絡的工作機制來闡述了深度學習的基礎概念,然后簡要的介紹了三種神經網絡模型,接著對卷積神經網絡的各個模塊進行了詳細的介紹,最后詳細的介紹了YOLOv5的各個模塊,并分析了YOLOv5的優(yōu)勢和缺陷,對后面改進算法提供了借鑒的思路。基于注意力改進的YOLOv5煙火檢測模型YOLOv5算法在目標檢測領域具有較高的實用價值,其獨特的特征金字塔結構在保證檢測精度的同時還能顯著提升處理速度REF_Ref19327\r\h[12]REF_Ref19356\r\h[13]。其次,該框架采用可插拔的模塊化設計,主干網絡,頸部網絡,檢測頭在代碼層面相互獨立,這種結構設計使得研究者能夠針對具體任務靈活調整網絡結構。所以在實驗階段,我們僅需修改模型配置文件即可完成對特征提取層的優(yōu)化改進。此外,YOLOv5支持通過輕量化格式轉換實現跨平臺部署,訓練完成的模型能夠快速適配不同硬件環(huán)境,對實時性要求高的煙火檢測場景尤為重要。所以本文使用YOLOv5模型設計煙火檢測系統(tǒng)。3.1YOLOv5目標檢測模型YOLOv5檢測算法主要由主干網絡、特征融合網絡和檢測頭三部分組成,總體結構如圖所示。輸入圖像先通過數據增強模塊即色彩空間調整、翻轉、隨機裁剪和縮放,提升模型的泛化能力;然后由主干網絡提取特征之后將提取的特征通過特征融合網絡進行特征融合并將特征圖傳輸到預測頭,該部分采用的是FPN-PAN結構,可以通過對高層和底層的特征進行融合來提高檢測精度;最后通過預測頭來輸出預測類別和檢測框坐標。圖3-1YOLOv5結構3.1.1Mosaic數據增強YOLOv5使用了Mosaic數據增強,對每張圖進行縮放、裁拼接成一張新圖像,并剪、色域變換等增強。隨機選擇四張訓練圖像,調整標簽框的位置。目的是通過隨機拼接四張圖像增加數據多樣性,同時提升模型對小目標、復雜背景的魯棒性。它的優(yōu)勢在于模擬多目標、多尺度場景,減少過擬合。提升批歸一化的效果。圖3-2Mosaic數據增強演示3.1.2主干網絡主干網絡將原始的640×640×3的圖像輸入Focus結構,采用間隔采樣,和一次卷積操作,變成320×320×32的特征圖。最終得到了沒有信息丟失情況下的二倍下采樣特征圖。主干網絡作用:分層提取特征,先從低階(邊緣/紋理)到中階(部件)最后到高階(語義)特征。如何實現分層提取特征?每層卷積核的視野通過堆疊逐步擴大:第1層3×3卷積,第二層感受野5×5,第三層感受野7×7,經過N層后,感受野達到(2N+1)×(2N+1),對應的語義層級越來越高。圖3-3Focus結構的間隔采樣和卷積操作3.1.3.頸部網絡YOLOv5的頸部網絡(Neck)采用FPN+PAN的結構。FPN層自頂向下傳達強語義特征,而PAN塔自底向上傳達定位特征。v5使用3x3卷積核通過加權平均局部像素值,作為空間域的低通濾波器減少不必要的干擾。FPN(自頂向下融合)過程:將高層語義特征上采樣后與底層高分辨率特征相加。數學公式(其中Ci為Backbone輸出的第i層特征,Pi為FPN融合后的特征):P5P4P3PAN(自底向上融合)過程:將底層特征下采樣后與高層特征拼接,增強定位精度。數學公式:N3N4N5最終輸出多尺度特征N3,N4,N5用于檢測頭。3.1.4.檢測頭檢測頭負責對概率類別進行預測。首先對Neck層輸出的每個特征圖獨立處理:N3(80×80)、N4(40×40)、N5(20×20)分別輸入Head的3個分支,每個分支用1×1卷積將特征圖轉換為預測張量,生成邊界框坐標和類別概率。然后將N3/N4/N5的預測結果拼接為統(tǒng)一輸出。接著根據人工設定的置信度閾值進行過濾,剔除低置信度框,最后確定最終類別。3.1.5YOLOv5的缺陷YOLOv5采用的常規(guī)卷積層在特征提取過程中,其感受野受限于卷積核尺寸導致網絡更注重局部特征。盡管通過堆疊多層卷積可逐步擴大感受野,但這種方法會使模型參數量增加,且深層特征易出現細節(jié)信息丟失。受自然語言處理中Transformer架構啟發(fā),自注意力機制通過計算特征圖全局相關性,理論上可彌補卷積操作的局部性缺陷。然而直接將標準自注意力應用于圖像數據時,需將二維特征圖展平為一維序列,這不僅破壞圖像空間結構(如相鄰像素關聯(lián)性被切斷),還會大幅提高計算負荷。3.2基于注意力機制改進YOLOv53.2.1SE注意力模塊SE(Squeeze-and-Excitation)注意力機制是一種輕量級的通道注意力模塊,用于幫助模型關注更重要的特征通道。它通過學習每個通道的重要性權重,讓模型在特征處理中“有所側重”,提升識別準確率。通俗點說:它就像是讓模型”學會偏心”,對更有用的信息更加敏感,對無用的信息減少關注。SE模塊主要有三個步驟:首先把特征圖每個通道的信息壓縮成一個數(通過全局平均池化),提取全局信息,接著把這些數字輸入一個小的神經網絡,學習每個通道的重要性,最后用這些重要性權重乘回原來的通道,實現通道加權,最后達到強調重要通道,抑制無關通道的效果。圖SEQ圖\*ARABIC3-4SEBlockYOLOv5雖然是一種優(yōu)秀的目標檢測算法,但它對所有通道的特征處理是”一視同仁”的。而SE模塊可以增強特征表達能力,使模型更加專注于有用的特征,從而提高檢測精度,尤其對小目標或特征模糊的目標更加有效。本文在YOLOv5s網絡主干和頸部模塊中嵌入了SE注意力機制。具體而言,將SE模塊插入主干網絡中每個C3模塊的輸出端,使其能夠對多尺度特征圖的通道關系進行建模。通過全局平均池化壓縮空間維度,再經兩次全連接層學習通道權重,該模塊可自適應增強重要特征通道并抑制冗余信息。此外,在頸部模塊的每個上采樣層后添加SE模塊解決上采樣采用近鄰插值導致的細節(jié)丟失問題。當特征圖進行二倍上采樣后,SE模塊會對插值生成的特征進行通道重校準,抑制噪聲并保留高頻細節(jié)。3.2.2目標識別評估標準在模型訓練后,需要進行評估,以確保其性能滿足要求,并具備良好的泛化能力。本文使用的目標檢測指標包括:Precision(精確率)、Recall(召回率)、mAP(meanAveragePrecision)。這些指標可以幫助我們判斷模型在各個類別上的表現是否優(yōu)秀、是否平衡。Precision(精確率)表示在預測為目標的結果中,有多少是真正的目標,反映了模型對某一類別識別的精確程度。Precision召回率(Recall)表示在所有真實為正的目標中,被模型成功檢測出來的比例。RecallmAP(meanAveragePrecision)是衡量檢測模型整體性能的核心指標,mAP@0.5:在IoU閾值=0.5時計算得到的mAP,標準較寬松。mAP@0.5:0.95:在IoU=0.5~0.95(步長0.05)多個閾值下取平均,更嚴格,更能全面反映模型能力。AP是精確率在所有類別上的平均值。AP=PrecisionmAP=AP3.2.3訓練過程及實驗結果分析本模型訓練的數據集使用的是自建的煙火數據集。通過互聯(lián)網搜集了979張關于火災發(fā)生時的煙火圖像如圖3-5,包羅了不同地點,不同劇烈程度,不同視角的火災火焰煙霧畫面,豐富的訓練數據可以保證一個不錯訓練的效果。圖3-5部分數據集截圖labelimg是一款開源的圖像標注工具,標簽可用于目標檢測,本文使用labeling進行的標注。對圖像中的火焰部分標注為fire類別ID為0,煙霧部分標注為smoke類別ID為2,對于既沒有火焰也沒有煙霧的非火災現場標注為default類別ID為1。按照訓練集:測試集:驗證集=8:1:1的比例劃分數據集。數據集圖片總數標注框總數Train877972Val4748Test5557總計9791077表3-1數據集核心信息我們使用電腦的GPU進行模型訓練,GPU型號NVIDIAGeForceRTX3050TiLaptopGPU。為了降低訓練時長,使用了cudda平臺加速計算任務。訓練圖片尺寸設為640×640,訓練batch為2,訓練的輪次為200,優(yōu)化器使用的是SGD。模型PrecisionRecallmAP@0.5mAP@0.5:0.95YOLOv50.9260.8810.8970.462YOLOv5_SE0.9470.8910.9160.482表3-2原始模型和改進模型檢測指標對比改進后的YOLOv5_SE模型相較于YOLOv5在精確度上提高了2.21%說明改進后模型精確率比原模型高,召回率提高了1%說明模型漏檢的可能性略微降低,mAP指標提高了1.9%和2%說明改進后模型對目標的定位更加接近真實情況。雖然改進后的提升有限,但是也說明了引入SE模塊的改進是有效的。圖3-6煙火數據集檢測結果3.3本章小結本章首先對模型各個模塊:Mosaic數據增強,主干網絡,頸部網絡,檢測頭進行了詳細的介紹。再分析了YOLOv5的缺陷為下一節(jié)改進思路提供了借鑒,接著提出了基于注意力機制改進YOLOv5,最后利用目標識別評估標準對訓練過程及實驗結果進行了分析,得到改進是有效的結論。煙火檢測模型在邊緣計算設備的部署火災一旦爆發(fā),其蔓延速度極快。為了及時發(fā)現并發(fā)出火災警報,火災檢測系統(tǒng)對實時性要求非常高。因此,為了滿足火災檢測的實時性需求,本文將訓練好的YOLOv5-SE模型部署在邊緣設備樹莓派5B上,并搭載視覺模塊對現場進行實時檢測。同時,系統(tǒng)配備了顯示模塊,能夠實時顯示現場是否存在火災REF_Ref20003\r\h[14]。若檢測到火災,則會觸發(fā)報警模塊進行報警,并向通訊設備發(fā)送報警信息。4.1基于ARM和視覺的智能火災報警器硬件總體設計本文基于樹莓派5B,USB攝像頭,液晶顯示屏,蜂鳴器,SIM900A通信模塊和移動電源來搭建智能火災報警系統(tǒng)。如圖4-1所示為系統(tǒng)整體框架。圖SEQ圖\*ARABIC4-1系統(tǒng)結構圖USB-RGB攝像頭通過樹莓派的USB接口直接連接。樹莓派控制攝像頭實時采集圖像數據,并將圖像暫存于內存中。隨后,樹莓派運行煙霧檢測模型,對獲取的圖像進行優(yōu)化處理并輸入模型進行分析識別。檢測完成后,系統(tǒng)會將實時監(jiān)控畫面和檢測結果同步顯示在液晶屏上。若檢測到災情,顯示屏還會標注具體發(fā)生位置。本系統(tǒng)使用的樹莓派5是一款ARM卡片式計算機,正是因為它小巧的體形所以非常方便部署在火災檢測現場,同時它的計算能力非常強大,能很好的滿足檢測任務的實時性要求。樹莓派5的硬件架構是Cortex-A76(ARM發(fā)布的一款高性能處理器核心)比Cortex-A72擁有更快的執(zhí)行速度和更低的功耗。平臺架構是aarch,樹莓派官方提供了一套完整的操作系統(tǒng)RaspberryPiOS其內核是Linux系統(tǒng)。RaspberryPiOS為開發(fā)者提供了一個用戶友好的桌面環(huán)境,為我們的嵌入式開發(fā)提供了友好的平臺。樹莓派5支持目前主流的深度學習框架,如Pytorch,TensorFlow,PaddlePaddle等,可以進行目標檢測,圖像識別,目標分類等任務。CPU四核Cortex-A76(ARMv8)64位GPUVideoCoreVIIGPU內存4GB接口4×USB,標準40PINGPIO接口電源輸入5V/5ADC存儲支持高速模式的MicroSD卡插槽表4-1樹莓派5主要硬件參數本文采用的樹莓派型號為RaspberryPi54GB版本,其主要硬件配置如表4-1所示。該設備支持RaspberryPi專屬功率模式(5.1V/3A或5V/5A),搭載了VideoCoreVIIGPU(支持OpenGL和OpenCL),適用于輕量級深度學習任務;CPU采用四核ARMA76架構(主頻2.4GHz)。在官方系統(tǒng)基礎上,我們安裝了Pycharm開發(fā)環(huán)境、Pytorch框架和YOLOv5庫,并配置了ONNX運行時環(huán)境。本文設計了一個基于邊緣設備的火災檢測系統(tǒng),通過部署煙火檢測模型實現實時監(jiān)控功能。該系統(tǒng)采用高清攝像頭采集現場畫面,利用煙火檢測模型進行實時目標識別,并將檢測結果疊加顯示在液晶屏的實時畫面上。該設計具有三大優(yōu)勢:首先硬件成本低廉——選用價格遠低于服務器的邊緣設備部署算法,不僅采購成本低、開發(fā)門檻低,其低功耗特性還能延長移動電源續(xù)航時間;其次部署靈活——采用卡片式ARM計算機作為邊緣設備,僅需移動電源供電即可長期工作;最后具備高實時性——現場部署的邊緣設備能夠完全滿足火災檢測對時效性的嚴苛要求。4.2算法部署由于樹莓派作為嵌入式設備的計算能力有限REF_Ref20059\r\h[15],使用直接部署訓練好的煙火檢測模型時會出現明顯的推理延遲問題。為了實現高實時性的火災監(jiān)測需求,本文采用模型壓縮的方法,將原始的PyTorch框架下訓練的pt格式模型轉換為經過優(yōu)化的ONNX格式。在具體實現過程中,通過自動化轉換工具完成從".pt"到ONNX格式的轉換流程。這樣不僅保留了模型的檢測精度,更重要的是通過運行時優(yōu)化顯著提升了在樹莓派平臺上的推理速度,使系統(tǒng)能夠滿足實際應用中對實時性的嚴格要求。4.3系統(tǒng)測試本文對壓縮前后的模型進行了檢測速度的對比,來驗證壓縮為onnx模型的性能。首先我們將YOLOv5-SE.pt和YOLOv5-SE.onnx先后部署在樹莓派上。然后我們使用煙火驗證集中的圖像進行檢測并記錄兩個模型推理所需要的時間。YOLOv5-SE.pt處理速度是220.3ms/張,YOLOv5-SE.onnx模型處理速度為203.2ms/張,幀率為10FPS。通過對比實驗可知,在保持檢測效果相當的情況下,oonx對模型進行壓縮將推理速度提升了約17ms。模型推理速度YOLOv5-SE.pt220.3ms/張YOLOv5-SE.onnx203.2ms/張表4-2模型壓縮前后的推理速度對比圖4-2兩模型檢測結果對比驗證完壓縮模型的性能后,本文測試了系統(tǒng)實能否完成實時檢測功能。開啟攝像頭后,作者使用打火機模擬火焰,顯示屏上的畫面顯示,當火焰出現的瞬間,樹莓派就捕捉到了火焰并畫出了預測框,蜂鳴器發(fā)出警報的同時SIM900A模塊向我的手機發(fā)送了火災報警信息。通過實驗證明智能火災報警系統(tǒng)的實時檢測功能是有效的。圖4-3攝像頭實時檢測效果4.4本章小結本章主要介紹煙火檢測模型在邊緣計算設備上的部署過程。首先基于系統(tǒng)結構圖闡述了ARM架構視覺智能火災報警器的整體硬件設計方案;隨后詳細說明了樹莓派的硬件參數及相應的環(huán)境配置工作;接著重點描述了算法部署的具體流程——通過自動化程序將原始.pt模型文件壓縮轉換為.onnx格式;之后對系統(tǒng)進行了全面測試:一方面對比分析了模型壓縮前后的處理速度差異,證實壓縮后的onnx模型在保持原有檢測精度的前提下顯著提升了樹莓派的運行效率;另一方面驗證了系統(tǒng)功能的完整性和可靠性測試結果表明該系統(tǒng)完全具備實際火災監(jiān)測能力各項功能指標均達到預期設計要求??偨Y與展望隨著氣候變暖,火災發(fā)生的頻率逐漸增加,一旦發(fā)生便會對人身安全和財產安全造成巨大損失。由于建筑密度的不斷加大,火災現場的復雜性和不確定性也在增加。因此,對火災報警的實時性提出了更高的要求。為了滿足這一需求,將深度學習模型部署在邊緣計算設備上,并應用于煙火檢測,已成為當前的發(fā)展趨勢。相較于傳統(tǒng)的大型監(jiān)控設備,部署了煙火檢測模型的邊緣設備具有更高的實時性、更便捷的部署方式以及更低的能耗。此外,在斷電情況下,這些設備還可以利用自身的移動電源進行長時間工作,從而為火災預警提供更可靠的保障。關于模型的改進與部署研究,本文首先系統(tǒng)闡述了深度學習的理論基礎,并詳細介紹了目前常用的三種神經網絡模型:FNN(前饋神經網絡)、RNN(循環(huán)神經網絡)和CNN(卷積神經網絡)。隨后重點分析了CNN的網絡結構及其核心模塊(包括輸入層、卷積層、池化層、全連接層、歸一化層、輸出層以及激活函數)。在完成CNN基礎理論的介紹后,本文提出采用具有模塊化和輕量化特性的YOLOv5架構來設計煙火檢測模型。針對YOLOv5模型,本文首先解釋了其各模塊的功能比如主干網絡(Backbone)負責特征提取,頸部網絡(Neck)實現多尺度特征融合等。同時指出了YOLOv5存在的不足,例如對局部細節(jié)過度關注而可能忽略全局信息?;诖藛栴},本文提出改進方案——引入SE(Squeeze-and-Excitation)注意力機制模塊以增強特征表達能力。改進后的模型在Python平臺下基于PyTorch框架完成訓練與評估。實驗結果表明,優(yōu)化后的模型在精

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論