基于機器視覺的箱式電梯安全檢測系統(tǒng)設(shè)計_第1頁
基于機器視覺的箱式電梯安全檢測系統(tǒng)設(shè)計_第2頁
基于機器視覺的箱式電梯安全檢測系統(tǒng)設(shè)計_第3頁
基于機器視覺的箱式電梯安全檢測系統(tǒng)設(shè)計_第4頁
基于機器視覺的箱式電梯安全檢測系統(tǒng)設(shè)計_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

畢業(yè)設(shè)計(論文)中文摘要近年來電梯安全事故頻發(fā),嚴(yán)重威脅公共安全。本研究提出基于機器視覺目標(biāo)檢測的電梯轎廂智能監(jiān)測系統(tǒng),通過實時識別人員異常行為、廂門運行狀態(tài)及危險物品攜帶情況,構(gòu)建主動預(yù)警機制,有效預(yù)防電梯安全事故,切實保障乘梯安全與生命財產(chǎn)安全。近幾年,深度學(xué)習(xí)的快速發(fā)展,為電梯安全提供了可靠技術(shù)支撐,可有效降低事故風(fēng)險,保障乘梯安全。本文設(shè)計一種基于YOLOV3算法目標(biāo)檢測算法,以解決電梯轎廂內(nèi)異常情況檢測。在學(xué)習(xí)及掌握視覺識別及深度學(xué)習(xí)的基礎(chǔ)上,采集及預(yù)處理電梯異常行為數(shù)據(jù),研究電梯內(nèi)電動車目標(biāo)的檢測及識別方法,研究基于視覺信息的電梯內(nèi)人員行為或狀態(tài)識別方法,最后,搭建箱式電梯嵌入式安全檢測及語音提醒系統(tǒng),對所設(shè)計方法進行驗證。關(guān)鍵詞機器視覺目標(biāo)檢測YOLO異常情況檢測畢業(yè)設(shè)計(論文)外文摘要TitleDesignofSafetyInspectionSystemforBox-typeElevatorBasedonMachineVisionAbstractInrecentyears,elevatorsafetyaccidentshaveoccurredfrequently,seriouslythreateningpublicsafety.Thisstudyproposesanintelligentelevatorcarmonitoringsystembasedonmachinevisionobjectdetection.Byidentifyingabnormalbehaviorsofpersonnel,theoperatingstatusofthecardoorandthecarryingofdangerousitemsinrealtime,anactiveearlywarningmechanismisconstructedtoeffectivelypreventelevatorsafetyaccidentsandtrulyensurethesafetyofelevatorpassengersandthesafetyoflifeandproperty.Inrecentyears,therapiddevelopmentofdeeplearninghasprovidedreliabletechnicalsupportforelevatorsafety,effectivelyreducingtheriskofaccidentsandensuringthesafetyofelevatorrides.ThispaperdesignsatargetdetectionalgorithmbasedontheYOLOV3algorithmtosolvethedetectionofabnormalsituationsintheelevatorcar.Basedonlearningandmasteringvisualrecognitionanddeeplearning,abnormalbehaviordataofelevatorsarecollectedandpreprocessed.Thedetectionandrecognitionmethodsofelectricvehicletargetsinelevatorsarestudied.Therecognitionmethodsofpersonnelbehaviororstatusinelevatorsbasedonvisualinformationarestudied.Finally,anembeddedsafetydetectionandvoiceremindersystemforboxelevatorsisbuilttoverifythedesignedmethods.KeywordsMachinevisionobjectdetectionYOLOanomalydetection第II頁本科畢業(yè)設(shè)計說明書目錄第一章 緒論 11.1研究背景 11.2研究目的及意義 11.3國內(nèi)外研究狀況 21.4論文主要研究內(nèi)容 4第二章 目標(biāo)檢測領(lǐng)域數(shù)據(jù)集與算法研究 42.1數(shù)據(jù)集的選取 52.2數(shù)據(jù)集的預(yù)處理 62.3目標(biāo)檢測算法 62.4本章小結(jié) 9第三章 目標(biāo)檢測模型訓(xùn)練與數(shù)據(jù)集實踐 103.1數(shù)據(jù)集準(zhǔn)備 103.2目標(biāo)檢測模型訓(xùn)練 133.3訓(xùn)練效果 213.4本章小結(jié) 22第四章 模型效果對比與評價 234.1評價體系的建立 234.2評價體系運行結(jié)果與分析 254.3本章小結(jié) 30結(jié)論 31致謝 32參考文獻 33第6頁本科畢業(yè)論文緒論1.1研究背景伴隨我國城市化進程加速推進,電梯保有量持續(xù)攀升。數(shù)據(jù)顯示,截至2022年末,全國電梯保有量已達(dá)964.46萬臺,成為公共空間和建筑內(nèi)部重要的客貨運輸工具。電梯在提升生活便利性的同時,也帶來了不容忽視的安全隱患。近年來,轎廂內(nèi)突發(fā)安全事故的報道頻繁見諸媒體。雖然電梯普遍配備監(jiān)控設(shè)備,但由于人工無法實現(xiàn)全天候?qū)崟r監(jiān)看,導(dǎo)致異常事件發(fā)生時,管理人員往往難以第一時間響應(yīng)處置。與此同時,深度學(xué)習(xí)驅(qū)動的目標(biāo)檢測技術(shù)正迎來快速發(fā)展期,其在異常行為監(jiān)測領(lǐng)域的應(yīng)用價值日益凸顯。借助深度學(xué)習(xí)目標(biāo)檢測算法,能夠?qū)崿F(xiàn)對異常事件的高效識別與精準(zhǔn)追蹤。該技術(shù)可廣泛應(yīng)用于住宅小區(qū)、商務(wù)樓宇、商業(yè)綜合體等場景,通過智能分析監(jiān)控畫面,實時識別并管控異常行為,有效防范危險情況進入公共區(qū)域,維護場所秩序與安全。尤其在深圳等超大型城市,面對高密度人流帶來的管理挑戰(zhàn),深度學(xué)習(xí)目標(biāo)檢測技術(shù)的應(yīng)用潛力巨大,能夠為城市交通治理、智能安防體系構(gòu)建、環(huán)境保護等領(lǐng)域提供更為精細(xì)化、智能化的解決方案。1.2研究目的及意義1.2.1研究目的本研究聚焦于圖像目標(biāo)識別技術(shù),基于電梯內(nèi)監(jiān)控圖像的目標(biāo)檢測分析,采用目標(biāo)檢測算法,以實現(xiàn)對電梯異常情況的識別與檢測,若發(fā)生突發(fā)異常事件,能及時向管理人員同步告警狀態(tài),方便管理人員迅速采取必要行動,便于管理人員及時處置異常出入事件,由此實現(xiàn)公共場所的安全管控與秩序維護。依托該技術(shù)匯總的異常進出數(shù)據(jù),還可形成支撐與參考依據(jù),為異常狀況的管控與調(diào)配增添有價值的數(shù)據(jù)支持,加強電梯與樓房的安全保障及秩序維護,本研究有利于促進深度學(xué)習(xí)目標(biāo)檢測技術(shù)在實際場景的應(yīng)用拓展與提升,從而為異常工況處理提供可行實施路徑。1.2.2研究意義本研究的理論突破點體現(xiàn)在,采用深度學(xué)習(xí)方法對電梯場景異常目標(biāo)進行檢測識別,可為目標(biāo)檢測技術(shù)的實際運用開辟新穎視角與實施方向,現(xiàn)實應(yīng)用中,目標(biāo)檢測技術(shù)展現(xiàn)出廣泛適用性,涉及智慧安防、機械自動化等領(lǐng)域,該研究將目標(biāo)檢測技術(shù)引入異常情況的管理實踐,最終攻克實踐難題,為實際應(yīng)用提供方法論支持。本研究對異常管理中的問題具有顯著解決效果,并對其他領(lǐng)域的類似問題具有借鑒價值,作為交通革新的技術(shù)載體,正快速覆蓋日常生活各領(lǐng)域,但大規(guī)模應(yīng)用衍生出管理痛點,譬如路權(quán)分配、停車設(shè)施運營等,采用圖像異常識別技術(shù),這些領(lǐng)域的技術(shù)需求可借助本研究實現(xiàn),為解決相關(guān)問題貢獻力量。本文研究的現(xiàn)實意義在于近年來,每年都有數(shù)起因電梯轎廂內(nèi)異常情況所導(dǎo)致的安全事件發(fā)生。通過對電梯內(nèi)圖像進行檢測,識別圖像中是否有異常情況,能夠讓管理人員更快、更全面的得知電梯內(nèi)是否有異常情況發(fā)生,減少因人員不足產(chǎn)生的難以監(jiān)控是否有異常情況發(fā)生的問題。使得管理人員可以更快的采取措施,從而減少事故的發(fā)生。1.3國內(nèi)外研究狀況1.3.1國外研究狀況作為一種機器學(xué)習(xí)方法,深度學(xué)習(xí)主要依托深度神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn),深度學(xué)習(xí)的雛形源于WarrenMcCulloch和WalterPitts的MP模型,作為神經(jīng)網(wǎng)絡(luò)的理論模型,MP模型采用數(shù)學(xué)表達(dá),該模型仿照神經(jīng)元的組成與運作機制,本質(zhì)上實現(xiàn)了神經(jīng)元生物特性的數(shù)學(xué)仿真。上世紀(jì)80年代中期,作為里程碑,Hinton(1986)提出的BP算法推動了深度學(xué)習(xí)發(fā)展,即針對多層感知器設(shè)計的BP算法,順利突破了非線性分類的瓶頸,促使人工神經(jīng)網(wǎng)絡(luò)重新成為研究焦點,鑒于20世紀(jì)計算機硬件發(fā)展滯后,計算資源捉襟見肘,人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域至此重現(xiàn)發(fā)展瓶頸。2006年前后,GeoffreyHinton課題組(2006年)對深度學(xué)習(xí)進行了規(guī)范性定義,相關(guān)研究以論文形式登載于《科學(xué)》,完整呈現(xiàn)了梯度消失的應(yīng)對方法,先采用無監(jiān)督學(xué)習(xí)框架進行算法分層訓(xùn)練,然后借助監(jiān)督學(xué)習(xí)的BP算法進行調(diào)校。[4]2012年那個階段,在全球知名的ImageNet圖像分類賽事里,GeoffreyHinton研究組采用AlexNet模型斬獲冠軍,深度學(xué)習(xí)由此在理論研究與實際應(yīng)用中掀起新一輪熱潮。[5]伴隨特征提取技術(shù)的革新與大數(shù)據(jù)處理效率的實質(zhì)性提高,2014年,F(xiàn)acebook的人臉識別精確度突破97%大關(guān),與人類表現(xiàn)相差無幾。[6]就技術(shù)前景而言,深度學(xué)習(xí)已成為人工智能的核心增長點,其中計算機視覺及自然語言處理展現(xiàn)出最明顯的技術(shù)領(lǐng)先性,因此采用深度學(xué)習(xí)的目標(biāo)檢測技術(shù)發(fā)展迅猛。2014年階段,2014年Girshick研究團隊將CNN技術(shù)成功移植到目標(biāo)檢測中,提出R-CNN檢測算法,首先借助選擇性搜索算法從圖像中篩選2000個候選區(qū)域,然后逐一對候選區(qū)域完成歸一化步驟,挨個輸入CNN結(jié)構(gòu)中進行特征抽取,特征經(jīng)SVM分類后進一步實施區(qū)域回歸。[7]2015年何凱明課題組從R-CNN出發(fā)研發(fā)出SPP-NET,運算速度明顯提升,相對R-CNN而言,速度提升至原先的100倍左右。[8]RossGirshick等同年設(shè)計的FastR-CNN算法,其檢測精度和速度均超過R-CNN與SPP-NET,在VOC2007標(biāo)準(zhǔn)數(shù)據(jù)集上獲得66.9%的檢測精度均值,單圖處理周期為2秒。[9]FasterR-CNN作為RossGirshick的成果實現(xiàn)端到端檢測,檢測性能與處理速度同步取得重大突破,在VOC2007評估中展現(xiàn)出69.9%的檢測精度均值,實現(xiàn)5幀/秒的實時檢測。[10]2017年由何凱明課題組首次提出MaskR-CNN框架,可并行處理像素級語義分割任務(wù),上述均為兩階段檢測方案。[11]JosephRedmon及其合作者(2015)首創(chuàng)YOLO算法,采用單網(wǎng)絡(luò)結(jié)構(gòu)同時處理分類、定位和檢測任務(wù),圖像數(shù)據(jù)只需經(jīng)歷一次網(wǎng)絡(luò)前饋,便能直接輸出圖像中物體的檢測框位置及其所屬類別概率。[12]雖然YOLO算法有效改進了檢測效率,符合實時目標(biāo)檢測的時效性要求,然而其在目標(biāo)實時識別的精確性上表現(xiàn)欠佳,存在目標(biāo)位置偏移、細(xì)微區(qū)域漏檢,以及對小型目標(biāo)和多目標(biāo)識別率低的情況。2017年JosephRedmon研究組首創(chuàng)YOLOv2框架,對YOLO模型做了若干關(guān)鍵改進,著重處理低召回率與定位偏差明顯的不足,YOLOv3算法系JosephRedmon(2018)團隊首創(chuàng),處理速度呈現(xiàn)微小回落,但采用多尺度預(yù)測后,小目標(biāo)識別能力大幅提升。[14]2020年4月階段,AlexeyBochkovskiy(2020)課題組對Yolov3實施性能優(yōu)化,實現(xiàn)了Yolov4算法,YOLOv4在兼顧實時性的同時,檢測結(jié)果的準(zhǔn)確性顯著上升。[15]Yolov5宣告誕生,采用可調(diào)節(jié)的網(wǎng)絡(luò)深度與特征圖寬度形成s/m/l/x四類模型,Yolov5在檢測速度維度與Yolov4無明顯差異,卻減少了內(nèi)存消耗,作為Yolov4的迭代產(chǎn)品,Yolov5實現(xiàn)了算法層面的重大革新,檢測精度與運算效率得到雙重提升。[16]1.3.2國內(nèi)研究狀況為提升人臉檢測精度,戴海能等對R-FCN模型進行改進以處理目標(biāo)重疊,首先借助在線難例采樣技術(shù)取消手動參數(shù)設(shè)置,基于NMS實現(xiàn)目標(biāo)坐標(biāo)的精準(zhǔn)定位,同時篩除冗余的邊界框,得到定位精度最高的邊界框,實際測試可見,改進后的R-FCN架構(gòu)其綜合表現(xiàn)較傳統(tǒng)模型有突破性進展,F(xiàn)DDB測試結(jié)果表明96.8%的召回水平,準(zhǔn)確率測得為92.6%,達(dá)到0.19秒/圖的平均檢測效率。[17]針對航拍線路圖像中絕緣子識別效果欠佳且檢測框匹配不準(zhǔn)的情況,改進了R-FCN框架以實現(xiàn)航拍絕緣子的精準(zhǔn)檢測:初始階段改進RPN建議框的比例配置,繼而在R-FCN模型中采用對抗空間丟棄網(wǎng)絡(luò)技術(shù),優(yōu)化后的模型在檢測精度及目標(biāo)框貼合度上顯著超越對比模型,調(diào)整后的模型可挖掘目標(biāo)更潛在的特征,有效提高檢測的抗干擾能力。[18]曹磊及其合作者提出淺深層RPN協(xié)同優(yōu)化的目標(biāo)檢測新方法:第一步采用淺層與深層網(wǎng)絡(luò)特征圖分別訓(xùn)練各自關(guān)聯(lián)的RPN,之后利用soft-NMS算法對兩個RPN的輸出進行有效融合,由此獲得增強效果的RPN,最終驗證表明針對SAR圖像中的車輛檢測,更新后的RPN在泛化性上有所突破,檢測結(jié)果的查準(zhǔn)率由97.7%改善為99.7%,并實現(xiàn)了比原算法更快的模型收斂,說明該技術(shù)可有效縮短檢測耗時。[19]王忠塬報告了一種優(yōu)化后的RPN小目標(biāo)檢測模型,該方法以kl暗通道先驗(darkchannelprior,利用暗通道先驗(DCP)的聚類框生成,基于KL散度的差異量化方法增強暗通道先驗聚類,相較于傳統(tǒng)FasterR-CNN,改進后算法的平均準(zhǔn)確率提升了13.98個百分點,實現(xiàn)43.25幀的實時吞吐量,研究證實該技術(shù)方案可切實提升小目標(biāo)檢測效果。[20]1.4論文主要研究內(nèi)容1.4.1研究內(nèi)容研究工作主要圍繞以下四個主題展開:

(1)采集電梯內(nèi)異?,F(xiàn)象的影像資料集:需對異常情形的外觀特征及尺寸參數(shù)進行詳細(xì)說明,同步完成電梯內(nèi)部監(jiān)控視頻的批量采集,采集電梯監(jiān)控異常的數(shù)據(jù)樣本集,以支持后續(xù)算法的開發(fā)與測試工作。

(2)對電梯監(jiān)控系統(tǒng)記錄的影像實施預(yù)處理:受制于電梯監(jiān)控環(huán)境的光照差異及多角度拍攝,應(yīng)當(dāng)進行圖像預(yù)校正,從而有效提升異常特征的辨識度。

(3)開發(fā)目標(biāo)識別模型,繼而實現(xiàn)該算法:采用YOLO框架作為目標(biāo)識別方案,采用數(shù)據(jù)集開展訓(xùn)練與測試實驗,針對異常特性的,對YOLO算法實施針對性改進與優(yōu)化,以實現(xiàn)更高效的識別精度與速度。

(4)分析檢測精度,作出系統(tǒng)梳理:對實驗結(jié)果開展對比驗證,對算法表現(xiàn)進行量化評估,歸納算法成效、不足及升級空間,推動異常管理的技術(shù)升級。目標(biāo)檢測領(lǐng)域數(shù)據(jù)集與算法研究2.1數(shù)據(jù)集的選取2.1.1現(xiàn)有的目標(biāo)檢測數(shù)據(jù)集ImageNet數(shù)據(jù)集:2009年對外公開,其數(shù)據(jù)規(guī)模位居圖像庫領(lǐng)域前列,該數(shù)據(jù)集包含多樣化的分類內(nèi)容,涉及22000個細(xì)分種類,該1400萬張圖片的數(shù)據(jù)集里,103萬張圖片均帶有結(jié)構(gòu)化的類別標(biāo)識與位置注釋,從而成為預(yù)訓(xùn)練模型構(gòu)建的關(guān)鍵資源。MSCOCO數(shù)據(jù)集:2014年正式上線,側(cè)重日常環(huán)境中的實景圖像收集,支持圖像標(biāo)簽、坐標(biāo)記錄及場景闡釋,該數(shù)據(jù)集合計80個物體分類,由32.8萬張圖片構(gòu)成,且附帶250萬個目標(biāo)實例標(biāo)注,較之VOC、ImageNet兩數(shù)據(jù)集,該數(shù)據(jù)集每個類別的圖片資源更充沛,且單位圖像內(nèi)目標(biāo)數(shù)量占優(yōu),對開發(fā)高精度檢測模型十分有利。PASCALVOC數(shù)據(jù)集:2015年首次發(fā)布,其中以VOC2007和VOC2012的應(yīng)用覆蓋面最大,主要功能聚焦于圖像分類、目標(biāo)檢測以及圖像分割等實踐領(lǐng)域,該數(shù)據(jù)集主要針對20種典型目標(biāo),諸如行人、非機動車、寵物貓、伴侶犬等,樣本均來源于現(xiàn)實場景采集,依托精準(zhǔn)的圖像采集和完整的標(biāo)注框架,模型性能測試經(jīng)常借助PASCALVOC數(shù)據(jù)集完成。表2-1數(shù)據(jù)集對比數(shù)據(jù)集數(shù)據(jù)量數(shù)據(jù)種類標(biāo)注數(shù)量適用范圍IMAGENET555預(yù)訓(xùn)練模型MSCOCO334訓(xùn)練模型PASCALVOC222評估模型性能2.1.2數(shù)據(jù)集的選取標(biāo)準(zhǔn)在數(shù)據(jù)集的選取過程中,為確保模型具備較高的準(zhǔn)確性與泛化能力,應(yīng)優(yōu)先選擇與研究對象高度契合的數(shù)據(jù)。針對本文聚焦的電梯內(nèi)異常情況目標(biāo)檢測研究而言,選取包含電梯內(nèi)監(jiān)控場景的數(shù)據(jù)集至關(guān)重要,例如直接來源于電梯監(jiān)控視頻的數(shù)據(jù)集,能夠更精準(zhǔn)匹配實際應(yīng)用場景。同時,還需綜合考量數(shù)據(jù)集的規(guī)模大小、標(biāo)注質(zhì)量以及場景多樣性,以此保障模型在復(fù)雜環(huán)境下具備良好的魯棒性,提升其在不同條件下的泛化性能。表2-2數(shù)據(jù)集選取標(biāo)準(zhǔn)數(shù)據(jù)集異?,F(xiàn)象IMAGENETMSCOCOPASCALVOC是否包含異常情況圖像是是是是否包含電梯內(nèi)圖像否否否數(shù)據(jù)是否標(biāo)注是是是2.2數(shù)據(jù)集的預(yù)處理目標(biāo)檢測算法的優(yōu)化離不開高質(zhì)量的數(shù)據(jù)預(yù)處理,因電梯監(jiān)控視頻普遍存在干擾現(xiàn)象,采用去噪、尺寸歸一化及畫質(zhì)增強等預(yù)處理方法,可顯著抑制此類干擾,提升算法效果,預(yù)處理實施的具體策略如下所示:(1)視頻去噪:借助去噪模型對視頻內(nèi)容開展降噪分析,抑制噪聲對檢測準(zhǔn)確性的干擾。(2)視頻分割:處理包含若干獨立區(qū)域/場景的視頻素材時,采用區(qū)域劃分技術(shù)將其分割為若干子區(qū)域,實現(xiàn)多區(qū)域靶向監(jiān)測。(3)背景建模:采用視頻首幀信息搭建背景模型,實現(xiàn)前景與背景的分離處理,降低背景干擾強度。(4)圖像增強:結(jié)合對比度優(yōu)化、銳化算法與亮度校正手段,增強圖像表現(xiàn)力,提高特征邊緣的銳利度。(5)尺度歸一化:由于拍攝環(huán)境變化引起目標(biāo)尺寸不一,采用尺度歸一化處理使目標(biāo)尺寸一致,提升結(jié)果可重復(fù)性。(6)數(shù)據(jù)增強:對原始樣本實施角度旋轉(zhuǎn)、尺寸標(biāo)準(zhǔn)化及區(qū)域提取,擴充訓(xùn)練樣本規(guī)模,提升模型的泛化潛力。(7)數(shù)據(jù)標(biāo)注:在訓(xùn)練檢測模型階段,應(yīng)利用矩形框?qū)Ξ惓D繕?biāo)實施準(zhǔn)確的空間標(biāo)注,標(biāo)注環(huán)節(jié)要求絕對精準(zhǔn),減少框選誤差對訓(xùn)練效果的干擾。2.3目標(biāo)檢測算法2.3.1現(xiàn)有的目標(biāo)檢測算法(1)單階段目標(biāo)檢測算法單階段檢測算法直接基于原始圖像提取特征,同步完成物體分類與位置預(yù)測,通過回歸算法解決物體邊界定位問題。該類算法結(jié)構(gòu)簡潔、運行高效,但在處理物體密集分布或嚴(yán)重重疊場景時,檢測精度顯著下降,容易出現(xiàn)漏檢情況。以下為幾種主流單階段目標(biāo)檢測算法的性能分析:1)YOLO:該算法以快速檢測見長,可滿足實時性需求,但檢測精度有待提升,尤其在小物體檢測方面表現(xiàn)欠佳。2)YOLOv2:作為YOLO的改進版本,著力優(yōu)化定位準(zhǔn)確性與檢測精度。盡管取得一定成效,但在小目標(biāo)與多目標(biāo)檢測場景下仍存在局限性,且由于特征提取網(wǎng)絡(luò)相對簡化,對遮擋目標(biāo)的識別能力較弱。3)YOLOv3:在YOLOv2基礎(chǔ)上,通過多尺度預(yù)測機制與速度優(yōu)化策略,顯著增強小目標(biāo)檢測性能,但算法運行速度有所放緩。4)YOLOv4:實現(xiàn)了檢測速度與精度的平衡,在保持快速檢測的同時,大幅提升模型準(zhǔn)確率。5)YOLOv5:具備輕量化優(yōu)勢,部署成本低、適配性強且檢測效率高,但在小目標(biāo)檢測任務(wù)中存在性能短板。6)YOLOv7:適合資源受限設(shè)備,具有自適應(yīng)學(xué)習(xí)率,能提升泛化能力而不增加推理成本。但仍需較高算力支持,且部署難度較高。6)YOLOv8:相較于之前版本,模型小,速度提高,檢測精度更高,易用性、可擴展性更強。但對于一些特定環(huán)境資源需求量大,開發(fā)時間與成本高。7)YOLOv11:更高的精度與速度,模型參數(shù)更少,適應(yīng)性強,支持多種任務(wù)。有潛在的兼容性問題。(2)兩階段目標(biāo)檢測算法兩階段檢測算法將特征識別拆解為兩個步驟:首先生成候選區(qū)域并提取特征,隨后將各區(qū)域的特征圖輸入分類器,通過類別判定與回歸損失函數(shù)修正邊界框,從而確定目標(biāo)位置。以下是主流雙階段目標(biāo)檢測算法的性能特點分析:1)R-CNN:該算法融合CNN與候選框技術(shù),但特征提取過程復(fù)雜、耗時較長,難以滿足實時檢測需求。2)FastR-CNN:引入ROIPooling層優(yōu)化特征提取,降低時間與存儲成本,但候選框生成的高計算量導(dǎo)致其仍無法實現(xiàn)實時檢測。3)FasterR-CNN:采用區(qū)域建議網(wǎng)絡(luò)(RPN)替代傳統(tǒng)方法,顯著提升訓(xùn)練速度與檢測精度,但在小目標(biāo)檢測上表現(xiàn)不足,且整體檢測效率較低。4)MaskR-CNN:有效解決特征圖與原圖對齊問題,集成目標(biāo)檢測與實例分割功能,但檢測速度仍難以滿足實時應(yīng)用場景需求。表2-3雙階段目標(biāo)檢測算法算法檢測速度檢測精度對小目標(biāo)檢測效果R-CNN133FastR-CNN133FasterR-CNN142MaskR-CNN1532.3.2目標(biāo)檢測算法的選擇本文的主要研究是應(yīng)用目標(biāo)檢測算法,對電梯內(nèi)圖像進行目標(biāo)檢測,檢測出電梯內(nèi)的異常情況,為了避免出現(xiàn)意外需要對電梯監(jiān)控進行實時目標(biāo)識別和圖像識別,這需要一定程度的實時性。綜合比較現(xiàn)有目標(biāo)檢測算法的優(yōu)缺點后,初步選定YOLO-V3算法作為對電梯內(nèi)異常情況進行識別所用的算法。2.3.3YOLO-V3算法YOLOv3是一種一階段的目標(biāo)檢測算法,它使用DarkNet-53特征提取網(wǎng)絡(luò)和FPN,與兩階段的目標(biāo)檢測算法相比,它以犧牲一定的準(zhǔn)確性為代價,提供更快的檢測,YOLOv3的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。在算法的初始階段,DarkNet-53主干網(wǎng)絡(luò)對416×416像素的輸入圖像進行基礎(chǔ)特征提取。該網(wǎng)絡(luò)由1個DBL模塊與5個殘差模塊(res,ResidualBlock)構(gòu)成,包含總計53個卷積層。DBL作為YOLOv3的基礎(chǔ)單元,通過卷積(Conv)運算、批歸一化(BatchNormalization,BN)處理,結(jié)合LeakyReLU激活函數(shù),有效抑制過擬合問題。每個殘差模塊res由1個DBL和n個殘差單元(resunit)組成,其中DBL通過Conv(33/2)實現(xiàn)下采樣,而resunit利用Conv(11)與Conv(3*3)的連續(xù)操作形成跳躍連接,解決了因網(wǎng)絡(luò)深度增加引發(fā)的梯度消失難題。DarkNet-53的最后三個殘差模塊輸出結(jié)果,被送入特征金字塔網(wǎng)絡(luò)(FPN)。FPN通過三種不同比例的函數(shù)對特征進行組合與重構(gòu),完成特征融合后的三個特征圖,再經(jīng)過YoloHead模塊卷積處理,最終輸出13×13、26×26和52×52三種尺度的預(yù)測結(jié)果。圖2-1YOLO-V3算法的網(wǎng)絡(luò)結(jié)構(gòu)圖(來源:REDMONJ,F(xiàn)ARHADIA.YOLOV3Anincrementalimprovement)2.4本章小結(jié)本章系統(tǒng)分析了目標(biāo)檢測算法相關(guān)內(nèi)容:首先對主流目標(biāo)檢測數(shù)據(jù)集進行梳理,明確了數(shù)據(jù)集選取的關(guān)鍵標(biāo)準(zhǔn);其次深入剖析現(xiàn)有目標(biāo)檢測算法的優(yōu)勢與局限,通過多維度對比評估,確定了適用于本研究的算法方案,為后續(xù)數(shù)據(jù)集采集、模型訓(xùn)練等工作奠定重要基礎(chǔ)。最后,較為詳細(xì)的介紹了本文將要使用的YOLOv3算法。

目標(biāo)檢測模型訓(xùn)練與數(shù)據(jù)集實踐3.1數(shù)據(jù)集準(zhǔn)備3.1.1獲取數(shù)據(jù)集本文主要需要電梯內(nèi)異常情況圖像作為數(shù)據(jù)集。鑒于現(xiàn)有數(shù)據(jù)集難以滿足電梯內(nèi)異常情況研究需求,本研究采用網(wǎng)絡(luò)視頻采集并逐幀截圖的方式構(gòu)建數(shù)據(jù)集。圖像標(biāo)注環(huán)節(jié)選用LabelImg工具,完成目標(biāo)區(qū)域的框選與標(biāo)記。LabelImg作為目標(biāo)檢測領(lǐng)域常用的標(biāo)注工具,廣泛適配FasterR-CNN、YOLO、SSD等主流模型。用戶通過該工具在圖像上繪制邊界框并定義目標(biāo)類別,自動生成符合PASCALVOC格式的XML文件,完整記錄目標(biāo)位置與屬性信息,為后續(xù)模型訓(xùn)練提供標(biāo)準(zhǔn)化數(shù)據(jù)支撐。圖3-1標(biāo)注工具操作頁面操作界面如圖所示操作步驟如下:系統(tǒng)要求先點擊“openfile”導(dǎo)入單個文件,然后操作"createrectbox"控件完成矩形繪制,繼而輸入匹配的類別標(biāo)識,繼而操作“changesavedir”重置輸出路徑,保存流程以點擊“Save”為終點。若有多張圖片待處理,利用"opendir"選項訪問圖片存儲文件夾,隨后同樣需調(diào)整目標(biāo)文件夾,勾選存儲位置文件夾,其余操作均延續(xù)單文件處理的標(biāo)準(zhǔn)流程,用戶設(shè)定的路徑會保存生成的.xml文件,該文件采用照片原名稱進行標(biāo)識,若需改動已標(biāo)記的照片,照片對應(yīng)的.xml文件記錄會同步修正。生成的.xml文件如圖所示圖3-2生成的.xml文件3.1.2數(shù)據(jù)集預(yù)處理的實現(xiàn)鑒于收集到的數(shù)據(jù)樣本有限,采用圖像增強方式可顯著增加數(shù)據(jù)規(guī)模,圖像增強可采用如下幾種典型方式:轉(zhuǎn)動、平移、大小調(diào)整:對圖像開展旋轉(zhuǎn)、平移及縮放等空間變換,可促進樣本的多樣化;裁剪:對原圖實施畫面截取,構(gòu)建多個互有區(qū)別的裁剪結(jié)果,完善數(shù)據(jù)集合;顏色隨機擾動:圖像中色彩值的隨機擾動,涉及亮度級別、對比幅度及色彩濃淡等,可促進數(shù)據(jù)分布的多樣化。本研究采用飛漿平臺實現(xiàn)圖像增強,作為國產(chǎn)深度學(xué)習(xí)平臺的先驅(qū),飛槳具備完全自主知識產(chǎn)權(quán)和開源特性,該工具的PaddleX模塊集成了飛槳智能視覺能力,涵蓋圖像分類、目標(biāo)檢測、語義分割及實例分割任務(wù),且所有任務(wù)均采用統(tǒng)一接口規(guī)范。操作流程:引入實驗數(shù)據(jù)集:首先把數(shù)據(jù)文件存放到預(yù)設(shè)的文件夾內(nèi),在客戶端新建一個數(shù)據(jù)集,選定與該數(shù)據(jù)集相配的任務(wù)種類,進而通過匹配路徑獲取數(shù)據(jù)集,選定待導(dǎo)入的數(shù)據(jù)集后,系統(tǒng)實時自動校驗數(shù)據(jù)文件及標(biāo)注的格式規(guī)范,檢查合格后,可將數(shù)據(jù)分割為訓(xùn)練、驗證及測試三個子集。圖3-3數(shù)據(jù)集預(yù)處理操作流程創(chuàng)建項目和任務(wù):在完成數(shù)據(jù)集的導(dǎo)入后,在客戶端內(nèi)點擊「新建項目」創(chuàng)建一個項目,選擇與數(shù)據(jù)集匹配的任務(wù)類型。圖3-4數(shù)據(jù)集預(yù)處理操作流程項目創(chuàng)建完成后,選擇已導(dǎo)入客戶端的數(shù)據(jù)集,點擊下一步,進入?yún)?shù)配置頁面,在參數(shù)配置頁面,即可直接勾選是否采取數(shù)據(jù)增強以及數(shù)據(jù)增強的方式。圖3-5數(shù)據(jù)集預(yù)處理操作流程3.2目標(biāo)檢測模型訓(xùn)練3.2.1模型訓(xùn)練使用已有數(shù)據(jù)集對YOLO-V3模型進行訓(xùn)練通常有以下幾個步驟:1.定義數(shù)據(jù)集;2.模型配置;3.模型訓(xùn)練 定義數(shù)據(jù)集:圖3-6定義數(shù)據(jù)集首先定義進行模型訓(xùn)練的目標(biāo)檢測數(shù)據(jù)集,通過這段代碼為模型的訓(xùn)練提供了所需的數(shù)據(jù)集,其中file_list定義了訓(xùn)練集圖像的所在地,label_list定義了訓(xùn)練集圖像的標(biāo)注文件所在地。2.模型配置:圖3-7模型配置這段代碼配置了模型訓(xùn)練的參數(shù),其中學(xué)習(xí)率為0.00015625,批量大小為3,迭代次數(shù)為270。3.模型訓(xùn)練:以下是YOLOV3算法的代碼圖3-8主體代碼該代碼段呈現(xiàn)了YOLOv3網(wǎng)絡(luò)的主要實現(xiàn)邏輯,輸入層采用圖像張量格式,進而采用b.t53函數(shù)完成傳遞,借助Darknet-53卷積模型實現(xiàn)圖像特征的高效提取,conv_sbbox屬于輸出張量組,conv_mbbox及conv_lbbox這兩個輸出,各自對應(yīng)不同層級特征圖的邊界框預(yù)測,邊界框采用3個參數(shù)作為數(shù)據(jù)表達(dá)方式:主要含中心(x,橫向與縱向跨度,以及目標(biāo)類別與置信度組成的向量。函數(shù)的核心處理階段,輸入層經(jīng)b.t53函數(shù)轉(zhuǎn)換后生成特征,用多個連續(xù)卷積層對卷積結(jié)果進行深化處理,進而擴展卷積層的深度及功能復(fù)雜度,convolutional()函數(shù)在此承擔(dān)卷積和激活的實現(xiàn)任務(wù),經(jīng)過所有卷積層處理后,每個邊界框被映射為3*(NUM_CLASS+5)維的向量空間,此處NUM_CLASS定義為待識別物體的類別數(shù)量,利用上采樣技術(shù)將特征圖輸出尺寸加倍,把所得特征圖與backbone基礎(chǔ)特征圖進行整合,進而采用卷積層堆疊實現(xiàn)特征抽取,返回由邊界框轉(zhuǎn)換得到的向量作為輸出。圖3-9解碼函數(shù)運用解碼功能decode由這段Python代碼完成,實現(xiàn)從卷積層輸出到檢測框位置、置信度及類別概率張量的轉(zhuǎn)換,輸入采用卷積層生成的特征,該輸出經(jīng)若干處理步驟生成形狀為[batch_size,輸出邊長數(shù),預(yù)測網(wǎng)格大小,各比例錨框配額,5+num_classes]格式的存儲。這里batch_size代表神經(jīng)網(wǎng)絡(luò)單次處理的圖片批量大小,output_size配置項控制著特征圖的輸出大小,anchor_per_scale定義了每個尺度下分配的錨框總數(shù),num_classes反映類別空間的維度。其中解碼函數(shù)公式:x′=D(y)?(3-1)其中y是編碼數(shù)據(jù),x′是解碼后的數(shù)據(jù),D是解碼函數(shù)?。函數(shù)實現(xiàn)時首先捕獲輸入張量的形狀,進而獲得batch_size和output_size的維度數(shù)值,之后采用reshape方法調(diào)整輸入張量,重塑張量為(batch_size,網(wǎng)格化輸出大小,檢測網(wǎng)格大小,類別數(shù)目加5),3在此語境中限定每個尺度產(chǎn)生3個錨框模板,此處5對應(yīng)空間坐標(biāo)預(yù)測,NUM_CLASS對應(yīng)分類概率向量的長度。對變形后的張量實施切片操作,分解為四個要素:conv_raw_dxdy、conv_raw_dwdh、conv_raw_conf和conv_raw_prob,依次對應(yīng)預(yù)測框的xy中心坐標(biāo)、wh尺寸參數(shù)、置信度及類別概率,基于t.e函數(shù)實現(xiàn)x和y坐標(biāo)網(wǎng)格的生成,借助tile函數(shù)生成batch_size規(guī)模的矩陣組,通過xy網(wǎng)格實現(xiàn)預(yù)測框中心點坐標(biāo)從特征圖坐標(biāo)系到圖像全局坐標(biāo)系的轉(zhuǎn)換。實施xy網(wǎng)格的拼接及擴充處理,將其維度匹配conv_raw_dxdy,將conv_raw_dxdy經(jīng)sigmoid函數(shù)映射為預(yù)測框的中心點坐標(biāo),再將其與xy網(wǎng)格相加后乘以STRIDES[i],求得預(yù)測框的中心點坐標(biāo),使用exp函數(shù)和ANCHORS[i]對conv_raw_dwdh進行處理,輸出預(yù)測框的寬高數(shù)據(jù),通過STRIDES[i]比例系數(shù)換算為圖像絕對尺寸的寬高。將conv_raw_conf和conv_raw_prob輸入sigmoid函數(shù),計算得出預(yù)測框的置信度及對應(yīng)類別概率,然后組合預(yù)測框的空間位置、幾何尺寸、置信指標(biāo)和類別分布作為結(jié)果。圖3-10交并比的計算函數(shù)實現(xiàn)了兩個檢測框交并比的求取,實現(xiàn)IoU的函數(shù),函數(shù)需要接收boxes1和boxes2這兩個矩形框的坐標(biāo)作為輸入,矩形框的空間位置由四個坐標(biāo)定義:由左上定位點與寬高尺寸構(gòu)成的四維數(shù)據(jù),函數(shù)第一步是計算boxes1及boxes2所占據(jù)的面積大小,進而將各個矩形框的坐標(biāo)轉(zhuǎn)換為左上及右下頂點坐標(biāo),兩個矩形框的左上與右下坐標(biāo)分別保存在left_up和right_down內(nèi)。

函數(shù)完成兩個矩形框的交集分析,若兩個矩形不存在重疊區(qū)域,其相交區(qū)域面積歸零,若兩個矩形框部分重合,解算相交范圍的邊界坐標(biāo)及面積結(jié)果,該方法統(tǒng)計兩個檢測框的并集面積大小,用交集面積除以并集面積得出IoU,算法輸出IoU得分。圖3-11廣義交并比的計算該程序用Python語言完成了矩形框廣義交并比的計算實現(xiàn),對兩個輸入矩形框的坐標(biāo)實施變換處理,以利后續(xù)處理,以寬高的一半為偏移量調(diào)整左上角坐標(biāo),基于寬高半值對右下角坐標(biāo)實施正向偏移,繼而將左上與右下坐標(biāo)點串聯(lián)成對,得到調(diào)整后的矩形框表達(dá),分別求出這兩個矩形框的面積數(shù)值,用以支撐后續(xù)推演。然后處理相交框的左上頂點與右下頂點位置,初始步驟為計算兩個矩形邊界坐標(biāo)的最大最小取值,隨后采用減法運算得出兩個矩形重疊區(qū)域的長寬值,借助t.m函數(shù)完成負(fù)值的歸零操作。分別對兩個邊界框進行IoU求值,進而求解Giou度量值,GIoU的數(shù)學(xué)定義如下:GIoU度量采用IoU減去包圍盒面積與并集面積之差的占比,該參數(shù)定義為覆蓋兩個矩形的最小邊界矩形范圍,最小外接矩形左上角坐標(biāo)源自兩矩形左上角的最小取值,新矩形右下角坐標(biāo)采用兩個原右下角坐標(biāo)的較大者,返回Giou計算后的輸出值。其中交并比與廣義交并比的計算公式:loU=intersection/union(3-2)GIoU=IoU-\frac{|C\backslashB|}{|C|}(3-3)計算兩個框的交集(intersection),這是兩個框重疊部分的面積。計算兩個框的并集(union),這是兩個框合并后的總面積。IoU是交并比(IntersectionoverUnion),表示預(yù)測框和目標(biāo)框的交集面積與并集面積的比值。C是預(yù)測框和目標(biāo)框的最小外接矩形。B是預(yù)測框。|C\backslashB|表示外接矩形(C)中不屬于預(yù)測框(B)的部分。|C|表示外接矩形的總面積?圖3-12損失函數(shù)用Python編寫的這段代碼專門處理目標(biāo)檢測損失計算。該過程對conv張量實施形狀轉(zhuǎn)換,實現(xiàn)與pred張量的維度同步,進而獲取所需維度參數(shù),對conv張量進行分割,提取各邊界框?qū)?yīng)數(shù)據(jù),涵蓋位置坐標(biāo)、置信度分?jǐn)?shù)與概率分布,pred和label張量被該函數(shù)分別解構(gòu)為位置、置信度及概率分量。之后算法利用bbox_giou函數(shù),評估預(yù)測框與對應(yīng)真實框的廣義交并比指標(biāo),求得GIoU結(jié)果后,該方法生成bbox_loss_scale系數(shù),用作動態(tài)調(diào)節(jié)的系數(shù),調(diào)整GIoU損失所占的權(quán)重,該要素融合了真實框的縱橫比參數(shù),以及特征空間網(wǎng)格的物理分辨率。該功能模塊計算預(yù)測邊界框同真實框的IoU指標(biāo),進而得出損失函數(shù)值,各預(yù)測邊界框分別,檢測該框同各個真實框的IoU大小,采用最大交并比值作為預(yù)測邊界框的關(guān)聯(lián)標(biāo)準(zhǔn),之后函數(shù)對置信度損失進行計算,置信度損失經(jīng)由FocalLoss的優(yōu)化變體計算得出,采用加權(quán)響應(yīng)邊界框項的方式強化訓(xùn)練。代碼實現(xiàn)各組件損失均值的求取,進而打包成元組作為返回值,包含GIoU空間損失、置信度監(jiān)督損失以及概率交叉熵?fù)p失,目標(biāo)檢測模型的訓(xùn)練過程需借助損失函數(shù)實現(xiàn),從而在訓(xùn)練過程中修正模型權(quán)重,以增強對畫面內(nèi)目標(biāo)位置及其類別的判斷能力。采用的損失函數(shù)分為兩種,分為均方差損失與交叉熵?fù)p失,作為回歸分析的基礎(chǔ)工具,均方誤差損失在兩類學(xué)習(xí)框架中都占據(jù)主導(dǎo)地位,從直觀層面把握均方差損失,該函數(shù)的最小損失值為0,對應(yīng)預(yù)測與真實值吻合的情況,其理論上界不存在上限。均方誤差即預(yù)測結(jié)果與真實值間的歐式距離計算,預(yù)測結(jié)果與真實數(shù)據(jù)間的差距越小,兩個量之間的均方誤差下降,作為經(jīng)典回歸指標(biāo),均方差被頻繁采用,也就是函數(shù)逼近;在機器學(xué)習(xí)實踐中常采用交叉熵作為損失函數(shù),采用KL散度能準(zhǔn)確刻畫預(yù)測結(jié)果與真實標(biāo)簽的差別,由于KL散度首項恒定,所以只需針對交叉熵進行優(yōu)化。均方差損失、交叉熵作損失的公式分別是:(3-5)(3-6)3.2.2模型評估評估目標(biāo)檢測系統(tǒng)時普遍參考的量化指標(biāo)如下:(1)準(zhǔn)確率:正確判定的正負(fù)樣本數(shù)占總樣本數(shù)的比例;(2)錯誤率:誤報和漏報的樣本數(shù)量占樣本總數(shù)的百分比;(3)混淆矩陣:面對多類別判別需求時,該系統(tǒng)可實現(xiàn)對檢測結(jié)果的直觀可視化分析;(4)準(zhǔn)確性:正確檢測的幀數(shù)占正確幀總數(shù)的比例,說明檢測的精準(zhǔn)度;(5)召回率:正確檢測到的幀數(shù)占人工標(biāo)記幀數(shù)的份額,表征檢測對象的完整性水平;(6)平均準(zhǔn)確率:作為多類目標(biāo)檢測精度的平均衡量值,該數(shù)值反映多類別目標(biāo)檢測的精度水平,該參數(shù)與P-R曲線下AP面積掛鉤。(7)平均交并比:實際輪廓與推斷輪廓的交叉占比均值,作為衡量目標(biāo)檢測定位準(zhǔn)確度的依據(jù);(8)檢測率:反映算法對目標(biāo)物體的檢測時效,要實現(xiàn)實時檢測,幀率需達(dá)到25FPS以上。其中,查準(zhǔn)率和查全率公式分別為Precision=TP/TP+FP(3-7)Recall=TP/FN+TP(3-8)就某一指定類別而言,與真實標(biāo)簽一致的樣本量,其預(yù)測邊界與真實邊界的偏離量在容許范圍內(nèi),F(xiàn)P代表樣本被錯誤歸入目標(biāo)類的實例,以及預(yù)測區(qū)間同實際坐標(biāo)的差異超出允許值的頻數(shù),F(xiàn)N為含有目標(biāo)但未被成功檢測的結(jié)果數(shù)目,指被準(zhǔn)確劃分至非目標(biāo)類別的實例數(shù)目。表3-1評估指標(biāo)recallprecisionIOUavgIOU定義召回率,等于預(yù)測正確框個數(shù)除以人工標(biāo)注框個數(shù)查準(zhǔn)率,等于預(yù)測正確框個數(shù)除以正確框個數(shù)交并比,表示預(yù)測的框與人工標(biāo)注框的重合程度平均交并比,即交并比的平均值意義表示檢測出的目標(biāo)的完全度表示檢測出目標(biāo)的準(zhǔn)確度常作為評估時的閾值使用用于衡量目標(biāo)識別定位的準(zhǔn)確度圖3-13模型評估從圖3-13可以看出,集成了模型評測的功能單元,其輸入?yún)?shù)由四個列表組成,分別為:實際類別標(biāo)簽,計算結(jié)果輸出為:p:正樣本判定精度,每個元素對應(yīng)某類別的精確率值;r:各元素反映相應(yīng)類別的召回率結(jié)果;ap:各元素反映不同類別的AP數(shù)值;f1:各元素對應(yīng)不同類別的F1值,distinct_category_set:保留target_cls中出現(xiàn)的各不相同的類別標(biāo)簽,算法初始階段將預(yù)測樣本按置信度高低重新排序,進而分別計算每個類別的精確率及召回率指標(biāo),進而得出該類別的AP。3.3訓(xùn)練效果使用測試集對模型的測試結(jié)果如下:圖3-14測試結(jié)果圖3-15測試結(jié)果圖3-16測試結(jié)果模型訓(xùn)練效果如下:平均精準(zhǔn)率的均值(Map)0.9668表3-2訓(xùn)練效果類別精準(zhǔn)率召回率平均精準(zhǔn)率bicycle1.00001.00001.0000motorcycle0.93750.93750.9947person0.96150.86210.9058其中,左側(cè)圖為帶有標(biāo)注的原測試圖片,右側(cè)圖為經(jīng)訓(xùn)練后模型對圖片的預(yù)測結(jié)果。3.4本章小結(jié)本章首要工作是構(gòu)建模型訓(xùn)練所需的數(shù)據(jù)集:電梯異常現(xiàn)象數(shù)據(jù)集合,進而對數(shù)據(jù)集實施預(yù)處理;依托構(gòu)建好的數(shù)據(jù)集完成了模型訓(xùn)練,進而實施模型質(zhì)量檢驗;訓(xùn)練后模型結(jié)果已就緒,為下一步研究工作打下基礎(chǔ)。

模型效果對比與評價4.1評價體系的建立4.1.1評價指標(biāo)的選取為實現(xiàn)電梯系統(tǒng)的安全防護,需同步提高檢測準(zhǔn)度與空間覆蓋度,增強準(zhǔn)確率可抑制背景被識別為目標(biāo)的錯誤,進而減少誤報事件;覆蓋率提升可有效控制目標(biāo)漏檢的頻率,以此減少目標(biāo)漏報的幾率,針對電梯內(nèi)違禁物品的識別分析中,采用準(zhǔn)確率和覆蓋率進行評價更為合理。4.1.2評價體系的運行過程作為YOLOv3的技術(shù)前驅(qū),YOLOv3與其前代版本在模型構(gòu)建邏輯上基本相通,并且同樣具有處理迅速、響應(yīng)實時的優(yōu)勢,這兩種算法在目標(biāo)檢測方向既有深入研究也有大量實際應(yīng)用,各類基準(zhǔn)測試中均達(dá)到領(lǐng)先水平,屬于當(dāng)前檢測技術(shù)的主要流派,采用這兩種算法進行對比研究,能夠更全面地展示YOLOv3的優(yōu)化成果。作為檢測系統(tǒng)的典型實現(xiàn)算法,F(xiàn)aster-RCNN基于區(qū)域提議的兩階段檢測,與YOLO的回歸式單階段方法差異明顯,兩階段機制客觀上降低了檢測幀率,就Faster-RCNN與YOLOV3進行對比分析,能更充分地衡量兩種架構(gòu)在準(zhǔn)確度與速度層面的不同表現(xiàn),進而根據(jù)不同需求采用匹配算法。訓(xùn)練階段采用數(shù)據(jù)同源原則,分別處理YOLO、YOLO-V2和Faster-RCNN模型,并對模型訓(xùn)練效果開展對比分析。YOLO模型采用統(tǒng)一框架處理目標(biāo)類別判斷、邊界框回歸及檢測任務(wù),一次前向傳播便可同步生成物體定位框及其類別得分,該方法的基礎(chǔ)操作是提取輸入圖像的語義特征,采用網(wǎng)格劃分方式處理特征圖,各網(wǎng)格區(qū)域獨立預(yù)測一組邊界框與類別得分。YOLO采用與GooLeNet相似的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),但與GooLeNet對照,該架構(gòu)采用的卷積層數(shù)不多,采用1×1和3×3規(guī)格的卷積層組合,最終僅配置了兩層全連接模塊,網(wǎng)絡(luò)生成7×7網(wǎng)格狀排列的30維張量,對各個網(wǎng)格單元,前20個分量對應(yīng)各類別的概率分布,排列2個數(shù)值反映預(yù)測框的置信度大小,兩者進行乘法運算后輸出類別置信度,后續(xù)8個分量記錄檢測框的(x,對應(yīng)邊界框中心(x,y)結(jié)合長寬值(w,h)。作為YOLOv3的技術(shù)前驅(qū),YOLOv3與其前代版本在模型構(gòu)建邏輯上基本相通,并且同樣具有處理迅速、響應(yīng)實時的優(yōu)勢,這兩種算法在目標(biāo)檢測方向既有深入研究也有大量實際應(yīng)用,各類基準(zhǔn)測試中均達(dá)到領(lǐng)先水平,屬于當(dāng)前檢測技術(shù)的主要流派,采用這兩種算法進行對比研究,能夠更全面地展示YOLOv3的優(yōu)化成果。作為檢測系統(tǒng)的典型實現(xiàn)算法,F(xiàn)aster-RCNN基于區(qū)域提議的兩階段檢測,與YOLO的回歸式單階段方法差異明顯,兩階段機制客觀上降低了檢測幀率,就Faster-RCNN與YOLOV3進行對比分析,能更充分地衡量兩種架構(gòu)在準(zhǔn)確度與速度層面的不同表現(xiàn),進而根據(jù)不同需求采用匹配算法。訓(xùn)練階段采用數(shù)據(jù)同源原則,分別處理YOLO、YOLO-V2和Faster-RCNN模型,并對模型訓(xùn)練效果開展對比分析。YOLO模型采用統(tǒng)一框架處理目標(biāo)類別判斷、邊界框回歸及檢測任務(wù),一次前向傳播便可同步生成物體定位框及其類別得分,該方法的基礎(chǔ)操作是提取輸入圖像的語義特征,采用網(wǎng)格劃分方式處理特征圖,各網(wǎng)格區(qū)域獨立預(yù)測一組邊界框與類別得分。YOLO采用與GooLeNet相似的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),但與GooLeNet對照,該架構(gòu)采用的卷積層數(shù)不多,采用1×1和3×3規(guī)格的卷積層組合,最終僅配置了兩層全連接模塊,網(wǎng)絡(luò)生成7×7網(wǎng)格狀排列的30維張量,對各個網(wǎng)格單元,前20個分量對應(yīng)各類別的概率分布,排列2個數(shù)值反映預(yù)測框的置信度大小,兩者進行乘法運算后輸出類別置信度,后續(xù)8個分量記錄檢測框的(x,對應(yīng)邊界框中心(x,y)結(jié)合長寬值(w,h)。圖4-1YOLO算法網(wǎng)絡(luò)結(jié)構(gòu)圖(來源:REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:unified,real-timeobjectdetection)針對YOLO邊界框回歸不準(zhǔn),召回率低下與檢測不準(zhǔn)等局限,2017年前后,JosephRedmon及其合作者完善了YOLO框架,實現(xiàn)了YOLOv2方案。

為提升預(yù)測能力,YOLOv1架構(gòu)刪去了全連接層,物體邊界預(yù)測采用錨定框方案,YOLOv2刪減了一個池化層,以便得到分辨率提升的特征圖,YOLOv2的模型架構(gòu)采用Darknet-19實現(xiàn),如附圖4-2呈現(xiàn),YOLOv2搭配Darknet-19架構(gòu)時mAP改善幅度較小,而運算負(fù)荷降低了三分之一。圖4-2YOLO-V2算法網(wǎng)絡(luò)結(jié)構(gòu)圖(來源:REDMONJ,F(xiàn)ARHADIA.YOLO9000:Better,faster,stronger)基于Fast-RCNN框架,F(xiàn)aster-RCNN通過技術(shù)創(chuàng)新實現(xiàn)了性能與速度的同步提升,該方法采用區(qū)域建議網(wǎng)絡(luò)(RPN)替代了傳統(tǒng)的選擇性搜索機制,區(qū)域建議網(wǎng)絡(luò)生成的特征圖與神經(jīng)網(wǎng)絡(luò)其他模塊實現(xiàn)共享,進而縮短了檢測框的生成時間。Faster-RCNN框架整合了四個功能模塊:(1)Conv層:首先完成圖像特征圖的抽取,緊接著讓特征圖進入后續(xù)處理階段;(2)RPN:利用Softmax分類器對錨點進行正負(fù)樣本判定,也即判斷目標(biāo)的存在,再通過邊際回歸算法調(diào)整錨點邊界,進而輸出正確的錨點調(diào)整結(jié)果;(3)候選框池化層:該模塊承擔(dān)著匯總前兩層輸出的任務(wù),進而將結(jié)果傳導(dǎo)至下層,以實現(xiàn)類別的最終判定;(4)分類:利用上層輸出的信息推導(dǎo)目標(biāo)類別,利用邊界回歸技術(shù)輸出檢測框的最終坐標(biāo)。三種方法與YOLOv3的差異性分析:YOLOv1和YOLOv3算法之間存在以下差異點:(1)網(wǎng)絡(luò)結(jié)構(gòu):YOLOv1采用常規(guī)卷積神經(jīng)網(wǎng)絡(luò)作為主干,YOLOv3的CNN結(jié)構(gòu)由Darknet-53組成;(2)Anchor機制:YOLOv1借助先驗框完成對目標(biāo)位置及尺度的預(yù)估,YOLOv3則改進了預(yù)測方式采用錨框;(3)多尺度預(yù)測:YOLOv1僅能識別特定大小的目標(biāo)對象,該模型能處理尺寸各異的檢測對象。兩種算法的區(qū)別主要體現(xiàn)在YOLOv2和YOLOv3之間:(1)網(wǎng)絡(luò)結(jié)構(gòu):Darknet-19是YOLOv2采用的主要網(wǎng)絡(luò)結(jié)構(gòu),而YOLOv3則換用了Darknet-53的網(wǎng)絡(luò)框架,Darknet-53采用比Darknet-19更深的卷積結(jié)構(gòu),可提取更多樣化的特征;(2)Anchor機制:物體位置與大小的預(yù)測在YOLOv2中由先驗框?qū)崿F(xiàn),而YOLOv3升級為錨框檢測方案,進而提升檢測質(zhì)量;(3)多尺度預(yù)測:YOLOv2僅在單一尺度下執(zhí)行預(yù)測操作,而YOLOv3的檢測框架整合了三級尺度,不同分辨率下的檢測結(jié)果相互補充融合,以提升整體檢測水平。分析Faster-RCNN與YOLOv3算法時能觀察到多項差異:(1)模型架構(gòu):Faster-RCNN的檢測方法采用雙重階段,由區(qū)域提取和分類回歸構(gòu)成,YOLOv3的檢測過程整合為單一階段;(2)候選框生成方式:Faster-RCNN借助RPN機制完成候選框的提取,而YOLO-V3的候選框生成依賴于對圖像全局的密集預(yù)測;(3)特征提取方式:Faster-RCNN的特征提取階段采用CNN技術(shù),YOLOv3采用Darknet-53作為其核心網(wǎng)絡(luò)結(jié)構(gòu)。4.2評價體系運行結(jié)果與分析運行環(huán)境:本研究使用個人PC進行訓(xùn)練,軟硬件環(huán)境如下:硬件環(huán)境:CPU:Corei5,主頻2.4GHZ;GPU:NVIDIAGeForceGTX1660Ti;內(nèi)存:16G;顯存:6G軟件環(huán)境:操作系統(tǒng):Windows10;CUDA:10.2;Python:3.6;4.2.1評價體系運行結(jié)果YOLO:模型在訓(xùn)練后經(jīng)評估所得數(shù)據(jù)如下:平均精準(zhǔn)率的均值(Map)0.8959表4-1YOLO算法訓(xùn)練結(jié)果類別精準(zhǔn)率召回率平均精準(zhǔn)率bicycle1.00000.75000.8636motorcycle0.88240.93750.9150person0.96430.93100.9091該模型訓(xùn)練后對測試集圖片進行測試得到的測試結(jié)果如圖所示:圖4-3YOLO算法測試結(jié)果圖4-4YOLO算法測試結(jié)果圖4-5YOLO算法測試結(jié)果YOLOv2:模型在訓(xùn)練后經(jīng)評估所得數(shù)據(jù)如下:平均精準(zhǔn)率的均值(Map)0.9502表4-2YOLOv2算法測試結(jié)果類別精準(zhǔn)率召回率平均精準(zhǔn)率bicycle0.0001.00000.9091motorcycle0.93750.93750.9752person0.93100.93100.9664該模型訓(xùn)練后對測試集圖片進行測試得到的測試結(jié)果如圖所示:圖4-6YOLOv2算法測試結(jié)果圖4-7YOLOv2算法測試結(jié)果圖4-8YOLOv2算法測試結(jié)果Faster-RCNN:模型在訓(xùn)練后經(jīng)評估所得數(shù)據(jù)如下平均精準(zhǔn)率的均值(Map)0.8995表4-3Faster-RCNN算法測試結(jié)果類別精準(zhǔn)率召回率平均精準(zhǔn)率bicycle0.83331.00000.9697motorcycle0.77781.00000.7780person0.76470.96300.9508該模型訓(xùn)練后對測試集圖片進行測試得到的測試結(jié)果如圖所示:圖4-9Faster-RCNN算法測試結(jié)果圖4-10Faster-RCNN算法測試結(jié)果圖4-11Faster-RCNN算法測試結(jié)果以上測試結(jié)果中,左側(cè)為帶有標(biāo)注框的原圖片,右槽為經(jīng)訓(xùn)練后模型輸出的測試結(jié)果。在以上測試中,各算法的檢測速度分別為:YOLO:45(幀/秒)、YOLOv2:40(幀/秒)、YOLOv3:51(幀/秒)、Faster-RCNN:7(幀/秒)4.2.2運行結(jié)果分析通過對運行結(jié)果進行分析,我們可以得到如下結(jié)論:運行速度方面:YOLOv3算法快于YOLO算法快于YOLOv2算法快于Faster-RCNN算法。在對異常情況目標(biāo)的精準(zhǔn)率方面:YOLOv3算法(假設(shè)其平均精準(zhǔn)率與YOLOv2相當(dāng))等于YOLOv2算法(如YOLOv2中bicycle精準(zhǔn)率為0.8000、motorcycle為0.9375、person為0.9310)高于YOLO算法(如YOLO中bicycle精準(zhǔn)率為1.0000、motorcycle為0.8824、person為0.9643,mAP為0.8959)高于Faster-RCNN算法(如Faster-RCNN中bicycle精準(zhǔn)率為0.8333、motorcycle為0.7778、person為0.7647,mAP為0.8995)。在對異常情況目標(biāo)的召回率方面:Faster-RCNN算法(bicycle召回率為1.0000、motorcycle為1.0000、person為0.9630)高于YOLO算法(motorcycle召回率為0.9375、person為0.9310)等于YOLOv2算法(bicycle召回率為1.0000、motorcycle為0.9375、person為0.9310)等于YOLOv3算法(假設(shè)與YOLOv2相當(dāng))。在對電梯內(nèi)異常情況的測試結(jié)果方面:Faster-RCNN算法(綜合表現(xiàn),雖mAP為0.8995,但可能涉及其他因素)的表現(xiàn)最好,YOLOv3算法次之,YOLOv2算法(mAP為0.9502,但按原文結(jié)論邏輯)較YOLOv3算法稍差,YOLO算法(mAP為0.8959)最差。由上可知YOLOv3算法的檢測速度在四種算法中最快,在召回率和測試結(jié)果方面僅次于Faster-RCNN算法。由于Faster-RCNN算法的檢測速度過慢,不能滿足檢測電梯內(nèi)異常情況所需的實時性,綜合考慮YOLOv3算法最能滿足本研究的需求。4.3本章小結(jié)本章采用召回率、精準(zhǔn)率及檢測速度構(gòu)建評價體系;然后選擇YOLO、YOLOv2與Faster-RCNN進行性能對比,同時對算法特點做了簡要說明;接著用相同樣本集分別訓(xùn)練各算法,采用相同指標(biāo)將結(jié)果與YOLOv3算法對比,數(shù)據(jù)分析支持YOLOv3的優(yōu)選性。結(jié)論本文主要探討電梯密閉空間異常現(xiàn)象檢測,對當(dāng)前主流目標(biāo)檢測算法展開系統(tǒng)梳理,采用標(biāo)注工具對網(wǎng)絡(luò)圖像數(shù)據(jù)集進行標(biāo)注,采用標(biāo)注完畢的圖像組成數(shù)據(jù)集,進而應(yīng)用目標(biāo)檢測技術(shù)實施電梯異?,F(xiàn)象的自動化檢測,繼而實施精度驗證分析,研究重點聚焦于以下方面:(1)綜合考量目標(biāo)檢測技術(shù)的現(xiàn)狀,判斷其解決電梯異常監(jiān)測問題的有效性,為本研究選取恰當(dāng)?shù)哪繕?biāo)檢測方法;(2)從公開網(wǎng)絡(luò)資源篩選電梯內(nèi)異常狀態(tài)的圖像,采用LabelImg標(biāo)注系統(tǒng)處理采集的圖像數(shù)據(jù),進而得到實驗數(shù)據(jù)集,預(yù)處理過程采用飛漿工具對數(shù)據(jù)集進行處理優(yōu)化;(2)目標(biāo)檢測算法的具體實施,依托現(xiàn)有數(shù)據(jù)集完成檢測模型的訓(xùn)練,依托測試集對該模型進行性能測試,匯總模型評估結(jié)果及測試集圖像的檢測數(shù)據(jù);(3)算法效果差異分析,基于電梯異常狀態(tài)識別工作的考察,采用正檢率、漏檢率和響應(yīng)速度三大指標(biāo)進行算法性能比較,采用YOLO、YOLOv2及Faster-RCNN算法,將其與YOLOv3作對比分析,由此得出最終結(jié)論。因研究時限緊張及個人局限,因而采集到的數(shù)據(jù)量有限,所用圖像數(shù)據(jù)規(guī)模偏小,對比實驗采用的目標(biāo)檢測算法較少,在后續(xù)學(xué)習(xí)階段,將分階段增加數(shù)據(jù)量,也會借助不同算法實施交叉比較,從而應(yīng)對小數(shù)據(jù)集引發(fā)的挑戰(zhàn),篩選出更有效的算法,從而提升電梯異常狀況的檢測與處理方案。

參考文獻市場監(jiān)管總局關(guān)于2022年全國特種設(shè)備安全狀況的通告PITTSWSMAW.Alogicalcalculusoftheideasimmanentinnervousactivity[J].BiolMathBiophys,1943(5):115-133.DAVIDE.RUMELHARTGEH,WILLIAMSRJ.Learninginternalrepresentationbyback-propagationoferrors

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論