基于YOLO-v5的圖像人工智能識別系統(tǒng)設(shè)計_第1頁
基于YOLO-v5的圖像人工智能識別系統(tǒng)設(shè)計_第2頁
基于YOLO-v5的圖像人工智能識別系統(tǒng)設(shè)計_第3頁
基于YOLO-v5的圖像人工智能識別系統(tǒng)設(shè)計_第4頁
基于YOLO-v5的圖像人工智能識別系統(tǒng)設(shè)計_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要當下,人工智能發(fā)展迅速,目標檢測與圖像識別技術(shù)也不斷進步。YOLOv5是先進的目標檢測算法,其檢測速度快、準確度高,實時任務(wù)中的優(yōu)勢明顯。PyTorch深度學(xué)習(xí)框架的代碼簡單、支持動態(tài)計算圖且跨平臺性強,兩者結(jié)合為計算機視覺應(yīng)用賦予了核心技術(shù)。本文利用YOLOv5目標檢測算法和PyTorch深度學(xué)習(xí)框架,分別實現(xiàn)了實時物體識別與計數(shù)系統(tǒng)和人臉表情識別系統(tǒng)。在物體識別與計數(shù)系統(tǒng)中,使用的是YOLOv5網(wǎng)絡(luò)結(jié)構(gòu),通過使用輕量級模塊替代原模型中的部分模塊以及對YOLOv5模型進行剪枝等操作來提高YOLOv5的推理速度;利用PyTorch的動態(tài)計算圖以及CPU加速功能,加上OpenCV處理視頻流,實現(xiàn)對多個物體的快速識別及準確計數(shù),經(jīng)過公開數(shù)據(jù)集和實際場景測試,對于一般物體的平均識別準確率可達到70%以上。而人臉表情識別系統(tǒng)是先用YOLOv5在復(fù)雜場景中準確檢測人臉,再用PyTorch搭建深度卷積神經(jīng)網(wǎng)絡(luò)對裁剪的人臉圖像進行特征提取和表情分類,針對數(shù)據(jù)集樣本不平衡問題,使用數(shù)據(jù)增強和焦點損失函數(shù)優(yōu)化訓(xùn)練,最后結(jié)果顯示其表情識別準確率達到71.9%,可以實時穩(wěn)定識別七種常見表情。兩個系統(tǒng)為工業(yè)質(zhì)檢、安防監(jiān)控、智能人機交互、等提供高效可靠的技術(shù)方案。關(guān)鍵詞:YOLOv5PyTorch實時識別與計數(shù)人臉表情識別AbstractNowadays,artificialintelligenceisdevelopingrapidly,andthetechnologyoftargetdetectionandimagerecognitionisalsoprogressing.YOLOv5isanadvancedtargetdetectionalgorithmwithfastdetectionspeed,highaccuracy,andobviousadvantagesinreal-timetasks.ThePyTorchdeeplearningframeworkhasasimplecode,supportsdynamiccomputationalgraphsandhasstrongcross-platform,andthecombinationofthetwoendowsthecomputervisionapplicationswiththecoretechnology.Inthispaper,weutilizeYOLOv5targetdetectionalgorithmandPyTorchdeeplearningframeworktoimplementareal-timeobjectrecognitionandcountingsystemandafaceexpressionrecognitionsystem,respectively.Intheobjectrecognitionandcountingsystem,theYOLOv5networkstructureisused,andtheinferencespeedofYOLOv5isimprovedbyusinglightweightmodulestoreplacesomemodulesintheoriginalmodelaswellasbyperformingoperationssuchaspruningontheYOLOv5model;thedynamiccomputationgraphandCPUaccelerationofPyTorchareutilized,alongwiththeprocessingofvideostreamsbyOpenCV,toachievefastmultipleobjectRecognitionandaccuratecounting,afterpublicdatasetandactualscenetesting,theaveragerecognitionaccuracyforgeneralobjectscanreachmorethan70%.ThefaceexpressionrecognitionsystemusesYOLOv5toaccuratelydetectfacesincomplexscenes,thenbuildsadeepconvolutionalneuralnetworkwithPyTorchtoperformfeatureextractionandexpressionclassificationonthecroppedfaceimages,andoptimizesthetrainingusingdataenhancementandfocuslossfunctionforthesampleimbalanceprobleminthedataset,andthefinalresultsshowthatitsexpressionrecognitionaccuracyreaches71.9%,anditcanstablyrecognizesevencommonexpressionsinrealtime.Recognizesevenkindsofcommonexpressions.Thetwosystemsprovideefficientandreliabletechnicalsolutionsforindustrialqualityinspection,securitymonitoring,intelligenthuman-computerinteraction,andsoon.Keywords:YOLOv5,PyTorch,real-timerecognitionandcounting,faceexpressionrecognition.目錄TOC\o"1-3"\h\u2294第1章緒論 第1章緒論1.1研究背景及意義人工智能屬于引領(lǐng)全球第四次工業(yè)革命的主要推動力,是引發(fā)新一輪科技與產(chǎn)業(yè)革命的重要技術(shù)REF_Ref3414\r\h[1]。在國家大力推進新一代信息技術(shù)同制造業(yè)深度融合的政策指引之下,人工智能產(chǎn)業(yè)已被列入我國“十三五”規(guī)劃中重點發(fā)展的新興產(chǎn)業(yè)之一,并且正在不斷發(fā)展壯大。按照國際數(shù)據(jù)公司(IDC)和浪潮電子信息產(chǎn)業(yè)有限公司給出的數(shù)據(jù)來看,中國人工智能市場的規(guī)模在2020年大概會達到62.7億美元,這個數(shù)值到了2024年可能會擴充到172.2億美元。隨著中國經(jīng)濟邁入新狀態(tài)時期,人工智能慢慢滲透進社會生活的各個方面,給不同行業(yè)帶來深刻的改變,促使經(jīng)濟結(jié)構(gòu)以及社會形式得到更新和升級。2019-2024年的預(yù)測表明,此期間人工智能市場的復(fù)合年增長率會達到30.4%,這種明顯的增長態(tài)勢將會讓中國變成全球人工智能市場增長的主要推動力量,伴隨人工智能應(yīng)用范圍不斷擴大,它對經(jīng)濟發(fā)展、社會服務(wù)改善以及國家安保等方面產(chǎn)生的影響愈發(fā)突出。按照國際數(shù)據(jù)公司(IDC)最近發(fā)布的一份報告來看,未來三年里,多于90%的企業(yè)正在著手實施或準備采納人工智能技術(shù),從而做到業(yè)務(wù)更新并加強效率,這又一次證明了人工智能技術(shù)在全世界范疇內(nèi)被廣泛接受且變得越發(fā)重要REF_Ref3682\r\h[2]。人工智能屬于一種革新性技術(shù),它已經(jīng)滲入到社會經(jīng)濟生活的各個領(lǐng)域,人工智能在推動新興產(chǎn)業(yè)產(chǎn)生、改良傳統(tǒng)產(chǎn)業(yè)、重新規(guī)劃產(chǎn)業(yè)布局以及加強生產(chǎn)效能方面起到了關(guān)鍵作用,與各種新興科技相融合形成了多種不同的形態(tài),怎樣有效地運用人工智能技術(shù)來引領(lǐng)我國產(chǎn)業(yè)完成轉(zhuǎn)型升級,這是國家發(fā)展戰(zhàn)略上最為關(guān)鍵的要點。近些年來,人工智能領(lǐng)域的研究和實踐不斷深入發(fā)展,我國在智能制造方面也有了發(fā)展進步,不少針對培育人工智能產(chǎn)業(yè)生態(tài)的政策性舉措陸續(xù)推出,諸如《關(guān)于推進IPv6技術(shù)演進和應(yīng)用創(chuàng)新發(fā)展指導(dǎo)意見》以及《關(guān)于支持建設(shè)新一代人工智能示范應(yīng)用場景通知》這些文件的主要著眼點在于創(chuàng)建和完善人工智能生態(tài)系統(tǒng)。當下,我國已經(jīng)形成起以政府為主導(dǎo),多方主體協(xié)同參與的多層次產(chǎn)業(yè)生態(tài)體系,人工智能產(chǎn)業(yè)正在蓬勃發(fā)展,尤其在農(nóng)業(yè)生產(chǎn)以及制造業(yè)領(lǐng)域,工業(yè)機器人等智能技術(shù)普遍應(yīng)用,這促使生產(chǎn)效率和智能化水平得到提升,使得我國連續(xù)六年躋身全球工業(yè)機器人市場的最大規(guī)模國家之列REF_Ref3741\r\h[3]。圖像識別技術(shù),作為一門讓計算機能夠?qū)σ曈X數(shù)據(jù)進行理解與解析的學(xué)科,其實質(zhì)就是利用一系列的計算方法,來完成對圖像元素的信息采集、處理、解析以及分析等工作,從而形成包含信息獲取、數(shù)據(jù)處理以及分類決策為的綜合信息處理體系。而這一技術(shù)的核心架構(gòu)呈現(xiàn)出明顯的層次性,從原始圖像的空間信息開始,逐漸深入到提取特征的空間,最后匯聚成代表某種特定類別認知的空間,其中,特征匹配成為圖像與潛在類別之間的重要紐帶。圖像識別的第一步就是對圖像進行準確描述并將其精準定位到特征空間中,這是保證后續(xù)分析和識別過程有效性的基礎(chǔ),然后通過特征匹配的方法將特征域映射到分類域,這一步是整個圖像識別流程中的基礎(chǔ),是實現(xiàn)更高精度的圖像識別過程的基礎(chǔ)REF_Ref3858\r\h[4]。傳統(tǒng)計算機圖像識別領(lǐng)域里,識別策略大多依照算法的理論參數(shù)來執(zhí)行,整合并解析圖像數(shù)據(jù),由于現(xiàn)實情況中計算機存在運算效率、內(nèi)存容量等約束,所以在處理復(fù)雜的圖像信息的時候常常陷入瓶頸,精確分析和處理能力受到局限,當圖像特征與預(yù)設(shè)的理論參數(shù)出現(xiàn)偏差時,就很容易發(fā)生誤識或者不準確的識別結(jié)果。而人工智能時代來臨以后,人類智能水平得到很大提升,計算機隨之智能化升級,可以自動識別并且高效處理復(fù)雜的圖像信息,這種改變既改善了圖像識別的精準度和效率,又給人工智能技術(shù)在視覺方面的廣泛應(yīng)用形成了根基。憑借人工智能圖像識別技術(shù),可以針對那些有著相同數(shù)據(jù)特點并且?guī)в幸恢聵俗R的圖像內(nèi)容執(zhí)行精準分類,這樣就明顯改善了圖像識別工作的執(zhí)行速度與準確性,人們可以達成對海量圖像數(shù)據(jù)集的自動剖析,并創(chuàng)建起一種有組織的數(shù)據(jù)庫體系。通過細致分析大規(guī)模樣本數(shù)據(jù)集,人工智能圖像識別技術(shù)能夠顯示出更多內(nèi)在的模式和關(guān)聯(lián),這會使算法的性能和應(yīng)用效能得到極大的改善??傊?,人工智能為圖像識別技術(shù)帶來新突破的同時,也給人們?nèi)粘I罟ぷ髦袔順O大便利。近年來,人工智能在圖像識別領(lǐng)域取得了顯著的進步,特別是深度學(xué)習(xí)的出現(xiàn),它能夠通過學(xué)習(xí)大量數(shù)據(jù),自動識別和提取特征,從而在圖像識別方面展現(xiàn)出更卓越的性能和更高的精度。經(jīng)過不斷的訓(xùn)練和學(xué)習(xí),它已經(jīng)能夠在圖像識別領(lǐng)域替代人工,實現(xiàn)對目標圖像的有效識別,從而解決了人工識別效率不能滿足社會高度發(fā)展需求的問題。人臉表情在人類交流中扮演著至關(guān)重要的角色,它不僅直接反映個體的情感狀態(tài),還有助于理解他人的情緒和意圖,是一種最自然、最有力、最直接的外在表現(xiàn)。心理學(xué)家AlbertMehrabian等人指出,在情感中絕大部分通過面部表情來表達,約占55%,通過語言的語調(diào)和語氣來傳達情感占到38%,只有7%是通過語言來表達的。Mehrabian的研究數(shù)據(jù)顯示,面部表情在人類信息交流時扮演著至關(guān)重要的角色。早在二十世紀,國際知名心理學(xué)家Ekman及其團隊的跨文化研究首次確定了六種基本面部表情:高興、悲傷、憤怒、恐懼、厭惡和驚訝。隨后,輕蔑也被歸類為基本情緒之一,不同背景文化的人對于這些基本情緒都是認可和理解的。面部表情識別(FacialExpressionRecognition,F(xiàn)ER)是一種分類任務(wù),把計算機視覺,機器學(xué)習(xí)等先進科技融合在一起,目的是從靜止圖像或者動態(tài)視頻序列當中準確地捕捉并解析人臉表情特征,這個過程包含對表情特征的提取,處理以及分類,其目標在于形成有效的分類模型,從而做到對表情的精確識別,而且把表情歸入預(yù)先設(shè)定的情感類別當中。人臉表情識別技術(shù)的研究重點放在提升表情信息的獲取速度和利用效率上,從而達成自動化且非??煽康拿娌勘砬樽R別能力,這項技術(shù)在人機互動領(lǐng)域有著極其重要的地位,它可以讓電腦更好地懂得人類的情緒狀況,而且讓互動過程變得非常智能和快速,給很多應(yīng)用場合,比如情感計算,虛擬現(xiàn)實,智能客服等賦予了很強的支持力量。隨著科技的迅速發(fā)展以及計算機視覺和深度學(xué)習(xí)的快速進步,人臉表情識別已成為當前人工智能中備受矚目的研究領(lǐng)域,它的重要價值一方面表現(xiàn)在帶動技術(shù)不斷更新?lián)Q代,另一方面也體現(xiàn)在應(yīng)對各行各業(yè)對高效人機交互需求日益增長的情況下有著巨大潛力和應(yīng)用前景。1.2國內(nèi)外研究現(xiàn)狀隨著數(shù)據(jù)規(guī)模的日益增長以及計算能力的日益提高,各個行業(yè)都面臨著海量數(shù)據(jù)積累與處理的挑戰(zhàn)。深度學(xué)習(xí)是一種可以從海量數(shù)據(jù)中自動學(xué)習(xí)和提取規(guī)律的技術(shù),已逐步得到廣泛的應(yīng)用。在本文中,主要從消化內(nèi)鏡領(lǐng)域、目標識別裝備領(lǐng)域和智能監(jiān)控領(lǐng)域三方面簡要論述人工智能圖像識別的應(yīng)用。此外,還會簡要論述人臉表情識別的國內(nèi)外研究現(xiàn)狀。1.2.1消化內(nèi)鏡領(lǐng)域研究現(xiàn)狀內(nèi)鏡技術(shù)屬于診斷上消化道病變的關(guān)鍵手段,它在胃腸疾病診療當中起著不可或缺的決定性作用,而且,伴隨著人工智能(AI)技術(shù)持續(xù)更新,其在醫(yī)療影像識別和數(shù)據(jù)整合方面的應(yīng)用前景正在變得越發(fā)寬廣,消化內(nèi)鏡是一門結(jié)合影像學(xué)和工程學(xué)的交叉學(xué)科,它同AI相結(jié)合之后所展現(xiàn)出的潛力非常大,可以明顯加強醫(yī)生在維持診斷質(zhì)量,辨別可能存在的盲區(qū)并準確挑選病灶等方面的工作效率。1.國外消化內(nèi)鏡領(lǐng)域的研究現(xiàn)狀

日本癌癥研究所醫(yī)院的HirasawaREF_Ref19941\r\h[5]等提出了一種利用深度學(xué)習(xí)技術(shù)的創(chuàng)新性胃癌檢測策略,這個方法有著非常高的敏感度,達到92.2%的水平,極大改善了診斷效果,很大程度上減輕了內(nèi)窺鏡醫(yī)生的工作負擔。日本大阪國際癌癥研究所Kanesaka[6]等人率先提出一種基于窄波段影像技術(shù)的系統(tǒng)性方案,目的在于達成早期胃癌的自動診斷并實施精確的區(qū)域分割,這種革命性的辦法依靠深度學(xué)習(xí)的高級算法,大幅改進了胃癌區(qū)域的提取和分割速度及精確度,其靈敏度為96.7%,而特異性更是高達95%,這項成就極大推動了胃癌的精準診治進程,而且給臨床醫(yī)生賦予了更為可信且有效的預(yù)后評判手段,這是在胃癌防治方面邁出的一大步。日本大阪國際癌癥研究所的OhmoriM等[8]提出了一種基于深度學(xué)習(xí)的技術(shù)框架,專門用來早期識別食管癌,這種方法的性能非常出色,它的敏感度達到了98%,遠超經(jīng)驗豐富的內(nèi)鏡醫(yī)生的診斷水平,這項重大突破有益于改進食管癌早期診斷的準確性與效率,從而優(yōu)化病人的預(yù)后情況及其生活品質(zhì)。當下,國際學(xué)術(shù)界針對胃內(nèi)窺鏡展開的研究大多集中在既定的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之上,著眼于辨別幽門螺旋桿菌感染,慢性萎縮性胃炎,早期胃癌之類的病情狀況,這樣一種研究途徑忽視了這些疾病之間存在的聯(lián)系,缺少推理步驟,而且沒有很好地結(jié)合臨床專家的實際操作經(jīng)驗,僅僅依靠數(shù)據(jù)推動的分析手段,如此一來,便有可能造成對疾病現(xiàn)象認識得不完整,不深刻,從而影響到診斷結(jié)果的準確度和可信度。2.國內(nèi)消化內(nèi)鏡領(lǐng)域的研究現(xiàn)狀復(fù)旦大學(xué)附屬中山醫(yī)院的Zhu等[9]人使用了ResNet50架構(gòu)這個深度學(xué)習(xí)模型,深入探究它在胃癌浸潤深度定位上的準確度,達成了89.16%的定位準確率,這種新方法不但能夠很好地做到早期胃癌組織同正常組織的精準分離,而且還能有效地削減不必要的手術(shù)操作次數(shù),給提升治療效率和改善患者的生活品質(zhì)給予了有力支撐。針對放大型窄帶成像(MagnifyingEndoscopywithNarrowBandImaging,ME-NBI)鑒別早期胃癌與非癌性病變的診斷效果不理想、需要豐富的專業(yè)知識和經(jīng)驗等問題,浙江大學(xué)附屬第一人民醫(yī)院李教授Li等[10提出了一個革新性的基于卷積神經(jīng)網(wǎng)絡(luò)的胃癌影像診斷策略。這一方法在敏感性、特異性及準確性表現(xiàn)優(yōu)異,分別達到了91.18%、90.64%以及90.91%的較高水平,而且同傳統(tǒng)的手工神經(jīng)網(wǎng)絡(luò)診斷以及專家評定相比,在特異性和準確性這兩項指標上并沒有表現(xiàn)出統(tǒng)計學(xué)意義的差別,這就表明它在胃癌診斷方面存在革新性的價值。重慶大學(xué)計算機學(xué)院和第三軍醫(yī)大學(xué)附屬第一醫(yī)院的Liu等[11]構(gòu)建了基于深度卷積神經(jīng)網(wǎng)絡(luò)的胃MM-NBI多模態(tài)窄帶影像診斷模型,并將其應(yīng)用于慢性胃炎、低度惡性轉(zhuǎn)化、早期胃癌等疾病的檢測中,其識別率較傳統(tǒng)人工紋理特征提取有較大提升,精度可達96%。青島大學(xué)附屬青島市市立醫(yī)院的Hua等[12]提出了一種基于Inception-ResNet-V2網(wǎng)絡(luò)的模型來分析診斷慢性萎縮性胃炎,最終模型診斷慢性萎縮性胃炎的敏感性為89.1%,特異性為74.2%,準確性為81.8%,較初級內(nèi)鏡醫(yī)生及一些資深內(nèi)鏡醫(yī)生更有優(yōu)勢。目前,我國消化內(nèi)鏡領(lǐng)域的人工智能研究多采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)對CAG和早期胃癌進行分類,沒有針對不同病灶特點構(gòu)建相應(yīng)的特征抽取網(wǎng)絡(luò),解釋性不強,應(yīng)用受限[13]。1.2.2目標識別裝備領(lǐng)域研究現(xiàn)狀依靠無人機平臺的多目標識別技術(shù)既具有經(jīng)濟效益潛力,又有著各類應(yīng)用前景。比起地面固定的攝像機平臺來說,無人機在空中執(zhí)行監(jiān)測任務(wù)具備很多優(yōu)勢,比如無阻礙的視野,寬闊的覆蓋面,可自由調(diào)節(jié)的視角,快速而簡便的多區(qū)域切換能力等等,這些特點使得它可以做到及時準確地識別并追蹤目標對象。1.國外軍事目標識別研究現(xiàn)狀從20世紀中葉開始,對物體的自動識別技術(shù)進行了深入的研究,并在60年代受到了國內(nèi)外學(xué)者的普遍關(guān)注。目前,國內(nèi)外學(xué)者對物體識別的研究主要集中在理論與實踐兩個層面。(1)理論研究方面多數(shù)學(xué)者的研究重點放在算法、概念及函數(shù)結(jié)構(gòu)上,尤其針對軍事目標識別時,國外較早的方法分為兩類:一是采用雷達一維距離圖來識別,二是依靠圖像處理手段開展識別。追溯到二十世紀七十年代,美國就前瞻性地提出了利用雷達一維距離圖像來識別目標的技術(shù),其目的是要借助分析雷達回波顯示出來的目標形狀、尺寸等特性,從而達成對海洋軍事目標自動化的辨別與分類。根據(jù)1998年美國的研究成果表明,雷達產(chǎn)生的一個距離圖譜不僅揭示了目標的物理構(gòu)造,還包含目標的電磁散射特性、所處位置、橫向散射截面以及徑向投影長度等多項信息,全面反映出目標的綜合特征及其與周圍環(huán)境的交互狀況。近些年來,有關(guān)復(fù)雜環(huán)境下雷達一維距離圖像采集和特征庫創(chuàng)建,美國投入了諸多研究資源,并取得了許多成果?;谝曈X的軍事目標識別,是當下國際研究領(lǐng)域里最前沿的課題,尤為令人關(guān)注,回溯歷史可知,這方面的先驅(qū)探索可以上溯到上世紀五十年代,美國率先展開有關(guān)基于圖像的軍事裝備識別技術(shù)的研究,從而開啟了此領(lǐng)域的新篇章。根據(jù)國際上對目標識別的研究進展,可以分為:經(jīng)典的統(tǒng)計模式識別、基于知識的目標識別、基于模型的目標識別、基于多傳感器的目標識別、基于神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)的目標識別、基于深度學(xué)習(xí)的目標識別等六個階段。基于深度學(xué)習(xí)的自動目標識別方法有三大核心要素:深度學(xué)習(xí)的算法設(shè)計、高性能的計算平臺和大規(guī)模數(shù)據(jù)集。

基于深度學(xué)習(xí)的自動目標識別首先是通過建立深層次的CNN模型,之后再通過在特定的目標識別數(shù)據(jù)集上進行微調(diào),以優(yōu)化模型對目標對象的識別準確度,這個過程會持續(xù)迭代直到模型收斂,從而保證其在目標識別任務(wù)中表現(xiàn)出高效的性能。近些年,依靠深度學(xué)習(xí)的物體自動識別技術(shù)成為國際自動目標識別領(lǐng)域的前沿研究重點。(2)實際應(yīng)用研究方面美國的MSTARSAR-ATR系統(tǒng):由美國國防預(yù)研計劃署DARPA和空軍研究實驗室AFRL發(fā)起,其目的是通過對SAR圖像進行模型識別,提升SAR圖像的識別準確率[15]。美國無人駕駛飛機上的目標識別技術(shù):美國開發(fā)的“地獄之火”無人駕駛飛機以及其他一些無人駕駛飛機。美國的阿拉斯加SAR演示驗證系統(tǒng):由NASA研發(fā)的一個近實時應(yīng)用系統(tǒng),主要用于識別海上船舶及其他目標。加拿大的海軍防空多傳感器融合系統(tǒng)(AAWMSDF):AAWMSDF系統(tǒng)是一種利用多種傳感器進行跟蹤和識別的方法。歐洲聯(lián)盟第5個架構(gòu)DECLIMS:由歐盟,美國,日本,中國等眾多科研院所,產(chǎn)業(yè)界和政府部門組成的多個研究單位聯(lián)合起來,對船舶的探測,分類和識別進行了研究。總的來說,國際上軍事目標識別的技術(shù)體系特色是:從單個SAR影像拓展到多平臺(地基、機載、無人機、艦載、車載、星載、水面、水下、艦船、數(shù)據(jù)庫等);多源傳感器(有源雷達、SAR/ISAR、高光譜/多波段/微光/EO/可見光、聲吶Sonar、激光、毫米波等)的信息融合。近年來,隨著超大規(guī)模集成電路,超高速集成電路,神經(jīng)網(wǎng)絡(luò),量子計算,多傳感器融合,人工智能,深度學(xué)習(xí),大數(shù)據(jù)等技術(shù)的飛速發(fā)展,使得國外對軍事目標識別的研究已經(jīng)從理論探討、實驗室模擬逐步走向?qū)嵱没?.國內(nèi)軍事目標識別研究現(xiàn)狀目前,中國利用雷達一維距成像技術(shù)在軍事目標識別方面還處于摸索階段。早在90年代初我國就已經(jīng)展開了寬頻帶雷達目標自動識別的相關(guān)研究工作。西安電子科技大學(xué)雷達信號處理室一直針對著一系列重要技術(shù)問題進行深入探究,比如怎樣更好地從雷達一維距向像中獲取到有用信息并加以挑選使用,如何采用更高級的分類辦法,怎樣創(chuàng)建新的統(tǒng)計模型,并將其運用于復(fù)雜高分辨力雷達圖像識別范疇內(nèi),還有就是對于那些被其他因素干擾而產(chǎn)生的目標可以準確辨別出來并且采取相應(yīng)措施予以排除等,他們力求走在雷達信號處理技術(shù)最前端去攻克現(xiàn)實應(yīng)用當中遇到的科學(xué)難關(guān),從而改進整個系統(tǒng)的效能水平及穩(wěn)定性情況。國防科技大學(xué)自動目標識別重點實驗室主要研究寬帶高分辨率全極化雷達系統(tǒng),建立了一種極點和散射中心模型,并且發(fā)展了一種瞬間極化統(tǒng)計學(xué)理論,在此基礎(chǔ)上對雷達目標的一維距離成像識別進行了研究,以提高目標識別的精確度和效率。中國從80年代開始,基本遵循和借鑒國外的技術(shù)路線,經(jīng)過相同的六個階段,這里不再具體贅述。其主要的研究單位有:原總參二部航偵局、中科院遙感所、中科院電子所、華中科技大學(xué)等研究院所和高校。當前,在軍事目標識別方面的研究我國已有較多的進展。在圖像傳感技術(shù)研究與應(yīng)用方面,自80年代以來,我國自主研發(fā)了紅外、SAR/ISAR、高光譜/多波段、激光雷達等各類圖像傳感器,實現(xiàn)了對各種目標的高精度識別和區(qū)分。自2013年開始,國家高分衛(wèi)星計劃“高分專項”正式啟動,由“高分一號”至“高分七號”組成,包含多個觀測平臺及7個以上衛(wèi)星,已成功發(fā)射寬幅高分一號、高分二號亞米全色、高分三號一米雷達、高分四號同步凝視等[16]。此外,為了滿足軍用需求,我國先后發(fā)射了“尖兵”等一系列對地觀測衛(wèi)星。目前,我國已形成了一種層次分明的空間分辨力系統(tǒng),它包含了各種等級的從低到高的空間分辨力,而且還具有大面積的覆蓋范圍,多種波段的選取,以及可調(diào)整的重新訪問時間間隔等特點,可以對陸地和海洋實行全天侯、全時段、全方位的觀測。在圖像處理方面,我國已掌握不少處于世界前沿水準的科研成果,尤其在遙感影像處理,紅外影像剖析,可見光影像處理這些重要的技術(shù)節(jié)點上,既達成了理論層面的跨越,又收獲了被國際認可的獨創(chuàng)成果。然而,由于目前國內(nèi)影像傳感技術(shù)發(fā)展相對落后,各院使用的影像傳感器較為單一。在軍事目標識別系統(tǒng)中,已有研究成果大多聚焦在輔助性的功能組件開發(fā)上,還搭配人工操作來執(zhí)行圖像解讀與分析工作,僅有少量依靠單張圖片的軍事目標識別原型系統(tǒng)出現(xiàn)過。這顯示出,在這個領(lǐng)域當中,深度學(xué)習(xí)技術(shù)的應(yīng)用尚處在初步摸索的階段,需要進一步加強理論探討并開展創(chuàng)新嘗試,從而促使軍事目標識別水平得到實際改善。1.2.3智能監(jiān)控領(lǐng)域研究現(xiàn)狀智能監(jiān)測是計算機視覺范疇的前沿走向,它是依靠計算機視覺、圖像處理及模式識別等關(guān)鍵技術(shù)來完成的,目的是實現(xiàn)對攝像頭所獲得的圖像或者視頻數(shù)據(jù)進行自動化解析,并且這個過程不需要人工參與,可以準確識別出正在移動著的對象,然后對其行為模式進行詳分析評估。借助智能監(jiān)測系統(tǒng),可以對日?;顒幼龅接行Ч芾?,而且當發(fā)生特殊情況時還能立刻發(fā)出警報并給予警告,這樣就可以加快反應(yīng)速度和效率,節(jié)約更多的人力物力。由于各個行業(yè)對于監(jiān)控的需求在不斷增加,計算機視覺技術(shù)、人工智能、模式識別和圖像處理等領(lǐng)域的技術(shù)也在不斷發(fā)展,所以智能化程度更高的現(xiàn)代視頻監(jiān)控系統(tǒng)便被予以高度重視。1.國外智能監(jiān)控領(lǐng)域的研究在國際上,智能監(jiān)測系統(tǒng)的研發(fā)起步較早,尤其是美國、英國等國已經(jīng)投入了大量資源去研究相關(guān)課題,其中主要包括:在美國國防部高級研究項目(DARPA)支持下,卡內(nèi)基梅隆大學(xué),戴維SARNOFF研究中心等國際知名科研單位聯(lián)合研發(fā)視覺監(jiān)控項目(VSAM)[17],該項目主要是應(yīng)對未來城市以及戰(zhàn)場監(jiān)控方面的難題,希望能解決人工監(jiān)控成本高、風險大且很難實現(xiàn)自動化的操作問題,同時通過先進的技術(shù)綜合運用,打造出一個高效、安全且智能化的監(jiān)控體系。美國馬里蘭大學(xué)推出了一款實時視頻監(jiān)控平臺W4系統(tǒng)。這個系統(tǒng)既可準確找出人類所在之處,又能對人體各個部位細致分割,特別是身處戶外環(huán)境的時候,可以做到對行人的監(jiān)測跟蹤以及簡單互動監(jiān)測。IBM與Microsoft等公司也在商務(wù)領(lǐng)域逐漸使用基于視覺的姿態(tài)識別界面;PFinde系統(tǒng)是麻省理工學(xué)院的一款人體跟蹤和行為理解系統(tǒng),它擁有手勢識別的功能,通過分析顏色、形狀等特征來達成對目標對象的有效歸類識別。2.國內(nèi)智能監(jiān)控研究現(xiàn)狀國內(nèi)智能監(jiān)控技術(shù)的研究起步稍遲,但近年來呈明顯上升趨勢,而且獲得了國家層面的關(guān)注與支持。中國科學(xué)院自動化研究所成功研制出我國自行開發(fā)的智能監(jiān)控技術(shù)成果CBSR,這個系統(tǒng)包含了行人與車輛的檢測、跟蹤、分類,目標異常行為辨識,人群流量評估,車輛技術(shù)分析等。清華大學(xué)劉曉東教授及其團隊成員針對復(fù)雜背景下的行人識別問題,提出了一種基于視頻序列的移動物體自動檢測與識別的智能化監(jiān)測系統(tǒng),但其算法復(fù)雜,難以滿足實時監(jiān)測的需求。廣州暨南大學(xué)張艷,王會進等學(xué)者提出了一種基于小區(qū)監(jiān)控的防盜系統(tǒng),它能夠在沒有人的家中進行監(jiān)控和報警,但是它無法區(qū)分人與狗,容易出現(xiàn)錯誤報警,只適用于某些場景,因此并不具有普適性。1.2.4人臉表情識別研究現(xiàn)狀1.國外研究現(xiàn)狀人工智能領(lǐng)域里發(fā)展最快的就是人臉識別技術(shù),而美國和以色列的人臉識別技術(shù)是世界領(lǐng)先的,這得益于他們對安全性的高度重視。美國已經(jīng)實現(xiàn)了在全國范圍內(nèi)搭建起實時視頻監(jiān)控網(wǎng)絡(luò),一旦嫌疑人臉部特征被捕捉到后就可以借助全網(wǎng)追蹤的方式迅速鎖定目標并加以處置。其實這些項目始于1993年,美國國防部高級研究項目署(AdvancedResearchProjectsAgency)和美國陸軍研究實驗(ArmyResearchLaboratory)成立了FERET(FaceRecognitionTechnology)項目組,建立了FERET人臉數(shù)據(jù)庫,用于評價人臉識別算法的性能[18]。針對算法的全面、公正及實驗性綜合性能評價,F(xiàn)ERET評估體系構(gòu)建起一套標準的測評流程,目的是對各種算法在多種條件下的能力進行公平的評價,這些條件包含光照強度、物體遮擋以及時間因素等多維變量的改變,以此來達成對算法在復(fù)雜環(huán)境中的適應(yīng)性與性能的全面考量。FERET評估體系在1993年到1997年這四年間展開了全面測試,在此之后FERET評估已然成為真正的人臉識別標準。但是計算機硬件技術(shù)的發(fā)展后,F(xiàn)ERET評估發(fā)現(xiàn)人臉識別技術(shù)受光線狀況、姿態(tài)變化及相機參數(shù)等因素影響會導(dǎo)致識別效果無法提高。于是,F(xiàn)RVT測試便應(yīng)運而生,F(xiàn)RVT測試具有數(shù)據(jù)集大,測試項目多的優(yōu)點,涉及的圖像包括1463人、13872幅圖像。FRVT測試的結(jié)果不僅提供一個詳細而中肯的評估,同時也反映出全世界人臉識別評估中的最尖端的效能,為人臉識別的研究指明了一個清晰的方向。國外最早的研究是依靠開發(fā)出先進的圖像捕捉技術(shù)以達到人臉的獲取,這項突破性的進展成為后來人臉識別領(lǐng)域深入研究的基礎(chǔ)。例如,喬治亞理工學(xué)院在早期階段就研發(fā)出一套面部檢測系統(tǒng),這套系統(tǒng)由四臺攝像機協(xié)同工作,兩臺追蹤攝像機進行追蹤和采集,兩臺靜態(tài)攝像機進行定位和檢測,整套系統(tǒng)可以達到人機互動的效果。不過它所應(yīng)用的距離較短,僅有幾米遠??▋?nèi)基梅隆大學(xué)又在人臉識別的基礎(chǔ)上加上步態(tài)識別,它所采用的WFOV攝像機能夠在50米開外的地方就對目標進行追蹤采集,并能夠?qū)Ψ糯蠛蟮哪繕藞D像進行雙重識別,這個識別系統(tǒng)簡稱為DHID系統(tǒng);通用電氣公司研發(fā)的追蹤系統(tǒng),也是由多臺攝像機疊加組成,追蹤面積可以達到300平方米。2.國內(nèi)研究現(xiàn)狀我國在技術(shù)研究方面算是后起之秀,雖然開始發(fā)展的時間相對較晚,但是發(fā)展速度很快,如今中國相關(guān)技術(shù)可以和很多國際的水平相媲美。由國內(nèi)頂尖的高等學(xué)府和科研機構(gòu)牽頭,包括清華大學(xué)、中山大學(xué)、浙江大學(xué)在內(nèi)的高校以及中國科學(xué)院計算所和自動化所等單位,不斷在理論和應(yīng)用方面突破,取得了良好的發(fā)展。中國科學(xué)院計算機所開發(fā)的人臉識別系統(tǒng)是國內(nèi)相對領(lǐng)先的,在FRVT2015中,他們的人臉識別系統(tǒng)的極低的錯誤率和極佳的辨識度,取得了驕人的成績。現(xiàn)在可以在一秒鐘檢測90張人臉,并且經(jīng)過國家權(quán)威機構(gòu)得審查與認證,已經(jīng)被全面的推廣。以上足以表明,國內(nèi)對人臉識別系統(tǒng)的研究不容小覷,現(xiàn)處于一個比較高的國際水平。目前,中國已經(jīng)將該技術(shù)運用到人們的日常生活當中去,改善了金融、安保、教育等行業(yè)的運作效率和便利程度。(1)就金融行業(yè)最為看重的安全性而言,人臉識別技術(shù)的應(yīng)用對業(yè)務(wù)處理的安全等級及效率進行了大幅優(yōu)化。當下,中國大型金融機構(gòu)如工行、建行、農(nóng)行等均安裝了人臉識別系統(tǒng),客戶只需攜帶有效證件,通過銀行系統(tǒng)自動驗證身份信息之后,就可以在自助ATM機上存錢或取錢,甚至還能遠程開戶。這種革新極大縮減客戶的等候時延,提升銀行的運作效率并削減了人力成本開支。(2)就安保方面而言,應(yīng)用最普遍的技術(shù)是門禁識別系統(tǒng)以及智能監(jiān)控系統(tǒng)?,F(xiàn)在高檔住宅區(qū)和大型企業(yè)都會用面部識別技術(shù)來取代傳統(tǒng)的刷卡系統(tǒng),這種改變增強了安全性并改善了客戶的體驗。在小區(qū)和公司這些地方,面部識別系統(tǒng)可以有效地阻止沒有經(jīng)過許可的人隨便進出,保證內(nèi)部環(huán)境的安全。而在會所和餐廳這樣的場合,它還能準確地辨別出VIP客戶,這樣服務(wù)團隊就能提前做好準備,給客戶提供量身定做的服務(wù),進而提升客戶的滿意程度。(3)就教育方面而言,人臉識別技術(shù)被采用后,校園的安全系數(shù)增大,給學(xué)生管理帶來高效與便捷,特別是在學(xué)生考試系統(tǒng)中,起到了關(guān)鍵的作用。對于年紀較小的學(xué)生群體,比如幼兒園、小學(xué),他們并未具備足夠的安全意識與辨別能力,這個時候人臉識別系統(tǒng)就成了保衛(wèi)校園安全的有力武器,可以阻止沒有權(quán)限的人隨便闖入學(xué)校,避免校園暴力事件的出現(xiàn),也不會再有冒領(lǐng)學(xué)生這種事情發(fā)生,每個學(xué)生的安全與權(quán)利都會得到保障。這項技術(shù)的使用,加強了校園的安全管理,也給營造一個更安全、更有序的學(xué)習(xí)環(huán)境給予有力的技術(shù)支持。1.3本文主要內(nèi)容本文的主要研究內(nèi)容是通過使用YOLOv5和PyTorch人工智能工具,實時識別與電腦連接的攝像頭所采集的視頻中的指定物體,并且實時地給出指定物體的總個數(shù)。并且,本課題會在此基礎(chǔ)上探究基于人工智能的面部表情識別方法設(shè)計。本文的章節(jié)內(nèi)容安排如下:第一章,緒論。本章主要介紹了課題的研究背景及意義。介紹了人工智能的發(fā)展,圖像識別技術(shù)的研究,著重介紹了人工智能圖像識別在消化內(nèi)鏡領(lǐng)域、目標識別裝備領(lǐng)域、智能監(jiān)控領(lǐng)域這三方面國內(nèi)外研究現(xiàn)狀。此外,還介紹了人臉表情識別國內(nèi)外研究現(xiàn)狀,最后,本章介紹了本文的研究內(nèi)容,并對論文的整體結(jié)構(gòu)和各章節(jié)的內(nèi)容安排進行了概述。第二章,理論基礎(chǔ)。首先簡單介紹了選擇YOLOv5的原因;接著介紹了YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu),主要是Backbone和Neck兩個主體部分,以及YOLOv5算法在Mosaic技術(shù)、特征提取器、損失函數(shù)和目標框回歸這四個方面的改進;然后介紹了PyTorch人工智能工具,其中主要介紹了組件Module、Tensor,以及PyTorch和其它深度學(xué)習(xí)框架比較所具有的優(yōu)點;最后介紹了人臉表情識別,主要介紹了人臉表情識別系統(tǒng)和關(guān)鍵技術(shù)。第三章,實時物體識別與計數(shù)設(shè)計。包括環(huán)境搭建;需求分析與場景定義;數(shù)據(jù)的準備,有數(shù)據(jù)收集、數(shù)據(jù)標注、數(shù)據(jù)劃分、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)增強;模型訓(xùn)練與調(diào)優(yōu),模型保存與評估;實時識別與計數(shù)。第四章,基于YOLOv5和PyTorch構(gòu)建的人臉表情識別系統(tǒng)設(shè)計。第五章,總結(jié)與展望。對本文提出的基于YOLOv5的圖像人工智能識別系統(tǒng)設(shè)計以及人臉表情識別系統(tǒng)設(shè)計進行總結(jié),并進行展望分析。第2章理論基礎(chǔ)2.1YOLOv5介紹對于目標檢測領(lǐng)域中的深度學(xué)習(xí)來說,主要分為兩類:一類是以YOLO系列算法和SSD(singleshotmultiboxdetector,SSD)算法為代表的單階段目標檢測算法;另一類是以R-CNN(regionbasedconvolutionalneuralnet-work,R-CNN)系列算法為代表的雙階段目標檢測算法。在圖像處理領(lǐng)域,針對輸入影像的深入分析與處理過程,先進算法可以準確識別出影像里的各個局部區(qū)域,并在此基礎(chǔ)上完成區(qū)域分類及空間定位。其中,雙階段目標檢測算法作為經(jīng)典方法,其設(shè)計思想是把目標檢測任務(wù)分成為兩個遞進階段:第一階段,利用特定機制生成預(yù)期包含目標的候選區(qū)域集合;第二階段,對候選區(qū)域執(zhí)行類別識別與邊界框回歸優(yōu)化。該類算法在檢測精度方面有顯著優(yōu)勢,但其計算復(fù)雜度較高,限制了實時處理效率。與之形成對比的是,YOLO(YouOnlyLookOnce)算法開創(chuàng)性地提出單階段檢測算法。該算法依靠搭建起集成化的端對端深層神經(jīng)網(wǎng)絡(luò)架構(gòu),把目標定位同分類合并成單個回歸任務(wù),只用一次向前傳遞流程就能達成對整張圖像的推斷,這種辦法加快了檢測速率,保證了較好的檢測精確度,還削減了對運算資源的需求量。近些年來,YOLO算法由于自身突出的性能表現(xiàn)受到了廣泛關(guān)注并呈現(xiàn)出快速發(fā)展的態(tài)勢。如圖2-1所示,這個領(lǐng)域中一個非常受歡迎的研究課題是由Redom等人首次提出YOLO方法,它憑借出色的檢測能力而受到業(yè)界的一致好評。圖2-1YOLO發(fā)展進程[19]YOLOv5是當下最受歡迎的一步檢測方法,它通過諸多革新來加強速度和輕量化特征,而且它有著更小的體積,比后續(xù)算法YOLOv7、YOLOv8等更具實用性,同之前的YOLOv4、YOLOv3等其他算法相比,能夠更好地提高檢測準確性和模型效率。YOLOv5系列中YOLOv5s模型是最小的,檢測速度也是最快的,適合對實時性有很高要求的任務(wù)。2.1.1YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)YOLOv5算法以整幅圖像的形式進行輸出,一次產(chǎn)生所有的目標圖像。該算法包括s、m、l、x四種規(guī)模遞增的模型,一般來說,YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)通常包括Backbone和Neck兩個主要部分,如圖2-2所示。Backbone部分通過Focus結(jié)構(gòu)進行下采樣,利用經(jīng)過優(yōu)化的CSP(CrossStagePartialnetworks)[20]結(jié)構(gòu)和SPP(SpatialPyramidPooling)[21]金字塔結(jié)構(gòu)來提取圖像特征。接著,Neck部分運用FPN(FeaturePyramidNetwork)[22]結(jié)合PAN(PathAggregationNetwork)[23]的特征金字塔結(jié)構(gòu),以處理不同尺寸目標的特征信息,從而解決多尺度檢測問題。圖2-2YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)示意圖[19]1.Backbone在YOLOv5的結(jié)構(gòu)中,Backbone主要匯集了一系列CBS模塊和C3模塊,其最終環(huán)節(jié)由SPPF模塊構(gòu)成。該模型在圖像特征提取方面表現(xiàn)出較好的提升效果,并對C3組件的性能進行優(yōu)化。其中,SPPF模型對主干網(wǎng)絡(luò)終端的特征表征能力有較大的提升作用;C3是YOLOv5骨干網(wǎng)中的一個重要組成部分,其設(shè)計受到了CSPNet[20]的啟發(fā)。該方法既提升網(wǎng)絡(luò)的特征抽取能力,又能有效削減網(wǎng)絡(luò)中的梯度信息。通過該設(shè)計,YOLOv5可以在特征學(xué)習(xí)的深度與廣度之間實現(xiàn)均衡,并有效地控制運算成本,從而保證算法的有效性與準確性。Neck在YOLOv5的Neck模塊設(shè)計中,特征金字塔網(wǎng)絡(luò)(FPN)與路徑聚合網(wǎng)絡(luò)(PAN)實現(xiàn)了創(chuàng)新性整合。FPN的亮點在于它搭建起層次分明的特征映射體系,像從深度卷積神經(jīng)網(wǎng)絡(luò)里抓取出來的C3、C4、C5這樣不同層次的特征圖,利用逐步上采樣的策略,搭建起一個具有多尺度特征的特征金字塔結(jié)構(gòu)。這種設(shè)計實現(xiàn)了不同規(guī)模特征的融合,利用了多尺度特征整合機制,保證模型能在同一個框架里對各種大小的目標執(zhí)行高效檢測,把深層網(wǎng)絡(luò)捕捉的細節(jié)特征同淺層網(wǎng)絡(luò)提取的語義信息緊密結(jié)合,YOLOv5在處理多尺度目標時的檢測精確度和適應(yīng)能力得到了改善。為改善特征融合的效果,研究團隊采用路徑聚合網(wǎng)絡(luò)(PAN)架構(gòu),創(chuàng)建出一套雙方向的特征傳遞體系,這種改良的設(shè)計依靠自頂向下和自底向上的特征聚合途徑,保持特征空間的分辨率,加強層級之間的語義聯(lián)。PAN搭建起一個不同層次的特征圖的交流上下文信息的橋梁,把深層蘊含語義的特征和表層負責定位的特征整合起來,改進了目標定位的幾何精確度,給多類別目標分類給予了更細致的特征表現(xiàn),進而達成了在目標檢測任務(wù)里定位準確度和分類能力的共同加強。2.1.2YOLOv5算法的改進1.Mosaic技術(shù)模型優(yōu)化策略里,YOLOv5模型把Mosaic技術(shù)融合進來,把它當作基礎(chǔ)數(shù)據(jù)加強策略的主要組成部分,執(zhí)行縮放、平移、旋轉(zhuǎn)以及顏色調(diào)節(jié)等圖像操作,擴充訓(xùn)練集的體量,而且引入有益的噪聲成分,來提升模型應(yīng)對未見過數(shù)據(jù)的適應(yīng)性和泛化能力。這種方法包含隨機選出四張圖片做無規(guī)律切割、大小改變、拼接,豐富了數(shù)據(jù)集的多樣性,特別是對小目標的識別準確度會有所改善,而且改進了網(wǎng)絡(luò)的學(xué)習(xí)效率。2.特征提取器關(guān)于YOLOv5骨干網(wǎng)絡(luò)架構(gòu)的改進,采用了一種依靠多層次特征分離與重組的特征獲取方法,創(chuàng)建三個不同的采樣層級,分別對應(yīng)8倍,16倍和32倍的降采樣率,利用并行的高級特征編碼通道來達成空間信息與語義內(nèi)容的區(qū)分。每一級特征表示都是根據(jù)逐層的空間下采樣過程形成的帶有不同分辨率的特征映射,然后把這些特征映射經(jīng)過改良過的特征金字塔聚合模塊(IFPN)來進行跨尺度的信息整合,促使不同分辨率的數(shù)據(jù)融合。這個融合模塊用雙向信息流通架構(gòu):從上到下的路徑依靠特征上采樣和橫向鏈接機制傳導(dǎo)高層語義信息,提取并傳遞與目標類別有關(guān)的抽象特征;在從下到上的路徑里,利用空間位置保留卷積和特征映射校準技術(shù),保證底層特征在空間維度上精確地定位。這種雙向特征聚合方法,既讓網(wǎng)絡(luò)具備同時捕捉高分辨率的空間定位信息和高語義密度的目標特征的能力,又明顯提升了它在多尺度目標檢測任務(wù)中的表現(xiàn)。3.損失函數(shù)在YOLOv5損失函數(shù)設(shè)計里,其主要由定位損失,置信度損失,類別損失這三個重要部分組成。其中置信度損失和類別損失的量化,使用的是二元交叉熵損失函數(shù),該函數(shù)目的在于借助概率分布的對比來改善模型的分類表現(xiàn)。至于定位損失部分,YOLOv5引入了GIoU,這是一種比傳統(tǒng)IoU更為高級的評估方法。GIoU不僅關(guān)注真實框與預(yù)測框之間的重疊區(qū)域,而且還將未重疊區(qū)域納入考量范圍,從而給出更為準確的匹配度評估。雖然GIoU在衡量交疊區(qū)域方面表現(xiàn)不錯,但它主要依靠交疊比例來做出判斷,這就造成了它在全方位反映目標框回歸效果存在一些不足。尤其是在預(yù)測框全部在真實框中并且尺寸一樣的情況下,GIoU會退化到IoU,并且不能分辨出預(yù)測框間的位置關(guān)系。在此基礎(chǔ)上,提出了利用CIoU進行位置損耗計算的方法,以提高定位精度。4.目標框回歸對于物體檢測任務(wù)里的目標框回歸問題,主要就是開發(fā)一些有效的策略,使候選區(qū)域盡可能準確地對應(yīng)到實際的目標框架上。在YOLOv5框架當中,這個過程一般通過相對定位回歸來達成,也就是去預(yù)測候選框同左上角之間的相對距離,而不是直接預(yù)測絕對坐標。這樣做是為了讓模型學(xué)會去捕捉圖像的細節(jié),進而更加精確地找到物體。要想做到這一點,模型就得形成一個包含坐標偏移,尺寸偏移以及反映物體出現(xiàn)概率的置信分數(shù)的偏移函數(shù)集合。這些參數(shù)一同組成回歸向量,指引候選框朝著最佳路徑靠近真實目標。在訓(xùn)練環(huán)節(jié),要不斷減小目標框和預(yù)測框之間的差距直到降到最低,從而改善回歸效果,保證模型可以有效調(diào)整候選框的位置,做到對目標的精準定位。要想改善YOLOv5在目標框回歸工作里的表現(xiàn),可以采用高級的CIoU損失函數(shù),這個辦法加強了模型對于目標邊界框的預(yù)估精準度。CIoU不但顧及到目標框跟真實框在圖片上面的重合面積,而且考慮到它們中心位置之間的差距以及長寬度比例方面的區(qū)別,這樣一來就能全方位改良針對目標框做出的預(yù)估效果,根據(jù)圖2-3可知,通過把特征金字塔網(wǎng)絡(luò)(FPN)同路徑聚合網(wǎng)絡(luò)(PAN)加以整合,模型可以很好地抓住不同層級的特征信息,進而強化對體積較小或者相互靠近的目標的辨別能力。經(jīng)過改良之后的目標框回歸手段明顯改進了檢測模型的定位準確程度,特別是當識別大小不一,外形迥異的各種目標之時,依然能保證檢測出的結(jié)果具備極高的準確性和適用性。圖2-3具有先驗維度和位置預(yù)測的邊界框[19]2.2PyTorch介紹PyTorch,由Facebook(FAIR)在2017年于GitHub平臺開源的一個深度學(xué)習(xí)框架[24],它的設(shè)計最大程度地利用了Python語言的特點,給予直觀的Python接口,提高了編程效率和代碼可讀性。這個框架重構(gòu)了Tensor的各個部分,又加入了先進的自動求導(dǎo)機制,讓PyTorch具備了現(xiàn)在流行的動態(tài)計算圖能力。在PyTorch中有著兩個突出的特點:支持GPU的張量運算,使得基于GPU的快速計算速度得到提升;它所具有的動態(tài)神經(jīng)網(wǎng)絡(luò)功能則可以允許用戶在構(gòu)建模型的過程中實現(xiàn)逐層對網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整,同時它也內(nèi)置了自動求導(dǎo)機制,使得梯度計算變得更加簡單快捷,從而提高了模型訓(xùn)練的效率與靈活性。深度學(xué)習(xí)框架PyTroch如圖2-4所示。

圖2-4深度學(xué)習(xí)框架PyTroch[25]在PyTorch深度學(xué)習(xí)框架的底層結(jié)構(gòu)中,其主要的計算組件是由C++語言構(gòu)建的高效數(shù)據(jù)組織體系構(gòu)成的。其中,Tensor與Module是構(gòu)建計算圖的基本模塊。Module類是神經(jīng)網(wǎng)絡(luò)功能的主要載體,它的設(shè)計模式采用了生物神經(jīng)網(wǎng)絡(luò)層次結(jié)構(gòu)的方式,將前向傳播邏輯和參數(shù)更新機制進行了封裝,從而對神經(jīng)元的計算行為進行了抽象,此模塊可以利用動態(tài)調(diào)用外部計算接口(包括CUDA算子、BLAS庫函數(shù)等)來完成從特征提取到損失計算的整個計算過程,從而達到高效訓(xùn)練和預(yù)測的目的。Tensor屬于神經(jīng)網(wǎng)絡(luò)的核心數(shù)據(jù)結(jié)構(gòu),它具備表征多維數(shù)據(jù)并儲存計算狀態(tài)的功能,依靠動態(tài)類型系統(tǒng)與自動微分機制的結(jié)合使用,達成對浮點數(shù),整數(shù)等不同種類的數(shù)據(jù)實施統(tǒng)一管理,并做到在反向流傳期間對梯度執(zhí)行自動計算和回傳。下面將詳細說明以下幾個組件:(1)Module在PyTorch神經(jīng)網(wǎng)絡(luò)框架中起到的作用類似神經(jīng)元,其功能是通過在模塊中定義功能操作,使得每個神經(jīng)元得以執(zhí)行專門的任務(wù)。另外,可以憑借層級嵌套的方法形成復(fù)雜的網(wǎng)絡(luò)構(gòu)造。Module模塊被分為三大類,即Autograd、Optim和nn三類,具體如表2-1所示:表2-1PyTorch框架:不同種類的Module[26]字段名功能描述Autograd.Module記錄前向傳播運算,用于計算梯度反向傳播Optim.Module構(gòu)建神經(jīng)網(wǎng)絡(luò)的各種優(yōu)化算法nn.Module在AutogradModule模塊基礎(chǔ)上封裝,方便創(chuàng)建神經(jīng)網(wǎng)絡(luò)(2)Tensor可看作是向量、矩陣的抽象延伸,一維空間的擴展是一般意義上的向量,二維空間的擴展就是一般的矩陣,而零維張量就是最基礎(chǔ)的空間維度,相當于邏輯中的標量元素。PyTorch表示中所涉及到的不同類型的Tensor如表2-2所示:表2-2PyTorch框架:Tensor的數(shù)據(jù)類型[26]字段名數(shù)據(jù)類型浮點類型float16,float32,float64無符號整數(shù)uint8,uint16,uint32,uint64有符號整數(shù)int8,int16,int32,int64復(fù)數(shù)類型complex64,complex128相較于其他的深度學(xué)習(xí)框架,Pytorch的優(yōu)勢在于它與python語言的完全兼容及深度整合,利用python語言的類庫體系,極大程度上簡化了數(shù)據(jù)處理的流程,因此使用Pytorch編程時,會得到更加直觀、靈活及高效的編程體驗。其次Pytorch采用的是一種極為簡潔的設(shè)計理念,這使Pytorch的代碼不僅容易理解,而且具有抽象性,提高了代碼的可分析性、可讀性和學(xué)習(xí)性。此外Pytorch能夠生成動態(tài)圖,這是目前主流的深度學(xué)習(xí)框架所沒有的獨特優(yōu)勢。由于它的特點可以滿足用戶根據(jù)自己的需求對模型進行個性化調(diào)整,這樣就促進了我們對深度學(xué)習(xí)原理和機制的理解,為我們探索深度學(xué)習(xí)的邊界和潛力提供了更廣闊的空間。2.3人臉表情識別人臉表情識別(FacialExpressionRecognition,FER)屬于計算機視覺領(lǐng)域的一項重要應(yīng)用,憑借在人機交互、情感計算、醫(yī)療診斷等場景下的價值而備受重視。由YOLOv5和PyTorch框架整合而成的FER系統(tǒng),把目標檢測技術(shù)和深度學(xué)習(xí)模型融合起來,達成對表情的快速準確的分類效果。以下從人臉表情識別系統(tǒng)和關(guān)鍵技術(shù)兩個方面進行理論闡述。2.3.1人臉表情識別系統(tǒng)人臉表情識別人主要靠分析面部肌肉動作、紋理改變等特征來推測人類的情緒狀況,這一技術(shù)領(lǐng)域的實際操作建立在四大核心模塊,每一個模塊都在整個系統(tǒng)功能中有著不可被取代的價值,通過應(yīng)對光線條件的波動、姿態(tài)的不同、部分遮擋等情況,從而讓系統(tǒng)具備較高的魯棒性與情感識別能力。人臉檢測模塊是系統(tǒng)的關(guān)鍵部分,它的任務(wù)主要是從輸入的圖片或者視頻流中準確地找出并定位人臉區(qū)域。傳統(tǒng)的臉部檢測技術(shù)大多是依靠Haar特征以及Adaboost算法所形成的級聯(lián)分類器,這種方法能做到實時檢測,不過碰到復(fù)雜背景和較小的臉部場景時,檢測精準度達不到要求。隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),YOLOv5這類單階段目標檢測算法變成業(yè)界的主流。YOLOv5依靠CSPDarknet骨干網(wǎng)絡(luò),可以快速提取多尺度特征,再通過PANet做特征融合,之后由特定的檢測模塊輸出人臉的邊界框坐標和置信度分數(shù)。這樣的端到端檢測策略不但加快了檢測速度,而且解決了側(cè)臉、小尺度人臉場景下的召回難題,給后續(xù)的表情分析給予了準確的目標區(qū)域,加強了系統(tǒng)整體性能和應(yīng)用價值。人臉對齊模塊是依靠人臉檢測的輸出結(jié)果,去識別并定位重要的面部特征點,比如眼角、嘴角、鼻尖之類的,以調(diào)整人臉的姿勢和角度,從而保障后面的圖像處理或識別工作的準確性。以深度學(xué)習(xí)為基礎(chǔ)的方法中,主要利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)所形成的回歸模型,直接從圖片里獲取關(guān)鍵點的位置信息,可輸出68個甚至106個面部關(guān)鍵點。憑借仿射變換、薄板樣條插值這類算法,識別并利用特征點,進行對人臉圖像的規(guī)范化處理,消除因頭部旋轉(zhuǎn)、俯仰造成的干擾因素,也就是把圖像調(diào)整到統(tǒng)一的姿態(tài)上,保證后續(xù)特征提取階段的輸入數(shù)據(jù)是標準的,從而改善識別與分析的準確率及效率。特征提取模塊是通過從對齊處理過的人臉圖像中提煉與表情有關(guān)的要點特性。傳統(tǒng)手工特征形成手段常采用局部二值模式(LBP)去算出中心像素和周圍像素的灰度差別,進而形成體現(xiàn)局部紋理改變的描述符,此時對于表情發(fā)生改變而引發(fā)的細微紋理改變表現(xiàn)出了很高的敏感度。隨著深度學(xué)習(xí)的興起,依靠卷積神經(jīng)網(wǎng)絡(luò)(CNN)開展自動化特征提取的方式成為了業(yè)界的主要選擇。利用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)模型,像ResNet、VGG這類,借助多層次的卷積和池化操作,就能自主地從基礎(chǔ)邊緣特征學(xué)到復(fù)雜語義特征,進而對人臉表情的復(fù)雜性和多樣性實現(xiàn)有效解決。表情分類模塊是把提取出的特征對應(yīng)映射到事先設(shè)定好的表情類別,這些類別涵蓋快樂、悲傷、憤怒、驚訝、恐懼、厭惡以及中性情緒等。就傳統(tǒng)的機器學(xué)習(xí)而言,SVM(支持向量機)這類分類算法,依靠人工設(shè)計好的特征集合,在訓(xùn)練過程中學(xué)會特征同某些情感類別的聯(lián)系。而深度學(xué)習(xí)技術(shù),特別是結(jié)合全連接神經(jīng)網(wǎng)絡(luò),可以直接作用于CNN所生成的特征向量,做到有效的情感分類;至于Transformer結(jié)構(gòu),憑借其所具備的多頭注意力機制,改善了捕捉特征間長距離依賴關(guān)系的能力,在表情分類任務(wù)上表現(xiàn)出色。這四個環(huán)環(huán)相扣的核心模塊一起構(gòu)筑起人臉表情識別系統(tǒng)的根基。在實際運用時,針對不同的場景需求,要對各個模塊的算法和參數(shù)實施針對性的改良,這樣才能有效地應(yīng)付復(fù)雜環(huán)境帶來的麻煩,促使人臉表情識別技術(shù)在人機交互、醫(yī)療決策支持、安全監(jiān)管等范疇得到廣泛應(yīng)用和深入融合。2.3.2表情識別關(guān)鍵技術(shù)1.人臉檢測與對齊人臉檢測與對齊屬于表情識別體系中的基礎(chǔ)模塊,其效能的優(yōu)劣直接影響到后面特征抽取及分類的精確度,而YOLOv5因具有單階段檢測框架和多層次特征整合的特性,所以被當作當今主要的人臉檢測方法。人臉對齊主要通過找到面部關(guān)鍵點來達成人臉姿態(tài)的一致性轉(zhuǎn)換。深度學(xué)習(xí)技術(shù)在對齊過程中有較高的準確性和速度,例如MediaPipeFaceMesh這個方法采用輕量化的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以產(chǎn)生多達468個三維面部關(guān)鍵點,這些點不僅包含傳統(tǒng)的68個關(guān)鍵點,而且涉及到眼角、鼻尖、嘴角等基本特征,還精細到嘴唇邊緣、瞳孔等細節(jié)之處,這樣就保證了表情分析的精確性和全面性。在實際應(yīng)用當中,通過辨別并運用關(guān)鍵點,人臉常被仿射變換,歸一到同一坐標框架,以消除頭部旋轉(zhuǎn)和俯仰帶來的姿態(tài)差異,而對于動態(tài)視頻序列而言,它整合了卡爾曼濾波等時間序列平滑技術(shù),縮減關(guān)鍵點的波動,改善對齊的穩(wěn)定性。2.特征提取方法特征提取是表情識別體系的關(guān)鍵部分,其目標是從已經(jīng)對齊的人臉圖像中識別并提煉出那些對于表情變化非常敏感且具備區(qū)分能力的特征。伴隨深度學(xué)習(xí)領(lǐng)域持續(xù)發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNNs)變成主導(dǎo)技術(shù),被大量用在表情特征的獲取與分析上,ResNet架構(gòu)采用殘余模塊處理深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時碰到的梯度消散問題,以創(chuàng)建很深的網(wǎng)絡(luò)層次結(jié)構(gòu),這樣就能對表情特點由基本邊緣細節(jié)到復(fù)雜語義的多層次學(xué)習(xí)。對于大規(guī)模圖像數(shù)據(jù)集(像ImageNet)展開預(yù)訓(xùn)練的CNN模型,其學(xué)習(xí)到的通用特征經(jīng)過微調(diào)后能貼切地應(yīng)用于表情識別任務(wù)中,而且為了讓模型更好地識別表情的關(guān)鍵部分,加入了注意力機制這個關(guān)鍵部分,SE(Squeeze-and-Excitation)模塊用全局平均池化策略壓縮特征圖的空間維度,然后利用兩層全連接層去學(xué)習(xí)通道之間的相互依賴關(guān)系,給每個通道賦予自適應(yīng)權(quán)重,從而可以顯示對表情識別十分關(guān)鍵的區(qū)域,像眼睛、嘴巴之類的關(guān)鍵部位。CBAM(卷積塊注意力模塊)則通過在通道及空間維度上同時加入注意力機制,先執(zhí)行通道級注意力操作,再做空間級注意力處理,從而找出并加強與表情有關(guān)的關(guān)鍵特征。3.表情分類模型表情分類模型屬于人臉表情識別系統(tǒng)的關(guān)鍵部分,它的作用是把得到的特征轉(zhuǎn)變成對應(yīng)的預(yù)設(shè)表情類別。深度學(xué)習(xí)技術(shù)利用端到端的訓(xùn)練方式,具備自動獲取特征及定義分類界限的能力。全連接網(wǎng)絡(luò)FCN屬于較為基本的深度學(xué)習(xí)結(jié)構(gòu),它直接對具有固定維數(shù)的特征向量實施操作,通過CNN例如ResNet處理后得到的全局特征像池化層的輸出之類的,用多層全連接層加以加工,加入Dropout與BatchNormalization正則化手段,抑制過擬合現(xiàn)象。于是FCN即便面對數(shù)目不多的樣本,仍然可以搭建起穩(wěn)定而準確的分類器。針對視頻序列的表情識別,三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)把二維卷積從空間維度拓展到時間維度上,利用3×3×3大小的卷積核,3D-CNN可以同時捕捉視頻幀間的空間聯(lián)系和時間發(fā)展,在表情識別任務(wù)里表現(xiàn)出很強的能力。C3D是第一個清楚顯示3D卷積在視頻動作識別方面效果的網(wǎng)絡(luò)結(jié)構(gòu),它的創(chuàng)新點在于采用疊加多個3D卷積層直接作用于原始視頻幀數(shù)據(jù),摒棄了傳統(tǒng)辦法依靠人工創(chuàng)建時序特征的步驟,加強了模型的自適應(yīng)性和泛化能力。對于I3D網(wǎng)絡(luò),用膨脹的二維預(yù)訓(xùn)練模型去初始化三維卷積核,這個辦法讓模型快速收斂起來,而且效果更好。這種技術(shù)尤其擅長抓住動態(tài)序列里那些微小的改變,比如眨眼、撇嘴之類的小表情,一下子出現(xiàn)又很快消失,體現(xiàn)出它能有效應(yīng)對復(fù)雜時間順序樣式。2.4技術(shù)路線圖基于YOLOv5和PyTorch的實時物體識別與計數(shù)系統(tǒng)技術(shù)路線圖如圖2-5所示。圖2-5技術(shù)路線圖在進行實時物體識別與計數(shù)系統(tǒng)設(shè)計時,首先要展開需求判斷,明確系統(tǒng)主要功能。該系統(tǒng)主要用途為實時檢測,檢測目標類別設(shè)定為行人或車輛,輸入數(shù)據(jù)形式采用攝像頭所采集的信息。針對上述要求,著手展開數(shù)據(jù)收集與標注任務(wù)。數(shù)據(jù)來源是自建數(shù)據(jù)集,通過攝像頭采集獲得原始數(shù)據(jù),隨后以YOLO格式進行標注,界定數(shù)據(jù)元素的位置與屬性。此外,為了優(yōu)化模型訓(xùn)練時的泛化能力與穩(wěn)定性,采用一系列數(shù)據(jù)加強策略及參數(shù)來實現(xiàn)數(shù)據(jù)的增強。接著就是探究模型訓(xùn)練與調(diào)優(yōu)方案。模型選擇需依據(jù)不同應(yīng)用場景:對于移動端或低算力裝置,使用YOLOv5n以適配其硬件條件;若要平衡檢測速度與精度,YOLOv5s是合適之選;而追求高精度檢測時,則采用YOLOv5x。編輯修改data/custom.yaml配置文件來設(shè)置數(shù)據(jù)集路徑及類別信息。當配置完成后啟動訓(xùn)練,優(yōu)化的時候著重對超參數(shù)進行優(yōu)化調(diào)整。完成訓(xùn)練調(diào)優(yōu)后,進入模型部署與推理環(huán)節(jié)。先將PyTorch模型導(dǎo)出,按PyTorch-ONNX-TensorRT的流程轉(zhuǎn)換。這種部署策略重點關(guān)注圖像物體識別任務(wù),把模型用于真實場景,用OpenCV當作圖像處理工作,針對攝像頭所獲得的圖像數(shù)據(jù)執(zhí)行預(yù)處理,把已經(jīng)改良后的模型應(yīng)用于實際場景中。實時物體識別與計數(shù)系統(tǒng)主要由視頻流獲取、模型推理和結(jié)果顯示三個核心部分組成。系統(tǒng)通過電腦連接的攝像頭實時獲取視頻流,將每一幀圖像輸入到訓(xùn)練好的YOLOv5模型中進行物體識別,根據(jù)識別結(jié)果統(tǒng)計指定物體的數(shù)量,并將識別框和物體數(shù)量信息實時顯示在屏幕上。第3章實時物體識別與計數(shù)設(shè)計3.1環(huán)境搭建首先,在系統(tǒng)設(shè)計前需要安裝必要的軟件和庫。Python是整個系統(tǒng)開發(fā)的基礎(chǔ),而YOLOv5和其他深度學(xué)習(xí)庫都對較新的Python版本的支持度較高,所以可以選擇安裝Python3.8環(huán)境。Anaconda是一個流行的Python發(fā)行版,它集成了許多科學(xué)計算和數(shù)據(jù)分析所需的庫,并且提供了方便的環(huán)境管理工具。在安裝完成后,可以使用以下命令創(chuàng)建一個新的虛擬環(huán)境:condacreate-nyolov5_envpython=3.8這將創(chuàng)建一個名為

yolov5_env

的虛擬環(huán)境,使用Python3.8版本。然后激活該環(huán)境:condaactivateyolov5_envPyTorch是深度學(xué)習(xí)領(lǐng)域的核心框架,它有助于搭建和實現(xiàn)YOLOv5這種高級別的目標識別模型。在安裝PyTorch環(huán)境時,需要按照所用顯卡的種類及特性來選擇合適的版本,使軟件功能得到有效發(fā)揮。本設(shè)計采用的是以CPU架構(gòu)為基礎(chǔ)的PyTorch軟件庫。CPU版本的PyTorch安裝指令如下:pipinstalltorchtorchvisiontorchaudio為了獲取并且本地化YOLOv5官方代碼庫以供執(zhí)行使用,需要在GitHub平臺上把YOLOv5代碼庫克隆在本地環(huán)境中,可以使用以下命令將其克隆到本地:gitclone/ultralytics/yolov5cdyolov5這將把YOLOv5的代碼庫下載到當前的工作目錄,并進入

yolov5文件夾。在準備開發(fā)環(huán)境前,需要將項目所需要的依賴庫安裝好,這些依賴庫包括OpenCV、NumPy及Matplotlib等。安裝這些庫可以使用以下命令:pipinstall-rrequirements.txt該指令依照requirements.txt

文件中的內(nèi)容,自動開展全部必要的依賴庫的安裝工作。最后為了驗證環(huán)境的安裝是否成功,可以執(zhí)行一個簡單的測試腳本加以檢驗。在yolov5文件夾里,運行下面指令就可以啟動一個推理演示:pythondetect.py--source0--weightsyolov5s.pt該指令通過預(yù)先訓(xùn)練完成的yolov5s.pt

模型來實現(xiàn)實時物體識別的功能,由電腦攝像頭來獲取影像,如果成功,則在攝像頭畫面中識別出來的物體將會被正確的框選出來,并且同時標注出該物體的種類以及識別時的置信度,這樣就可以直觀的得到物體識別的結(jié)果。3.2數(shù)據(jù)準備基于YOLOv5和PyTorch搭建的實時物體識別與計數(shù)系統(tǒng)中,數(shù)據(jù)準備是關(guān)鍵的一步,它直接影響到模型的訓(xùn)練效果和最終性能。3.2.1數(shù)據(jù)收集在數(shù)據(jù)收集階段前,首先要明確目標物體的識別標準及計數(shù)要求,然后系統(tǒng)規(guī)劃和執(zhí)行相應(yīng)的圖像與視頻采集工作。(1)關(guān)于圖像獲取策略,本設(shè)計采用了相機拍攝的方法,搜集各種場景、各種光照條件、各種角度、各種姿態(tài)的目標物體圖像,增加了數(shù)據(jù)集的多樣性。(2)視頻采集策略,利用攝像頭設(shè)備來抓取包含目標物體的動態(tài)視頻序列,得到連續(xù)圖像幀,完善數(shù)據(jù)集的內(nèi)容。3.2.2數(shù)據(jù)標注(1)選擇標注工具常用的圖像標注工具有LabelImg、LabelBox、RectLabel等,它們可以在圖像上標記出目標物體的邊界框,并標記出類別屬性。對于視頻資料的標注,可以使用VGGImageAnnotator(VIA)這類工具,將視頻片段逐幀導(dǎo)出為靜態(tài)圖像,以此開展標注工作。(2)標注流程安裝并打開標注工具:以LabelImg為例,安裝完成后打開軟件,首先選擇用來標注的圖像文件夾;接著創(chuàng)建分類體系,在軟件內(nèi)部創(chuàng)建目標物體種類的類別標簽,例如“car”、“person”等;然后開始標注工作,用鼠標在圖像上勾勒出目標物體的邊界框,使每一個邊界框都能對應(yīng)到相應(yīng)的類別。在標注完成后,把注釋好的數(shù)據(jù)保存成XML或JSON格式,方便進一步處理。(3)標注規(guī)范對于邊界框的精度,注重的是它是否可以精確地把目標對象全部包含在內(nèi),既沒有多余的背景元素被包含進去,也沒有目標物體的部分被遺漏掉,這樣就能做到對目標對象的完整且準確的圈定。在給類別命名時要保持術(shù)語的一致和正確,不能有拼寫錯誤或概念混淆。在標注的完整性上,一定要做到把圖片里所有的目標物體都標注出來,保證數(shù)據(jù)集的完整準確。3.2.3數(shù)據(jù)劃分深度學(xué)習(xí)模型訓(xùn)練期間,數(shù)據(jù)集的劃分很關(guān)鍵,通常把它分成訓(xùn)練集、驗證集以及測試集,這個比例一般為70%,15%,15%,如此就能保證模型訓(xùn)練過程順利開展。訓(xùn)練集是模型學(xué)習(xí)的根基,它的主要功能在于讓模型充分認識目標對象的特性及模式,進而對數(shù)據(jù)內(nèi)部規(guī)律進行精確把握;驗證集在訓(xùn)練階段起到關(guān)鍵作用,借助持續(xù)監(jiān)控模型性能變化,給超參數(shù)調(diào)整給予依據(jù),像學(xué)習(xí)率、批量大小這些常見的超參數(shù)都需在此階段優(yōu)化,以便取得理想的訓(xùn)練成果;測試集在模型訓(xùn)練完成后,充當最后評判者的角色,它被用來全面考察模型的推廣能力和預(yù)測精確度,從而判斷模型在實際應(yīng)用環(huán)境里的有效性及可靠性。3.2.4數(shù)據(jù)格式轉(zhuǎn)換針對YOLOv5模型的數(shù)據(jù)標注需求,數(shù)據(jù)要符合一定規(guī)范,一般每張圖片配一個.txt文件,每行信息對應(yīng)一個目標對象,格式為class_idx_centery_centerwidthheight,其中class_id是目標物體的類別編號,x_center、y_center是邊界框中心的歸一化坐標,width、height是邊界框的歸一化寬度和高度??梢允褂肞ython腳本將XML或JSON格式的標注數(shù)據(jù)轉(zhuǎn)換為YOLOv5所需的格式,其步驟是:(1)導(dǎo)入模塊;(2)通過核心轉(zhuǎn)換函數(shù)將單個XML文件轉(zhuǎn)換為YOLO格式的標注行,可以先解析XML文件并獲取根節(jié)點,再提取圖像的寬度和高度(用于坐標歸一化),最后初始化存儲YOLO格式標注的列表;(3)處理每個標注對象來提取每個對象的類別和邊界框坐標,邊界框坐標從XML中提取為像素值;(4)將像素坐標轉(zhuǎn)換為YOLO要求的歸一化格式。YOLO格式為:class_idx_centery_centerwidthheight,其中所有值均相對于圖像尺寸(范圍0-1)。x_center,y_center:邊界框中心點相對于圖像寬度和高度的比例。w,h:邊界框?qū)挾群透叨认鄬τ趫D像寬度和高度的比例。(5)批量處理所有XML文件,將每個文件轉(zhuǎn)換為對應(yīng)的YOLO格式txt文件。3.2.5數(shù)據(jù)增強數(shù)據(jù)增強技術(shù)的關(guān)鍵之處在于,它在原始數(shù)據(jù)集上執(zhí)行變換操作,讓數(shù)據(jù)集變得更為多樣化,從而增強機器學(xué)習(xí)模型的泛化能力和適應(yīng)性。YOLOv5支持多種數(shù)據(jù)增強方法,如隨機裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、亮度調(diào)整等。在訓(xùn)練配置文件中,可以設(shè)置相應(yīng)的數(shù)據(jù)增強參數(shù),例如:#數(shù)據(jù)增強參數(shù)設(shè)置augment:truehsv_h:0.015#色調(diào)調(diào)整范圍hsv_s:0.7#飽和度調(diào)整區(qū)間hsv_v:0.4#亮度調(diào)整范圍flipud:0.5#上下翻轉(zhuǎn)概率fliplr:0.5#左右翻轉(zhuǎn)概率rotate:10#旋轉(zhuǎn)角度區(qū)間3.3模型訓(xùn)練創(chuàng)建一個.yaml格式的數(shù)據(jù)集配置文件來指明數(shù)據(jù)集路徑、類別數(shù)目、類別名字這些參數(shù)。針對YOLOv5不同規(guī)模的模型,比如yolov5s.yaml、yolov5m.yaml等配置文件,需要依照特定任務(wù)的需求,挑選恰當?shù)呐渲梦臋n,而且要保證模型性能得到改善并適應(yīng),按照訓(xùn)練數(shù)據(jù)集所涵蓋類別的數(shù)量去適配并調(diào)整nc參數(shù)關(guān)于預(yù)訓(xùn)練模型的選擇,YOLOv5官方給出了在大規(guī)模COCO數(shù)據(jù)集上預(yù)訓(xùn)練好的模型權(quán)重,如yolov5s.pt、yolov5m.pt等,使用這些預(yù)訓(xùn)練模型能夠加速模型收斂并提升訓(xùn)練效果,可以通過訪問YOLOv5的官方GitHub倉庫來獲取這些預(yù)訓(xùn)練模型。若要啟動利用train.py腳本執(zhí)行的訓(xùn)練流程,常采用下面的常見命令行指令:pythontrain.py--img640--batch16--epochs50--datadata.yaml--cfgmodels/yolov5s.yaml--weightsyolov5s.pt各個參數(shù)的含義如下:--img:設(shè)定圖像輸入尺寸,通常該參數(shù)設(shè)置為640或其他合適的值。--batch:設(shè)置批量大小,即每次訓(xùn)練過程中處理的圖像數(shù)量。這個參數(shù)需要根據(jù)GPU內(nèi)存大小來適配,一般來說,內(nèi)存越大,允許設(shè)置的批量大小也越大。--epochs:是模型訓(xùn)練周期數(shù)量的衡量指標,它表示數(shù)據(jù)集在整個訓(xùn)練過程中會被迭代多少次,一般來說,訓(xùn)練輪數(shù)越多,模型就有更多機會去學(xué)習(xí)數(shù)據(jù)的特征,得到更好的性能表現(xiàn),但相應(yīng)的訓(xùn)練時間也會增加。--data:指定數(shù)據(jù)集配置文件的路徑。--cfg:指定模型配置文件的路徑。--weights:指定預(yù)訓(xùn)練模型權(quán)重文件的路徑。在訓(xùn)練期間,YOLOv5系統(tǒng)產(chǎn)生的訓(xùn)練日志里包含了一些關(guān)鍵性能指標,比如損失函數(shù)數(shù)值、準確度等,而具體的指標則會涉及到分類損失、邊界框回歸損失以及目標置信度損失等方面。再系統(tǒng)地觀測這些指標變化趨勢,便可以直觀地把握住訓(xùn)練進程的動態(tài)走向,并據(jù)此對模型的學(xué)習(xí)成效及其優(yōu)化策略進行適時調(diào)整。就TensorFlow模型訓(xùn)練流程而言,如果存在可視化需求,那么就可以借助TensorBoard達成對YOLOv5訓(xùn)練進程的可視化。當執(zhí)行YOLOv5訓(xùn)練任務(wù)的時候,可以在命令行里加上“--project_name”這個參數(shù),來選定某個專門存放訓(xùn)練日志的文件夾,這樣做可以使訓(xùn)練數(shù)據(jù)得到管理并被隨時追蹤到,接下來再在命令行界面上執(zhí)行一條特別的命令,也就是“tensorboard--logdir=指定目錄路徑”,如此一來就能開啟TensorBoard服務(wù),這樣做既可以做到訓(xùn)練過程的實時可視化,又能夠把損失函數(shù)的變動情況、準確率的動態(tài)走向以及網(wǎng)絡(luò)權(quán)重的更新情形等重要信息直接顯示出來,進而改善模型調(diào)試和改良的效率。3.4超參數(shù)調(diào)整(1)學(xué)習(xí)率學(xué)習(xí)率是控制著模型參數(shù)更新步長的重要超參數(shù)。如果設(shè)置過大,會導(dǎo)致模型無法收斂;如果設(shè)置過小,則會導(dǎo)致模型收斂速度過慢??梢酝ㄟ^調(diào)整--lr0

參數(shù)來設(shè)置初始學(xué)習(xí)率。(2)優(yōu)化器YOLOv5默認使用的優(yōu)化器是Adam,可以根據(jù)自己需求更換成其他的優(yōu)化器如SGD等,只需要使用--optimizer

參數(shù)就可以更換優(yōu)化器。(3)數(shù)據(jù)增強參數(shù)數(shù)據(jù)增強技術(shù)可以增加數(shù)據(jù)集的多樣特征,提高模型的泛化能力。在訓(xùn)練配置文件中,一般是調(diào)整數(shù)據(jù)增強參數(shù),如

hsv_h、hsv_s、hsv_v

等超參數(shù),分別對應(yīng)色調(diào)、飽和度和亮度的調(diào)整范圍。3.5模型保存與評估(1)模型保存在模型訓(xùn)練環(huán)節(jié),YOLOv5會定時保存網(wǎng)絡(luò)權(quán)重參數(shù),即每個訓(xùn)練輪次(epoch)所對應(yīng)的模型權(quán)重文件,以及整個訓(xùn)練期間表現(xiàn)最好的模型權(quán)重文件(best.pt)。(2)模型評估模型訓(xùn)練完成后,使用驗證集評估模型的性能??梢允褂锰囟ㄖ噶钤?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論