基于無人機航拍的高鐵長大橋梁施工場景小目標智能檢測方法_第1頁
基于無人機航拍的高鐵長大橋梁施工場景小目標智能檢測方法_第2頁
基于無人機航拍的高鐵長大橋梁施工場景小目標智能檢測方法_第3頁
基于無人機航拍的高鐵長大橋梁施工場景小目標智能檢測方法_第4頁
基于無人機航拍的高鐵長大橋梁施工場景小目標智能檢測方法_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

存在地勢高低錯落、施工背景顏色雜亂、施工工人扎堆聚集、施工設備易遮擋工人等問題。無人機巡檢時,高度往往在100~120m。在此高度獲取的影像畫面中,地面上的工人以及安全帽的分辨率小,目標的特征信息少,容易受到周圍背景環(huán)境的干擾和機械設備的遮擋,可以將該類目標定義為小目標。根據(jù)現(xiàn)有小目標檢測數(shù)據(jù)集中對小目標的定義分為2類,即基于相對尺度的定義與基于絕對尺度的定義?;诮^對尺度定義時,通常將像素小于32×32的目標定義為小目標,因為輸入圖像在神經(jīng)網(wǎng)絡中,特征張量會經(jīng)過5次最大池化層,映射成向量上的一個點;基于相對尺度定義時,當目標的尺寸占比小于整幅畫面的10%時,可以被認定為小目標。試驗中,把像素點1920×1080像素點作為標準尺寸,將像素點尺寸小于192×108的定義為小目標。目前,在計算機視覺領域,隨著深度學習的普遍應用,目標檢測的精度和速度都有顯著提升。當下流行的目標檢測算法包括R-CNN YOLOv8等。但主流目標檢測模型在利用無人機對施工工地復雜場景中人員和安全帽之類小目標進行識別時,存在大量漏檢、誤檢的情況。此外,無人機巡檢的實時畫面還要同步展示在高鐵長大橋梁AI識別管理平臺中,需兼顧高精度(平均精度均值:mAP50≥90%)與實時性 (模型推理速度:FPS≥10f/s)的平衡,以確保畫面的實時性和流暢性。因此,針對以上場景,選取目前比較先進的YOLOv8和RT-DETR模型為基礎模型,在此基礎上展開研究,以改進算法。在算法研究方面的主要貢獻有:(1)針對RT-DETR模型在高鐵長大橋梁復雜施工場景中對小目標檢測速度難以滿足實時推理需求的問題,提出基于RT-DETR模型的改進算法。為了提高模型的特征表示能力,改進方法通過引入模型重參數(shù)化(RepConv)代替普通的卷積。這樣的設計不僅能增強模型的檢測性能,還能構建一個更加魯棒性的模型。(2)借助級聯(lián)分組注意力模塊,將完整特征的不同切分輸入到不同的注意力頭部,從而達到既節(jié)省計算成本,又提高注意力多樣性(3)設計一套標準的小目標檢測系統(tǒng),實現(xiàn)了系統(tǒng)快速判斷檢測異常情況、檢測到之后實施警報,從而起到工地指揮官的作用。(4)通過在真實場景下的試驗結果表明,改進的方法既能兼顧實時性,又能提升小目標檢測的性能。與最近的先進方法(YOLOv8)1研究現(xiàn)狀與算法選型1.1目標檢測算法研究現(xiàn)狀目前,深度學習是計算機視覺等人工智能算法的主流,基于深度學習框架的目標檢測算法基本上分為2種方式:基于候選區(qū)域和基于回歸方式。前者的代表算法有R-CNN、Fast-RCNN、Faster-RCNN等。R-CNN算法率先使用卷積網(wǎng)絡,但由于其訓練步驟間斷且訓練時間長,He等對該算法進行改進,提出減少計算量而增快檢測速度的Spp(SpatialPyramidPooling)-Net網(wǎng)絡。隨后,Girshick等結合種算法通過對先進算法的進一步改進,有效緩解了小目標檢測的性能,且提升了檢測效率。RCNN系列算法由于其結構的限制,在應用于一些對識別實時性要求較高的場景時,往往難以達到預想的效果。因此,基于回歸的目標檢測算法便應運而生。這種方法利用回歸思想預測目標的類別和位置,以達到減少計算量從而節(jié)約時間成本的目的?;诨貧w的代表算的訓練和實時檢測,并開創(chuàng)了YOLO系列的開端。此后,YOLOv2至YOLOv5陸續(xù)被提出,后續(xù)的算法均在之前算法的基礎上,向著網(wǎng)絡結構更輕量化,目標檢測精度更高的方向改進,隨著超分辨率系列算SSD算法同樣傳承了YOLO系列的模型特點,引入錨點(anchor)機制,利用多層級特征圖預測目標的類別和位置。但SSD算法也存在局限性:卷積神經(jīng)網(wǎng)絡在結構上存在固有問題,那就是高層網(wǎng)絡感受野比較大,語義信息表征能力強,但是分辨率低,幾何細節(jié)信息表征能力弱;底層網(wǎng)絡感受野比較小,幾何細節(jié)信息表征能力強,雖然分辨率高,但語義信息表征能力弱。1.2小目標檢測算法選型目前的目標檢測框架大致可以分為CNNbased和Transformer和RT-DETR作為2個基礎網(wǎng)絡模型。YOLOv8采用新的無錨點(Ancher-Free)檢測頭,以提供更精確的目RT-DETR(Real-TimeDetectionwith端檢測思想和解碼器(Trans-former)的優(yōu)點,旨在的訓練時長(75~80輪)和較少的數(shù)據(jù)增強(沒有馬賽克增強)的策略,在同等測試條件下(像素640×640)展現(xiàn)出更強的性能和更好1.2.3算法選型結果當下主流的目標檢測框架YOLOv8和RT-DETR都能夠在非垂直領域的目標檢測場景中有較好表現(xiàn),但以無人機視角識別極小目標時,原始框架仍存在大量漏檢、誤檢的情況。此外,為了在確保推理準確率的同時,還要求較高的推理速度,選取更為輕量的RT-DETR為基礎模型,在此基礎上結合高鐵長大橋梁無人機航拍小目標檢測任務展開算法優(yōu)化研究。2小目標檢測算法的優(yōu)化RT-DETR網(wǎng)絡由主干網(wǎng)絡(Backbone)、混合編碼器(HybridEncoder)和帶有輔助預測頭的Transformer解碼器組成(見圖1)。AIFI一基于注意力的尺度內特征交互;CCEM一基于卷積神經(jīng)網(wǎng)絡(CNN)的跨尺度特征融合模塊;基于交并比感知的查詢選擇;Conv—卷積核:BN一批量歸一化處理;SiLU—S型線性單元。RT-DETR的Backbone模塊即主干網(wǎng)絡是特征提取的基礎,其結構和性能直接影響模型的總體表現(xiàn)。通過改進Backbone,可以提高網(wǎng)絡對圖像細節(jié)和小目標特征的捕捉能力;在Encoder模塊中加入自注意力模塊,能夠有效地減少在特征提取過程中可能出現(xiàn)的信息丟失,特別是在處理復雜場景和小目標時,這種機制顯得尤為重要;為了模型在小目標密集的場景有更好的表現(xiàn),利用切片輔助超推理(SAHI)切圖方法通過將大圖像切割成若干小塊,使每個小塊中小目標的相對尺寸變大,從而更容易被檢測到。2.1Backbone輕量化Backbone模塊即為主干網(wǎng)絡,是模型的核心,影響著模型的速度和精度。RT-DETR的Backbone模塊使用了HGNet-v2主干網(wǎng)絡,其基本結構見圖2。輸入輸入ddAIFI—基于注意力的尺度內特征交互;S3、S4、S5—網(wǎng)絡層級逐漸加深的特征層。同組合:(1)DWConv:深度可分離卷積模塊,用于下采樣(LDSLayer),HGNet模塊,其中第3階段的HGBlock會啟用輕量化(light)和捷然而原HGBlock內采用的是普通的卷積(Conv)模為了進一步提高精度和速度,重點對HGBlock進行優(yōu)化,在HGNet-v2的第2和第4階段中,用Rep-Conv代替原有HGBlock的普使用多分支結構(3×3卷積+1×1卷積+恒等映射),以借助其良好(b)RepConv推理結構十+十圖3RepConv結構階段3階段1階段2圖4改進后的Backbone模塊的HGNet網(wǎng)絡命名為Mobile-HGNet,為驗證MobileHGNet的輕量化優(yōu)勢,在相同數(shù)據(jù)集下,選取經(jīng)典輕量化網(wǎng)絡MobileNetV3、MobileNetV3:通過深度可分離卷積與神經(jīng)架構搜索實現(xiàn)高效計EfficientNet-B0:基于復合縮放策略均衡網(wǎng)絡深度、寬度與分升4.2%,驗證了RepConv結構的有效性。2.2自注意力模塊改進在頸部網(wǎng)絡中,RT-DETR采用1層Transforme處理主干網(wǎng)絡輸出的S5特征,即基于注意力尺寸內特征交互塊。將二維的S5特征拉成向量,交給AIFI模塊處理,是多頭自注意力與前饋神經(jīng)網(wǎng)絡。再將輸出調整回二維,記作F5,以便去完成后續(xù)的“跨尺度特征融合”,詳細見原文。整個級聯(lián)分組注意力模塊見圖5。頭部2K令牌交互連接與投影輸出令牌交互頭部1圖5整個級聯(lián)分組注意力模塊如圖5所示,每個頭部的輸出都會添加到后續(xù)頭部中,逐步優(yōu)化特征表示。級聯(lián)設計具有2個優(yōu)勢:將不同的特征切分輸入到每個頭部可以提高注意力圖的多樣性。級聯(lián)注意力頭允許增加網(wǎng)絡的深度,從而進一步提高模型的容量,而不引入任何額外的參數(shù)。每個頭部中的注意力圖計算使用了更小的Q、K通道維度,因此只會帶來輕微的延遲開銷。借助級聯(lián)分組注意力模塊,使得模型在保證輕量化的同時,更加關注目標的重點信息,忽略無關信息。在COCO小目標子集上,對比提升注意力多樣性并減少計算冗余。注意力機制對比見表1。表1注意力機制對比參數(shù)量/(10?個)無注意力級聯(lián)分組注意力提升2.8%,優(yōu)于主流注意力方法,更適合小目標密集場景。2.3基于SAHI切圖的數(shù)據(jù)增強方法行嘗試,這也屬于數(shù)據(jù)增強的一種方法(見圖6)。預u5樓起PP其切圖的處理過程分為訓練階段和推理階段2部分。如圖6(a)所示,在訓練階段SAHI算法在微調過程中從數(shù)據(jù)集中抽取片段(patch)以擴充數(shù)據(jù)集。每張圖片都會被切割成重疊的片段。接下來,在微調過程中,通過保持縱橫比來調整片段的大小,使得圖片的寬度介于像素800~1333,從而得到擴充后的圖片,這樣相對于原圖,對象的大小變得更大。在微調過程中,將會利用這些擴充后的圖片和原始圖片以方便大對象的檢測。如圖6(b)所示,在推理階段,圖像被細分為多個小的子區(qū)域,并將這些區(qū)域調整大小后輸入模型以進行預測。通過非極大值抑制 (NMS),預測結果被映射回初始圖像坐標。值得注意的是,它還可納入來自原始圖像的預測數(shù)據(jù)。在進行推理時,同樣使用了圖像切割技術。原圖被分為多個重疊的patch。保持寬高比的同時調整每個部分的尺寸,并對它們進行單獨預測。原圖的預測結果也被納入,有助于探測更大的目標。最終運用NMS合并重復的預測和原圖的推理結果,并將其調整回原始尺寸。利用SAHI數(shù)據(jù)增強后的YOLOv8模型在實測中的表現(xiàn)(見圖7),可以看到經(jīng)過SAHI增強之后,訓練出的模型檢測率得到很大提升。時發(fā)現(xiàn),其推理速度僅能達到0.77f/s,距離期望的最小推理速度2f/s仍有不小差距,并且由于在訓練時對原始圖片的切圖會一定程而針對SAHI主要的2個問題,在試驗中得出對應的優(yōu)化方案。2.3.1對SAHI檢測大目標時存在重識別問題的優(yōu)化(1)從之前用SAHI訓練的模型中獲取層。(2)凍結這些層,以避免在后續(xù)訓練輪次中破壞它們包含的任(3)在已凍結層的頂部添加一些新的可訓練層。這些層會學習將舊特征轉換為對新數(shù)據(jù)集的預測。(4)在帶有所有標簽(label)的數(shù)據(jù)集上訓練新層(不使用這樣既能保留SAHI對小目標檢測的提升,又能通過更精細的特征圖來實現(xiàn)對大目標的檢測而有效減少重識別的概率(2個物體非常接近,落在特征圖的同1個單元中,那么模型在訓練過程中就會預測較大的物體,在多尺度方法中,較小的鄰近物體可能會被更細粒度的特征圖檢測到,在這種情況下,2個物體不會共用1個單元)。2.3.2對SAHI檢測速度過慢的優(yōu)化通過僅在訓練階段使用SAHI算法進行切割,而在推理階段不進行任何處理的方式來增大推理速度,這在使用SAHI切割大小與訓練時參數(shù)大小相同時格外有用,可以有效減少大圖在訓練時的壓縮損失,也可以減少推理模塊因幀切割推理后再合并而占用的較多時間。3小目標檢測系統(tǒng)的設計與實現(xiàn)3.1檢測模式與數(shù)據(jù)結構無論是使用YOLOv8還是RT-DETR模型,都采用預測+追蹤的模式,即Predict+Track,其中Track選用了BotSort多目標跟蹤模型。因為本模型最終要用到無人機實拍視頻的檢測上,所以追蹤階段一律采用流模式(stream)處理方式。使用流模式處理的好處就是,可以在每1幀都生成1個節(jié)省內存的結果(Results)對象生成器,便于對大的可能性。在處理視頻流時,模型會逐幀返回1個Results對象,Results包含的部分參數(shù)見圖8。用于plot繪制圖8中,orig_img是視頻數(shù)據(jù)的某1幀原圖,可以對其進行二(1)conf:某1幀所有檢測框的置信度集合;(2)cls:某1幀所個數(shù)據(jù)來進行。3.2檢測和預警邏輯設計報,從而起到工地指揮官的作用。檢測和預警流程見圖9。是否否否fpermitAlarm=True?是否檢測出是當前幀id集合是開始異是圖9檢測和預警流程值,只有超過了該閾值才能進行1次預警。但是盡管有些幀檢測出了3.3定位異常情況從圖9中可知,對于異常情況的判斷通常是根據(jù)Re-sults返回進行交并比(IoU)的計算,若person框與所有的helmet框IoU值均為0,則可以斷定該工人未戴安全帽。詳細見原文。小目標無人機航拍實時檢測見圖10??梢钥吹剑诙ㄎ坏竭`規(guī)情況后,通過二次繪制,系統(tǒng)賦予未戴安全帽的工人特別的標簽“personwithouthelmet”,并被著重標記出,保存入數(shù)據(jù)庫。圖10無人機航拍實時檢測3.4無人機端-云協(xié)同系統(tǒng)架構端-云協(xié)同無人機巡檢圖像傳輸系統(tǒng)見圖11。圖11端-云協(xié)同無人機巡檢圖像傳輸系統(tǒng)獲取數(shù)據(jù),數(shù)據(jù)將以實時視頻流的形式通過大疆上云接口(API)傳法進行實時視頻流分析,推理結果上傳至云平臺,以在網(wǎng)頁端的無人機智能巡檢系統(tǒng)中展示。4試驗結果與應用4.1數(shù)據(jù)集在Win系統(tǒng)的GPU上進行訓練,使用開源的py-thon開發(fā)工具Anaconda。使用的數(shù)據(jù)集是由從6段不同的工地無人機拍攝視頻中所截取的1911張圖片構成,訓練集、驗證集、測試集的比例為8:1:對于數(shù)據(jù)集的標注,初步將類別分為9類,包括人、安全帽、救生衣以及各種重載車輛,對不同大小目標的標注見圖12。圖12對不同大小目標的標注當目標的尺寸占比小于整幅畫面的1%時,可以被認定為小目標。試驗中,把1920×1080像素點作為標準尺寸,將像素點尺寸小于192×108的定義為小目標。根據(jù)工地實際情況,選取數(shù)據(jù)集中無人機在100~120m高空,以45°~75°的傾斜角拍攝的不同目標的畫面,并依次計算它們的平均像素寬高占比(見表3)。表3各類目標的寬高占比類別平均平均寬度/像素高度/像素寬占比高占比是否是小目標人安全帽√救生衣√卡車××汽車吊軌×履帶吊軌×旋挖鉆機×水泥車×不同類別目標的數(shù)量占比見圖13。據(jù)圖可知,人、安全帽等小目標的占比達到了將近70%。而大型重載車輛由于特征明顯,較容易識別,主要的工作在于對人、安全帽等小目標的識別。圖13不同類別目標數(shù)量占比4.2對比試驗試驗分為2組,一組是在原始的工地數(shù)據(jù)集上進行訓練,另一組驗的思想,將不同的改進模型與基線模型(baselin別為:(1)未改進的YO-LOv8;(2)未改進的RT-DETR;(3)進行力模塊改進的RT-DETR(RT-DETR-2);(5)綜合3和4這2種改進均為4,圖像尺寸(imgsize)均為1280×1280,2組訓練模型的數(shù)據(jù)對比見原文。4.3模型訓練采用遷移學習的方法,選用YOLOv8-1和RT-DE-TR-1作為預訓練模型。由于是初次訓練,主要目的是分析2種網(wǎng)絡的優(yōu)缺性,因此暫時未對網(wǎng)絡結構做任何修改。詳細見原文。4.4初次實驗結果分析從3個方面分析訓練得到的4個模型。詳細見原文。4.5初次試驗總結RT-DETR-1(img_size為1280×1280)的表現(xiàn)最佳。另外,在初次試驗中發(fā)現(xiàn),RTDETR的收斂速度相對更快,在100輪次以內就能達到最優(yōu),然而其計算量相對較大,推理速度也不如YO-LOv8-1。因此主要對RT-DETR模型的網(wǎng)絡結構進行優(yōu)化,優(yōu)化的目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論