目標(biāo)檢測(cè);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
目標(biāo)檢測(cè);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
目標(biāo)檢測(cè);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
目標(biāo)檢測(cè);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
目標(biāo)檢測(cè);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

IABSTRACTTargetdetectionhasmadeimportantprogressinrecentyears.ThemainideaofmainstreamalgorithmssuchasR-CNNalgorithmistogenerateaseriesofsparsecandidateframesthroughselectivesearchorCNNnetwork(RPN),andthenclassifyandregressthesecandidateframes,withtheadvantageofhighaccuracy;YOLOandSSD,whosemainideaistouniformlyanddenselysampletheimagesatdifferentlocations,andthenuseCNNtoextractfeaturesanddirectlyclassifyandregress,thewholeprocesstakesonlyonestep.denselysampledatdifferentlocationsoftheimage,thesamplingcanbedoneatdifferentscalesandaspectratios,andthenthefeaturesareextractedusingCNNandthendirectlyclassifiedandregressed,thewholeprocesstakesonlyonestep,soitsadvantageisfast,butanimportantdisadvantageofuniformdensesamplingisthattrainingismoredifficult.Comparedtounifiedcentralizedprocessing,smartterminalscanbetteradapttodifferentiatedenvironmentsandhavelowerO&Mcosts.However,developingahigh-qualitylightweighttargetdetectionmodelisnotsoeasy,andthereareoftenmanychallengesintherealenvironment:speed,suchasindustrialvisionqualityinspection,autonomousdrivingandotherreal-timescenarios,theacceptablerangeofdelayoftenneedstobeinthemillisecondlevel,whichisextremelydemanding;highaccuracy,inscenariossuchasautonomousdrivingandfiredetection,asmallerrorcanbringseriouslosses.Thetoleranceforfalsedetectionandmisseddetectionisverylow;thesizeshouldbesmall,inthecellphone,car,IOTandotheredge-enddeployment,arithmeticpowerandmemoryarelimited,thealgorithmneedstoachievetheultimatecompression;thedeploymentenvironmentiscomplexanddiverse,thehardwaredevicepowerconsumption,specificationsofvariouskinds.Themostultra-lightweighttargetdetectionintroducedinthispaperisdesignedtosolvetheabovepainanddifficultyproblems,optimizingthemodelforspeed,accuracyanddeploymentfriendliness,andachievingremarkableresults.Keywords:Targetdetection;Deeplearning;Convolutionalneuralnetwork緒論1.1研究背景與意義現(xiàn)階段,人類接觸與了解外界的方式方法基本是通過(guò)視覺(jué)、嗅覺(jué)、聽(tīng)覺(jué)、味覺(jué)和觸覺(jué)而來(lái)。其中視覺(jué)是人類最直觀的獲取外界信息的方式。經(jīng)過(guò)歷史歲月的變遷,眼下如今人類已經(jīng)研究發(fā)明出可以模擬人眼成像的技術(shù)設(shè)備。將信息儲(chǔ)存到數(shù)字圖像中,進(jìn)而推演出數(shù)字圖像的處理過(guò)程,這一學(xué)科稱之為計(jì)算機(jī)視覺(jué)。目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)技術(shù)中相當(dāng)基礎(chǔ)卻也甚為重要的一項(xiàng)任務(wù),它負(fù)責(zé)對(duì)數(shù)字圖像中的單個(gè)或多個(gè)目標(biāo)進(jìn)行識(shí)別和定位。這些年中,超輕量網(wǎng)絡(luò)技術(shù)推陳出新,基于超輕量網(wǎng)絡(luò)的技術(shù)已經(jīng)取得了碩大的進(jìn)步,并且正在走出實(shí)驗(yàn)室進(jìn)入工業(yè)領(lǐng)域。目標(biāo)檢測(cè)技術(shù)是計(jì)算機(jī)視覺(jué)系統(tǒng)極為關(guān)鍵的任務(wù)額,其在生活與工作中的多個(gè)場(chǎng)景得到廣泛應(yīng)用。例如,醫(yī)學(xué)圖像分析、自動(dòng)駕駛汽車、業(yè)務(wù)分析和人臉識(shí)別等都依賴于目標(biāo)檢測(cè)技術(shù),已經(jīng)融入了我們生活的方方方面。上述應(yīng)用程序所需要的計(jì)算設(shè)施可能是云計(jì)算設(shè)施、通用GPU、物聯(lián)網(wǎng)集群或單個(gè)嵌入式設(shè)備。為了設(shè)計(jì)一種有效的目標(biāo)檢測(cè)器,模型縮放技術(shù)極為關(guān)鍵,其能夠在有效提升檢測(cè)設(shè)備的時(shí)效性和精確性。自動(dòng)駕駛:在現(xiàn)代智能化交通領(lǐng)域中,自動(dòng)駕駛技術(shù)無(wú)疑是其中的亮點(diǎn)。該技術(shù)得益于車輛對(duì)周邊環(huán)境的識(shí)別,對(duì)動(dòng)態(tài)化的物體進(jìn)行全方位感知,在此基礎(chǔ)上對(duì)周圍車輛、障礙物、交通標(biāo)識(shí)等物件進(jìn)行全面感知和識(shí)別。這也成為自動(dòng)駕駛技術(shù)得以發(fā)展和普及的先決條件。安防監(jiān)控系統(tǒng):安全防護(hù)監(jiān)控系統(tǒng)是基于原有的監(jiān)控體系的完善和升級(jí),傳統(tǒng)的監(jiān)控系統(tǒng)離不開(kāi)管理人員的操作,無(wú)形中增加人力成本。隨著現(xiàn)代安全防護(hù)監(jiān)控系統(tǒng)的發(fā)展和升級(jí),自動(dòng)識(shí)別功能得到全面發(fā)揮,其對(duì)所有動(dòng)態(tài)和靜態(tài)的物體進(jìn)行全面捕捉。將其運(yùn)用在工作場(chǎng)所,可對(duì)來(lái)訪接待、重要資產(chǎn)丟失、外來(lái)人員入侵等情況發(fā)出警報(bào)。其在流水線作業(yè)中,能夠起到安全提示的作用,一旦有人員靠近危險(xiǎn)品或區(qū)域,系統(tǒng)經(jīng)過(guò)自動(dòng)識(shí)別后將出現(xiàn)報(bào)警,同時(shí)該系統(tǒng)還可以針對(duì)異常情況進(jìn)行實(shí)時(shí)保存,有效節(jié)省內(nèi)存空間。醫(yī)學(xué)圖像領(lǐng)域:如今不少醫(yī)療設(shè)備都能實(shí)現(xiàn)可視化狀態(tài),根據(jù)病患的具體病痛區(qū)域進(jìn)行全面深入的采集,該技術(shù)的為醫(yī)生診斷提供技術(shù)支持。比如肺水腫、肺結(jié)節(jié)等復(fù)雜程度較高的診斷場(chǎng)景,檢測(cè)系統(tǒng)能夠?qū)崿F(xiàn)實(shí)時(shí)捕捉的效果,有助于醫(yī)生根據(jù)具體病灶對(duì)癥下藥。

移動(dòng)端識(shí)別:得益于攝像設(shè)備在小型化方向的進(jìn)步與清晰度的不斷提升,移動(dòng)終端計(jì)算能力的提升,人們可直接通過(guò)手機(jī)進(jìn)行各種類型的檢測(cè),其能及時(shí)有效拍攝動(dòng)態(tài)或靜態(tài)物體,從而實(shí)現(xiàn)人臉識(shí)別、文字識(shí)別的需求。大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的對(duì)象檢測(cè)器往往只能與推薦系統(tǒng)相匹配。如利用遍布城市各個(gè)角落的攝像系統(tǒng)尋找可用的停車位,其通常以慢速行駛運(yùn)行,如果將其使用在車輛撞擊測(cè)試領(lǐng)域,將無(wú)法匹配。因此全面加強(qiáng)阿金側(cè)起的時(shí)效性和精確性不但可以適配更多監(jiān)測(cè)場(chǎng)景,也是最大限度降低人工管理成本。在過(guò)去,大部分圖形處理設(shè)備的實(shí)施對(duì)象檢測(cè)器購(gòu)買成本較高,但它并不能保證實(shí)施更新。在此過(guò)程中需要通過(guò)多種內(nèi)容的圖像訓(xùn)練才能實(shí)現(xiàn),首先需要?jiǎng)?chuàng)建單元,在此基礎(chǔ)上設(shè)置實(shí)時(shí)運(yùn)行的卷積網(wǎng)絡(luò),在實(shí)際訓(xùn)練過(guò)程中,往往只需單個(gè)圖像處理單元即可。圖1:目標(biāo)檢測(cè)技術(shù)應(yīng)用效果實(shí)例1.2國(guó)內(nèi)外研究現(xiàn)狀1.2.1目標(biāo)檢測(cè)算法的發(fā)展近些年,深度學(xué)習(xí)領(lǐng)域得以全面發(fā)展,目標(biāo)檢測(cè)算法也因此獲得長(zhǎng)足的發(fā)展空間。卷積神經(jīng)網(wǎng)絡(luò)已成為計(jì)算機(jī)視覺(jué)中的主要算法,開(kāi)發(fā)用于設(shè)計(jì)它們的配方已成為相當(dāng)受關(guān)注的主題。LeNet模型是歷史上第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,該模型簡(jiǎn)單堆疊了特征提取卷積和最大池化操作REF_Ref26258\r\h[1]。在2012年,AlexNet模型提煉了這些思想,并在最大池化操作之間添加了更多層卷積運(yùn)算,從而提取出了更復(fù)雜更有深度的特征。隨后出現(xiàn)的趨勢(shì)是使這種類型的網(wǎng)絡(luò)更深更寬來(lái)達(dá)到更高精度,這主要由每年的ILSVRC競(jìng)爭(zhēng)推動(dòng)的,最具代表性的有2014年的VGG模型REF_Ref26487\r\h[2]。2015年ResNets模型在卷積操作中加入了跳躍連接,使得反向傳播的誤差可以跳過(guò)高層直接連接到低層,有效抑制了深層神經(jīng)網(wǎng)絡(luò)的梯度消失現(xiàn)象。同年的GoogleNet模型同樣使用了ResNet中用到的跳躍連接REF_Ref26536\r\h[3],同時(shí)每個(gè)卷積層由之前的單一尺寸卷積核換為多種尺寸的卷積核。每一次卷積網(wǎng)絡(luò)的革新都會(huì)把算法精度提升到一個(gè)新的水平。但是,以上模型的優(yōu)化和改進(jìn)并非直觀體現(xiàn)在網(wǎng)絡(luò)傳輸速率上。在不少領(lǐng)域的應(yīng)用場(chǎng)景中體現(xiàn)其價(jià)值,如自動(dòng)駕駛、移動(dòng)設(shè)備識(shí)別、機(jī)器人技術(shù)等方面,該技術(shù)必須在整體硬件進(jìn)度極為復(fù)雜的情況下運(yùn)行,因此對(duì)模型的精度要求極高。AlexNet卷積神經(jīng)網(wǎng)絡(luò)在2012年的ILSVRC比賽中,以圖像錯(cuò)誤率排行前五的成績(jī),受到深度學(xué)習(xí)圖像分類算法領(lǐng)域的一致認(rèn)可。AlexNet普遍設(shè)置5層卷積層,同時(shí)附帶3層連接層。AlexNet在網(wǎng)絡(luò)結(jié)構(gòu)上體現(xiàn)的創(chuàng)新之處在于,一,全面提升網(wǎng)絡(luò)模型的泛化性能,起到絕佳的抑制作用。二,在訓(xùn)練過(guò)程中引入dropout方式有效緩解現(xiàn)有的擬合現(xiàn)象;三,通過(guò)重疊池化的方法,有效降低網(wǎng)絡(luò)模型的錯(cuò)誤率。華為在同年打造“諾亞方舟實(shí)驗(yàn)室”,實(shí)在全方位研究人工智能,華為云EI、自然語(yǔ)言檢索圖片分類等產(chǎn)品正是出自該實(shí)驗(yàn)室REF_Ref26663\r\h[4]。RossGirshick在原有技術(shù)的基礎(chǔ)上引入SVM分離器和SS建議窗結(jié)構(gòu)REF_Ref21593\r\h[5],打造出R-CNNREF_Ref22579\r\h[6]網(wǎng)絡(luò)模型,其能夠?qū)崿F(xiàn)全方位、立體化的卷積神經(jīng)網(wǎng)絡(luò),并通過(guò)目標(biāo)檢測(cè)法體現(xiàn)出來(lái)。在實(shí)踐過(guò)程中,該模型能夠有效提升mAP記錄的53%,從當(dāng)前的發(fā)展形勢(shì)來(lái)看,R-CNN網(wǎng)絡(luò)模型融合了多種網(wǎng)絡(luò)目標(biāo)檢測(cè)方法,為后續(xù)的升級(jí)與改進(jìn)奠定技術(shù)支持。2015年,研究人員針對(duì)SPPnet網(wǎng)絡(luò)模型展開(kāi)研究過(guò)程中首次提出空間金字塔的概念,這一概念為卷積神經(jīng)網(wǎng)絡(luò)的升級(jí)與發(fā)展提供載體,其主要特點(diǎn)的在于不局限于圖片的具體尺度,同時(shí)在使用階段可以為感興趣的區(qū)域直觀反應(yīng)在相應(yīng)的圖像上,極大降低卷積運(yùn)算頻率,從而有效提升整體檢測(cè)的效率。在此之后,Girshick在研究中對(duì)現(xiàn)有的模型進(jìn)行優(yōu)化和改進(jìn),推出FastR-CNN方法,其在充分融入SPPnet空間金字塔概念的基礎(chǔ)上,擯棄SVM分類器REF_Ref21871\r\h[7],此舉能夠極大提升整體檢測(cè)速度。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)深度歸納和分類,同時(shí)能夠有效提升算法的時(shí)效性和準(zhǔn)確性。該算法繼承了傳統(tǒng)算法的優(yōu)勢(shì),同時(shí)也具有自身的創(chuàng)新之處,極大提升了算法的正確率REF_Ref26304\r\h[8],也提高了圖像處理速度。在基于深度學(xué)習(xí)的圖像處理方式的繁榮發(fā)展下,越來(lái)越多的國(guó)內(nèi)外科技團(tuán)隊(duì)、學(xué)術(shù)組織參與到這項(xiàng)研究中來(lái)。何凱明及其團(tuán)隊(duì)在同年提出了全新的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)ResNet。ResNet的突破點(diǎn)在于重構(gòu)了卷積層之間的信息傳播過(guò)程,通過(guò)“殘差學(xué)習(xí)”方法對(duì)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)進(jìn)行指導(dǎo),該方法可以在互聯(lián)網(wǎng)技術(shù)不斷升級(jí)和發(fā)展的背景下,能夠保證整體精確性維持不變,合理規(guī)避梯度爆炸的風(fēng)險(xiǎn)隱患。從2014-2016年期間,我國(guó)深度學(xué)習(xí)領(lǐng)域呈現(xiàn)高速發(fā)展之勢(shì),該領(lǐng)域的相關(guān)技術(shù)被應(yīng)用到多個(gè)互聯(lián)網(wǎng)場(chǎng)景中,其最終目的是依托大數(shù)據(jù)技術(shù)加強(qiáng)訓(xùn)練模型,從而提升模型的場(chǎng)景應(yīng)用能力,并將其貫穿于電商服務(wù)的各個(gè)環(huán)節(jié)。如今京東推出的JIMI機(jī)器人正是這些功能的最佳體現(xiàn),其發(fā)展根基在于極強(qiáng)的深度學(xué)習(xí)基礎(chǔ)和能力,該機(jī)器人可代替常規(guī)性的客服任務(wù),受到客戶的一致認(rèn)可;此外,曠視科技打造的文字識(shí)別、人臉識(shí)別系統(tǒng)同樣展現(xiàn)出絕佳的使用體驗(yàn)。如今深度學(xué)習(xí)的發(fā)展已經(jīng)步入第七個(gè)年頭,雖然目標(biāo)檢測(cè)的精度和速度已經(jīng)達(dá)到很高的水平,不過(guò)在具體實(shí)踐過(guò)程中依然存在不小問(wèn)題。為了全面提升測(cè)算的精確性和時(shí)效性,AliFarhadi和JosephRedmon在研究中首次提出YOLO的概念,并將其深化延展,形成創(chuàng)新性的檢測(cè)框架。在經(jīng)歷幾次更新?lián)Q代之后,YOLOv3憑借卓越的性能受到業(yè)界一致認(rèn)可,殘差網(wǎng)絡(luò)在其中發(fā)揮重要作用,并合理引入尺度特征技術(shù),此外擯棄Softmax技術(shù),采用Logistic技術(shù)。從具體實(shí)踐結(jié)果來(lái)看,該測(cè)算方法不當(dāng)有效提升算法的精確性和時(shí)效性,其應(yīng)用場(chǎng)景也在不斷拓展REF_Ref21583\r\h[11]。目前,國(guó)內(nèi)深度學(xué)習(xí)和智能終端設(shè)備的全面融合成為大勢(shì)所趨,國(guó)內(nèi)不少互聯(lián)網(wǎng)巨頭陸續(xù)脫出深度學(xué)習(xí)框架。騰訊優(yōu)圖實(shí)驗(yàn)室專門打造了NCNN框架,其主要目的在于加強(qiáng)深度學(xué)習(xí)測(cè)算的精確度,并實(shí)現(xiàn)圖像處理的高速運(yùn)行。NCNN與其它深度學(xué)習(xí)框架相比,無(wú)第三方依賴、內(nèi)存占用小、兼容性好,如今已應(yīng)用在QQ、WeChat等手機(jī)應(yīng)用程序中;阿里巴巴的人工智能實(shí)驗(yàn)室近些年在領(lǐng)域中嶄露頭角,其在國(guó)家人測(cè)大賽中受到關(guān)注,其推出的Market1501系統(tǒng)將數(shù)據(jù)監(jiān)測(cè)進(jìn)度提升至96.2%,不僅如此,服務(wù)于各地行政交通治理的阿里云ET技術(shù)是建立在AI技術(shù)、云計(jì)算的基礎(chǔ)上開(kāi)展的。目標(biāo)檢測(cè)一直以來(lái)都是計(jì)算機(jī)視覺(jué)技術(shù)的熱門研究課題。目標(biāo)測(cè)算法的最終目的在于可視化范圍的目標(biāo)和背景劃分,為系統(tǒng)設(shè)定具體的識(shí)別目標(biāo),隨著該技術(shù)的持續(xù)發(fā)展和完善,其在多個(gè)領(lǐng)域展現(xiàn)出極高的價(jià)值和作用。如居家生活的視頻監(jiān)控設(shè)備,能夠確保使用者的安全,也可以運(yùn)用在自動(dòng)駕駛領(lǐng)域,為駕駛者提供便利條件;此外,該技術(shù)同樣應(yīng)用于國(guó)防領(lǐng)域,是軍事制導(dǎo)不可或缺的關(guān)鍵構(gòu)成元素;針對(duì)特定目標(biāo)人物的人臉識(shí)別技術(shù)是其居于主導(dǎo)地位的技術(shù);同時(shí)該技術(shù)在醫(yī)學(xué)領(lǐng)域發(fā)揮著重要的檢測(cè)和可視化作用,為醫(yī)生診斷提供準(zhǔn)確的圖像支持。目前,基于超輕量網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法的性能也基本使用ImageNet數(shù)據(jù)集、PASCALVOC數(shù)據(jù)集、COCO數(shù)據(jù)集展開(kāi)研究和評(píng)價(jià)。三種數(shù)據(jù)集本身的優(yōu)缺點(diǎn)都很明顯。其中ImageNet數(shù)據(jù)集涵蓋的種類最廣泛,可有效加強(qiáng)模型的廣泛性;COCO數(shù)據(jù)集中包含的物體數(shù)量校對(duì);PASCALVOC數(shù)據(jù)集精簡(jiǎn)且標(biāo)注信息完整,適合對(duì)算法的性能做基準(zhǔn)測(cè)試。1.2.2模型縮放技術(shù)應(yīng)用范圍較廣的模型主要是縮放技術(shù),該技術(shù)能夠有效改變寬神經(jīng)網(wǎng)絡(luò)中的寬度和深度(一層中的lters數(shù)),然后訓(xùn)練適合不同設(shè)備的神經(jīng)網(wǎng)絡(luò)??紤]在ResNet系列中,ResNet-152和ResNet-101經(jīng)常用于云服務(wù)器GPU中,ResNet-50和ResNet-34經(jīng)常用于個(gè)人電腦GPU中,ResNet-18和ResNet-10可以用于低端嵌入DED系統(tǒng)。Cai等人嘗試開(kāi)發(fā)技術(shù)REF_Ref21962\r\h[13],可以適用于多種設(shè)備的應(yīng)用場(chǎng)景,培訓(xùn)難度相對(duì)較低。培訓(xùn)內(nèi)容主要為搜索、知識(shí)蒸餾、解耦等方面的訓(xùn)練,確保子母網(wǎng)絡(luò)都能正常處理即可。Tan在研究中提出通過(guò)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)實(shí)現(xiàn)生態(tài)網(wǎng)絡(luò)的深度、寬度的恢復(fù)。并在實(shí)踐中利用該網(wǎng)絡(luò)對(duì)神經(jīng)網(wǎng)絡(luò)框架進(jìn)行搜索操作,并將其設(shè)置為EfcientNet-B1,然后使用線性放大技術(shù)獲得E

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論