版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
PAGE3依托于攝像頭的計算機視覺技術(shù)在道路目標(biāo)檢測領(lǐng)域的應(yīng)用研究國內(nèi)外文獻綜述1.1無人駕駛研究現(xiàn)狀無人駕駛的概念已經(jīng)有了將近80年的歷史,1939年,最早的對于無人駕駛汽車的暢想在當(dāng)年的世博會被提出[3]。1986年,來自美國的NavLab實驗室設(shè)計并制造了世界上第一臺具有實際價值的無人駕駛車輛。進入21世紀(jì)以來,各大商業(yè)公司都將目光投向了無人駕駛。特斯拉汽車公司(TeslaMotors)在其量產(chǎn)的電動汽車上配置了無人駕駛模塊,其攝像頭和傳感器預(yù)測碰撞的準(zhǔn)確率高達76%,而碰撞預(yù)防率達到了90%以上。谷歌(Google)公司旗下的Waymo無人駕駛子公司則是目前累計測試?yán)锍虜?shù)最多的公司,截至2019年,完成了2000萬英里的累積測試?yán)锍獭V袊鴩鴥?nèi)對于無人駕駛汽車的研究最早可以追溯到2011年,由國防科技大學(xué)設(shè)計并制造的HQ3無人車完成了具有實際意義的路測。隨后,國內(nèi)的一些高等院校和研究組織也陸續(xù)開始了關(guān)于無人駕駛技術(shù)的研究,如西安交通大學(xué)等。到了2013年,百度啟動了阿波羅計劃,開始加入無人駕駛技術(shù)的研究中來。在過去的幾年間,小馬智行,圖森未來等新興的中國公司也相繼加入相關(guān)的研發(fā)中來。2021年,華為的無人駕駛技術(shù)也表現(xiàn)出了長足的進步。1.2深度學(xué)習(xí)研究現(xiàn)狀1943年,MccullochWS[4]等人設(shè)計并發(fā)表了基于人腦神經(jīng)突觸的計算結(jié)構(gòu),他們使用閾值邏輯單元去模擬人腦的處理過程。其設(shè)計是,類比于人腦神經(jīng)突觸對于刺激的反應(yīng),閾值邏輯單元接受輸入,當(dāng)輸入高于某一閾值時,單元會給出計算結(jié)果,作為對輸入的反應(yīng)。1960年,Kelley[5]等人構(gòu)思了反向傳播(backpropagation)算法,這一算法的核心是計算網(wǎng)絡(luò)的損失函數(shù)對于網(wǎng)絡(luò)中的權(quán)值的梯度并從網(wǎng)絡(luò)的末尾向開頭傳遞,隨后改變網(wǎng)絡(luò)權(quán)重向最小化損失值的方向前進。通過重復(fù)這一簡單步驟,網(wǎng)絡(luò)將會逐漸實現(xiàn)可以對于給定的輸入給出想要的結(jié)果的功能。反向傳播算法是神經(jīng)網(wǎng)絡(luò)功能實現(xiàn)的數(shù)學(xué)邏輯基石。1965年,Alexey和Valentin[6]發(fā)明了最早的深度學(xué)習(xí)算法,他們創(chuàng)建了一個多層模型,這一模型包含了激活函數(shù)且激活函數(shù)的數(shù)學(xué)形式是多項式。模型在每一層進行統(tǒng)計分析,然后將每一層中經(jīng)過統(tǒng)計選擇的最佳權(quán)值傳遞到下一層。通過這種方式,該模型就將多層的函數(shù)整合成立一個“大函數(shù)”,并對“大函數(shù)”的系數(shù)進行調(diào)整,使得函數(shù)的映射規(guī)律可以滿足實際任務(wù)的需要,這是深度網(wǎng)絡(luò)的雛形。1979年,F(xiàn)ukushimaK[7]創(chuàng)造了一個名為“Neocognitron“的人工神經(jīng)網(wǎng)絡(luò),這個神經(jīng)網(wǎng)絡(luò)通過強化策略反復(fù)循環(huán)訓(xùn)練,得到最佳性能,同時,這個網(wǎng)絡(luò)也支持手動調(diào)整權(quán)重。這一網(wǎng)絡(luò)的提出進一步開拓了神經(jīng)網(wǎng)絡(luò)的設(shè)計思路。1998年,LeCunY[8]等人在發(fā)表的論文中總結(jié)了讓計算機正確分辨手工書寫的數(shù)字的各種方法,并將這些方法進行了比較,最終得出卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)超過了其他方法的結(jié)論。他們設(shè)計的讓計算機正確分辨手工書寫的數(shù)字的模型叫做LeNet,這一模型的成功激勵了人們繼續(xù)在神經(jīng)網(wǎng)絡(luò)上投入熱情。千禧年后,深度學(xué)習(xí)呈現(xiàn)出一種欣欣向榮的態(tài)勢。大量的與深度學(xué)習(xí)有關(guān)的比賽展開,越來越多的從業(yè)人員也積極參加這類比賽并產(chǎn)出了大量的優(yōu)秀的論文。2014年,圖形計算領(lǐng)域的巨頭英偉達(Nvidia)公司推出了用于合理分配并行運算資源的CUDA硬件架構(gòu)和深度學(xué)習(xí)加速庫cuDNN,在軟硬件兩端都為神經(jīng)網(wǎng)絡(luò)的計算節(jié)省了大量的時間,為深度學(xué)習(xí)領(lǐng)域的進步添上了一把火。深度學(xué)習(xí)有著不同的分支,這些分支涵蓋了很多方面,無論是哪一個方面,都是以讓計算機像人類一樣感知世界為目的的,而本文關(guān)注的是讓計算機像人類一樣用眼睛去看世界的部分,即圖像分類和目標(biāo)檢測部分,因此對于其他部分本文不再贅述,而是著重于圖像分類和目標(biāo)檢測部分。1.3圖像分類及目標(biāo)檢測研究現(xiàn)狀1)圖像分類研究現(xiàn)狀圖像分類的任務(wù)是依據(jù)圖像信息,讓計算機正確地辨認(rèn)圖像內(nèi)容,通俗來說就是“看狗是狗,看貓是貓”,關(guān)注點僅在于正確分類上,其任務(wù)示例如圖1-2所示。圖STYLEREF1\s12圖像分類任務(wù)示例2012年,KrizhevskyA等人[9]設(shè)計并發(fā)表了具有5層結(jié)構(gòu)的AlexNet網(wǎng)絡(luò)模型,在這個網(wǎng)絡(luò)中,他們引入了ReLU激活函數(shù),借助了Dropout技巧,減小了模型過擬合風(fēng)險,同時梯度下降更快。在2012年的ImageNet挑戰(zhàn)賽的圖像分類領(lǐng)域,即ILSVRC2012上,該模型以16.4%的TOP-5誤差率一舉。這一成果證明了深度學(xué)習(xí)網(wǎng)絡(luò)模型在圖像分類這一領(lǐng)域存在著待挖掘的潛力,引發(fā)了廣大的研究者對于將深度學(xué)習(xí)應(yīng)用于圖像分類的興趣。2014年,SimonyanK等人[10]設(shè)計并發(fā)表了VGG模型,該模型通過反復(fù)利用3×3的卷積核和池化層來搭建網(wǎng)絡(luò)結(jié)構(gòu)。與此同時,網(wǎng)絡(luò)采用了多粒度表達的思想,這使得VGGNet檢測模型擁有不俗的泛化能力,但是由于網(wǎng)絡(luò)采樣的卷積核大小較小,網(wǎng)絡(luò)很難搭建地更深,這制約了網(wǎng)絡(luò)模型的檢測能力。在ILSVRC2014上,VGGNet取得了榜眼的好成績。同樣是2014年,SzegedyC等人[11]發(fā)明了GoogLeNet,這是一個擁有22層深度的網(wǎng)絡(luò),這一數(shù)值打破了當(dāng)時網(wǎng)絡(luò)深度的記錄。該網(wǎng)絡(luò)最引人注意的獨創(chuàng)性在于采用了Inception模塊,該模塊含有含有4個支路,使用了幾種不同大小的小卷積核,其結(jié)構(gòu)如圖1-3所示。GoogLeNet憑借其優(yōu)秀的性能,在ILSVRC2014中以6.7%的TOP-5誤差率獨占鰲頭。圖STYLEREF1\s13Inception模塊示意圖2015年,何凱明等人[12]設(shè)計并發(fā)表了ResNet網(wǎng)絡(luò),該模型是ILSVRC2015的魁首。當(dāng)網(wǎng)絡(luò)模型的深度來到一定程度時,出現(xiàn)了網(wǎng)絡(luò)模型的性能反而與網(wǎng)絡(luò)深度呈現(xiàn)負(fù)相關(guān)的問題。而ResNet創(chuàng)造了殘差連接,解決了這個問題。殘差模型如圖1-4所示,其核心就是建立了一個前面層到后面層的直接連接,這一做法有益于反向傳播,從而減少網(wǎng)絡(luò)退化出現(xiàn)的幾率。該研究的成果對于后來越來越深的網(wǎng)絡(luò)結(jié)構(gòu)具有重要的意義,它使得更深層次的網(wǎng)絡(luò)的應(yīng)用變得更加容易。圖STYLEREF1\s14殘差模塊示意圖2)目標(biāo)檢測研究現(xiàn)狀在圖像分類的基礎(chǔ)上,目標(biāo)檢測的要求更進了一步,體現(xiàn)在:一是目標(biāo)檢測不僅要將物體的類別正確識別,還需要將物體在圖片上的位置大概劃分出來;二是在目標(biāo)檢測任務(wù)中,一幅圖片上的目標(biāo)數(shù)量是不確定的,往往有不止一個目標(biāo),其任務(wù)示例如圖1-5所示。圖STYLEREF1\s15目標(biāo)檢測示例2012年后,由于卷積神經(jīng)網(wǎng)絡(luò)的大力發(fā)展,研究人員開始探索將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測任務(wù)的實現(xiàn)中來。2014年,R.Girshick等人[13]設(shè)計并發(fā)表了R-CNN網(wǎng)絡(luò)模型。這一模型時一項創(chuàng)新,與傳統(tǒng)的目標(biāo)檢測算法不同的是,在提取特征時不需要人為地進行一系列設(shè)計,而是將這一繁雜的操作交給了神經(jīng)網(wǎng)絡(luò)。R-CNN的檢測能力也被實驗證明相對于傳統(tǒng)算法有了一個較大的提升。2015年,R.Girshick[14]又借鑒了何凱明等人[15]提出的SPP-Net中的設(shè)計思路提出了FastR-CNN模型。該模型相對于R-CNN又有了進步,無論是在檢測的速度還是精度方面都有了拔高。同年,S.Ren等人[16]又創(chuàng)造了FasterR-CNN模型,這個模型借助于區(qū)域待選的思想,使得R-CNN系列的性能又進一步提升。R-CNN系列在在其實現(xiàn)過程中存在待選框生成的階段,即是一個兩階段的算法模型。而在2016年,RedmonJ等人[17]設(shè)計并發(fā)表了YOLO網(wǎng)絡(luò)模型,這是一個經(jīng)典的單階段的算法模型,即不存在待選框生成階段的目標(biāo)檢測模型。該類型的模型的檢測速度往往優(yōu)于兩階段的目標(biāo)檢測模型,但是精度相對于兩階段目標(biāo)檢測模型要有所不如。同年,LiuW等人[18]設(shè)計并發(fā)表了SSD模型,作為一個單階段的目標(biāo)檢測模型,其不僅能在檢測速度上和YOLO一致,檢測精度也能接近R-CNN系列,這是單階段的模型的一個進步。2017年,LinTY等人[19]設(shè)計并發(fā)表了FPN網(wǎng)絡(luò)模型,關(guān)于該模型的大量實驗結(jié)果論證了多粒度對于模型精度的正向作用。同年,受此啟發(fā),RedmonJ等人[20]又設(shè)計并發(fā)表了YOLOv2模型,相對于最開始的YOLO,使用了更深的提取網(wǎng)絡(luò),并引入了先驗框設(shè)計理念,大幅度提高了YOLO系列的精度。到了2018年,RedmonJ等人[21]設(shè)計并發(fā)表了YOLOv3模型,該模型使用了3個不同粒度的特征圖的分支進行預(yù)測,并使用深度較大的DarkNet-53網(wǎng)絡(luò)來完成解碼器的工作。實驗結(jié)果表明,YOLOv3是一個及其優(yōu)秀的模型,該模型無論檢測的速度還是精度都到達了一個嶄新的水平。參考文獻ADDINEN.REFLIST中國政府網(wǎng)[R/OL].[2020-07-14].魏宇豪.車道線檢測與車載相機自動標(biāo)定方法研究[D].西安:西安交通大學(xué),2020.WassonH.Theothersmallscreen:MovingimagesatNewYork'sWorldFair,1939[J].CanadianJournalofFilmStudies,2012,21(1):81-103.MccullochWS,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity[J].BulletinofMathematicalBiophysics,1990,52(1-2):99-115.KelleyHJ.GradientTheoryofOptimalFlightPaths[J].ARSJournal,1960,30(10):947-954.IvakhnenkoAG,LapaVG.CyberneticPredictingDevices[M].NewYork:CCMInformationCorporation,1965.FukushimaK.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition[J].BiologicalCybernetics,1980,36(4):193-202.LecunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25(2):2012.何育欣,鄭伯川,譚代倫等.基于VGGNet改進網(wǎng)絡(luò)結(jié)構(gòu)的多粒度大熊貓面部檢測[J].重慶大學(xué)學(xué)報,2020,43(11):63-71.蘇賦,呂沁,羅仁澤.基于深度學(xué)習(xí)的圖像分類研究綜述[J].電信科學(xué),2019,35(11):58-74.HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:770-778.GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:580-587.GirshickR.Fastr-cnn[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.2015:1440-1448.HeK,ZhangX,RenS,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2015,37(9):1904-1916.RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2016,39(6):1137-1149.RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:Unified,real-timeobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:779-788.LiuW,AnguelovD,ErhanD,etal.Ssd:Singleshotmultiboxdetector[C]//Europeanconferenceoncomputervision.Springer,Cham,2016:21-37.LinTY,DollarP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:2117-2125.RedmonJ,FarhadiA.YOLO9000:better,faster,stronger[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:7263-7271張富凱,楊峰,李策.基于改進YOLOv3的快速車輛檢測方法[J].計算機工程與應(yīng)用,2019,55(02):12-20.HubelDH,WieselTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat'svisualcortex[J].TheJournalofphysiology,1962,160(1):106-154.IoffeS,SzegedyC.Batchnormalization:Acceleratingdeepnetworktrainingbyreducinginternalcovariateshift[C]//Internationalconferenceonmachinelearning.PMLR,2015:448-456.ZhangZ,HeT,ZhangH,e
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 20263D模型師招聘試題及答案
- 中化學(xué)華誼工程科技集團有限公司2026屆校園招聘參考題庫必考題
- 南昌職教城教育投資發(fā)展有限公司2025年第七批公開招聘工作人員專題參考題庫附答案
- 國家電投集團蘇州審計中心選聘參考題庫附答案
- 岳池縣關(guān)于2025年社會化選聘新興領(lǐng)域黨建工作專員的考試備考題庫必考題
- 招2人!2025年同德縣文化館面向社會公開招聘政府聘用人員的考試備考題庫必考題
- 江西省供銷合作社聯(lián)合社公開招聘江西省金合控股集團有限公司副總經(jīng)理及財務(wù)總監(jiān)專題備考題庫必考題
- 石棉縣人力資源和社會保障局關(guān)于2025年下半年面向縣內(nèi)公開考調(diào)事業(yè)單位工作人員的(7人)參考題庫必考題
- 遼寧科技大學(xué)2026年招聘高層次和急需緊缺人才102人備考題庫必考題
- 雅安市衛(wèi)生健康委員會所屬事業(yè)單位雅安市衛(wèi)生健康與人才服務(wù)中心2025年公開選調(diào)事業(yè)人員的參考題庫必考題
- 學(xué)生計算錯誤原因分析及對策
- DB32T 4398-2022《建筑物掏土糾偏技術(shù)標(biāo)準(zhǔn)》
- (精確版)消防工程施工進度表
- 保險公司資產(chǎn)負(fù)債表、利潤表、現(xiàn)金流量表和所有者權(quán)益變動表格式
- 送貨單格式模板
- 防止激情違紀(jì)和犯罪授課講義
- XX少兒棋院加盟協(xié)議
- 五年級數(shù)學(xué)應(yīng)用題專題訓(xùn)練50題
- 2021年四川省資陽市中考數(shù)學(xué)試卷
- 河南省鄭氏中原纖維素有限公司年產(chǎn) 0.2 萬噸預(yù)糊化淀粉、0.5 萬噸羧甲基纖維素鈉、1.3 萬噸羧甲基淀粉鈉項目環(huán)境影響報告
- 高處作業(yè)安全培訓(xùn)課件
評論
0/150
提交評論