【《無(wú)人地面車(chē)輛局部路徑規(guī)劃分析現(xiàn)狀文獻(xiàn)綜述》2100字】_第1頁(yè)
【《無(wú)人地面車(chē)輛局部路徑規(guī)劃分析現(xiàn)狀文獻(xiàn)綜述》2100字】_第2頁(yè)
【《無(wú)人地面車(chē)輛局部路徑規(guī)劃分析現(xiàn)狀文獻(xiàn)綜述》2100字】_第3頁(yè)
【《無(wú)人地面車(chē)輛局部路徑規(guī)劃分析現(xiàn)狀文獻(xiàn)綜述》2100字】_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

無(wú)人地面車(chē)輛局部路徑規(guī)劃研究現(xiàn)狀文獻(xiàn)綜述近年來(lái)基于深度學(xué)習(xí)或深度強(qiáng)化學(xué)習(xí)的局部路徑規(guī)劃方法在無(wú)人地面車(chē)輛技術(shù)研究中得到了廣泛的發(fā)展,它們通常根據(jù)原始感官輸入數(shù)據(jù)直接或間接的映射到控制命令輸出,控制車(chē)輛行駛速度和方向。根據(jù)對(duì)環(huán)境數(shù)據(jù)的感知模式,又可以將其分為基于單模態(tài)的和多模態(tài)的局部路徑規(guī)劃方法。一般來(lái)說(shuō),單模態(tài)的局部路徑規(guī)劃方法較多是基于深度學(xué)習(xí)的。Bojarski等人[52]提出利用卷積神經(jīng)網(wǎng)絡(luò)直接從原始圖像中學(xué)習(xí)轉(zhuǎn)角命令,具體來(lái)講,他們?cè)谲?chē)輛前方安裝左中右三個(gè)攝像機(jī)收集道路的RGB圖像數(shù)據(jù)集,并記錄人類(lèi)駕駛的轉(zhuǎn)向命令,其中來(lái)自左右兩個(gè)攝像機(jī)采集的圖像的轉(zhuǎn)向標(biāo)簽會(huì)經(jīng)過(guò)專(zhuān)門(mén)的調(diào)整,目的是使車(chē)輛能夠從意外漂移中恢復(fù)正常駕駛方向。模型在訓(xùn)練時(shí)根據(jù)單個(gè)圖像預(yù)測(cè)控制命令,然后與人類(lèi)轉(zhuǎn)向標(biāo)簽比較并通過(guò)反向傳播算法調(diào)整網(wǎng)絡(luò)權(quán)重。Loquercio等人[53]提出一種新的無(wú)人機(jī)局部路徑規(guī)劃方法,其根據(jù)安置在最前方的單個(gè)RGB相機(jī)同時(shí)預(yù)測(cè)速度和轉(zhuǎn)向命令。其訓(xùn)練數(shù)據(jù)集包含兩部分,一是直接利用公開(kāi)城市道路車(chē)輛駕駛數(shù)據(jù)集Udacity[54],其包含車(chē)輛第一視角的圖像以及人類(lèi)司機(jī)的轉(zhuǎn)向指令;二是研究者采集的碰撞數(shù)據(jù)集,其包含第一視角的圖像以及是否發(fā)生碰撞的標(biāo)簽。在訓(xùn)練時(shí),每次隨機(jī)從兩部分?jǐn)?shù)據(jù)集采樣數(shù)據(jù),經(jīng)過(guò)一個(gè)專(zhuān)門(mén)設(shè)計(jì)的網(wǎng)絡(luò)模型分別預(yù)測(cè)轉(zhuǎn)角和碰撞概率,然后計(jì)算各自與對(duì)應(yīng)標(biāo)簽的誤差并結(jié)合起來(lái)對(duì)模型進(jìn)行訓(xùn)練。其中碰撞概率是從0到1之間的某個(gè)連續(xù)值,被用于調(diào)節(jié)行駛速度,在遇到障礙物時(shí)減速或停止。值得注意的是雖然在Loquercio等人[53]的論文中是在無(wú)人機(jī)平臺(tái)進(jìn)行實(shí)驗(yàn),然而其訓(xùn)練數(shù)據(jù)集均是在大約1.5米高度采集的,因此也同樣適合無(wú)人地面車(chē)輛。Codevilla等人[55]提出將模仿專(zhuān)家行為條件性的設(shè)置在高級(jí)命令的輸入上,原始圖像數(shù)據(jù)作為網(wǎng)絡(luò)輸入,導(dǎo)航命令充當(dāng)選擇開(kāi)關(guān)決定模型的不同子模塊進(jìn)行輸出預(yù)測(cè),監(jiān)督信號(hào)是專(zhuān)家在不同命令下的駕駛行為。該方法使得車(chē)輛在局部路徑規(guī)劃的基礎(chǔ)上可以根據(jù)導(dǎo)航命令做出響應(yīng),在遇到路口時(shí)可以向指定的方向行駛。Mueller等人[56]并沒(méi)有直接從原始圖像輸入預(yù)測(cè)底層控制策略,而是提出通過(guò)將原始圖像轉(zhuǎn)為語(yǔ)義分割圖然后預(yù)測(cè)無(wú)人地面車(chē)輛一段時(shí)間內(nèi)應(yīng)該通過(guò)的路徑點(diǎn),并采用PID控制器來(lái)控制車(chē)輛的移動(dòng)。它結(jié)合了模塊化架構(gòu)和深度學(xué)習(xí)方法,以促進(jìn)仿真到真實(shí)場(chǎng)景的遷移。然而,值得注意的是,這類(lèi)監(jiān)督訓(xùn)練的方法需要足夠的人工標(biāo)注或?qū)<已菔?,人工策略?biāo)注費(fèi)時(shí)費(fèi)力,即便是采集人類(lèi)的經(jīng)驗(yàn)進(jìn)行標(biāo)注,在高度動(dòng)態(tài)的大規(guī)模復(fù)雜環(huán)境中,訓(xùn)練出的模型往往也是過(guò)擬合于數(shù)據(jù)集中固定的、離散的、有限的動(dòng)作狀態(tài),所學(xué)的策略可能不足以滿足在一個(gè)動(dòng)態(tài)和復(fù)雜多變的現(xiàn)實(shí)世界環(huán)境中靈活避障的要求,尤其是場(chǎng)景出現(xiàn)數(shù)據(jù)集中不包括的數(shù)據(jù)時(shí)策略可能會(huì)失效。與上述方法不同的是,F(xiàn)an等人[57][58]提出了一種基于深度強(qiáng)化學(xué)習(xí)框架進(jìn)行局部路徑規(guī)劃的代表性工作。其在利用Stage[49]搭建的室內(nèi)仿真環(huán)境中通過(guò)二維激光雷達(dá)感知周?chē)h(huán)境并利用深度強(qiáng)化學(xué)下算法進(jìn)行訓(xùn)練。雖然該方法可以在現(xiàn)實(shí)環(huán)境中產(chǎn)生避障策略,但需要SLAM建圖或超寬帶定位系統(tǒng)收集的位置信息不斷輔助。一方面,這種方法是基于激光雷達(dá)輸入,因此不會(huì)遭遇因仿真和真實(shí)環(huán)境之間的差距而帶來(lái)的泛化問(wèn)題。另一方面,由于二維激光雷達(dá)數(shù)據(jù)的稀疏性,它只能感知一定高度的信息,無(wú)法處理含有任意高度和形狀障礙物的復(fù)雜環(huán)境?;诙嗄B(tài)感知的方法是近年來(lái)研究的熱點(diǎn)[59][60][61][62][63]。尤其在非結(jié)構(gòu)化的復(fù)雜場(chǎng)景下通過(guò)傳感器數(shù)據(jù)融合可以更好的感知周?chē)h(huán)境進(jìn)而提高系統(tǒng)的泛化性和魯棒性。Sobh等人[59]在上述條件模仿學(xué)習(xí)[55]的基礎(chǔ)上提出了一種同時(shí)利用圖像和激光雷達(dá)數(shù)據(jù)多模融合深度學(xué)習(xí)框架,其討論了將原始圖像轉(zhuǎn)為語(yǔ)義分割圖,激光雷達(dá)數(shù)據(jù)處理成極坐標(biāo)網(wǎng)格映射能夠使系統(tǒng)獲得最好的性能表現(xiàn)。Liu等人[60]利用Dropout[64]相關(guān)理論提出了一種專(zhuān)門(mén)的傳感器Dropout技術(shù),通過(guò)多模態(tài)傳感器融合健壯地學(xué)習(xí)策略,并用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練,最終使策略對(duì)傳感器的局部失效具有較好的魯棒性。Xiao等人[62]在上述條件模仿學(xué)習(xí)[55]的基礎(chǔ)上提出利用原始RGB圖像和深度圖像組成的多模態(tài)數(shù)據(jù)學(xué)習(xí)端到端自動(dòng)駕駛系統(tǒng),并討論了多模態(tài)數(shù)據(jù)的多種不同融合方式對(duì)系統(tǒng)帶來(lái)的性能影響。不幸的是,以上所有方法都只是在模擬環(huán)境中進(jìn)行訓(xùn)練和測(cè)試,沒(méi)有一種方法在更具挑戰(zhàn)性的現(xiàn)實(shí)世界中得到驗(yàn)證。參考文獻(xiàn)BojarskiM,DelTestaD,DworakowskiD,etal.Endtoendlearningforself-drivingcars[J].arXivpreprintarXiv:1604.07316,2016.LoquercioA,MaquedaAI,Del-BlancoCR,etal.Dronet:Learningtoflybydriving[J].IEEERoboticsandAutomationLetters,2018,3(2):1088-1095.ChenZ,HuangX.End-to-endlearningforlanekeepingofself-drivingcars[C]//2017IEEEIntelligentVehiclesSymposium(IV).IEEE,2017:1856-1860.MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].nature,2015,518(7540):529-533.BellemareMG,NaddafY,VenessJ,etal.Thearcadelearningenvironment:Anevaluationplatformforgeneralagents[J].JournalofArtificialIntelligenceResearch,2013,47:253-279.SilverD,HubertT,SchrittwieserJ,etal.Masteringchessandshogibyself-playwithageneralreinforcementlearningalgorithm[J].arXivpreprintarXiv:1712.01815,2017.BernerC,BrockmanG,ChanB,etal.Dota2withlargescaledeepreinforcementlearning[J].arXivpreprintarXiv:1912.06680,2019.TesauroG.TemporaldifferencelearningandTD-Gammon[J].CommunicationsoftheACM,1995,38(3):58-68.PollackJB,BlairAD.Whydidtd-gammonwork?[J].AdvancesinNeuralInformationProcessingSystems,1997,9(9):10-16.TsitsiklisJN,VanRoyB.Ananalysisoftemporal-differencelearningwithfunctionapproximation[J].IEEEtransactionsonautomaticcontrol,1997,42(5):674-690.WatkinsCJCH,DayanP.Q-learning[J].Machinelearning,1992,8(3-4):279-292.MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.VanHasseltH,GuezA,SilverD.Deepreinforcementlearningwithdoubleq-learning[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2016,30(1).WangZ,SchaulT,HesselM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning[C]//Internationalconferenceonmachinelearning.PMLR,2016:1995-2003.SchaulT,QuanJ,AntonoglouI,etal.Prioritizedexperiencereplay[J].arXivpreprintarXiv:1511.05952,2015.BellemareMG,DabneyW,MunosR.Adistributionalperspectiveonreinforcementlearning[C]//InternationalConferenceonMachineLearning.PMLR,2017:449-458.MnihV,BadiaAP,MirzaM,etal.Asynchronousmethodsfordeepreinforcementlearning[C]//Internationalconferenceonmachinelearning.PMLR,2016:1928-1937.SuttonRS.Learningtopredictbythemethodsoftemporaldifferences[J].Machinelearning,1988,3(1):9-44.FortunatoM,AzarMG,PiotB,etal.Noisynetworksforexploration[J].arXivpreprintarXiv:1706.10295,2017.HesselM,ModayilJ,VanHasseltH,etal.Rainbow:Combiningimprovementsindeepreinforcementlearning[C]//ProceedingsoftheAAAIConferenceonArtificialI

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論