版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
深度強(qiáng)化學(xué)習(xí)在智能水下機(jī)器人避障中的應(yīng)用研究摘要AUV(AutonomousUnderwaterVehicle,智能水下機(jī)器人)技術(shù)是實(shí)施海洋探索的基礎(chǔ),而在AUV的技術(shù)架構(gòu)中,避障問(wèn)題是其實(shí)實(shí)現(xiàn)各類科學(xué)探索任務(wù)的關(guān)鍵。強(qiáng)化學(xué)習(xí)可以通過(guò)與環(huán)境的交互式學(xué)習(xí)迭代更新決策算法從而獲得最優(yōu)的決策模型。為解決智能水下機(jī)器人的自主式避障問(wèn)題,本文擬采淺層神經(jīng)網(wǎng)絡(luò),并引入基于雙神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法(DQN)為底層架構(gòu),來(lái)創(chuàng)立一個(gè)決策模型。在經(jīng)由值函數(shù)網(wǎng)絡(luò)與Q值表相結(jié)合的步驟后,引入目標(biāo)網(wǎng)絡(luò),并借由此網(wǎng)絡(luò)破壞值函數(shù)更新的相關(guān)性,從而增強(qiáng)算法的學(xué)習(xí)能力。其次,在訓(xùn)練過(guò)程中設(shè)計(jì)一種基于“回報(bào)度”的記憶池經(jīng)驗(yàn)回放方法,以此來(lái)回溯過(guò)往所學(xué)的寶貴經(jīng)驗(yàn),增進(jìn)智能體對(duì)于所學(xué)決策的記憶能力,以及消除樣本間的相關(guān)性。最后,構(gòu)造一種即時(shí)評(píng)價(jià)函數(shù),來(lái)對(duì)AUV的每步動(dòng)作的優(yōu)劣程度做出有效評(píng)析,以解決伴隨強(qiáng)化學(xué)習(xí)而帶來(lái)的稀疏解問(wèn)題。關(guān)鍵詞:AUV;深度強(qiáng)化學(xué)習(xí);避障算法目錄TOC\o"1-3"\u1緒論 緒論1.1選題依據(jù)1.1.1背景情況“AUV”自主式水下機(jī)器人(AutonomousUnderwaterVehicle)應(yīng)用極為廣泛,在海洋科研、水文數(shù)據(jù)搜集等科研探索領(lǐng)域有著極為廣闊的應(yīng)用空間。這在我國(guó)未來(lái)“海洋強(qiáng)國(guó)”的發(fā)展戰(zhàn)略中更倍顯其遠(yuǎn)景意義。與之相應(yīng),AUV作為活動(dòng)空間大、機(jī)動(dòng)性強(qiáng)、作業(yè)效率高的無(wú)人自主控制系統(tǒng),在海洋領(lǐng)域的科研探索中具有基礎(chǔ)性意義。而AUV的避障問(wèn)題,是保證其能夠順利完成各類水下作業(yè)任務(wù)的首要與關(guān)鍵。伴隨近些年深度強(qiáng)化學(xué)習(xí)(DRL)的發(fā)展,愈來(lái)愈多的具有高維感知輸入的人工智能問(wèn)題可以通過(guò)端到端架構(gòu)REF_Ref72268002\r\h[1]來(lái)解決。該架構(gòu)可可以直接將感知映射到控制動(dòng)作,而不涉及智能體的動(dòng)力學(xué)問(wèn)題。由于水下定位困難,且水下環(huán)境復(fù)雜難以獲得準(zhǔn)確的水文數(shù)據(jù),基于DRL的無(wú)模型特性的水下機(jī)器人就比依賴配備傳感器設(shè)備來(lái)獲得控制命令的水下機(jī)器人,更適合于水下作業(yè)避障的決策問(wèn)題REF_Ref72268265\r\h[2]。1.1.2研究目的與學(xué)術(shù)價(jià)值A(chǔ)UV作為多重學(xué)科的交叉領(lǐng)域,避障規(guī)劃問(wèn)題是其水下任務(wù)作業(yè)的基礎(chǔ)和重點(diǎn),也貫穿于水下航行的全程。避障規(guī)劃是指機(jī)器人依據(jù)所處環(huán)境狀況及其將奔赴的任務(wù)點(diǎn),自主決策行進(jìn)路線以到達(dá)目的地。鑒于AUV水下作業(yè)環(huán)境的復(fù)雜性,避障能力成為保障AUV安全不可或缺的部分。該課題利用深度強(qiáng)化學(xué)習(xí)方式,賦予并提高AUV自主學(xué)習(xí)的能力,強(qiáng)化AUV的環(huán)境自適應(yīng)性能,對(duì)AUV的水下安全航行具有重要意義。強(qiáng)化學(xué)習(xí)方法是在智能體與不明環(huán)境交互,在無(wú)標(biāo)記的數(shù)據(jù)探索中訓(xùn)練出最優(yōu)策略的一種決策方式,而將神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法引入到AUV的智能避障中REF_Ref72268386\r\h[3],在先驗(yàn)信息不足,環(huán)境不確定性高的復(fù)雜問(wèn)題優(yōu)化中具有極大前景。依據(jù)機(jī)器人對(duì)環(huán)境的熟稔程度,可以將目前大部分的AUV避障方法分為全局規(guī)劃方式與局部路徑規(guī)劃方式。而對(duì)于局部路徑規(guī)劃方式而言,其應(yīng)用在當(dāng)前的避障算法領(lǐng)域應(yīng)用最為廣泛。對(duì)于全局路徑規(guī)劃方式而言,柵格法、自由空間法以及可視圖法的應(yīng)用則最為常見(jiàn)REF_Ref72268587\r\h[4]。查閱國(guó)內(nèi)文獻(xiàn)發(fā)現(xiàn),近年興起的深度強(qiáng)化學(xué)習(xí)方法多用于無(wú)人機(jī)、無(wú)人駕駛、機(jī)器人移動(dòng)等領(lǐng)域,在AUV領(lǐng)域嘗試?yán)蒙疃葟?qiáng)化學(xué)習(xí)方式來(lái)解決實(shí)現(xiàn)其避障的決策優(yōu)化則較為罕見(jiàn)。因而,本課題對(duì)于深度強(qiáng)化學(xué)習(xí)在AUV避障的運(yùn)用領(lǐng)域,具有初步的探索性意義。研究現(xiàn)狀與發(fā)展動(dòng)態(tài)AUV避障方法概述機(jī)器人避障算法的研究發(fā)源于19世紀(jì)60年代。經(jīng)查閱文獻(xiàn)性發(fā)現(xiàn),Dijkstra最早在1959年提出以其名字命名的避障算法。此算法以起點(diǎn)為展開(kāi)點(diǎn),以終點(diǎn)為其展開(kāi)邊界的方式來(lái)尋找一條最短的避障路徑。但總體而言,此算法所要求的計(jì)算量大,并且在偵測(cè)行進(jìn)路徑時(shí)易出現(xiàn)死角地帶。為解決上述算法所持的缺陷,哈特在1968年提出一種A*算法REF_Ref72270383\r\h[5]。但是,A*算法的復(fù)雜度較高。此后,浩頓發(fā)展出格子算法,使路徑規(guī)劃問(wèn)題轉(zhuǎn)變?yōu)樵趦蓚€(gè)格子節(jié)點(diǎn)間尋找最佳路徑的問(wèn)題。后來(lái)發(fā)展出的視圖方式,則不能很好地應(yīng)對(duì)目標(biāo)物移動(dòng)的情況,且若要尋找到最優(yōu)路徑,其所要花費(fèi)的時(shí)間也較長(zhǎng)。人工勢(shì)場(chǎng)法由khatib在1986年提出,所構(gòu)建的模型類似于一個(gè)引力場(chǎng)。在構(gòu)建的人工勢(shì)場(chǎng)中,將障礙物處理為一個(gè)排斥點(diǎn),將目標(biāo)點(diǎn)視為一個(gè)吸引點(diǎn),最終通過(guò)吸引力與排斥力的共同作用來(lái)決定機(jī)器人的運(yùn)動(dòng)軌跡REF_Ref72243911\r\h[6]。這種方式的優(yōu)勢(shì)是反應(yīng)迅捷,且模型簡(jiǎn)單易于實(shí)現(xiàn),但其缺陷在于當(dāng)智能體與障礙物非常接近時(shí),由于缺失有將的在線識(shí)別方法,很難找到一個(gè)避障路徑。在機(jī)器人以及動(dòng)態(tài)空間等問(wèn)題的解決中,遺傳算法REF_Ref72270400\r\h[7]則是較為常見(jiàn)的一類問(wèn)題解決方式。高質(zhì)量的表達(dá)性與無(wú)沖突性是此算法的優(yōu)勢(shì),并且在此基礎(chǔ)上發(fā)展出了遺傳仿真算法,能夠通過(guò)調(diào)整路徑點(diǎn)的方式,得到最優(yōu)的避障路徑。由于AUV的航行在海洋環(huán)境中,屬于三維層面的非線性運(yùn)動(dòng),因而很難用一個(gè)數(shù)學(xué)模型來(lái)準(zhǔn)確地描述復(fù)雜環(huán)境對(duì)AUV的影響因素。就這個(gè)層面而言,依靠自學(xué)習(xí)建立決策模型的人工智能方式,其不需要預(yù)先的交互模型的特點(diǎn),則成為實(shí)時(shí)避障系統(tǒng)中最廣泛應(yīng)用的一個(gè)途徑。在人工智能領(lǐng)域中,應(yīng)用于機(jī)器人避障的方法主要有模糊控制方法、神經(jīng)網(wǎng)絡(luò)方法和專家系統(tǒng)方法REF_Ref72269827\r\h[8]REF_Ref72270758\r\h[9]。強(qiáng)化學(xué)習(xí)研究現(xiàn)強(qiáng)化學(xué)習(xí)的思想,最早可追溯至行為心理學(xué)領(lǐng)域的動(dòng)物實(shí)驗(yàn)。1911年,Thorndike提出了LawofEfect:以動(dòng)物為實(shí)驗(yàn),這種行為讓動(dòng)物處在一種舒適的狀態(tài)環(huán)境中,動(dòng)物將加強(qiáng)這種行為與當(dāng)前環(huán)境之間的關(guān)系,當(dāng)環(huán)境重新出現(xiàn)時(shí),動(dòng)物將被優(yōu)先考慮.這種行為;相反,使動(dòng)物感到不適的行為會(huì)削弱行為與環(huán)境之間的關(guān)系.當(dāng)環(huán)境重新出現(xiàn)時(shí),動(dòng)物會(huì)盡可能避免這種行為。在給定的環(huán)境下,建立一種模型,如果生物輸出良好的行為動(dòng)作,則能獲得一定的獎(jiǎng)勵(lì),若不能,則獲得相應(yīng)的懲罰?;诖朔N模式,可以讓處于環(huán)境中的生物從過(guò)往的獎(jiǎng)懲經(jīng)驗(yàn)中,學(xué)習(xí)到最佳的行為決策模型。其框架如圖1-1所示:圖1-1強(qiáng)化學(xué)習(xí)模式圖DeepMind在2013年發(fā)表了一篇論文“通過(guò)預(yù)先信息進(jìn)行人為控制”,后來(lái)該公司被Google收購(gòu),將傳統(tǒng)的深度學(xué)習(xí)與近年來(lái)非常流行的深度學(xué)習(xí)相結(jié)合,提出一種稱為DQN的深度強(qiáng)化學(xué)習(xí)算法REF_Ref72270728\r\h[10]。DQN算法使用深度神經(jīng)網(wǎng)絡(luò)基于Q-learing獲取狀態(tài)信息,用網(wǎng)絡(luò)參數(shù)更新替換Q值表的學(xué)習(xí)結(jié)果,并引入目標(biāo)網(wǎng)絡(luò)和隨機(jī)經(jīng)驗(yàn)回放來(lái)打破樣本之間的相關(guān)性。2016年,DeepMind團(tuán)隊(duì)使用了優(yōu)勢(shì)函數(shù)的平均值而不是最優(yōu)值REF_Ref72248670\r\h[11],盡管價(jià)值函數(shù)V和優(yōu)勢(shì)函數(shù)A不再完美地代表了價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù),但是此操作卻提高了算法的穩(wěn)定性?;诓呗缘膹?qiáng)化學(xué)習(xí)算法通過(guò)更新動(dòng)作選擇來(lái)優(yōu)化策略概率,并且不使用任何形式的價(jià)值函數(shù)。最典型的算法是Willianms提出的REINFORCE算法。該算法的核心是增加對(duì)良好行為的選擇。對(duì)于不良行為,以降低選擇其行為的可能性。Kakade等在策略搜索過(guò)程中引入了自然梯度法REF_Ref72249063\r\h[12],優(yōu)于傳統(tǒng)的梯度法。Deisenroah提出了PILCO算法來(lái)減少模型的策略搜索偏差。基于梯度迭代的強(qiáng)化學(xué)習(xí)算法的優(yōu)點(diǎn)是可以解決連續(xù)作用的問(wèn)題,但缺點(diǎn)是收斂速度慢,估計(jì)的偏差或方差大。深度強(qiáng)化學(xué)習(xí)在避障規(guī)劃中的運(yùn)用現(xiàn)狀Vien等人早些時(shí)候提出了強(qiáng)化學(xué)習(xí)算法在機(jī)器人路徑規(guī)劃中的應(yīng)用,以實(shí)現(xiàn)自主避障。根據(jù)強(qiáng)化學(xué)習(xí)的理論,要求移動(dòng)機(jī)器人通過(guò)反復(fù)試驗(yàn)來(lái)尋找具有最大累積獎(jiǎng)勵(lì)值的最佳路徑,而無(wú)需任何有關(guān)環(huán)境的先驗(yàn)信息REF_Ref72270518\r\h[13]。如圖1-2所示,ByunghyunYoo在2016年提出的一種基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法,是在洋流環(huán)境影響下的軌跡規(guī)劃,其中考慮了洋流和執(zhí)行機(jī)構(gòu)的約束REF_Ref72242335\r\h[14]。圖1-2洋流環(huán)境下的AUV路徑規(guī)劃針對(duì)海洋動(dòng)態(tài)環(huán)境中預(yù)定路徑效率低下的問(wèn)題,劉百龍采用Q學(xué)習(xí)方法來(lái)調(diào)整洋流下水下機(jī)器人的局部路徑。冉祥瑞REF_Ref72249929\r\h[15]為了解決層強(qiáng)化學(xué)習(xí)自身所攜帶的維度災(zāi)難問(wèn)題,則將層次強(qiáng)化學(xué)習(xí)應(yīng)用于AUV路徑規(guī)劃任務(wù),提高了AUV環(huán)境的適應(yīng)性。為提高AUV在在洋流環(huán)境中的適應(yīng)性,楊歌等人探索出Q學(xué)習(xí)與模型控制相結(jié)合的方法REF_Ref72270578\r\h[16]。來(lái)自浙江大學(xué)的王國(guó)芳博士則是將專家知識(shí)引入了強(qiáng)化學(xué)習(xí)算法中,以作為輔助決策的信息,目的是加快模型的收斂性和穩(wěn)定性,并且此算法可以應(yīng)用于無(wú)人機(jī)路徑規(guī)劃REF_Ref72250882\r\h[17]。A.D.DubeyREF_Ref72251174\r\h[18]等不僅利用強(qiáng)化學(xué)習(xí)的Q學(xué)習(xí)算法作為工具,生成機(jī)器人規(guī)劃路徑點(diǎn)的樣本,而且使用神經(jīng)網(wǎng)絡(luò)從訓(xùn)練樣本中來(lái)學(xué)習(xí)狀態(tài)-動(dòng)作間的映射關(guān)系。NAVien等提出了一種蟻群Q學(xué)習(xí)算法,它集合了啟發(fā)式搜索算法,蟻群算法和Q學(xué)習(xí)算法,能夠避免移動(dòng)機(jī)器人在路徑規(guī)劃中所出現(xiàn)的問(wèn)題。KONOR則提出一種節(jié)省存儲(chǔ)空間的確定性Q學(xué)習(xí)算法,并能夠通過(guò)使用Q學(xué)習(xí)的四個(gè)派生屬性做到Q值表的實(shí)時(shí)更新。PKDas將粒子群算法與經(jīng)典Q學(xué)習(xí)的優(yōu)勢(shì)相結(jié)合,將所有機(jī)器人到環(huán)境中各自目的地的路徑長(zhǎng)度和到達(dá)時(shí)間做到最小化,并通過(guò)減小每個(gè)機(jī)器人的轉(zhuǎn)向角以減少每個(gè)機(jī)器人的能耗。DRL在具有高維傳感器輸入的控制問(wèn)題中有許多顯著的應(yīng)用REF_Ref72270358\r\h[19],例如游戲、視覺(jué)運(yùn)動(dòng)機(jī)器人控制。使用異步演員-評(píng)論家,佩羅和賈里茨等人。訓(xùn)練CNN+LSTM政策網(wǎng)絡(luò),將視覺(jué)輸入映射到離散控制命令(轉(zhuǎn)向、制動(dòng)等)。并在現(xiàn)實(shí)的賽車(chē)游戲中實(shí)現(xiàn)自動(dòng)駕駛。對(duì)于連續(xù)作用的控制問(wèn)題,Timothy等。提出了一種深度確定性策略梯度(DDPG)算法來(lái)訓(xùn)練具有經(jīng)驗(yàn)回放的CNN網(wǎng)絡(luò),并將其應(yīng)用于模擬多關(guān)節(jié)動(dòng)力學(xué)和賽車(chē)游戲。信賴域策略優(yōu)化(TRPO)和PPO作為策略上的逆向?qū)W習(xí)算法,通過(guò)約束策略更新來(lái)減少方差,并在低維機(jī)器人控制中得到驗(yàn)證。對(duì)于水下機(jī)器人的控制問(wèn)題,大多數(shù)研究集中在基于模型的方法上REF_Ref72270650\r\h[20],如反推、滑模、模型預(yù)測(cè)控制,要求水下機(jī)器人具有精確的動(dòng)力學(xué)特性,這在實(shí)際的水下應(yīng)用中很難獲得。作為一種無(wú)模型方法,逆向物流近年來(lái)被應(yīng)用于解決水下機(jī)器人的控制問(wèn)題REF_Ref72268642\r\h[21]。劉等人將水下機(jī)器人的羽流跟蹤問(wèn)題建模為部分可觀測(cè)的馬爾可夫決策過(guò)程,并學(xué)習(xí)了一種基于長(zhǎng)短期記憶的策略。1.3全文內(nèi)容安排本文的研究對(duì)象主要是小型AUV在復(fù)雜且未知的環(huán)境中的智能避障問(wèn)題。在這一研究領(lǐng)域,存在以下問(wèn)題:AUV的體積大小限制了可安裝的傳感器數(shù)量,因而對(duì)AUV的避障決策模型提出很高的魯棒性要求;本課題研究的研究假設(shè)智能體與未知的復(fù)雜環(huán)境交互,其信息的獲取主要依靠聲納獲得,這對(duì)智能體的反應(yīng)實(shí)時(shí)性提出更高要求。論文其本的行文脈絡(luò)如下:第1章對(duì)課題的研究背景、研究意義以及AUV避障算法的基本概述,并對(duì)強(qiáng)化學(xué)習(xí)現(xiàn)狀、強(qiáng)化學(xué)習(xí)在AUV中的運(yùn)用以及深度強(qiáng)化學(xué)習(xí)在AUV領(lǐng)域的新應(yīng)用作出了概要性說(shuō)明。第2章DQN算法的基本理論。主要包括強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)的基本理論。其次,引入時(shí)序養(yǎng)分學(xué)習(xí)中的Q-learning算法,以此作為DQN算法的理論基礎(chǔ)。最后,針對(duì)Q-learning算法存在的不完全探索等問(wèn)題,借助基于兩個(gè)神經(jīng)網(wǎng)絡(luò)逼近Q值表的方式加以解決。在此基礎(chǔ)上,建立一種基于“回報(bào)度”的經(jīng)驗(yàn)回放方法,來(lái)提高其自主學(xué)習(xí)能力。第3章介紹了AUV動(dòng)力學(xué)模型,并提出完整的以DQN為底層算法的AUV智能避障模型。其次,定義相關(guān)的馬爾可夫四元組。狀態(tài)S是AUV探測(cè)到的周遭環(huán)境,輸出動(dòng)作A定義為艏向角偏轉(zhuǎn)量;而后,提出評(píng)價(jià)函數(shù)以對(duì)避障模型進(jìn)行分析,來(lái)解決強(qiáng)化學(xué)習(xí)導(dǎo)致的稀疏解問(wèn)題。第4章避障仿真實(shí)驗(yàn)。通過(guò)仿真實(shí)驗(yàn),證明了在未知的復(fù)雜環(huán)境下,避障算法在AUV路徑規(guī)劃中的可行性。深度強(qiáng)化學(xué)習(xí)算法原理2.1深度學(xué)習(xí)方法基礎(chǔ)2.1.1神經(jīng)元神經(jīng)網(wǎng)絡(luò)模擬生物神經(jīng)系統(tǒng)與現(xiàn)實(shí)環(huán)境間的相互作用,可以將其看作一種由自適應(yīng)的簡(jiǎn)單單元組成的互相聯(lián)通的網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)處理數(shù)據(jù)的領(lǐng)域中,屬于一種基礎(chǔ)性理論,而神經(jīng)元?jiǎng)t是人工神經(jīng)網(wǎng)絡(luò)中的其本組成單位,其基本構(gòu)成包括輸入層與輸出層,如圖2-1所示。圖2-1神經(jīng)元模型其中xii=1,2,3,4……n表示單個(gè)輸入信號(hào),ωij表示的是兩個(gè)神經(jīng)元ωi與ωj在一般的神經(jīng)元中,輸入的重要性主要通過(guò)調(diào)整權(quán)重參數(shù)的大小來(lái)確定。所謂偏置是在權(quán)重調(diào)整后的輸入量上添加一個(gè)線性分量。圖2-1的輸入-輸出關(guān)系可以用以下公式表達(dá):yj=f2.1.2深度神經(jīng)網(wǎng)絡(luò)本節(jié)采用到的深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks, DNN),又叫多層感知器。,多層感知器的其本結(jié)構(gòu)組成包括輸入層、輸出層、隱藏層,其可以有效地解決單一神經(jīng)元的線性不可分問(wèn)題。其表達(dá)能力得到了增強(qiáng),并增加了輸出層的輸出效果,使得網(wǎng)絡(luò)可以更加靈活地運(yùn)用于分類回歸、降維等問(wèn)題的解決中。圖2-2所示的是一個(gè)5層的感知器模型。在此圖中,多層感知器有4個(gè)輸入,輸出層有3個(gè)輸出,中間存在3個(gè)隱藏層,層與層之間的連接方式屬于全連接,每一層的輸出則會(huì)下一層的輸入?yún)?shù)。圖2-2多層感知器模型一般來(lái)說(shuō),輸入層輸入的是經(jīng)由傳感器獲得的環(huán)境狀態(tài),例如圖像數(shù)據(jù)或距離數(shù)據(jù)等,中間隱藏層的功能則是進(jìn)行特征表征處理,而后輸出層通過(guò)激活函數(shù)輸出最終的控制量。2.1.3卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN),是神經(jīng)網(wǎng)絡(luò)模型的典型代表,其作為一類前饋型的人工神經(jīng)網(wǎng)絡(luò),最早是Hubel和Wiesel受生物視覺(jué)神經(jīng)啟發(fā)而提出。CNN的其本思想是從圖像、音頻等高維數(shù)據(jù)中提取易于區(qū)分的低維特征,能夠應(yīng)用于人臉識(shí)別、車(chē)輛的檢測(cè)等應(yīng)用開(kāi)發(fā)領(lǐng)域。CNN擁有三個(gè)方面的主要優(yōu)勢(shì):一為局部感知,即為了降低模型在存儲(chǔ)上的要求以及減少整體的參數(shù)訓(xùn)練量,會(huì)在每一個(gè)神經(jīng)元的連接方式上處理為,只與前面的局部區(qū)域連接,而全局信息的獲取則要依靠在更高層區(qū)域局部信息的整合,以此降低模型在存儲(chǔ)上的要求,減少整體的參數(shù)訓(xùn)練量。。二是權(quán)值共享,即輸入-輸出神經(jīng)元間的連接權(quán)重呈現(xiàn)出規(guī)律性的重復(fù),用相同的權(quán)值在圖像的不同區(qū)域內(nèi)進(jìn)行卷積運(yùn)算;三是多卷積核,用一種類型的卷積核來(lái)表示出一個(gè)特征,因而不同的卷積核便可以得到不同的特征集。CNN的組成部分包括卷積層、池化層和全連接層。其中,卷積層的功能是通過(guò)卷積核對(duì)輸入對(duì)象展開(kāi)特征學(xué)習(xí),從而得到高層次的特征圖;池化層則是提取特征圖中的二次特征,來(lái)降低特征圖的維度;全連接層是最終的分類器,將卷積層與池化層中獲得的特征信息映射于相應(yīng)的標(biāo)配空間,并將最后的結(jié)果交由輸出層輸出。2.2強(qiáng)化學(xué)習(xí)方法基礎(chǔ)強(qiáng)化學(xué)習(xí)(ReinforcementLearning)是利用探索(Explore)的過(guò)程,在評(píng)價(jià)(Evaluate)的鑒別標(biāo)準(zhǔn)下,獲得自身輸出動(dòng)作的獎(jiǎng)勵(lì)或處罰,讓智能體(Agent)能夠?qū)W習(xí)到最優(yōu)行為策略的過(guò)程。質(zhì)言之,強(qiáng)化學(xué)習(xí)是一序貫決策過(guò)程。也就是說(shuō),智能體以當(dāng)前所獲的環(huán)境狀態(tài)信息為參考,隨機(jī)選擇輸出的動(dòng)作,來(lái)獲得最大的累計(jì)回報(bào),以此建立適合的動(dòng)作策略。在這里,可以將動(dòng)作策略定義為π,狀態(tài)信息定義為S,輸出動(dòng)作定義為A,而智能體依據(jù)動(dòng)作策略在每個(gè)狀態(tài)下輸出動(dòng)作的過(guò)程可以表示為π:S→A。2.2.1馬爾可夫決策過(guò)程馬爾可夫決策過(guò)程(MarkovDecisionProcess)在強(qiáng)化學(xué)習(xí)中的應(yīng)用極其普遍,可以將大部分強(qiáng)化學(xué)習(xí)問(wèn)題處理在無(wú)記憶的隨機(jī)過(guò)程。該過(guò)程描述的是,智能體在可觀察的環(huán)境中,其完整決策的做出只受到觀察狀態(tài)完整性的影響。通俗地講,MDP是一個(gè)無(wú)記憶隨機(jī)過(guò)程,即不必依據(jù)歷史信息,智能體下一時(shí)刻的運(yùn)動(dòng)狀態(tài)只依靠當(dāng)前的狀態(tài)與動(dòng)作便可判定。標(biāo)準(zhǔn)的馬爾可夫決策過(guò)程的描述可以用一個(gè)四元組{S,A,P,R}加以描述,如圖2-3所示,S是有限狀態(tài)集,a是輸出動(dòng)作,Ts,a則是狀態(tài)轉(zhuǎn)移議程,r是智能體輸出動(dòng)作后所獲獎(jiǎng)勵(lì),P是對(duì)應(yīng)狀態(tài)轉(zhuǎn)移的概率。因而,MDP圖2-3馬爾可夫決策過(guò)程圖
Pst+1在式(2-2)中,st代表智能體當(dāng)前時(shí)刻所處狀態(tài),相應(yīng)地,st+1表示下一時(shí)刻的所處狀態(tài).就MDP框架而言,最佳策略π?π?argmax式(2-3)中,γ為折扣因子,γ∈[0,1],K為此策略下的狀態(tài)數(shù)目,s則則為狀態(tài)空間。在MDP中,引入值函數(shù)V來(lái)衡量某個(gè)行為策略π所獲得的總回報(bào)。值函數(shù)V關(guān)注的并不是決策過(guò)程中的單步回報(bào),而是著眼于長(zhǎng)期收益,其目標(biāo)是最大化智能體的累積獎(jiǎng)勵(lì)。值函數(shù)的類型總的說(shuō)來(lái)有三類,VπsVπVπs其中,式(2-4)表示有限非折扣累積獎(jiǎng)勵(lì),式(2-5)表示平均獎(jiǎng)勵(lì),式(2-6)的應(yīng)用范圍最為廣泛,表示無(wú)限折扣獎(jiǎng)勵(lì),Vπs表示的是在策略π下?tīng)顟B(tài)S的值函數(shù),γ表示后續(xù)動(dòng)作對(duì)當(dāng)前的影響程度,γ∈[可以定義一個(gè)狀態(tài)值-行為值函數(shù),用以衡量每個(gè)輸出動(dòng)作a的價(jià)值,其表達(dá)式QπQπs,a在已知最優(yōu)動(dòng)作值函數(shù)Q?(s,a)的情況下,能夠得到最優(yōu)策略π?sa=1,if(a=2.2.2基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法Q-learning算法作為一種無(wú)模型的算法,其最早是由Watkins提出,而Q-learning看法也都是近年來(lái)所涌現(xiàn)的眾多強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。在Q-learning算法過(guò)程中,智能體會(huì)通過(guò)與環(huán)境反饋的即時(shí)評(píng)價(jià)值來(lái)求出狀態(tài)-動(dòng)作值函數(shù)Q。值函數(shù)Q值的大小與智能體執(zhí)行動(dòng)作的效果成正相關(guān)。因而,通過(guò)Q值的選擇,可以使智能體達(dá)到最優(yōu)的動(dòng)作序列輸出。本質(zhì)上講,Q-learning算法是迭代更新Q值表的過(guò)程,當(dāng)算法最終處于收斂狀態(tài)時(shí),此刻即對(duì)應(yīng)智能體的最優(yōu)決策策略。Q值的更新方法為,Qπs,aQπ其中,α代表學(xué)習(xí)率,若α=0表示智能體學(xué)習(xí)不到新知識(shí),α=1表示智體體不對(duì)知識(shí)進(jìn)行存儲(chǔ)。假設(shè)智能體所處環(huán)境中的狀態(tài)總和未知,其在一個(gè)狀態(tài)下選擇動(dòng)作集合中的一個(gè)動(dòng)作加以執(zhí)行,在發(fā)生狀態(tài)轉(zhuǎn)移的過(guò)程中,會(huì)獲得即時(shí)評(píng)價(jià)值r。一個(gè)動(dòng)作的輸出頻率與其獲得的r值大小有關(guān),若執(zhí)行一個(gè)動(dòng)作后,獲得正向獎(jiǎng)勵(lì),則當(dāng)智能體處于同等狀態(tài)時(shí)產(chǎn)生此動(dòng)作的可能性就會(huì)增大。假設(shè)在時(shí)刻t,智能體此刻所處的狀態(tài)記為st,輸出動(dòng)作at后,智能體狀態(tài)從st轉(zhuǎn)移到st+1,從而獲得反饋評(píng)價(jià)rtQt+1s,a將公式整理為,Qt+1s,a在(2-10),(2-11)中,Qts,a表示的是當(dāng)前的值函數(shù),Qt+1s,a表示的是目標(biāo)值函數(shù),α是學(xué)習(xí)率,γ是折扣系數(shù),a獲取環(huán)境信息獲取當(dāng)前狀態(tài)st→根據(jù)狀態(tài)st選擇所執(zhí)行的動(dòng)作at→智能體狀態(tài)轉(zhuǎn)移至st+1→環(huán)境反饋即時(shí)評(píng)價(jià)算法的具體動(dòng)作流程如圖2-4所示,圖2-4的算法要在環(huán)境中訓(xùn)練多次,以獲得最優(yōu)的優(yōu)化策略,其采取一張Q值表用以儲(chǔ)存所傳遞的數(shù)據(jù),Q值表結(jié)構(gòu)如圖2-5所示。圖2-4Q-learning算法流程表圖2-5Q值表結(jié)構(gòu)圖在圖2-5中,每一行代表智能體探索到的狀態(tài),列數(shù)則等于所有行為動(dòng)作的數(shù)量,每一列則代表一個(gè)動(dòng)作。Q值表中的數(shù)量含義是在狀態(tài)s與動(dòng)作a下的狀態(tài)-動(dòng)作值Q。開(kāi)始時(shí),智能體并無(wú)環(huán)境的相關(guān)信息,因而Q值初始化為0.伴隨訓(xùn)練頻數(shù)的展開(kāi),智能體會(huì)不斷發(fā)現(xiàn)新的狀態(tài)從而導(dǎo)致Q值表的行數(shù)得到擴(kuò)展。Q值的更新依據(jù)式(2-11)進(jìn)行。其中,Q(s',a')的值也由Q值表查詢而得到,若Q值表中查詢不到s',此時(shí)Q(s',2.3深度強(qiáng)化學(xué)習(xí)的基本框架深度強(qiáng)化學(xué)習(xí)的運(yùn)行方式更接近人類思維,其將深度學(xué)習(xí)的的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,能夠依據(jù)傳感器控制直接控制,其基本框架如圖2-6所示。圖2-6深度強(qiáng)化學(xué)習(xí)框架示意圖2.4基于雙神經(jīng)網(wǎng)絡(luò)的DQN強(qiáng)化學(xué)習(xí)算法DQN強(qiáng)化學(xué)習(xí)是Q-learning算法的一類改進(jìn)形式,其基本動(dòng)作是依據(jù)兩個(gè)淺層神經(jīng)網(wǎng)絡(luò)的DQN算法對(duì)AUV的智能決策模型加以訓(xùn)練。DQN算法對(duì)Q-learning算法的改進(jìn)體現(xiàn)在目標(biāo)網(wǎng)絡(luò)與經(jīng)驗(yàn)回放記憶池的引進(jìn)。圖2-7的算法示意圖即體現(xiàn)出這種改進(jìn)。圖2-7算法示意圖2.4.1神經(jīng)網(wǎng)絡(luò)的擬合Q值表Q-learning算法的學(xué)習(xí)過(guò)程本質(zhì)上是一個(gè)Q值表迭代更新的過(guò)程。當(dāng)智能體面臨的任務(wù)所包含的狀態(tài)與動(dòng)作集合較少時(shí),利用基于查表方式更新的方式即可進(jìn)行學(xué)習(xí),但當(dāng)狀態(tài)與動(dòng)作的集合呈現(xiàn)指數(shù)級(jí)增長(zhǎng)時(shí),若采用查表更新的方法會(huì)引起維數(shù)災(zāi)難。算法的泛化能力,在智能體無(wú)法遍歷所全部的環(huán)境時(shí)便顯得極為重要。利用函數(shù)逼近的方式,能夠?qū)⒂邢薜臓顟B(tài)空間子集的經(jīng)驗(yàn)更有效地泛化到更大的子集上,換言之,即是將過(guò)往經(jīng)驗(yàn)總結(jié)出的知識(shí)應(yīng)用到未經(jīng)歷的狀態(tài)。本文采用BP神經(jīng)網(wǎng)絡(luò)擬合Q值表,采用神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)某一策略π生成的狀態(tài)-動(dòng)作值函數(shù)Q。值函數(shù)Qts,a的更新在某一時(shí)刻t之后,不再用Q值表來(lái)表示,而是利用參數(shù)向量θ來(lái)表示。θ也是神經(jīng)網(wǎng)絡(luò)的權(quán)值,這也意味著,伴隨智能體學(xué)習(xí)時(shí)長(zhǎng)的增加,通過(guò)權(quán)值的調(diào)整,神經(jīng)網(wǎng)絡(luò)可以在理論上實(shí)現(xiàn)任意函數(shù)的逼近。與Q值表中的值相對(duì)應(yīng)的是狀態(tài)s下采取輸出動(dòng)作a的值函數(shù),基于此,神經(jīng)網(wǎng)絡(luò)能夠?qū)?yīng)到兩類的函數(shù)輸入與輸出形式,依次是s,a→Q與s→Qa。。本文擬采用后者,即神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以s為輸入狀態(tài),輸出A個(gè)神經(jīng)元(A也是輸出動(dòng)作的個(gè)數(shù)),其輸出值對(duì)應(yīng)動(dòng)作值函數(shù)Qs,在Q值表中,在特定狀態(tài)s下當(dāng)前的最優(yōu)動(dòng)作即為Q值最大的動(dòng)作,由Q值的更新公式(2-11)可得,智能體學(xué)習(xí)的過(guò)程,就是Qs,a不斷更新迭代的過(guò)程。在神經(jīng)網(wǎng)絡(luò)逼近Q值時(shí),狀態(tài)s為神經(jīng)網(wǎng)絡(luò)的輸入?yún)⒘?,其輸出層的參量則是每個(gè)動(dòng)作所對(duì)應(yīng)的Qs,a。其神經(jīng)網(wǎng)絡(luò)的更新則是依據(jù)每次決策所得的樣本s,a,r,s'來(lái)進(jìn)行。其中,s表示的是智能體當(dāng)前所處的狀態(tài),a代表的是s狀態(tài)下智能體所采取的動(dòng)作,s'在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,實(shí)際輸出Qs,a可以由網(wǎng)絡(luò)的前向傳播而獲得,期望輸出Qs,aQt+1s,a此時(shí),該神經(jīng)網(wǎng)絡(luò)的損失值為,Ek=2.4.2目標(biāo)網(wǎng)絡(luò)此處將目標(biāo)網(wǎng)絡(luò)引入的目的為:將狀態(tài)-動(dòng)作值函數(shù)Q變?yōu)橐蕴囟ㄖ芷诟碌哪繕?biāo)值,以減少與目標(biāo)的相關(guān)性。不同于基于規(guī)則的算法,在強(qiáng)化學(xué)習(xí)的環(huán)境下對(duì)神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練從而替代Q值表的更新迭代,將會(huì)面臨數(shù)百次的反復(fù)練習(xí),因而會(huì)出現(xiàn)效率比較低的情形。將上一節(jié)中介紹的擬合Q值表的值函數(shù)神經(jīng)網(wǎng)絡(luò)為主網(wǎng)絡(luò),將目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)與主網(wǎng)絡(luò)結(jié)構(gòu)趨同,其網(wǎng)絡(luò)權(quán)值參數(shù)為主網(wǎng)絡(luò)在I步迭代前的網(wǎng)絡(luò)參數(shù)。在此背景下,主網(wǎng)絡(luò)所擬合的函數(shù)為Qs,a;θ,目標(biāo)網(wǎng)絡(luò)所擬合的函數(shù)為Qs.a;θt。與之對(duì)應(yīng),此時(shí)狀態(tài)-動(dòng)作值函數(shù)QQ(2-15)對(duì)于整個(gè)神經(jīng)網(wǎng)絡(luò)的損失函數(shù)來(lái)說(shuō),甚構(gòu)造過(guò)程如圖2.8所示。損失函數(shù)會(huì)選取目標(biāo)網(wǎng)絡(luò)輸出動(dòng)作a所對(duì)應(yīng)的最大Q值作為自身的一部分,而后會(huì)將主網(wǎng)絡(luò)輸出動(dòng)作ai相對(duì)應(yīng)的QL(2-16)目標(biāo)網(wǎng)絡(luò)的參數(shù)保持實(shí)時(shí)更新,其更新方式為以i步為周期,在訓(xùn)練步為i時(shí),將主網(wǎng)絡(luò)的參數(shù)直接賦值到目標(biāo)網(wǎng)絡(luò)上。此后,目標(biāo)網(wǎng)絡(luò)的參數(shù)不變,而主網(wǎng)絡(luò)繼續(xù)保持訓(xùn)練狀態(tài),當(dāng)訓(xùn)練步數(shù)再次到達(dá)i步時(shí),繼續(xù)重復(fù)上述的賦值過(guò)程。以這種方式,目標(biāo)網(wǎng)絡(luò)就可以保存主網(wǎng)絡(luò)的歷史訓(xùn)練信息,從而降低當(dāng)前的狀態(tài)值函數(shù)Q與目標(biāo)價(jià)值r+γarg2.3.4基于“驚喜度”的經(jīng)驗(yàn)回放方法所謂的記憶池,即是儲(chǔ)存訓(xùn)練樣本的一個(gè)容器。而AUV在訓(xùn)練過(guò)程中,從記憶池中選擇特定數(shù)目的訓(xùn)練樣本再次訓(xùn)練的過(guò)程即為經(jīng)驗(yàn)回放。記憶池所能容納的樣本數(shù)量是固定的,而伴隨訓(xùn)練樣本數(shù)量逾過(guò)記憶池的閾值,記憶池會(huì)自動(dòng)剔除最早進(jìn)入的訓(xùn)練樣本,以創(chuàng)造容納空間,供新的訓(xùn)練樣本使用。經(jīng)驗(yàn)回放技術(shù)能夠讓智能體更好地利用新采集的信息與歷史學(xué)習(xí)信息,并且可以降低序列中的相關(guān)性,對(duì)數(shù)據(jù)的分布變化也有一定的平滑作用。本文擬建立一種基于“吃驚度”的優(yōu)先級(jí)經(jīng)驗(yàn)回放方式,目的是讓智能體更傾向?qū)W習(xí)質(zhì)量好的樣本,縮短學(xué)習(xí)周期。不同樣本間之所以存在優(yōu)先級(jí)的原因是,訓(xùn)練過(guò)程的某個(gè)狀態(tài)會(huì)包含一個(gè)關(guān)鍵決策,并且此決策對(duì)AUV是否可以完成避障任務(wù)的影響級(jí)別很高,但包含此決策的樣本一般隱藏在大量冗余的安全中,很難被識(shí)別出來(lái)。如何識(shí)別不同樣本的優(yōu)先級(jí)并將其中優(yōu)先級(jí)大的樣本更易被遴選出來(lái),是優(yōu)先級(jí)抽樣方法需要解決的兩個(gè)問(wèn)題??梢越⒁粋€(gè)參數(shù)來(lái)衡量每個(gè)樣本的優(yōu)先級(jí),設(shè)此參數(shù)為ERROR,其大小由待擬合的Q真實(shí)值和神經(jīng)網(wǎng)絡(luò)輸出的Q估計(jì)值的差值而確立。在此意義下,ERROR的大小與預(yù)測(cè)精度成反比關(guān)系。本文將建立一個(gè)二維數(shù)組來(lái)存儲(chǔ)每一個(gè)樣本的優(yōu)先級(jí)及所存儲(chǔ)樣本在記憶池中的位置索引信息,該數(shù)組的容量與記憶池?cái)?shù)組相同,并將此數(shù)組稱之為優(yōu)先級(jí)數(shù)組。訓(xùn)練過(guò)程中增加的樣本會(huì)按照優(yōu)先級(jí)信息并依據(jù)其大小,呈遞增順序存放在優(yōu)先級(jí)數(shù)組中。對(duì)于樣本優(yōu)先級(jí)的排序,擬采用插入排序方式,來(lái)降低新數(shù)據(jù)插入的時(shí)間復(fù)雜度。因而,在維護(hù)記憶池樣本的同時(shí),也需要維護(hù)一個(gè)相對(duì)應(yīng)的優(yōu)先級(jí)數(shù)組。圖2-8樣本的抽取方式抽樣方法如圖2-8所示。已經(jīng)排序好的優(yōu)先級(jí)數(shù)組,可以將其均等地分為n個(gè)不同優(yōu)先級(jí)區(qū)間。當(dāng)需要的訓(xùn)練樣本數(shù)量為m時(shí),只需在每個(gè)優(yōu)先級(jí)區(qū)間選擇mn份相同數(shù)量的數(shù)據(jù)即可。而后,按照每一數(shù)據(jù)所含有的樣本索引信息,從記憶池中獲得訓(xùn)練樣本,這樣做可以讓不同ERROR基于深度強(qiáng)化學(xué)習(xí)的AUV避障方法對(duì)于傳統(tǒng)的路徑規(guī)劃方式,無(wú)法窮舉AUV在未知水域面臨的復(fù)雜環(huán)境,并且會(huì)涉及到大量級(jí)的計(jì)算,很難做到從狀態(tài)到動(dòng)作的端到端快速反應(yīng)決策。本文將利用深度強(qiáng)化學(xué)習(xí)算法,讓AUV能夠從己學(xué)習(xí)到的探索過(guò)程中,自發(fā)建立一套決策模型,并在以后的學(xué)習(xí)過(guò)程中,對(duì)此模型加以完善。此外,如上所述,本文要求算法具有對(duì)未知情況的泛化處理能力,并且要做到實(shí)時(shí)的端到端決策。3.1AUV智能避障算法框架圖3-1雙神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)示意圖本文擬采用的算法框架如圖3-1所示,圖中的DQN算法是一種基于Q-learning的實(shí)時(shí)在線學(xué)習(xí)方法,它可以支持智能體在未知環(huán)境的探索過(guò)程中,通過(guò)不斷的試錯(cuò)來(lái)更新自身的知識(shí)庫(kù)。圖3-2展示的便是DQN算法的偽代碼。DQN的訓(xùn)練過(guò)程可概括為以下過(guò)程:1.初始化記憶池D,并將其容量設(shè)為N。主網(wǎng)絡(luò)的狀態(tài)-動(dòng)作值函數(shù)的初始化依據(jù)隨機(jī)權(quán)值θ,而目標(biāo)網(wǎng)絡(luò)的參數(shù)θ'=θ。在AUV避障的設(shè)計(jì)中,狀態(tài)s定義為AUV遭遇的障礙物信息與姿態(tài)信息,并將其初始狀態(tài)s0。2.依據(jù)AUV所處狀態(tài)輸出需要執(zhí)行的動(dòng)作a,動(dòng)作的選擇以概率方式進(jìn)行。動(dòng)作a的選擇策略采用ξ貪心策略,以生成的隨機(jī)數(shù)β為參考標(biāo)準(zhǔn)。若ξ<β,則在動(dòng)作空間中等可能性地選擇輸出動(dòng)作;當(dāng)ξ>β時(shí),根據(jù)主網(wǎng)絡(luò)在st下的預(yù)測(cè)值所對(duì)應(yīng)的輸出層最大Q值選擇輸出動(dòng)作at。3.伴隨at的輸出,AUV會(huì)轉(zhuǎn)移到下一狀態(tài)st+1,圖3-2Q-learning算法偽代碼當(dāng)記憶池D中的樣本數(shù)量達(dá)到預(yù)先設(shè)定的閾值θ后,訓(xùn)練模型開(kāi)啟。訓(xùn)練過(guò)程如下所示,于記憶池中抽取batch_size個(gè)數(shù)量的樣本,來(lái)構(gòu)成訓(xùn)練集合。將每個(gè)樣本中的st+1輸入到目標(biāo)網(wǎng)絡(luò)中,此網(wǎng)絡(luò)會(huì)輸出全部動(dòng)作所對(duì)應(yīng)的Qst+1,a值函數(shù),在值函數(shù)集中選取a'所對(duì)應(yīng)的最大值函數(shù)argmaxa'計(jì)算損失函數(shù),并通過(guò)梯度下降法來(lái)更新網(wǎng)絡(luò)的權(quán)值。當(dāng)每次學(xué)習(xí)過(guò)程結(jié)束時(shí),ε更新為ε+?ε,以此增加智能體選擇最優(yōu)動(dòng)作的概率。學(xué)習(xí)次數(shù)達(dá)到某一固定值時(shí)目標(biāo)網(wǎng)絡(luò)的權(quán)值會(huì)自動(dòng)更新為值網(wǎng)絡(luò)權(quán)值θ。3.2AUV的設(shè)計(jì)規(guī)劃本文設(shè)計(jì)的是一種端到端的AUV規(guī)劃系統(tǒng),AUV會(huì)根據(jù)自身所在的環(huán)境狀態(tài),依靠聲納獲得障礙物的貪睡,以獲得馬爾可夫四元級(jí)s,a,p,r。規(guī)劃系統(tǒng)的大致框架如圖3-3所示。圖3-3AUV規(guī)劃系統(tǒng)結(jié)構(gòu)圖3.2.1AUV單步?jīng)Q策位置的計(jì)算本文擬研究的是AUV的二維運(yùn)動(dòng)問(wèn)題,即考慮的是AUV預(yù)先對(duì)環(huán)境一無(wú)所知的前提下,通過(guò)對(duì)周?chē)h(huán)境的探索,通過(guò)端到端式地從“看到”到“行動(dòng)”有反應(yīng)式?jīng)Q策方法,從已有的訓(xùn)練經(jīng)驗(yàn)中,獲得最優(yōu)的學(xué)習(xí)能力,以提高對(duì)未知環(huán)境的適應(yīng)能力。AUV的動(dòng)力學(xué)處理如圖3-4所示,圖3-4AUV平面運(yùn)動(dòng)模型AUV在此處被處理為一個(gè)質(zhì)點(diǎn),XR,YR是auv中心點(diǎn)在大地坐標(biāo)系下的坐標(biāo),X?Y則是大地坐標(biāo)系,ψAUV的航向角可以分為5個(gè)層級(jí),分別是0,π9,π18,XR+1=XRYR+1=AUV會(huì)根據(jù)自學(xué)習(xí)到的策略進(jìn)行狀態(tài)的遷移,從而使其航向角發(fā)生變化,由式(3-1)(3-2)可以確定下一步的目標(biāo)位置,從而構(gòu)成了最終的規(guī)劃路徑。
3.2.2環(huán)境狀態(tài)表示在AUV對(duì)周?chē)h(huán)境都是未知的情況下,其狀態(tài)通過(guò)相對(duì)位置信息。在全局環(huán)境未知的情況下,相對(duì)位置法基于柵格法的固定位置來(lái)表示智能體來(lái)說(shuō),其不必對(duì)每個(gè)未探索到的地圖進(jìn)行一次模型訓(xùn)練,因而此種表示方法更具有通過(guò)用性。特征提取是機(jī)器學(xué)習(xí)的一個(gè)重要領(lǐng)域,能夠較為完善地對(duì)樣本特征進(jìn)行提取,而這也正是AUV能夠正確決策并成功避障的關(guān)鍵。在本文中,AUV的環(huán)境提取特征主要包括:1.AUV自身的航向信息;2.AUV與障礙物的距離及相對(duì)位置信息;3.在大地坐標(biāo)系下,AUV與目標(biāo)點(diǎn)所呈現(xiàn)的夾角信息。現(xiàn)定義環(huán)境狀態(tài)向量為sd其中AUV所攜帶的聲納傳感器的掃描范圍為其運(yùn)動(dòng)正前方180°的范圍,聲納傳感器的模型如圖3-5所示,將0°表示為AUV的正前方向,剩余的7個(gè)角度則作為AUV獲取障礙物信息的來(lái)源。如果偵測(cè)到障礙物,就會(huì)返回AUV與障礙物的最近距離d.在本文中,將聲納的探索的20m之內(nèi)的距離定義為有效信息,并對(duì)此進(jìn)行相關(guān)的距離量化處理(若0<d<1,則d=1;若1<d<2,則取d=2,可以此類推)。環(huán)境狀態(tài)向量的部分參數(shù)可以用七個(gè)方向上AUV與障礙物的距離來(lái)表示。此外,AUV的環(huán)境信息還應(yīng)包含AUV信息,障礙物與目標(biāo)點(diǎn)的信息,其模型圖如圖3-4所示。其中dt表示的為AUV在各個(gè)方向與障礙物之間的距離,i=1,2,3,4,5,6,7;dg表示的是AUV與目標(biāo)點(diǎn)間的距離測(cè)量值;α表示的則是AUV的航行方向與目標(biāo)點(diǎn)方向連接所呈的夾角,ΨR則為AUV圖3-5智能體環(huán)境信息描述可以求出,AUV在t時(shí)刻的行進(jìn)方向α=θrg?ag=fx=式3-3表示的為AUV的前進(jìn)方向與目標(biāo)點(diǎn)之間夾角的量化結(jié)果,描述的是AUV自身與目標(biāo)點(diǎn)的相對(duì)位置關(guān)系。定義0°為AUV行進(jìn)方向與目標(biāo)點(diǎn)連線方向,逆時(shí)針為正方向,相應(yīng)地順時(shí)針為負(fù)方向,其相對(duì)位置關(guān)系如圖3-6所示。圖3-6AUV運(yùn)動(dòng)方向與目標(biāo)間的相對(duì)位置關(guān)系基于以上的討論,可將AUV狀態(tài)表示為向量sds1,ds2,ds3,……ag。當(dāng)采用神經(jīng)網(wǎng)絡(luò)作為其決策的最終模型后,狀態(tài)向量對(duì)應(yīng)輸入層的8個(gè)神經(jīng)元、本文擬利用83.2.3評(píng)價(jià)函數(shù)的設(shè)計(jì)評(píng)價(jià)函數(shù)設(shè)計(jì)的優(yōu)劣可以影響到智能體學(xué)習(xí)的速度與質(zhì)量,智能體會(huì)通過(guò)當(dāng)前的評(píng)價(jià)函數(shù)來(lái)決定此后的動(dòng)作輸出優(yōu)先級(jí),若當(dāng)前執(zhí)行的動(dòng)作為正向激勵(lì),則此后智能體選擇此動(dòng)作的概率會(huì)增大。依據(jù)本文中AUV所要執(zhí)行的避障任務(wù)及AUV處于未知環(huán)境的前提,設(shè)計(jì)了一個(gè)基于避障模型的評(píng)價(jià)函數(shù),以盡可能短且平滑的路徑航行到目標(biāo)點(diǎn)。評(píng)價(jià)函數(shù)r的參數(shù)設(shè)計(jì)如下,r=100到達(dá)目標(biāo)點(diǎn)?50碰到障礙物其參數(shù)意義如下,dmin是指聲納所探測(cè)到的AUV距離障礙物的最近距離值,ds表示的是AUV與障礙物間的安全距離值,這里定義ds為5,d4避障仿真實(shí)驗(yàn)4.1仿真環(huán)境介紹Gazebo作為一款免費(fèi)的機(jī)器人仿真軟件,能夠呈現(xiàn)高保真度的物理模擬,并提供對(duì)用戶來(lái)說(shuō)非常友好的界面交互方式。Gazebo與ros通常聯(lián)合使用,能夠提供許多不同種類的機(jī)器人模型,為開(kāi)發(fā)者創(chuàng)造優(yōu)異的仿真環(huán)境。本文采用的仿真框架為Ubuntu16.04+Gazebo+Ros,.其避障環(huán)境如圖4-1,圖4-2所示。4-1AUV單障礙避障環(huán)境圖4-2多障礙避障環(huán)境4.2AUV避障仿真4.2.1單障礙物環(huán)境為使問(wèn)題簡(jiǎn)單化,AUV的避障仿真環(huán)境處理為100mX100m的正方形區(qū)域,在60mX60m的點(diǎn)位置處放置一個(gè)障礙物,來(lái)模擬AUV在未知環(huán)境下,其避障模型的可行性。AUV的初始位置為(0,0),目標(biāo)點(diǎn)位置(100,100)(最終誤差可接受在90m≤x,y≤110m),AUV的速度恒定為1m/s,其決策步長(zhǎng)為1s,自身攜帶的聲納有效感知范圍為30m。實(shí)驗(yàn)的參數(shù)設(shè)置如下,學(xué)習(xí)率α=0.01,折扣因子γ=0.8,將探索概率初始化為0,每次的探索概率增量為0.0001,探索概率的峰值為0.9.探索率若是0,則代表當(dāng)前狀態(tài)下AUV會(huì)隨機(jī)選擇執(zhí)行動(dòng)作,訓(xùn)練后期將探索概率峰值設(shè)為0.9,意使AUV保持0.1的概率進(jìn)行隨機(jī)探索。訓(xùn)練過(guò)程中,定義記憶池容量為500,若AUV觸碰到障礙物,則使其回到原點(diǎn)重新訓(xùn)練。圖4-3AUV訓(xùn)練步數(shù)50次軌跡圖圖4-4AUV訓(xùn)練步數(shù)100次軌跡圖圖4-5AUV訓(xùn)練步數(shù)150次軌跡圖圖4-6AUV訓(xùn)練步數(shù)200次軌跡圖圖4-2、圖4-3、圖4-4、圖4-5分別表示AUV在50次、100次、150次、200次的訓(xùn)練后,在障礙物位于(60,60)的環(huán)境中的避障軌跡。由此,可以看到在AUV訓(xùn)練次數(shù)為50時(shí),AUV尚無(wú)法躲開(kāi)環(huán)境中所存在的障礙物。圖4-2顯示,AUV在訓(xùn)練次數(shù)達(dá)到100時(shí),可以做到障礙物的躲避,但轉(zhuǎn)向角度過(guò)大,伴隨訓(xùn)練步數(shù)的增加,AUV的航行軌跡逐漸平緩化,路徑趨于平滑,避免了急轉(zhuǎn)彎帶來(lái)的高風(fēng)險(xiǎn)??梢哉J(rèn)為,AUV在訓(xùn)練步數(shù)增加的情況下,己初步地完成了避障的任務(wù)。為了驗(yàn)證AUV在單障礙環(huán)境中所學(xué)習(xí)到的決策機(jī)制的可適用性,將其在上述環(huán)境中的建立的學(xué)習(xí)模型應(yīng)用到新的單障礙環(huán)境中。如圖4-7所示,依次是障礙物處于(40,40)、(50,50)、(80,80)、(90,90)的水面環(huán)境中。從中可知,AUV成功地實(shí)現(xiàn)了未知環(huán)境下對(duì)于單障礙物的避障考驗(yàn)。圖4-7AUV在多個(gè)單障礙環(huán)境中的航行軌跡4.2.2多障礙環(huán)境本文選取10個(gè)障礙物來(lái)作為AUV訓(xùn)練的水面環(huán)境,10個(gè)障礙物分別放置在(75,75)、(30,30)、(20,45)、(50,65)、(80,60)、(60,80)、(20,15)、(70,35),(10,50)、(50,20)。AUV起始點(diǎn)為(0,0),目標(biāo)點(diǎn)位置(100,100)(最終誤差可接受在90m≤x,y≤110m)。如圖4-8、圖4-9、圖4-10、圖4-11所示,在訓(xùn)練步數(shù)達(dá)100次與200次的時(shí)候,AUV尚未能處理好多障礙物避障的決策問(wèn)題。伴隨訓(xùn)練步數(shù)的增加,AUV已逐漸地在10個(gè)障礙物中掌握避障決策的能力。圖4-8AUV訓(xùn)練100次軌跡圖圖4-9AUV訓(xùn)練200次軌跡圖圖4-10AUV訓(xùn)練300次軌跡圖圖4-11AUV訓(xùn)練400次軌跡圖如同上節(jié)驗(yàn)證間AUV的決策模型在單障礙環(huán)境中的適用性,如圖4-12所示,本文采用AUV在10個(gè)障礙物的環(huán)境中學(xué)習(xí)到的決策模型,將其運(yùn)用到兩個(gè)位置相異的10個(gè)障礙物的環(huán)境中。從圖4-12中可以看出,AUV己其本完成在10個(gè)障礙物的未知環(huán)境中的避障任務(wù)。圖4-12AUV在多個(gè)多障礙環(huán)境中的運(yùn)行軌跡5結(jié)論本課題針對(duì)傳統(tǒng)的AUV避障實(shí)現(xiàn)方式提出了一種改進(jìn)方式,使得AUV可以在未知環(huán)境中通過(guò)自身的探索來(lái)完成自學(xué)習(xí),去適應(yīng)未知環(huán)境下避障決策問(wèn)題。本文基于DQN神經(jīng)網(wǎng)絡(luò),建立一種雙神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)的AUV避障框架,并通過(guò)優(yōu)先經(jīng)驗(yàn)回放的方法來(lái)改善其泛化能力。本文的主要?jiǎng)?chuàng)新主要有:1.提出了雙神經(jīng)DQN的強(qiáng)化學(xué)習(xí)框架,讓AUV從當(dāng)前自身所處的環(huán)境中去提取環(huán)境特征信息,為其狀態(tài)-動(dòng)作式的反應(yīng)式?jīng)Q策提供輸入變量.AUV在大量的學(xué)習(xí)與探索中,經(jīng)過(guò)自學(xué)習(xí)去建立一套決策模型。最終的仿真結(jié)果也證明了算法的可行性。2、引進(jìn)優(yōu)先經(jīng)驗(yàn)回放方法,以此降低樣本間的相關(guān)性,并提出立足于“驚喜度“的經(jīng)驗(yàn)優(yōu)先回和方式。3.根據(jù)避障任務(wù)的要求,對(duì)AUV的每步?jīng)Q策設(shè)置合適的獎(jiǎng)勵(lì)值,來(lái)解決強(qiáng)化學(xué)習(xí)自身的稀疏解問(wèn)題。本文的不足在于:1.只是對(duì)算法進(jìn)行了模擬仿真,并未將其付諸實(shí)際,需要進(jìn)一步地驗(yàn)證其在實(shí)體機(jī)器人上的效果。2.沒(méi)有對(duì)AUV在海洋中實(shí)際面臨的溢流、海浪等因素加以考量,且將其航行方式簡(jiǎn)單地二維化。因而,AUV的避障模型仍需進(jìn)一步的深入探索與研究。參考文獻(xiàn)視覺(jué)感知的端到端自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃綜述.中國(guó)圖象圖形學(xué)報(bào).2021,26(01).E.Perot,M.Jaritz,M.Toromanoff,andR.DeCharette,“End-to-enddrivinginarealisticracinggamewithdeepreinforcementlearning,”inProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognitionWorkshops,2017,pp.3–4.[M.Jaritz,R.DeCharette,M.Toromanoff,E.Perot,andF.Nashashibi,“End-to-endracedrivingwithdeepreinforcementlearning,”in2018IEEEInternationalConferenceonRoboticsandAutomation(ICRA).IEEE,2018,pp.2070–2075.LIDL,WangP,DuL.PathPlanningTechnologiesforAutonomousUnderwaterVehicles-AReview[J].IEEEAccess,2019,7:9745-9768.HintonGE,OsinderoS,TheYW.Afastlearningalgorithmfordeepbeliefnets[J].Neuralcomputation,2006,18(7):1527-1544.LeeMA,ZhuY,SrinivasanK,etal.Makingsenseofvisionandtouch:Self-supervisedlearningofmultimodalrepresentationsforcontact-richtasks[C]//2019InternationalConferenceofRoboticsandAutomation(ICRA).IEEE,2019:8943-8950.Zloch
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衣物代洗協(xié)議書(shū)
- 語(yǔ)文合作協(xié)議書(shū)
- 幼兒代餐協(xié)議書(shū)
- 裝修勞務(wù)協(xié)議書(shū)
- 小程序合同協(xié)議
- 自愿走讀協(xié)議書(shū)
- 學(xué)生招聘協(xié)議書(shū)
- 詳細(xì)雇傭合同范本
- 2026年上半年湖南株洲市市直單位公益性崗位招聘16人考試重點(diǎn)題庫(kù)及答案解析
- 資產(chǎn)頂賬協(xié)議書(shū)
- Know Before You Go:趣談“一帶一路”國(guó)家智慧樹(shù)知到期末考試答案章節(jié)答案2024年貴州理工學(xué)院
- JBT 11270-2024 立體倉(cāng)庫(kù)組合式鋼結(jié)構(gòu)貨架技術(shù)規(guī)范(正式版)
- 求職OMG-大學(xué)生就業(yè)指導(dǎo)與技能開(kāi)發(fā)智慧樹(shù)知到期末考試答案章節(jié)答案2024年中國(guó)海洋大學(xué)
- JBT 7387-2014 工業(yè)過(guò)程控制系統(tǒng)用電動(dòng)控制閥
- A課堂懲罰游戲
- 整理收納師行業(yè)分析
- GB/T 228.1-2021金屬材料拉伸試驗(yàn)第1部分:室溫試驗(yàn)方法
- 氫能與燃料電池-課件-第五章-制氫技術(shù)
- 2023QC小組活動(dòng)基礎(chǔ)知識(shí)培訓(xùn)
- 生理學(xué)期末考試復(fù)習(xí)試題庫(kù)及答案
- 旅游地理學(xué) 國(guó)家公園建設(shè)與管理
評(píng)論
0/150
提交評(píng)論