【《深度強(qiáng)化學(xué)習(xí)分析現(xiàn)狀文獻(xiàn)綜述》3000字】_第1頁
【《深度強(qiáng)化學(xué)習(xí)分析現(xiàn)狀文獻(xiàn)綜述》3000字】_第2頁
【《深度強(qiáng)化學(xué)習(xí)分析現(xiàn)狀文獻(xiàn)綜述》3000字】_第3頁
【《深度強(qiáng)化學(xué)習(xí)分析現(xiàn)狀文獻(xiàn)綜述》3000字】_第4頁
【《深度強(qiáng)化學(xué)習(xí)分析現(xiàn)狀文獻(xiàn)綜述》3000字】_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

深度強(qiáng)化學(xué)習(xí)研究現(xiàn)狀文獻(xiàn)綜述強(qiáng)化學(xué)習(xí)的歷史發(fā)展可以追溯到早期的行為主義心理學(xué)、最優(yōu)控制理論以及時序差分方法。經(jīng)典強(qiáng)化學(xué)習(xí)方法面臨維度災(zāi)難問題,因此主要被應(yīng)用于狀態(tài)空間和動作空間有限組合的場景[8]。然而,大量實際的問題都是高維感官輸入,因此只適用于有限場景的強(qiáng)化學(xué)習(xí)理論一直進(jìn)展遲緩。借助于深度學(xué)習(xí)的興起,利用深度神經(jīng)網(wǎng)絡(luò)對高維狀態(tài)進(jìn)行直接建模使得深度強(qiáng)化學(xué)習(xí)近年來得到飛速的發(fā)展。神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的思想其實在以前的工作中已經(jīng)有所研究,Tesauro等人[8]將多層感知機(jī)和強(qiáng)化學(xué)習(xí)結(jié)合學(xué)習(xí)西洋雙陸棋并達(dá)到專家水平,然而學(xué)者們發(fā)現(xiàn)將這種方法應(yīng)用到例如跳棋,國際象棋等游戲上表現(xiàn)并不好,Pollack等人[9]分析表明之前在西洋雙陸棋中的成功主要在于其本身的狀態(tài)特殊性。Tsitsiklis等人[10]討論了直接將神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合將導(dǎo)致策略不好收斂的問題。谷歌DeepMInd團(tuán)隊在2013年將經(jīng)典的Q學(xué)習(xí)方法[11]與深度神經(jīng)網(wǎng)絡(luò)結(jié)合,開發(fā)了深度Q學(xué)習(xí)算法(DQN)[12]并于兩年后將其進(jìn)一步完善[4]。作為一種端到端的深度強(qiáng)化學(xué)習(xí)算法,它克服了收斂性問題,在雅達(dá)利游戲仿真環(huán)境中直接根據(jù)高維觀測作為輸入學(xué)習(xí)游戲控制策略,超越了之前所有算法的性能表現(xiàn)并且達(dá)到了和人類游戲高手相當(dāng)?shù)乃?。DQN的成功吸引了國內(nèi)外大量學(xué)者的關(guān)注,從此大量其改進(jìn)版本不斷被推出。考慮到Q學(xué)習(xí)方法始終存在對狀態(tài)動作值函數(shù)(即Q值)的過估計問題,Van等人[13]提出了DoubleDQN使得策略更穩(wěn)定。Wang等人[14]在深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計時通過將Q值分解為狀態(tài)值函數(shù)(即V值)和優(yōu)勢函數(shù)(即A),讓策略訓(xùn)練過程中更直接關(guān)注到哪些動作帶來高回報,加快了策略的收斂。Schaul等人[15]提出在網(wǎng)絡(luò)更新時通過對經(jīng)驗樣本按照重要程度賦予不同的的采樣概率改善了對樣本隨機(jī)采樣帶來的數(shù)據(jù)利用低效問題。Bellemare等人[16]從近似分布的角度提出學(xué)習(xí)價值函數(shù)的分布可以使得策略訓(xùn)練更加穩(wěn)定有效。Mnih等人[17]通過結(jié)合多步自舉的思想[18]降低目標(biāo)值函數(shù)估計的偏差從而加快策略訓(xùn)練。Fortunato等人[19]提出僅在增加較少計算量的情況下通過在網(wǎng)絡(luò)權(quán)重上添加噪聲可以達(dá)到更好的探索能力,從而增加策略的性能表現(xiàn)。Hessel等人[20]有效的整合DQN上述各種改進(jìn)版本,在其當(dāng)時取得了雅達(dá)利游戲上最先進(jìn)的數(shù)據(jù)效率和性能。Hausknecht等人[21]提出利用長短期記憶網(wǎng)絡(luò)(LSTM)[22]對歷史信息進(jìn)行建模來處理部分可觀測強(qiáng)化學(xué)習(xí)任務(wù)。此外,學(xué)者們將上述各個改進(jìn)版本的優(yōu)勢進(jìn)行整合,同時結(jié)合分布式觀點,提出大規(guī)模分布式訓(xùn)練算法框架[23][24],加速學(xué)習(xí)的同時也取得了更好的效果。上述介紹的DQN及其后期改進(jìn)版主要是基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,其通過神經(jīng)網(wǎng)絡(luò)估計值函數(shù),然后優(yōu)化值函數(shù)間接獲得最優(yōu)策略。近年來越來越多的強(qiáng)化學(xué)習(xí)算法采用基于策略的方法,將策略參數(shù)化,然后通過直接優(yōu)化目標(biāo)函數(shù)(例如累計回報的期望)獲得最優(yōu)策略。和基于值函數(shù)算法比較之下,基于策略方法一般來講可以更好的收斂,在連續(xù)或高維動作空間中有效。Williams等人將策略梯度理論與蒙特卡洛方法結(jié)合提出了經(jīng)典的REINFORCE[25]系列策略梯度算法。然而由于采用了蒙特卡洛方法,采樣效率較低(需要采集完整的回合進(jìn)行更新),同時梯度估計的方差會比較大,學(xué)習(xí)緩慢,基于此,一個改進(jìn)思想是在其回合折扣累計獎勵基礎(chǔ)上減去一個基準(zhǔn),減小估計的方差而不會改變偏差,最常用的基準(zhǔn)通常是狀態(tài)值函數(shù)。策略梯度方法一個最大的缺點就是更新步長不好確定,設(shè)置太小會導(dǎo)致收斂緩慢,太長導(dǎo)致策略不收斂。置信域策略優(yōu)化算法(TRPO)[26]優(yōu)化了一個替代目標(biāo)函數(shù),其基本思想是限制新舊策略之間的KL散度來限制每次策略梯度的更新幅度,從而允許策略最大程度的進(jìn)行更新而不會導(dǎo)致不收斂。然而,TRPO的約束優(yōu)化需要計算二階梯度,限制了其適用性,相比之下,近端策略優(yōu)化(PPO)[27]算法只需要計算一階梯度信息,復(fù)雜性更低,更具通用性,而效果與TRPO類似。Schulman等人[28]提出在基于策略的算法中引入廣義優(yōu)勢估計(GAE)可以進(jìn)一步權(quán)衡梯度估計過程中的偏差與方差。Konda等人[29]結(jié)合基于值函數(shù)與基于策略方法的優(yōu)勢提出演員評論家(actor-critic)算法,同時估計策略函數(shù)(actor網(wǎng)絡(luò))和值函數(shù)(critic網(wǎng)絡(luò)),其中actor負(fù)責(zé)動作選取,critic估計Q值(替代策略梯度中回合折扣累計獎勵),負(fù)責(zé)評估動作選擇的好壞并指導(dǎo)策略調(diào)整。Mnih等人[17]提出異步優(yōu)勢演員評論家算法(A3C),用critic直接估計V值作為上述策略梯度算法中的基準(zhǔn),在更新策略網(wǎng)絡(luò)時相當(dāng)于用到優(yōu)勢函數(shù),此外,其通過在多個環(huán)境中異步執(zhí)行采樣與更新,使得訓(xùn)練速度明顯加快并且樣本之間相關(guān)性被打破,最終策略雅達(dá)利游戲、連續(xù)控制任務(wù)[30]等多個任務(wù)中取得了成功。上述兩節(jié)主要提及的是一些無模型的強(qiáng)化學(xué)習(xí)方法,即事先不知道環(huán)境模型,也不需要學(xué)習(xí)環(huán)境模型,該類方法通常需要采集大量的樣本訓(xùn)練才能取得好的效果。近年來一些基于模型的方法也被陸續(xù)提出,其主要優(yōu)勢在于樣本利用效率高,可以減少與環(huán)境的交互次數(shù)。Wahlstr?m等人[31]提出利用深度自動編碼器和低維空間的預(yù)測轉(zhuǎn)換模型僅從像素信息學(xué)習(xí)良好的動態(tài)系統(tǒng)預(yù)測模型,此外,類似的思想在之后的一些工作中[32][33]得到進(jìn)一步發(fā)展,尤其Hafner等人提出PlaNet[33],使用的訓(xùn)練回合數(shù)比無模型算法少得多,最終的表現(xiàn)接近甚至高于最先進(jìn)的無模型算法。近年來大量的研究機(jī)構(gòu)或個人學(xué)者開源了上述大多數(shù)深度強(qiáng)化學(xué)習(xí)算法的代碼庫實現(xiàn),供其他研究者學(xué)習(xí)或者作為實驗基準(zhǔn)。例如OpenAI開源Baselines算法庫[34],其用Tensorflow深度學(xué)習(xí)框架[35]并遵循OpenAIGym[36]環(huán)境接口高質(zhì)量的實現(xiàn)了大多數(shù)經(jīng)典的算法,缺點主要是代碼復(fù)用性較低且無文檔教程。RLlib算法庫[37]同樣開源大多數(shù)算法實現(xiàn)并提供文檔支持,通過模塊化設(shè)計使得擴(kuò)展性強(qiáng),同時支持Tensorflow和PyTorch[38],但是代碼嵌套復(fù)雜,不方便普通研究者二次開發(fā)。為降低初學(xué)者學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)算法門檻,OpenAI發(fā)布了SpinningUp教程[39]并以盡量簡潔的方式提供代碼實現(xiàn),同時支持Tensorflow和PyTorch,但其僅講述了基于策略的強(qiáng)化學(xué)習(xí)系列方法。清華大學(xué)翁等人[40]于2020年基于PyTorch實現(xiàn)并開源其強(qiáng)化學(xué)習(xí)庫-天授,用簡潔明了的代碼實現(xiàn)了大多算法并提供中文文檔支持,可定制性較高,在其相關(guān)實驗中展示出較其他框架的優(yōu)異性。圖1-4各類虛擬環(huán)境和仿真平臺此外,也越來越多的虛擬環(huán)境以及仿真平臺被提出供研究者學(xué)習(xí)、開發(fā)以及測試算法。例如提供雅達(dá)利游戲場景的ALE[5],提供第一人稱射擊游戲場景的Vizdoom[41],提供多智能體研究場景的星際爭霸游戲SMAC[42]、足球游戲Football[43],用于研究視覺導(dǎo)航的AI2-THOR[44]、Gibson[45],無人駕駛仿真環(huán)境Torcs[46]、CARLA[47]等。此外,也有大量仿真平臺支持研究者定制搭建自己的仿真環(huán)境,例如Gazebo[48]主要用于移動機(jī)器人系統(tǒng)仿真環(huán)境搭建,Stage[49]可用于等定制計算高效的二維移動機(jī)器人仿真場景;Vrep[50]可用于搭建機(jī)械臂抓取仿真場景、移動機(jī)器人導(dǎo)航避障仿真場景;Mujoco[51]可用于搭建各種仿生機(jī)器人步態(tài)訓(xùn)練場景。參考文獻(xiàn)TCReference\l1BojarskiM,DelTestaD,DworakowskiD,etal.Endtoendlearningforself-drivingcars[J].arXivpreprintarXiv:1604.07316,2016.LoquercioA,MaquedaAI,Del-BlancoCR,etal.Dronet:Learningtoflybydriving[J].IEEERoboticsandAutomationLetters,2018,3(2):1088-1095.ChenZ,HuangX.End-to-endlearningforlanekeepingofself-drivingcars[C]//2017IEEEIntelligentVehiclesSymposium(IV).IEEE,2017:1856-1860.MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].nature,2015,518(7540):529-533.BellemareMG,NaddafY,VenessJ,etal.Thearcadelearningenvironment:Anevaluationplatformforgeneralagents[J].JournalofArtificialIntelligenceResearch,2013,47:253-279.SilverD,HubertT,SchrittwieserJ,etal.Masteringchessandshogibyself-playwithageneralreinforcementlearningalgorithm[J].arXivpreprintarXiv:1712.01815,2017.BernerC,BrockmanG,ChanB,etal.Dota2withlargescaledeepreinforcementlearning[J].arXivpreprintarXiv:1912.06680,2019.TesauroG.TemporaldifferencelearningandTD-Gammon[J].CommunicationsoftheACM,1995,38(3):58-68.PollackJB,BlairAD.Whydidtd-gammonwork?[J].AdvancesinNeuralInformationProcessingSystems,1997,9(9):10-16.TsitsiklisJN,VanRoyB.Ananalysisoftemporal-differencelearningwithfunctionapproximation[J].IEEEtransactionsonautomaticcontrol,1997,42(5):674-690.WatkinsCJCH,DayanP.Q-learning[J].Machinelearning,1992,8(3-4):279-292.MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.VanHasseltH,GuezA,SilverD.Deepreinforcementlearningwithdoubleq-learning[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2016,30(1).WangZ,SchaulT,HesselM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning[C]//Internationalconferenceonmachinelearning.PMLR,2016:1995-2003.SchaulT,QuanJ,AntonoglouI,etal.Prioritizedexperiencereplay[J].arXivpreprintarXiv:1511.05952,2015.BellemareMG,DabneyW,MunosR.Adistributionalperspectiveonreinforcementlearning[C]//InternationalConferenceonMachineLearning.PMLR,2017:449-458.MnihV,BadiaAP,MirzaM,etal.Asynchronousmethodsfordeepreinforcementlearning[C]//Internationalconferenceonmachinelearning.PMLR,2016:1928-1937.Sutton

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論