【《強(qiáng)化學(xué)習(xí)概況綜述》3500字】_第1頁(yè)
【《強(qiáng)化學(xué)習(xí)概況綜述》3500字】_第2頁(yè)
【《強(qiáng)化學(xué)習(xí)概況綜述》3500字】_第3頁(yè)
【《強(qiáng)化學(xué)習(xí)概況綜述》3500字】_第4頁(yè)
【《強(qiáng)化學(xué)習(xí)概況綜述》3500字】_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-PAGE53-強(qiáng)化學(xué)習(xí)概況綜述1馬爾可夫決策過(guò)程(MDP)任何強(qiáng)化學(xué)習(xí)問(wèn)題都能抽象為馬爾可夫決策過(guò)程(MDP)[94],如圖1.1所示。馬爾可夫決策過(guò)程可以用五元組參數(shù)來(lái)表示,其中表示狀態(tài)空間,狀態(tài)空間中的狀態(tài)可為連續(xù)狀態(tài)或離散狀態(tài);表示動(dòng)作空間,與狀態(tài)空間類似,它里面的動(dòng)作也可為連續(xù)的或離散的;表示轉(zhuǎn)移概率空間,是狀態(tài)轉(zhuǎn)移概率,表示從當(dāng)前狀態(tài)和當(dāng)前動(dòng)作到下一時(shí)刻的概率;表示獎(jiǎng)勵(lì)函數(shù),與當(dāng)前的狀態(tài)和動(dòng)作有關(guān);是折扣因子,表示越是未來(lái)的狀態(tài)和動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì)對(duì)當(dāng)前的累計(jì)回報(bào)影響越小。MDP滿足馬爾可夫性質(zhì),即在現(xiàn)在狀態(tài)已知的情況下,未來(lái)的狀態(tài)和過(guò)去的狀態(tài)條件獨(dú)立。總的來(lái)說(shuō),馬爾可夫性質(zhì)是指當(dāng)前狀態(tài)的信息是所有歷史狀態(tài)的信息總和,知道當(dāng)前的狀態(tài)可以不需要知道過(guò)去的狀態(tài),這也是為什么策略分布或轉(zhuǎn)移概率分布都只與當(dāng)前的動(dòng)作或狀態(tài)相關(guān)。尤其,當(dāng)智能體無(wú)法知道到全部的狀態(tài)時(shí),此時(shí)引入觀測(cè)空間這個(gè)概念,類似于狀態(tài)空間,觀測(cè)空間中的觀測(cè)可為連續(xù)或離散。不同的是,當(dāng)前觀測(cè)值只有當(dāng)前狀態(tài)的一部分信息,此時(shí)馬爾可夫決策過(guò)程就變?yōu)椴糠钟^測(cè)的馬爾可夫決策過(guò)程,參數(shù)空間可由七元組來(lái)表示,其中表示發(fā)射概率空間;為發(fā)射概率,表示從當(dāng)前狀態(tài)到當(dāng)前觀測(cè)的概率。圖STYLEREF1\s1.SEQ圖\*ARABIC\s11馬爾可夫決策過(guò)程2強(qiáng)化學(xué)習(xí)原理根據(jù)系統(tǒng)或者任務(wù)反饋的數(shù)據(jù)不同可以將機(jī)器學(xué)習(xí)進(jìn)行分類。其中,在監(jiān)督學(xué)習(xí)中,系統(tǒng)或任務(wù)反饋給算法的是帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)集;半監(jiān)督學(xué)習(xí)中系統(tǒng)或任務(wù)反饋給算法的數(shù)據(jù)集中有一部分?jǐn)?shù)據(jù)帶有標(biāo)簽,另一部分?jǐn)?shù)據(jù)沒有標(biāo)簽;無(wú)監(jiān)督學(xué)習(xí)中系統(tǒng)沒有給算法反饋任何信息[12]。與它們不同,強(qiáng)化學(xué)習(xí)(Reinforcementlearning,RL)是一種以目標(biāo)為導(dǎo)向的學(xué)習(xí)方法,系統(tǒng)反饋給算法的是智能體與外界環(huán)境交互的數(shù)據(jù),也可以稱之為“經(jīng)驗(yàn)”。它的本質(zhì)就是通過(guò)與外界環(huán)境不停地交互來(lái)學(xué)習(xí)。智能體與外界交互時(shí),通過(guò)觀察其行為的結(jié)果,并適當(dāng)?shù)卣{(diào)整自己的行為來(lái)得到更好的獎(jiǎng)勵(lì),從而可以改善后續(xù)行為的結(jié)果。這種試錯(cuò)型的學(xué)習(xí)的方式是強(qiáng)化學(xué)習(xí)主要的基礎(chǔ)之一[13]。在深度神經(jīng)網(wǎng)絡(luò)沒有興起之前,另外一個(gè)主要影響強(qiáng)化學(xué)習(xí)的因素是最優(yōu)控制,這也成為強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)之一,其中最常用的是動(dòng)態(tài)規(guī)劃。圖1.2為強(qiáng)化學(xué)習(xí)的感知-行為-學(xué)習(xí)循環(huán)示意圖[14]。智能體從外界環(huán)境中觀測(cè)到當(dāng)前的狀態(tài),然后在當(dāng)前的狀態(tài)下,當(dāng)前策略會(huì)選擇一個(gè)動(dòng)作去與環(huán)境進(jìn)行交互。當(dāng)智能體執(zhí)行動(dòng)作之后感知到外界環(huán)境的狀態(tài)變?yōu)椋藭r(shí)的狀態(tài)是由智能體上一時(shí)刻的狀態(tài)和選擇的動(dòng)作決定的,它能充分反映當(dāng)前環(huán)境的所有信息并能影響智能體的下一個(gè)行為。同時(shí),環(huán)境會(huì)給予智能體一個(gè)立即獎(jiǎng)勵(lì),這個(gè)立即獎(jiǎng)勵(lì)能充分反映智能體的上一次動(dòng)作的好壞,所有的累積回報(bào)反映了這次訓(xùn)練過(guò)程中智能體采用的動(dòng)作序列的好壞。強(qiáng)化學(xué)習(xí)和最優(yōu)控制一樣,它們的目標(biāo)都是學(xué)到一個(gè)最優(yōu)的控制策略能最大化累積回報(bào)或者折扣累積回報(bào),但最優(yōu)控制領(lǐng)域中系統(tǒng)的動(dòng)力學(xué)模型通常是已知的,而在強(qiáng)化學(xué)習(xí)中智能體是不知道系統(tǒng)的動(dòng)力學(xué)模型的,也就是狀態(tài)動(dòng)作轉(zhuǎn)移概率是未知的。在強(qiáng)化學(xué)習(xí)中,智能體需要通過(guò)與外界不斷地交互從而以試錯(cuò)的方式來(lái)了解其在環(huán)境中一系列行為的后果,從而產(chǎn)生對(duì)于外部環(huán)境的部分了解,通過(guò)整合這些新的信息來(lái)更新自己對(duì)外部環(huán)境的認(rèn)識(shí)。另外,強(qiáng)化學(xué)習(xí)通??紤]的是最大化預(yù)期累積回報(bào),而不是最大化某條軌跡的累積回報(bào)。圖STYLEREF1\s1.SEQ圖\*ARABIC\s12強(qiáng)化學(xué)習(xí)感知-行為-學(xué)習(xí)循環(huán)圖3強(qiáng)化學(xué)習(xí)算法簡(jiǎn)述根據(jù)是否需要擬合系統(tǒng)的動(dòng)力學(xué)模型,強(qiáng)化學(xué)習(xí)算法一般分為基于模型(model-based)和無(wú)模型(model-free)兩大類?;谀P偷乃惴ㄍǔ8鶕?jù)與環(huán)境交互獲得的“經(jīng)驗(yàn)”先擬合系統(tǒng)的動(dòng)力學(xué)模型,然后根據(jù)擬合后的動(dòng)力學(xué)模型求出最優(yōu)行為。這種算法通常有很高的樣本效率,所以其訓(xùn)練速度相比無(wú)模型強(qiáng)化學(xué)習(xí)算法會(huì)大大加快,但其實(shí)現(xiàn)難度較高,同時(shí)需要額外的人力監(jiān)督和模型預(yù)測(cè)估計(jì)的成本[15],且擬合后的動(dòng)力學(xué)模型的誤差會(huì)嚴(yán)重影響任務(wù)的訓(xùn)練速度,甚至造成算法不收斂的情況。其中有代表性的基于模型的強(qiáng)化學(xué)習(xí)算法有迭代二次型調(diào)節(jié)器(iterationLinearQuadraticRegulator,iLQR)算法[16],引導(dǎo)策略搜索法(GuidePolicySearch,GPS)[17],概率推斷學(xué)習(xí)控制(ProbabilisticInferenceforLearningControl,PILCO)算法[18]。其中iLQR算法是引導(dǎo)策略搜索法的理論基礎(chǔ)。無(wú)模型的強(qiáng)化學(xué)習(xí)算法因其不需要擬合系統(tǒng)的動(dòng)力學(xué)模型具有重要的現(xiàn)實(shí)意義,因?yàn)樵诂F(xiàn)實(shí)中大部分任務(wù)都不知道外界的環(huán)境。相較于基于模型的強(qiáng)化學(xué)習(xí)算法,無(wú)模型強(qiáng)化學(xué)習(xí)算法更易實(shí)現(xiàn),且具有更好的漸進(jìn)性能。但這些方法通常面對(duì)以下兩個(gè)挑戰(zhàn):樣本復(fù)雜度高和收斂速度慢。此外,無(wú)模型強(qiáng)化學(xué)習(xí)方法可以分為基于策略梯度的強(qiáng)化學(xué)習(xí)算法、基于Actor-Critic的強(qiáng)化學(xué)習(xí)算法以及基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法?;诓呗蕴荻鹊膹?qiáng)化學(xué)習(xí)算法主要是對(duì)一般強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)求策略的梯度,通過(guò)梯度上升的方法對(duì)策略網(wǎng)絡(luò)進(jìn)行更新。它的原理是通過(guò)更新能增大累積獎(jiǎng)勵(lì)越大的軌跡出現(xiàn)的概率,同時(shí)減小累積獎(jiǎng)勵(lì)越小的軌跡出現(xiàn)的概率。最初的策略梯度算法面臨著方差大、訓(xùn)練過(guò)程不穩(wěn)定和采樣效率不高的挑戰(zhàn)。因?yàn)樵撍惴ㄊ怯卯?dāng)前策略先采樣一段時(shí)間得到一系列的軌跡,然后用這些軌跡來(lái)更新策略,每次采樣得到的一系列軌跡都不一樣,所以計(jì)算出的梯度會(huì)有很大的不同,這就使得方差過(guò)大,從而影響訓(xùn)練過(guò)程,且此更新策略的方式也使其采樣效率不高。為了解決這個(gè)問(wèn)題,Schulman等人提出了信任域策略優(yōu)化算法(TrustRegionPolicyOptimization,TRPO)[19]和近端策略優(yōu)化算法(ProximalPolicyOptimization,PPO)[20,93]。PPO算法是根據(jù)TRPO算法改進(jìn)而來(lái)的,TRPO算法涉及二階泰勒展開,理論與實(shí)現(xiàn)過(guò)程十分復(fù)雜,而PPO在理論上使用了一階泰勒展開,避免了TRPO算法訓(xùn)練過(guò)程中的計(jì)算共軛梯度和線性搜索的過(guò)程,大大地減少了算法的計(jì)算量,加快了訓(xùn)練速度。由于基于策略梯度的強(qiáng)化學(xué)習(xí)算法是本文第四章的理論基礎(chǔ),將在第三章對(duì)其進(jìn)行詳細(xì)推導(dǎo)。在深度神經(jīng)網(wǎng)絡(luò)興起之前,傳統(tǒng)基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法主要是通過(guò)在網(wǎng)格中不斷的對(duì)值函數(shù)進(jìn)行估計(jì),利用上一步估計(jì)好的值函數(shù)更新策略,這個(gè)過(guò)程不斷地循環(huán)迭代直到策略變?yōu)樽顑?yōu)。但由于運(yùn)算能力的限制,上述過(guò)程只適用于狀態(tài)離散和動(dòng)作離散的強(qiáng)化學(xué)習(xí)任務(wù)。直到Mnih等人用深度神經(jīng)網(wǎng)絡(luò)對(duì)傳統(tǒng)Q-learning算法進(jìn)行改進(jìn)提出了深度Q網(wǎng)絡(luò)算法(DeepQNetwork,DQN)[21],給世人展現(xiàn)了其強(qiáng)大的能力,從而加速了基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法的發(fā)展,該方法:1)引入了深度神經(jīng)網(wǎng)絡(luò)擬合動(dòng)作狀態(tài)函數(shù)(Q函數(shù));2)引入了重放緩沖區(qū)這個(gè)概念,解決了樣本相關(guān)性的問(wèn)題;3)引入了目標(biāo)網(wǎng)絡(luò),便于使用梯度下降進(jìn)行更新。當(dāng)Q函數(shù)估計(jì)值不準(zhǔn)時(shí),最大化這個(gè)不準(zhǔn)的Q函數(shù)相當(dāng)于最大化真實(shí)的Q函數(shù)值和一個(gè)隨機(jī)噪聲值,此時(shí)會(huì)比只最大化真實(shí)Q函數(shù)值得到的數(shù)值大,該方法會(huì)造成Q函數(shù)過(guò)估計(jì)。為了解決這個(gè)問(wèn)題,2016年Hasselt等人提出了雙Q-learning算法[22],該算法的思路是用不同的網(wǎng)絡(luò)同時(shí)選擇動(dòng)作和估計(jì)值函數(shù),即它使用一個(gè)網(wǎng)絡(luò)選擇動(dòng)作,另一個(gè)網(wǎng)絡(luò)估計(jì)值函數(shù),這兩個(gè)網(wǎng)絡(luò)的估計(jì)值可能都不準(zhǔn)確,但它們的這些誤差并不相關(guān),此時(shí)這個(gè)過(guò)度估計(jì)的問(wèn)題就會(huì)被解決。此外,對(duì)DQN算法還有許多改進(jìn)方法,其中具有代表性的有DuelingDQN[23]和PrioritizedReplayDQN[24]。基于Actor-Critic的強(qiáng)化學(xué)習(xí)算法是在解決策略梯度算法方差大問(wèn)題的過(guò)程中發(fā)展的。與基于策略梯度的方法不同的是,它無(wú)需等待多條軌跡樣本的采樣結(jié)束,也無(wú)需計(jì)算整條軌跡的回報(bào)總和或“rewardtogo”,只需用自舉估計(jì)或蒙特卡洛估計(jì)法對(duì)值函數(shù)進(jìn)行估計(jì),進(jìn)而用估計(jì)好的值函數(shù)對(duì)策略進(jìn)行更新。運(yùn)用該算法對(duì)值函數(shù)進(jìn)行估計(jì),減小了訓(xùn)練過(guò)程中的方差,加快了訓(xùn)練過(guò)程,但同時(shí)它也引入了估計(jì)的偏差,所以權(quán)衡方差和偏差是基于Actor-Critic強(qiáng)化學(xué)習(xí)算法的首要任務(wù)。常用的基于Actor-Critic的強(qiáng)化學(xué)習(xí)算法有異步的優(yōu)勢(shì)Actor-Critic算法(AsynchronousAdvantageActor-Critic,A3C)[25],確定性策略梯度算法(DeepDeterministicPolicyGradient,DDPG)[26],雙延遲深度確定性策略梯度算法(TwinDelayedDeepDeterministicPolicyGradient,TD3)[27],和有經(jīng)驗(yàn)回放池的Actor-Critic算法(Actor-CriticwithExperienceReplay,ACER)[28]等。參考文獻(xiàn)RobinsonG,DaviesJBC.Continuumrobots-astateoftheart[C]//Proceedings1999IEEEInternationalConferenceonRoboticsandAutomation(Cat.No.99CH36288C).IEEE,2002.HannanMW,WalkerID.KinematicsandtheImplementationofanElephant'sTrunkManipulatorandOtherContinuumStyleRobots[J].Journalofroboticsystems,2003,20(2):p.45-63.SinghPK,KrishnaCM.ContinuumArmRoboticManipulator:AReview[J].UniversalJournalofMechanicalEngineering,2014,2(6):193-198.趙強(qiáng),岳永恒.仿生連續(xù)體機(jī)器人的研究現(xiàn)狀和展望[J].機(jī)械設(shè)計(jì),2009(08):1-6.胡海燕,王鵬飛,孫立寧,等.線驅(qū)動(dòng)連續(xù)型機(jī)器人的運(yùn)動(dòng)學(xué)分析與仿真[J].機(jī)械工程學(xué)報(bào),2010,046(019):1-8.GravagneIA,WalkerID.Uniformregulationofamulti-sectioncontinuummanipulator[C]//RoboticsandAutomation,2002.Proceedings.ICRA'02.IEEEInternationalConferenceon.IEEE,2002.FalkenhahnV,HildebrandtA,NeumannR,etal.Model-basedfeedforwardpositioncontrolofconstantcurvaturecontinuumrobotsusingfeedbacklinearization[J].Proceedings-IEEEInternationalConferenceonRoboticsandAutomation,2015,2015:762-767.IiiR,JonesBA.DesignandKinematicModelingofConstantCurvatureContinuumRobots:AReview[J].InternationalJournalofRoboticsResearch,2010,29(13):1661-1683.NeppalliS,JonesBA.Design,construction,andanalysisofacontinuumrobot[C]//2007IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.IEEE,2007.XuK,SimaanN.AnInvestigationoftheIntrinsicForceSensingCapabilitiesofContinuumRobots[J].IEEETransactionsonRobotics,2008,24(3):576-587.WebsterIRJ,RomanoJM,CowanNJ.MechanicsofPrecurved-TubeContinuumRobots[J].IEEETransactionsonRobotics,2009,25(1):67-78.KiumarsiB,VamvoudakisKG,ModaresH,etal.OptimalandAutonomousControlUsingReinforcementLearning:ASurvey[J].IEEETransactionsonNeuralNetworks&LearningSystems,2018,29(6):2042-2062.SuttonRS,BartoAG.ReinforcementLearning:AnIntroduction[J].IEEETransactionsonNeuralNetworks,1998,9(5):1054-1054.ArulkumaranK,DeisenrothMP,BrundageM,etal.ABriefSurveyofDeepReinforcementLearning[J].IEEESignalProcessingMagazine,2017,34(6).YangC,YangJ,WangXQ,etal.ControlofSpaceFlexibleManipulatorUsingSoftActor-CriticandRandomNetworkDistillation.IEEEInternationalConferenceonRoboticsandBiomimetics(ROBIO),2019.JacobsonDH,MayneDQ.DifferentialDynamicProgramming[J].TheMathematicalGazette,1972,56(395).LevineS,FinnC,DarrellT,etal.End-to-EndTrainingofDeepVisuomotorPolicies[J].JournalofMachineLearning

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論