【《強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述》3500字】_第1頁
【《強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述》3500字】_第2頁
【《強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述》3500字】_第3頁
【《強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述》3500字】_第4頁
【《強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述》3500字】_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE59強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述目錄TOC\o"1-3"\h\u23126強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)與研究現(xiàn)狀國內(nèi)外文獻(xiàn)綜述 1219051強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn) 1311052強(qiáng)化學(xué)習(xí)在機(jī)械臂上的研究現(xiàn)狀 249873稀疏獎勵問題研究現(xiàn)狀 48222參考文獻(xiàn) 51強(qiáng)化學(xué)習(xí)在機(jī)械臂上的應(yīng)用挑戰(zhàn)機(jī)器人技術(shù)是強(qiáng)化學(xué)習(xí)的一個非常具有挑戰(zhàn)性的應(yīng)用,它涉及到機(jī)器人的機(jī)械系統(tǒng)與外界環(huán)境之間的交互,這種交互過程可能會影響到機(jī)器人和人類本身(不理解影響人類本身)。尤其在工業(yè)機(jī)器人以及服務(wù)機(jī)器人行業(yè)中,機(jī)器人被期望和人類近距離操作,所以安全性與效率是強(qiáng)化學(xué)習(xí)在機(jī)器人技術(shù)上應(yīng)用的關(guān)鍵因素。此外,智能體通過與外界環(huán)境不斷地試錯交互,強(qiáng)化學(xué)習(xí)能提高機(jī)器人的環(huán)境適應(yīng)能力,這使得機(jī)器人能應(yīng)對外界的復(fù)雜環(huán)境[29]。機(jī)器人的狀態(tài)和動作都是內(nèi)在連續(xù)的,而且狀態(tài)和動作的維度都很高,所以這就造成了第一個問題-維度災(zāi)難[30],即隨著狀態(tài)和動作空間維度的增高,需要指數(shù)級的數(shù)據(jù)和計算量來覆蓋整個狀態(tài)和動作空間。此時,快速地評估每一個狀態(tài)變得不可行,即使?fàn)顟B(tài)是離散的。強(qiáng)化學(xué)習(xí)需要在整個狀態(tài)空間中收集數(shù)據(jù)以保證訓(xùn)練出來的策略是全局最優(yōu)的,這也是強(qiáng)化學(xué)習(xí)在機(jī)器人應(yīng)用的第一個挑戰(zhàn)。另外,在真實世界中,機(jī)器人與外界環(huán)境互動次數(shù)的增多帶來的時間、人力和財力等方面的消耗巨大,也帶來了機(jī)器人磨損和報廢等風(fēng)險。因此,限制機(jī)器人與真實世界的交互次數(shù)比降低計算成本更重要,所以機(jī)器人強(qiáng)化學(xué)習(xí)面臨著第二個挑戰(zhàn)-從小樣本中學(xué)習(xí)[31]。此外,機(jī)器人系統(tǒng)內(nèi)部存在不確定性,例如內(nèi)部摩擦力和內(nèi)部元件的噪聲等,造成仿真環(huán)境中建立的仿真模型往往存在一些模型的誤差,所以機(jī)器人的控制算法往往被要求在處理模型誤差方面具有魯棒性,這也是機(jī)器人強(qiáng)化學(xué)習(xí)面對的第三個挑戰(zhàn)-模型誤差。其中,第二個挑戰(zhàn)是目前在機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域中的熱點問題。解決第二個挑戰(zhàn)的主要方法為:1)使用基于模型的強(qiáng)化學(xué)習(xí)算法。此類算法通常有很高的樣本效率,其訓(xùn)練速度比無模型強(qiáng)化學(xué)習(xí)算法快很多;2)采用并行采樣[32]的方式。采用多個GPU并行訓(xùn)練我們的智能體,提高樣本效率;3)引入人工示教[33],提供指導(dǎo)[34]以及將任務(wù)的先驗知識給智能體[35];這三種方式都能提高算法的樣本效率,讓智能體少走點“彎路”。4)使用遷移學(xué)習(xí)[36-38]的方式。降低機(jī)械臂與現(xiàn)實世界交互成本的方法之一是在仿真中建立一個精確的動力學(xué)模型。由于在仿真模型中消耗不大,機(jī)械臂仿真模型可以在仿真環(huán)境中進(jìn)行充分的交互,從而得到充分的訓(xùn)練。在動力學(xué)仿真模型準(zhǔn)確的情況下,在仿真環(huán)境下訓(xùn)練出來的最優(yōu)控制策略能成功遷移到實物機(jī)械臂上。然而,在仿真環(huán)境下建立一個完全精確的動力學(xué)模型是不太可能的,無論對真實機(jī)械臂有多么了解,建立仿真模型時考慮的多么全面,模型誤差是不能避免的,通常我們只能在建立仿真模型時盡可能縮小模型誤差,縱使模型誤差很小,但由于模型誤差帶來的訓(xùn)練策略的誤差,可能會造成在真實機(jī)械臂上性能差距巨大。因此,學(xué)者們通常在仿真環(huán)境中先預(yù)訓(xùn)練出一個控制策略后,再放到實物環(huán)境中訓(xùn)練,這樣做可有效降低機(jī)械臂與真實世界的交互次數(shù)。2強(qiáng)化學(xué)習(xí)在機(jī)械臂上的研究現(xiàn)狀深度神經(jīng)網(wǎng)絡(luò)興起之前,人們對于強(qiáng)化學(xué)習(xí)的刻板印象是只能解決簡單和低緯度問題。直到2016年AlphaGo[39]的橫空出世,由于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力,深度強(qiáng)化學(xué)習(xí)開始被用于各個領(lǐng)域解決復(fù)雜問題,如自然語言處理[43-45]、游戲[40-42]、計算機(jī)視覺[46,47]、計算機(jī)系統(tǒng)[48,49]和機(jī)器人等領(lǐng)域。在游戲領(lǐng)域中,值得一提的是星際爭霸2。它提供了一個有挑戰(zhàn)性的多智能體環(huán)境,玩家可以通過在這個多智能體環(huán)境中交互來測試和探索強(qiáng)化學(xué)習(xí)算法的特點。作為強(qiáng)化學(xué)習(xí)經(jīng)典應(yīng)用領(lǐng)域的機(jī)器人技術(shù),機(jī)器人強(qiáng)化學(xué)習(xí)已經(jīng)有了大量研究成果。2016年Rahmatizadeh等人[50]用帶有長短期記憶網(wǎng)絡(luò)的循環(huán)神經(jīng)網(wǎng)絡(luò)幫助控制器從虛擬示教中學(xué)習(xí),并成功在實物機(jī)器人上執(zhí)行操作任務(wù)。2016年Fu等人[51]開發(fā)了一個基于模型的強(qiáng)化學(xué)習(xí)算法,該算法將之前任務(wù)的先驗知識和動態(tài)模型的在線適應(yīng)結(jié)合,可以在一次嘗試中解決各種復(fù)雜的機(jī)器人任務(wù)。2018年Kalashnikov等人[52]使用了可擴(kuò)展的強(qiáng)化學(xué)習(xí)方法來學(xué)習(xí)基于視覺的動態(tài)操控技能,他們引入了一個可擴(kuò)展的基于視覺的自監(jiān)督強(qiáng)化學(xué)習(xí)優(yōu)化Q函數(shù)目標(biāo)的方法(Q-functionTargetsviaOptimization,OT-Opt),并將其應(yīng)用在實物機(jī)械臂上成功完成各項抓取任務(wù),如圖1.3所示。圖STYLEREF1\s1.SEQ圖\*ARABIC\s13OT-Opt策略完成各項抓取任務(wù)2018年Haarnoja等人[53]研究了用最大熵強(qiáng)化學(xué)習(xí)算法(SoftQ-learning,SQL)[54]訓(xùn)練的最大熵策略應(yīng)用到實物機(jī)械臂上。他們提出將SQL算法學(xué)到的多個最大熵策略合成新策略,這也提高了下次訓(xùn)練的速率,并成功將該方法應(yīng)用到實物機(jī)械臂上,如圖1.4所示。圖STYLEREF1\s1.SEQ圖\*ARABIC\s14SQL用于實物機(jī)械臂堆樂高近來,2019年Zhang等人[55]提出了一種基于模型的強(qiáng)化學(xué)習(xí)方法-潛在表示的隨機(jī)最優(yōu)控制(StochasticOptimalControlwithLatentRepresentations,SOLAR)用于學(xué)習(xí)表示。該方法適用于基于迭代模型的策略改進(jìn),使得基于線性二次調(diào)節(jié)器(LinearQuadraticRegulator,LQR)的強(qiáng)化學(xué)習(xí)方法能用于觀測圖像的系統(tǒng),并應(yīng)用在真實的機(jī)械臂上,成功讓機(jī)械臂完成堆疊塊和推杯子任務(wù),如圖1.5所示。圖STYLEREF1\s1.SEQ圖\*ARABIC\s15機(jī)械臂堆疊快(上面)和推杯子(下面)2019年Lambert等人[56]用基于模型的強(qiáng)化學(xué)習(xí)算法(Model-basedReinforcementLearning,MBRL)解決快速生成低級控制器這一挑戰(zhàn),并將其用于四旋翼飛行器上進(jìn)行控制,如圖1.6所示。圖STYLEREF1\s1.SEQ圖\*ARABIC\s16MBRL算法用于控制四旋翼飛行器2019年谷歌大腦的學(xué)者Nagabandi等人[57]提出了帶有深度動力學(xué)模型的在線規(guī)劃方法(OnlinePlanningwithDeepDynamicsModels,PDDM)。該方法通過對學(xué)習(xí)到的動力學(xué)模型的改進(jìn)和對在線模型預(yù)測控制的改進(jìn),讓靈巧機(jī)械手有效地學(xué)到靈活的操作技巧,并成功在手掌中轉(zhuǎn)動兩個球,如圖1.7所示。圖STYLEREF1\s1.SEQ圖\*ARABIC\s17靈巧機(jī)械手旋轉(zhuǎn)球體機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域已經(jīng)有許多有價值的成果,特別是在連續(xù)型機(jī)械臂上的應(yīng)用有了巨大的突破。但由于連續(xù)型機(jī)械臂的內(nèi)部段間強(qiáng)耦合和非線性等特征,強(qiáng)化學(xué)習(xí)在其上的應(yīng)用仍然有很多問題亟待解決和進(jìn)一步深入研究。對于連續(xù)型機(jī)械臂,學(xué)者們嘗試從其他的研究點尋找突破,這其中就包含了強(qiáng)化學(xué)習(xí)的經(jīng)典問題-稀疏獎勵問題。3稀疏獎勵問題研究現(xiàn)狀在強(qiáng)化學(xué)習(xí)中,智能體通過與外界的交互,來更新自己對于外部環(huán)境的認(rèn)識,直到學(xué)到最優(yōu)策略,每一步外界環(huán)境都會反饋給智能體一個立即獎勵,該獎勵反映了上一次智能體行為的好壞程度。但在現(xiàn)實世界中,很多情況下獎勵都是稀疏的或者是不存在的。我們?nèi)祟愔悄荏w已經(jīng)習(xí)慣于在獎勵稀疏的情況下學(xué)習(xí),例如三歲小孩在操場上可以憑借自己的好奇心來完成某個任務(wù);游戲中的獎勵設(shè)定通常是稀疏的。為了讓強(qiáng)化學(xué)習(xí)的智能體更加智能,稀疏獎勵問題成為強(qiáng)化學(xué)習(xí)中的研究熱點。雖然稀疏獎勵問題在很早就被提出是強(qiáng)化學(xué)習(xí)中的研究熱點,但國內(nèi)外在這方面的突破寥寥無幾。Kulkarni等人[58]在稀疏獎勵問題中提出了一個分層DQN的框架,通過設(shè)置和完成多個子目標(biāo)來完成任務(wù)。Andrychowic等人[59]提出了一種稱為事后經(jīng)驗回放(HindsightExperienceReplay,HER)的新技術(shù),這個技術(shù)可以讓強(qiáng)化學(xué)習(xí)算法從稀疏或二元獎勵的情況下高效采樣學(xué)習(xí),因此可以避免復(fù)雜的獎勵工程,同時這個技術(shù)可以與任意的off-policy強(qiáng)化學(xué)習(xí)算法結(jié)合。Pathak等人[60]提出了好奇心驅(qū)動的方式引進(jìn)了內(nèi)部獎勵從而提高智能體的探索能力,但這個方法有它的缺點,即在某些環(huán)境中智能體的好奇心會阻礙探索。Burda等人[61]對好奇心驅(qū)動機(jī)制做了簡化提出了隨機(jī)網(wǎng)絡(luò)蒸餾(RandomNetworkDistillation,RND)方法,其將內(nèi)部獎勵和外部獎勵結(jié)合增大了強(qiáng)化學(xué)習(xí)算法的探索能力。為了改進(jìn)好奇心驅(qū)動的方式,谷歌大腦、Deepmind和蘇黎世聯(lián)邦理工學(xué)院Savinov等人[62]在“情景記憶”這個概念的基礎(chǔ)上介紹了一種模型,這個模型與好奇心機(jī)制類似,也引入了內(nèi)部獎勵從而增大智能體探索環(huán)境的能力。整體來說,對于稀疏獎勵問題的研究方法可以分為兩類:分層強(qiáng)化學(xué)習(xí)和引入內(nèi)部獎勵的方法。參考文獻(xiàn)RobinsonG,DaviesJBC.Continuumrobots-astateoftheart[C]//Proceedings1999IEEEInternationalConferenceonRoboticsandAutomation(Cat.No.99CH36288C).IEEE,2002.HannanMW,WalkerID.KinematicsandtheImplementationofanElephant'sTrunkManipulatorandOtherContinuumStyleRobots[J].Journalofroboticsystems,2003,20(2):p.45-63.SinghPK,KrishnaCM.ContinuumArmRoboticManipulator:AReview[J].UniversalJournalofMechanicalEngineering,2014,2(6):193-198.趙強(qiáng),岳永恒.仿生連續(xù)體機(jī)器人的研究現(xiàn)狀和展望[J].機(jī)械設(shè)計,2009(08):1-6.胡海燕,王鵬飛,孫立寧,等.線驅(qū)動連續(xù)型機(jī)器人的運(yùn)動學(xué)分析與仿真[J].機(jī)械工程學(xué)報,2010,046(019):1-8.GravagneIA,WalkerID.Uniformregulationofamulti-sectioncontinuummanipulator[C]//RoboticsandAutomation,2002.Proceedings.ICRA'02.IEEEInternationalConferenceon.IEEE,2002.FalkenhahnV,HildebrandtA,NeumannR,etal.Model-basedfeedforwardpositioncontrolofconstantcurvaturecontinuumrobotsusingfeedbacklinearization[J].Proceedings-IEEEInternationalConferenceonRoboticsandAutomation,2015,2015:762-767.IiiR,JonesBA.DesignandKinematicModelingofConstantCurvatureContinuumRobots:AReview[J].InternationalJournalofRoboticsResearch,2010,29(13):1661-1683.NeppalliS,JonesBA.Design,construction,andanalysisofacontinuumrobot[C]//2007IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.IEEE,2007.XuK,SimaanN.AnInvestigationoftheIntrinsicForceSensingCapabilitiesofContinuumRobots[J].IEEETransactionsonRobotics,2008,24(3):576-587.WebsterIRJ,RomanoJM,CowanNJ.MechanicsofPrecurved-TubeContinuumRobots[J].IEEETransactionsonRobotics,2009,25(1):67-78.KiumarsiB,VamvoudakisKG,ModaresH,etal.OptimalandAutonomousControlUsingReinforcementLearning:ASurvey[J].IEEETransactionsonNeuralNetworks&LearningSystems,2018,29(6):2042-2062.SuttonRS,BartoAG.ReinforcementLearning:AnIntroduction[J].IEEETransactionsonNeuralNetworks,1998,9(5):1054-1054.ArulkumaranK,DeisenrothMP,BrundageM,etal.ABriefSurveyofDeepReinforcementLearning[J].IEEESignalProcessingMagazine,2017,34(6).YangC,YangJ,WangXQ,etal.ControlofSpaceFlexibleManipulatorUsingSoftActor-CriticandRandomNetworkDistillation.IEEEInternationalConferenceonRoboticsandBiomimetics(ROBIO),2019.JacobsonDH,MayneDQ.DifferentialDynamicProgramming[J].TheMathematicalGazette,1972,56(395).LevineS,FinnC,DarrellT,etal.End-to-EndTrainingofDeepVisuomotorPolicies[J].JournalofMachineLearningResearch,2015,17(1):1334-1373.DeisenrothMP,RasmussenCE.PILCO:AModel-BasedandData-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論