版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
四旋翼飛行器基于強(qiáng)化學(xué)習(xí)的姿態(tài)控制器參數(shù)整定案例分析目錄TOC\o"1-3"\h\u9804四旋翼飛行器基于強(qiáng)化學(xué)習(xí)的姿態(tài)控制器參數(shù)整定案例分析 1201931.1引言 1279421.2強(qiáng)化學(xué)習(xí)理論介紹 1297611.2.1強(qiáng)化學(xué)習(xí)思想 1315821.1.2強(qiáng)化學(xué)習(xí)算法分類 226021.1.3強(qiáng)化學(xué)習(xí)與傳統(tǒng)控制方案結(jié)合 3176821.3基于DDPG算法的參數(shù)智能整定 490601.3.1Q-Learning和DQN算法 4195831.3.2DDPG算法原理 5290361.3.3采用DDPG算法整定參數(shù) 773201.3.3參數(shù)整定結(jié)果 1074661.4基于優(yōu)化反步參數(shù)的仿真結(jié)果分析 13259531.1.1定點(diǎn)懸停實(shí)驗(yàn) 13323571.1.2跟蹤常值速度信號 14123041.1.3軌跡跟蹤 151.1引言本章主要介紹強(qiáng)化學(xué)習(xí)的核心思想、基本要素、算法分類以及強(qiáng)化學(xué)習(xí)的局限性,闡述了強(qiáng)化學(xué)習(xí)與傳統(tǒng)控制方法結(jié)合的優(yōu)勢,并基于深度確定性策略梯度(DDPG)方法實(shí)現(xiàn)姿態(tài)控制器的參數(shù)整定,將參數(shù)整定這一過程形式化為無模型的馬爾可夫決策過程,首先對任務(wù)性質(zhì)、智能體、環(huán)境、獎(jiǎng)勵(lì)和策略等方面進(jìn)行需求分析,并按照需求的特性選取DDPG算法作為訓(xùn)練方案,之后在仿真環(huán)境中創(chuàng)建強(qiáng)化學(xué)習(xí)的智能體與環(huán)境,搭建神經(jīng)網(wǎng)絡(luò),選取合適的超參數(shù)和回報(bào)函數(shù),在軟件環(huán)境中訓(xùn)練得到一組靜態(tài)的優(yōu)化參數(shù),并將其應(yīng)用至反步控制器進(jìn)行仿真,對二者的實(shí)驗(yàn)結(jié)果進(jìn)行比較和分析。1.2強(qiáng)化學(xué)習(xí)理論介紹1.2.1強(qiáng)化學(xué)習(xí)思想回顧人類的學(xué)習(xí)模式可以發(fā)現(xiàn),人類是通過與環(huán)境交互來學(xué)習(xí)的。與環(huán)境的交互的過程中也是信息產(chǎn)生和流動(dòng)的過程,生物體能敏銳地察覺這些信息,通過它們來衡量環(huán)境對其動(dòng)作的響應(yīng),并對環(huán)境施加動(dòng)作來試圖影響結(jié)果。與其它機(jī)器學(xué)習(xí)算法不同,強(qiáng)化學(xué)習(xí)更強(qiáng)調(diào)交互,智能體通過不斷的試錯(cuò)(Trial-and-Error),通過與環(huán)境的交互結(jié)果判斷動(dòng)作的價(jià)值,常用來做序列決策或者控制問題。簡言之,強(qiáng)化學(xué)習(xí)就是在學(xué)習(xí)“做什么才能使得收益最大化”。典型的強(qiáng)化學(xué)習(xí)問題通常有以下幾個(gè)特點(diǎn):(1)獎(jiǎng)勵(lì)隨動(dòng)作不同而不同;(2)獎(jiǎng)勵(lì)在時(shí)間上具有延遲性;(3)回報(bào)不僅決定于動(dòng)作,也決定于所處的環(huán)境。強(qiáng)化學(xué)習(xí)任務(wù)中的常見挑戰(zhàn)是試探(exploration)和開發(fā)(exploitation)的權(quán)衡問題。為了獲得大量的收益,智能體一定會(huì)更偏好那些當(dāng)前收益很高的動(dòng)作,但為了發(fā)現(xiàn)高收益的動(dòng)作,往往需要去探索尚未選擇過的動(dòng)作,智能體探索的次數(shù)是有限的,因此我們必須在探索和開發(fā)之間進(jìn)行平衡和折中。1.1.2強(qiáng)化學(xué)習(xí)算法分類強(qiáng)化學(xué)習(xí)算法可以有多種依據(jù):可以根據(jù)對環(huán)境模型的依賴程度(即狀態(tài)轉(zhuǎn)移概率是否已知)分為有模型的強(qiáng)化學(xué)習(xí)(Model-basedRL)和無模型的強(qiáng)化學(xué)習(xí)(Model-freeRL),前者可以依賴對環(huán)境的先驗(yàn)知識進(jìn)行規(guī)劃,即在真正經(jīng)歷前,先考慮未來發(fā)生的各種情境從而預(yù)先采取動(dòng)作;后者則主要通過直接的試錯(cuò)進(jìn)行策略學(xué)習(xí)和模型學(xué)習(xí)??梢愿鶕?jù)算法的迭代目標(biāo)進(jìn)行分類,基于價(jià)值函數(shù)(Value-based)的強(qiáng)化學(xué)習(xí)算法只用于價(jià)值函數(shù)迭代,基于策略(Policy-based)的強(qiáng)化學(xué)習(xí)算法只用于策略迭代,而行動(dòng)器-評判器(Actor-Critic)算法同時(shí)迭代價(jià)值函數(shù)和策略。還可以根據(jù)目標(biāo)策略和行為策略的統(tǒng)一性分為同軌策略(on-policy)算法和離軌策略(off-policy)算法,前者用于生成采樣數(shù)據(jù)的策略(行動(dòng)策略)和用于訓(xùn)練的待評估和改進(jìn)的策略(目標(biāo)策略)是相同的,而在后者的算法中二者是不同的,這是為了在訓(xùn)練過程中采取更具有試探性的策略以尋找高回報(bào)的動(dòng)作,而最終的目標(biāo)策略則更傾向于開發(fā)這些高收益的動(dòng)作。此外,強(qiáng)化學(xué)習(xí)算法還可以依據(jù)策略的確定性或回報(bào)函數(shù)的已知性等多種指標(biāo)進(jìn)行分類,圖4-1是前兩種分類方式的直觀呈現(xiàn),可見不同的分類方法是存在交叉的。圖4-1強(qiáng)化學(xué)習(xí)不同的分類方式1.1.3強(qiáng)化學(xué)習(xí)與傳統(tǒng)控制方案結(jié)合在第1章已經(jīng)闡述過強(qiáng)化學(xué)習(xí)的復(fù)雜度問題,近年來泛化方法的應(yīng)用和與深度學(xué)習(xí)的結(jié)合使得強(qiáng)化學(xué)習(xí)也可以勝任連續(xù)動(dòng)作空間的決策任務(wù)。但強(qiáng)化學(xué)習(xí)仍然存在著一些棘手的問題,這些問題使得僅采用強(qiáng)化學(xué)習(xí)解決控制問題時(shí)更容易陷入困境。首先,復(fù)雜策略的可解釋性不足。從數(shù)學(xué)意義上講,智能體學(xué)習(xí)的策略是從狀態(tài)到每個(gè)動(dòng)作選擇概率之間的映射,在現(xiàn)代強(qiáng)化學(xué)習(xí)任務(wù)中,策略通常由一個(gè)神經(jīng)網(wǎng)絡(luò)表示,它可能有數(shù)百個(gè)權(quán)重、偏差和非線性激活函數(shù)。這些值和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行復(fù)雜的組合并將觀測值映射為動(dòng)作,對于設(shè)計(jì)者來說,所有困難的計(jì)算借助神經(jīng)網(wǎng)絡(luò)壓縮到一個(gè)邏輯黑箱內(nèi),其中每一個(gè)權(quán)重或偏差的影響因素都很難確定,當(dāng)被控對象或環(huán)境發(fā)生變化時(shí),想要在原有策略上進(jìn)行改進(jìn)或修正幾乎是不可能的。而對于一個(gè)基于傳統(tǒng)方案的控制系統(tǒng),其中通常存在一個(gè)帶有回路和級聯(lián)控制器的層次結(jié)構(gòu),每個(gè)環(huán)節(jié)分別用于控制具體的系統(tǒng)動(dòng)態(tài)特性,這使得改進(jìn)傳統(tǒng)控制器時(shí)更容易將問題定位到特定位置并進(jìn)行具體分析,也可以控制變量對某一環(huán)節(jié)進(jìn)行獨(dú)立測試,以確保它能在指定條件下運(yùn)行。如果強(qiáng)化學(xué)習(xí)的策略出現(xiàn)問題,卻不能修復(fù)出現(xiàn)問題的部分,那么設(shè)計(jì)者必須重新設(shè)計(jì)智能體或環(huán)境模型,然后再次對其進(jìn)行訓(xùn)練,這樣循環(huán)往復(fù)的訓(xùn)練周期會(huì)耗費(fèi)更多的時(shí)間。其次,雖然強(qiáng)化學(xué)習(xí)可以不依賴環(huán)境模型,但卻有著較高的試錯(cuò)成本,因此學(xué)習(xí)過程往往會(huì)在仿真平臺(tái)進(jìn)行,最后將策略應(yīng)用至物理平臺(tái)。但仿真平臺(tái)上與智能體交互的環(huán)境同樣來源于對現(xiàn)實(shí)環(huán)境模型的理想化,當(dāng)模型精度不高時(shí),仿真平臺(tái)上的策略未必是硬件平臺(tái)上的最優(yōu)策略。而據(jù)上文所述,復(fù)雜的策略一旦出現(xiàn)問題,設(shè)計(jì)者幾乎不可能對其進(jìn)行改進(jìn)。這強(qiáng)化學(xué)習(xí)策略在應(yīng)用至硬件平臺(tái)時(shí)會(huì)存在安全性問題。最后,強(qiáng)化學(xué)習(xí)得到的策略缺乏泛化性。對于學(xué)習(xí)策略,很難根據(jù)系統(tǒng)在某一狀態(tài)下的行為去預(yù)測另一狀態(tài)下的行為,也就很難根據(jù)某一次試驗(yàn)的結(jié)果推斷其它試驗(yàn)的結(jié)果,而傳統(tǒng)控制方案可以通過一些數(shù)學(xué)形式進(jìn)行性能的驗(yàn)證,如線性系統(tǒng)中的性能指標(biāo)、穩(wěn)定裕度和頻率特性等均可通過理論計(jì)算得到,而面對基于復(fù)雜神經(jīng)網(wǎng)絡(luò)的策略,其性能更難在一系列數(shù)學(xué)規(guī)范中進(jìn)行驗(yàn)證。將強(qiáng)化學(xué)習(xí)與傳統(tǒng)控制方案結(jié)合,可以顯著改善上文所闡述的問題,具體的做法是:按照傳統(tǒng)控制器的結(jié)構(gòu)設(shè)計(jì)系統(tǒng),并將強(qiáng)化學(xué)習(xí)作為傳統(tǒng)控制器的優(yōu)化工具。這樣既可以充分利用傳統(tǒng)控制器結(jié)果的魯棒性、安全性、可變性和可驗(yàn)證性,又可以借助強(qiáng)化學(xué)習(xí)尋找控制器參數(shù)的最優(yōu)組合,而一旦得到一組最優(yōu)增益,強(qiáng)化學(xué)習(xí)的任務(wù)就已經(jīng)結(jié)束,可以直接將控制器參數(shù)應(yīng)用至硬件平臺(tái),不需要對強(qiáng)化學(xué)習(xí)的結(jié)果進(jìn)行修改和驗(yàn)證,這無疑是一個(gè)兩全其美的方案。下面將應(yīng)用深度確定性策略梯度算法(DDPG)對四旋翼無人機(jī)反步控制器參數(shù)進(jìn)行優(yōu)化。1.3基于DDPG算法的參數(shù)智能整定1.3.1Q-Learning和DQN算法Watkins于1989年提出了離軌狀態(tài)下的時(shí)序差分算法——Q-LearningREF_Ref2011\r\h[37],這是強(qiáng)化學(xué)習(xí)早期的一個(gè)重要突破,Q-Learning算法是強(qiáng)化學(xué)習(xí)思想的一種很好的表現(xiàn)和詮釋,并且在一些離散的、狀態(tài)較少的任務(wù)中,Q-Learning有很好的表現(xiàn)。它采用“狀態(tài)-動(dòng)作”二元組處理獎(jiǎng)勵(lì)問題,然后利用一張二維表格——Q值表來記錄每一對“狀態(tài)-動(dòng)作”二元組對應(yīng)的動(dòng)作價(jià)值函數(shù)估計(jì)Q。其更新公式定義為:(4-1)待學(xué)習(xí)的動(dòng)作價(jià)值函數(shù)Q采取對最優(yōu)動(dòng)作價(jià)值函數(shù)的直接近似作為學(xué)習(xí)和更新目標(biāo),而與生成智能體決策序列軌跡的行動(dòng)策略是什么無關(guān)。只要行動(dòng)策略保證所有“狀態(tài)-動(dòng)作”二元組都能持續(xù)更新,那么Q能以1的概率收斂至最優(yōu)動(dòng)作價(jià)值函數(shù)。由于這張表格的狀態(tài)和動(dòng)作都是有限的,所以無論是連續(xù)域任務(wù),還是狀態(tài)空間和動(dòng)作空間較大的任務(wù),傳統(tǒng)的Q-Learning都難以勝任。Mnih等人提出的DQN(DeepQNetwork)REF_Ref913\r\h[23]是深度強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性工作,DQN采用經(jīng)驗(yàn)回放機(jī)制,增加了數(shù)據(jù)的使用效率,并采用深度卷積網(wǎng)絡(luò)(Q網(wǎng)絡(luò))逼近動(dòng)作價(jià)值函數(shù),Q網(wǎng)絡(luò)的作用與Q-Learning中的Q表作用相同。借助深度卷積網(wǎng)絡(luò),DQN支持連續(xù)的狀態(tài)表示,而由于DQN的動(dòng)作價(jià)值函數(shù)更新公式仍為式(4-1),DQN仍不能直接應(yīng)用到連續(xù)的動(dòng)作域,因?yàn)閙ax函數(shù)不適用于動(dòng)作取連續(xù)值的情況。2015年,LillicrapREF_Ref23688\r\h[12]等人將DQN的思想應(yīng)用于連續(xù)動(dòng)作域中,提出了基于DPG與Actor-Critic的DDPG算法,DDPG采用Actor網(wǎng)絡(luò)作為策略網(wǎng)絡(luò),通過梯度上升尋找最大的動(dòng)作價(jià)值函數(shù)。1.3.2DDPG算法原理DDPG的偽代碼如圖4-2,該算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與Actor-Critic算法相同,Actor網(wǎng)絡(luò)是一個(gè)從狀態(tài)st到動(dòng)作μ的映射,其任務(wù)是通過梯度上升的方法尋找最大的動(dòng)作價(jià)值Q并輸出其對應(yīng)的動(dòng)作;而Critic網(wǎng)絡(luò)接受狀態(tài)輸入st和動(dòng)作輸入μ,輸出為對應(yīng)的動(dòng)作價(jià)值Q,其任務(wù)是預(yù)估某一狀態(tài)下某動(dòng)作的動(dòng)作價(jià)值Q,通過梯度下降法最小化損失函數(shù)L,并更新其參數(shù)θQ。圖4-2DDPG算法偽代碼Critic網(wǎng)絡(luò)可以通過多次迭代逐步收斂到目標(biāo)值y,但如果目標(biāo)值y和Critic網(wǎng)絡(luò)進(jìn)行同步更新,則Q網(wǎng)絡(luò)尚未收斂到目標(biāo)值y時(shí),y已經(jīng)進(jìn)行了下一次更新,這樣收斂的難度就會(huì)增大。所以DDPG保留了DQN的目標(biāo)網(wǎng)絡(luò)方法,具體機(jī)制如下:建立Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的副本作為目標(biāo)網(wǎng)絡(luò),采用移動(dòng)平均的方法對目標(biāo)網(wǎng)絡(luò)的權(quán)重θ進(jìn)行緩慢更新,每次更新都由舊的平均值與新的平均值進(jìn)行加權(quán),以避免目標(biāo)值變化過于迅速。(4-2)移動(dòng)平均有如下特點(diǎn):移動(dòng)平均的結(jié)果和真實(shí)平均值有一定差距,但在新元素和舊平均值相差不大的情況下,最終是趨于均值的;移動(dòng)平均法不需要保存所有的元素,也不需要保存元素個(gè)數(shù),只需要保存一個(gè)舊均值就可以了,方便進(jìn)行增量式更新,減少對內(nèi)存和算力的要求;即使有個(gè)別元素比較大,對均值的影響還是比較溫和的,不會(huì)造成巨大的跳變。DDPG還保留了DQN的經(jīng)驗(yàn)回放機(jī)制,即在每個(gè)時(shí)間節(jié)點(diǎn)保留智能體獲得的經(jīng)驗(yàn)(st,at,rt,st+1),當(dāng)對智能體進(jìn)行訓(xùn)練時(shí),隨機(jī)從經(jīng)驗(yàn)池里提取樣本并對網(wǎng)絡(luò)參數(shù)進(jìn)行更新,重復(fù)采樣歷史數(shù)據(jù)提高了數(shù)據(jù)的利用效率,有助于提高運(yùn)行速度,并且該算法可從一組互不相關(guān)的狀態(tài)轉(zhuǎn)移樣本中進(jìn)行學(xué)習(xí)。最后,DDPG作為離軌策略算法,通過在行動(dòng)策略中額外增加噪聲項(xiàng)來使策略更具探索性,使其在連續(xù)動(dòng)作空間的學(xué)習(xí)過程效率更高。綜上所述,DDPG是吸收了DPG和AC算法的結(jié)構(gòu)形式,并承接了Q-Learning和DQN算法的核心思想而誕生的,相比Q-Learning和DQN算法,DDPG算法更適合連續(xù)域,計(jì)算量更低,本文擬采用DDPG算法對姿態(tài)控制器的6個(gè)反步法參數(shù)進(jìn)行整定。1.3.3采用DDPG算法整定參數(shù)1.3.3.1需求分析與任務(wù)框架在利用DDPG算法整定參數(shù)前,首先對任務(wù)需求進(jìn)行分析。對于四旋翼飛行器仿真系統(tǒng),參數(shù)的改變對于系統(tǒng)動(dòng)態(tài)性能的影響具有馬爾可夫性,因此參數(shù)的整定過程是一個(gè)馬爾可夫決策過程,可以用強(qiáng)化學(xué)習(xí)的思路解決。本任務(wù)中,智能體對反步參數(shù)的一次整定被定義為一個(gè)動(dòng)作,智能體的動(dòng)作處于連續(xù)空間內(nèi);我們感興趣的一組系統(tǒng)動(dòng)態(tài)指標(biāo)被定義為環(huán)境的一個(gè)狀態(tài),其同樣處于連續(xù)空間內(nèi);從反步控制的角度看,任務(wù)的最終目標(biāo)是獲得一組靜態(tài)的姿態(tài)反步控制器參數(shù),實(shí)現(xiàn)良好的動(dòng)態(tài)特性;從強(qiáng)化學(xué)習(xí)的角度看,任務(wù)的最終目標(biāo)是使智能體學(xué)習(xí)到能使回報(bào)總和達(dá)到最大的一個(gè)策略,而回報(bào)函數(shù)將基于系統(tǒng)的動(dòng)態(tài)指標(biāo)設(shè)計(jì)。模型每一次仿真開始都會(huì)將反步參數(shù)隨機(jī)初始化,每一次仿真結(jié)束之后的回報(bào)都為0,因此這個(gè)任務(wù)可視為分幕式任務(wù),每一次仿真都是一幕。下面是基于DDPG算法的姿態(tài)控制器參數(shù)整定框架。圖4-3基于DDPG的參數(shù)整定器示意圖1.3.3.2神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)本任務(wù)中,動(dòng)作價(jià)值的估計(jì)和動(dòng)作的選取都以神經(jīng)網(wǎng)絡(luò)為核心,因此首先對神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行設(shè)計(jì)。Actor網(wǎng)絡(luò)為策略網(wǎng)絡(luò),其輸入為一個(gè)狀態(tài)st,網(wǎng)絡(luò)選取在此狀態(tài)下價(jià)值估計(jì)最高的動(dòng)作μ(st|θμ);Critic網(wǎng)絡(luò)為評價(jià)網(wǎng)絡(luò),其輸入是一對“狀態(tài)-動(dòng)作”二元組(s,a),網(wǎng)絡(luò)返回這個(gè)動(dòng)作的價(jià)值估計(jì)Q(s,a|θQ)。二者網(wǎng)絡(luò)結(jié)構(gòu)如圖4-4所示。其中,應(yīng)用修正線性單元(RectifiedLinearUnit,ReLU)激活函數(shù)和tanh函數(shù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性化。ReLU函數(shù)和tanh函數(shù)的數(shù)學(xué)表達(dá)式如下:(4-3)(4-4)ReLU函數(shù)對所有的負(fù)值進(jìn)行單側(cè)抑制,解決了梯度消失問題,使模型能夠更好地挖掘數(shù)據(jù)的特征,進(jìn)而提高擬合訓(xùn)練數(shù)據(jù)效率,維持模型的收斂速度。tanh函數(shù)可以平滑輸出并擴(kuò)大特征效果,但該函數(shù)梯度較小,權(quán)重更新緩慢,故本文將tanh作為Actor網(wǎng)絡(luò)最后一層神經(jīng)元的激活函數(shù)。圖4-4神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖1.3.3.3回報(bào)函數(shù)的設(shè)計(jì)智能體對姿態(tài)控制器參數(shù)進(jìn)行整定,則觀測值選取為三軸姿態(tài)角γ,φ,θ及三軸姿態(tài)角速度γ’,φ’,θ’?;貓?bào)函數(shù)按照圖4-5所示的邏輯計(jì)算:圖4-5回報(bào)函數(shù)設(shè)計(jì)結(jié)果強(qiáng)化學(xué)習(xí)缺乏傳統(tǒng)控制方案的泛化性,其輸出依賴于與智能體交互的環(huán)境,但由于本文整定的是一組控制器參數(shù),因此輸入信號采用定點(diǎn)懸停任務(wù)中的信號輸入即可,得到的參數(shù)結(jié)果仍然具備對不同輸入的泛化性。定點(diǎn)懸停任務(wù)中,角度γ,θ和三軸角速度γ’,φ’,θ’的收斂值為0,即它們的絕對值與誤差公式等價(jià)。偏航角φ由于設(shè)定了初始值,因此誤差的計(jì)算需要引入期望值φd。本任務(wù)回報(bào)函數(shù)的設(shè)計(jì)結(jié)果較為直觀:首先,我們希望姿態(tài)角保持穩(wěn)定,盡快收斂且穩(wěn)態(tài)誤差較小,因此當(dāng)角度誤差小于設(shè)定的閾值時(shí),表明智能體對姿態(tài)的控制結(jié)果良好,應(yīng)當(dāng)獲得一定的獎(jiǎng)勵(lì);一旦誤差過大,則表明控制結(jié)果較差,甚至?xí)鸩环€(wěn)定,此時(shí)要給出一個(gè)較高的懲罰;在調(diào)節(jié)過程中,滾轉(zhuǎn)通道波動(dòng)較大,是控制效果的短板,因此對于γ和γ’引入較高的懲罰權(quán)重,使其更快收斂。1.3.3.4其它超參數(shù)的設(shè)計(jì)DDPG的主要部分設(shè)計(jì)至此完成,下面進(jìn)行超參數(shù)的設(shè)計(jì)。本任務(wù)涉及到的超參數(shù)及其值如表4-1所示。表4-1超參數(shù)設(shè)計(jì)表參數(shù)名稱數(shù)值A(chǔ)ctor學(xué)習(xí)率10-4Actor梯度閾值1Critic學(xué)習(xí)率10-3Critic梯度閾值1探索噪聲方差0.3噪聲方差衰減率10-5采樣時(shí)間Ts1s模擬時(shí)間Tf20s最大訓(xùn)練幕數(shù)500移動(dòng)平均系數(shù)τ10-3折扣系數(shù)γ1.00批樣本數(shù)64經(jīng)驗(yàn)池長度106L2正則化參數(shù)10-4平均回報(bào)窗口長度201.3.3參數(shù)整定結(jié)果基于以上設(shè)計(jì),在仿真環(huán)境訓(xùn)練500幕后,智能體所獲得的平均回報(bào)如圖4-6所示。可見在250次訓(xùn)練后,智能體每一幕的回報(bào)值逐漸收斂。圖4-6訓(xùn)練過程中每一幕的回報(bào)值最后一幕的即時(shí)回報(bào)值變化如圖4-7所示,4秒前后回報(bào)值收斂。圖4-7最后一幕回報(bào)值圖4-8為最后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 黑龍江省大慶市肇源縣五校聯(lián)考(五四學(xué)制)2024-2025學(xué)年七年級下學(xué)期開學(xué)考試生物試卷(含答案)
- 2026年高級網(wǎng)絡(luò)安全工程師培訓(xùn)題庫及答案
- 鄭州2025年河南鄭州市鄭東新區(qū)招聘派遣制教師224人筆試歷年參考題庫附帶答案詳解
- 蘇州江蘇蘇州市吳中區(qū)衛(wèi)生健康系統(tǒng)招聘備案制衛(wèi)生專技人員8人筆試歷年參考題庫附帶答案詳解
- 白銀2025年甘肅白銀市中西醫(yī)結(jié)合醫(yī)院招聘13人筆試歷年參考題庫附帶答案詳解
- 榆林2025年陜西榆林市橫山區(qū)職業(yè)技術(shù)教育中心普通高中名優(yōu)教師筆試歷年參考題庫附帶答案詳解
- 職業(yè)性肺病患者無創(chuàng)通氣撤機(jī)策略
- 崇左2025年廣西崇左幼兒師范高等??茖W(xué)校招聘20人筆試歷年參考題庫附帶答案詳解
- 寧夏2025年寧夏醫(yī)科大學(xué)招聘24人筆試歷年參考題庫附帶答案詳解
- 臺(tái)州2025年浙江臺(tái)州三門技師學(xué)院教師招聘4人筆試歷年參考題庫附帶答案詳解
- 云南省玉溪市2025-2026學(xué)年八年級上學(xué)期1月期末物理試題(原卷版+解析版)
- 2026年哈爾濱通河縣第一批公益性崗位招聘62人考試參考試題及答案解析
- 就業(yè)協(xié)議書解約函模板
- 研發(fā)部門員工加班管理細(xì)則
- 鋼結(jié)構(gòu)橋梁施工監(jiān)測方案
- 2025人教pep版三年級英語上冊字帖
- 《5G移動(dòng)通信》課件-項(xiàng)目六 5G網(wǎng)絡(luò)中的人工智能技術(shù)
- 2025江蘇蘇州高新區(qū)獅山商務(wù)創(chuàng)新區(qū)下屬國有企業(yè)招聘9人筆試題庫及答案詳解
- 教培機(jī)構(gòu)年終工作總結(jié)
- 2025年秋季青島版三年級數(shù)學(xué)上冊求比一個(gè)數(shù)的幾倍多(少)幾的數(shù)教學(xué)課件
- 2025年法醫(yī)學(xué)法醫(yī)鑒定技能測試答案及解析
評論
0/150
提交評論