CN120207040A 一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法_第1頁
CN120207040A 一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法_第2頁
CN120207040A 一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法_第3頁
CN120207040A 一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法_第4頁
CN120207040A 一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

地址230009安徽省合肥市包河區(qū)屯溪路(72)發(fā)明人夏光張宇蕃李濤吳士標(biāo)周大洋張晨昊張博劉垚源吳見陽王曉飛白嘉樂限責(zé)任公司34101一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾本發(fā)明公開了一種基于側(cè)傾相平面切換的由度轉(zhuǎn)向-側(cè)傾車輛動(dòng)力學(xué)模型,用于描述簧上當(dāng)前狀態(tài)輸入側(cè)傾相平面切換模塊及SAC智能0-0側(cè)頻相平面主導(dǎo)模式搶占與延遲機(jī)制4左右側(cè)轉(zhuǎn)角62步驟3:基于側(cè)傾角及側(cè)傾角速度,構(gòu)建側(cè)傾相平面切換模塊,并設(shè)計(jì)其模式切換邊界步驟4:在左、右側(cè)非對(duì)稱隨機(jī)路面激勵(lì)和隨機(jī)前輪轉(zhuǎn)角輸入下,利用側(cè)傾相平面切換步驟5:將車身側(cè)傾角及角速度輸入側(cè)傾相平面切換模塊中,以確定當(dāng)前控制模式,使2.根據(jù)權(quán)利要求1所述的一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法,其是左側(cè)和右側(cè)簧下質(zhì)量位移,之和z分別是左側(cè)和右側(cè)簧下質(zhì)量速度,是車身加速度;步驟2.2:定義動(dòng)作空間a={Fa,Fa},Fa、F。分別為左側(cè)、右側(cè)主動(dòng)懸架輸出的主動(dòng)按式(1)計(jì)算垂向減振主導(dǎo)模式CCM下的獎(jiǎng)勵(lì)函數(shù)r:按式(2)計(jì)算側(cè)傾安全主導(dǎo)模式SCM下的獎(jiǎng)勵(lì)函數(shù)r2:按式(3)計(jì)算附加懲罰項(xiàng)3:按式(4)計(jì)算總獎(jiǎng)勵(lì)函數(shù)r:3絡(luò)和目標(biāo)Critic2網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)均完全一致;接層的輸入為所述第一全連接層的輸出和動(dòng)作,所述輸出層生成狀態(tài)-動(dòng)作對(duì)的價(jià)值;所述Actor網(wǎng)絡(luò)包括:依次連接的第四全連接層、第五全連接層、動(dòng)作輸出層,所述動(dòng)作其中,均值分支,包括:依次連接的第一子全連接層和均值輸出層,所述第一子全連接層的輸入端連接所述第五全連接層的輸出端,所述均值輸出層用于輸出主動(dòng)力均值的第一向量;方差分支,包括:依次連接的第二子全連接層和方差輸出層,所述第二子全連接層的輸入端連接所述第五全連接層的輸出端,所述方差輸出層用于輸出主動(dòng)力方差的第二向量;高斯分布采樣層是利用所述主動(dòng)力的第一向量和第二向量構(gòu)建高斯分布,并生成左3.根據(jù)權(quán)利要求1所述的一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法,其步驟3.1:構(gòu)建側(cè)傾相平面:將正弦前輪轉(zhuǎn)角激勵(lì)輸入向六自由度轉(zhuǎn)向-側(cè)傾車輛動(dòng)力學(xué)模型或?qū)嵻囍?,以獲取側(cè)步驟3.2:確定模式切換邊界:值,當(dāng)σ超過設(shè)定值σ時(shí),車輛直接進(jìn)入側(cè)傾安全主導(dǎo)模式SCM;否則,車輛將發(fā)起進(jìn)入減振主導(dǎo)模式CCM的需求,并按式(5)所示的搶占與延時(shí)機(jī)制進(jìn)行實(shí)際的模式切換;式(5)中,Mode(t)代表t時(shí)刻的控制模式,Mode(t-1)代表t-1時(shí)刻的控制模式,tinCM4.根據(jù)權(quán)利要求1所述的一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法,其步驟4.1:隨機(jī)初始化Critic1網(wǎng)絡(luò)的參數(shù)θ?、Critic的參數(shù)θ賦給目標(biāo)Critic1網(wǎng)絡(luò)的參數(shù)θ'、將Critic2網(wǎng)絡(luò)的參數(shù)θ?賦值給目標(biāo)Critic2網(wǎng)絡(luò)的參數(shù)θ2;隨機(jī)初始化Actor網(wǎng)絡(luò)的參數(shù)@;步驟4.2:將t時(shí)刻的狀態(tài)S:輸入Actor網(wǎng)絡(luò)中,輸出t時(shí)刻的動(dòng)作a并作用于車輛上,以獲得t+1時(shí)刻的狀態(tài)S+1;利用S:中的側(cè)傾角及角速度計(jì)算出側(cè)傾因子σ,并由式(5)所示的4搶占與延時(shí)機(jī)制確定t時(shí)刻的控制模式,進(jìn)而計(jì)算t時(shí)刻的獎(jiǎng)勵(lì)r?,從而獲得一條樣本數(shù)據(jù)步驟4.3:從經(jīng)驗(yàn)池中隨機(jī)抽取一條樣本數(shù)據(jù){S,a,S+,},將S?和@,輸入Critic1網(wǎng)絡(luò)第一目標(biāo)價(jià)值Q(s+,a?)和第二目標(biāo)價(jià)值Q?(s:+1,a?1);按式(7)來計(jì)算t+1時(shí)刻的目標(biāo)價(jià)值Y+1:y+1=r+ymin(Q(sH,a+),Q?(sH,步驟4.4:將y+1分別與Q(s,a,)和Q?(s,a,)做均方差來構(gòu)建Loss函數(shù),從而利用梯度步驟4.6:根據(jù)min(Q(s,a,),Q?(s,,a,),采用延遲更新機(jī)制對(duì)Actor網(wǎng)絡(luò)的參數(shù)@進(jìn)行更新,得到Actor網(wǎng)絡(luò)更新后的參數(shù)并賦值給@,所述延遲機(jī)制是指Critic網(wǎng)絡(luò)更新若干次步驟4.7:按照步驟4.2-步驟4.6的過程對(duì)智能體進(jìn)行迭代訓(xùn)練,直至獎(jiǎng)勵(lì)收斂到穩(wěn)定5.根據(jù)權(quán)利要求2所述的一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法,其5式(10)中,Y是比例因子,θse是設(shè)置的逆向側(cè)傾角限值;步驟5.3:按式(11)構(gòu)建側(cè)傾角跟蹤誤差△θ:6.一種電子設(shè)備,包括存儲(chǔ)器及處理器,其特征在于,所述存儲(chǔ)器存儲(chǔ)有實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述的車輛垂向-側(cè)傾協(xié)同控制方法的程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)主動(dòng)懸架逆向側(cè)傾控制。7.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述的車輛垂向-側(cè)傾協(xié)同控制方法的步驟。6一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及車輛主動(dòng)懸架控制技術(shù)領(lǐng)域,具體涉及一種基于側(cè)傾相平面切換的垂向-側(cè)傾協(xié)同控制方法,尤其適用于雙側(cè)非對(duì)稱激勵(lì)路面與轉(zhuǎn)向復(fù)合工況下的車輛穩(wěn)定性與舒適性綜合優(yōu)化。背景技術(shù)[0002]在車輛智能化發(fā)展進(jìn)程中,復(fù)雜工況下的多目標(biāo)協(xié)同控制成為關(guān)鍵技術(shù)挑戰(zhàn)。當(dāng)車輛在雙側(cè)存在顯著差異的非對(duì)稱激勵(lì)路面上轉(zhuǎn)向行駛時(shí),車身垂向振動(dòng)與側(cè)傾運(yùn)動(dòng)存在高度耦合。傳統(tǒng)主動(dòng)懸架控制策略常采用分層設(shè)計(jì)或固定參數(shù)模式,難以解決垂向舒適性與側(cè)傾穩(wěn)定性目標(biāo)沖突。此外,基于閾值觸發(fā)的模式切換策略易因路面突變引發(fā)控制指令振蕩,導(dǎo)致懸架作動(dòng)器能量浪費(fèi)及性能失衡。因此,亟需一種融合實(shí)時(shí)狀態(tài)感知與多模態(tài)協(xié)同優(yōu)化的主動(dòng)懸架控制方法,以突破動(dòng)態(tài)耦合工況下的性能瓶頸。發(fā)明內(nèi)容[0003]本發(fā)明為克服現(xiàn)有技術(shù)的不足之處,提供一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法,以期實(shí)現(xiàn)雙側(cè)非對(duì)稱路面激勵(lì)下轉(zhuǎn)向行駛復(fù)合工況下對(duì)側(cè)傾穩(wěn)定性和垂向舒適性協(xié)同優(yōu)化,拓寬車輛側(cè)傾穩(wěn)定域和提高乘坐舒適性。[0005]本發(fā)明一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法的特點(diǎn)在于,是應(yīng)用于主動(dòng)懸架車輛,并按以下步驟進(jìn)行:[0006]步驟1:基于Doguff輪胎模型,建立六自由度轉(zhuǎn)向-側(cè)傾車輛動(dòng)力學(xué)模型,用于描述簧上和簧下質(zhì)量的垂向振動(dòng)及車輛側(cè)傾、橫擺和側(cè)向運(yùn)動(dòng);[0007]步驟2:構(gòu)建基于軟行為策略梯度算法的智能體,并設(shè)計(jì)智能體的狀態(tài)空間、動(dòng)作[0008]步驟3:基于側(cè)傾角及側(cè)傾角速度,構(gòu)建側(cè)傾相平面切換模塊,并設(shè)計(jì)其模式切換邊界和搶占與延時(shí)機(jī)制;[0009]步驟4:在左、右側(cè)非對(duì)稱隨機(jī)路面激勵(lì)和隨機(jī)前輪轉(zhuǎn)角輸入下,利用側(cè)傾相平面切換模塊訓(xùn)練智能體,直至總獎(jiǎng)勵(lì)收斂至高水平獎(jiǎng)勵(lì)值,從而獲得用于離線控制的最優(yōu)智[0010]步驟5:將車身側(cè)傾角及角速度輸入側(cè)傾相平面切換模塊中,以確定當(dāng)前控制模式,使得最優(yōu)智能體依據(jù)當(dāng)前車輛狀態(tài),輸出當(dāng)前控制模式下的左、右側(cè)懸架主動(dòng)力,以實(shí)現(xiàn)垂向舒適性和側(cè)傾穩(wěn)定性的協(xié)同優(yōu)化控制。[0011]本發(fā)明所述的一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法的特點(diǎn)也[0012]步驟2.1:定義狀態(tài)空間s={y,8,θ,0,△B,z,?,Zm,2,,},其中,是車輛橫向加速7分別是左側(cè)和右側(cè)簧下質(zhì)量位移,之和z分別是左側(cè)和右側(cè)簧下質(zhì)量速度,,是車身加速[0013]步驟2.2:定義動(dòng)作空間a={F,F},Fa、Fa分別為左側(cè)、右側(cè)主動(dòng)懸架輸出的主動(dòng)力;[0014]步驟2.3:按模式Mode構(gòu)建不同的獎(jiǎng)勵(lì)函數(shù):[0015]按式(1)計(jì)算垂向減振主導(dǎo)模式CCM下的獎(jiǎng)勵(lì)函數(shù)r?:[0017]按式(2)計(jì)算側(cè)傾安全主導(dǎo)模式SCM下的獎(jiǎng)勵(lì)函數(shù)2:[0019]按式(3)計(jì)算附加懲罰項(xiàng)r3:[0022]按式(4)計(jì)算總獎(jiǎng)勵(lì)函數(shù)r:網(wǎng)絡(luò)和目標(biāo)Critic2網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)均完全一致。征拼接層的輸入為所述第一全連接層的輸出和動(dòng)作,所述輸出層生成狀態(tài)-動(dòng)作對(duì)的價(jià)值;動(dòng)作輸出層包括:均值分支、方差分支和高[0027]其中,均值分支,包括:依次連接的第一子全連接層和均值輸出層,所述第一子全連接層的輸入端連接所述第五全連接層的輸出端,所述均值輸出層用于輸出主動(dòng)力均值的第一向量;[0028]方差分支,包括:依次連接的第二子全連接層和方差輸出層,所述第二子全連接層的輸入端連接所述第五全連接層的輸出端,所述方差輸出層用于輸出主動(dòng)力方差的第二向[0029]高斯分布采樣層是利用所述主動(dòng)力的第一向量和第二向量構(gòu)建高斯分布,并生成[0031]步驟3.1:構(gòu)建側(cè)傾相平面:8[0032]將正弦前輪轉(zhuǎn)角激勵(lì)輸入向六自由度轉(zhuǎn)向-側(cè)傾車輛動(dòng)力學(xué)模型或?qū)嵻囍?,以獲[0033]步驟3.2:確定模式切換邊界:[0034]定義側(cè)傾穩(wěn)定因子σ=|2,θ+Ω?|≤,其中,Q、Ω?是2個(gè)系數(shù)因子,σ是設(shè)定的切換限值,當(dāng)σ超過設(shè)定值σ時(shí),車輛直接進(jìn)入側(cè)傾安全主導(dǎo)模式SCM;否則,車輛將發(fā)起進(jìn)入減振主導(dǎo)模式CCM的需求,并按式(5)所示的搶占與延時(shí)機(jī)制進(jìn)行實(shí)際的模式切換;[0036]式(5)中,Mode(t)代表t時(shí)刻的控制模式,Mode(t-1)代表t-1時(shí)刻的控制模式,tinscM是上一次進(jìn)入SCM的時(shí)間,并由式(6),T?是控制步長,N是設(shè)定的延時(shí)切換的控制周期網(wǎng)絡(luò)的參數(shù)θ賦給目標(biāo)Critic1網(wǎng)絡(luò)的參數(shù)θ、將Critic2網(wǎng)絡(luò)的參數(shù)θ?賦值給目標(biāo)Critic2網(wǎng)絡(luò)的參數(shù)θ2;隨機(jī)初始化Actor網(wǎng)絡(luò)的參數(shù)@;[0040]步驟4.2:將t時(shí)刻的狀態(tài)S:輸入Actor網(wǎng)絡(luò)中,輸出t時(shí)刻的動(dòng)作a并作用于車輛上,以獲得t+1時(shí)刻的狀態(tài)S+1;利用S,中的側(cè)傾角及角速度計(jì)算出側(cè)傾因子σ,并由式(5)所示的搶占與延時(shí)機(jī)制確定t時(shí)刻的控制模式,進(jìn)而計(jì)算t時(shí)刻的獎(jiǎng)勵(lì)r,從而獲得一條樣本數(shù)據(jù){s,a,SH,r}并存入經(jīng)驗(yàn)池中;[0041]步驟4.3:從經(jīng)驗(yàn)池中隨機(jī)抽取一條樣本數(shù)據(jù){s,a,S+,r;},將S?和a輸入Criticl網(wǎng)絡(luò)和Critic2網(wǎng)絡(luò)中,并相應(yīng)輸出狀態(tài)-動(dòng)作對(duì)的第一價(jià)值Q(s,a)和第二價(jià)值Q?(s,,a,);[0043]將S+1和a+1輸入目標(biāo)Critic1和目標(biāo)Critic2網(wǎng)絡(luò)中,并相應(yīng)輸出狀態(tài)-動(dòng)作對(duì)的價(jià)值第一目標(biāo)價(jià)值Q(sH,a+1)和第二目標(biāo)價(jià)值Q?(s:,a?);[0044]按式(7)來計(jì)算t+1時(shí)刻的目標(biāo)價(jià)值y1+1:[0047]步驟4.4:將y+1分別與Q(s,a,)和Q?(s,,a,)做均方差來構(gòu)建Loss函數(shù),從而利用9[0048]步驟4.5:采用式(8)來更[0051]步驟4.6:根據(jù)min(Q?(s,,a),Q?(s,a,)),采用延遲更新機(jī)制對(duì)Actor網(wǎng)絡(luò)的參數(shù)@[0052]步驟4.7:按照步驟4.2-步驟4.6的過程對(duì)智能體進(jìn)行迭代訓(xùn)練,直至獎(jiǎng)勵(lì)收斂到[0066]2.本發(fā)明通過設(shè)計(jì)模式搶占式觸發(fā)與延遲退出機(jī)制,在高速緊急避障或持續(xù)側(cè)傾擾動(dòng)場(chǎng)景下,優(yōu)先鎖定側(cè)傾安全主導(dǎo)模式的執(zhí)行優(yōu)先級(jí),抑制垂向舒適主導(dǎo)模式的非必要激活,避免高頻切換造成的懸架作動(dòng)器振蕩,并通過延遲多個(gè)控制周期的最低駐留時(shí)間約束,確保側(cè)傾穩(wěn)定干預(yù)的持續(xù)性,最終實(shí)現(xiàn)側(cè)傾安全優(yōu)先級(jí)的全局強(qiáng)化控制。附圖說明[0067]圖1為本發(fā)明總體控制策略圖;[0068]圖2為本發(fā)明SAC智能體的Cri[0070]圖4為本發(fā)明側(cè)傾相平面示意圖;[0071]圖5為本發(fā)明模式切換切換邊界示意圖;[0072]圖6為本發(fā)明SAC算法執(zhí)行流程。具體實(shí)施方式[0073]本實(shí)施例中,一種基于側(cè)傾相平面切換的車輛垂向-側(cè)傾協(xié)同控制方法,是應(yīng)用于主動(dòng)懸架車輛,總體控制框圖如圖1所示,并按以下步驟進(jìn)行:[0074]步驟1:建立六自由度轉(zhuǎn)向-側(cè)傾車輛動(dòng)力學(xué)模型,用以描述簧上和簧下垂向振動(dòng)及車輛側(cè)傾、橫擺和側(cè)向運(yùn)動(dòng),選用Dugoff模型建立輪胎垂向力與側(cè)向力間的耦合關(guān)系。[0075]步驟1.1:利用式(1)建立考慮橫向、橫擺、側(cè)傾、垂向振動(dòng)的六自由度車輛動(dòng)力學(xué)模型:、I?分別是車輛橫擺轉(zhuǎn)動(dòng)慣量、車身側(cè)傾轉(zhuǎn)動(dòng)慣量,F(xiàn)?、Fπ分別是左側(cè)、右側(cè)懸架被動(dòng)垂向激勵(lì)輸入、右側(cè)路面激勵(lì)輸入,?s、藝、?u分別是車身加速度、左側(cè)簧下質(zhì)量加速度、右側(cè)簧下質(zhì)量加速度,中是車輛橫擺角,φ是車輛橫擺角加速度,a、b分別為質(zhì)心距離前軸、后軸的距離,a,是車輛側(cè)向加速度,按式(2)計(jì)算,θ是車身側(cè)傾角,?是車身側(cè)傾角加速度,B是半輪距,h是側(cè)傾中心到車輛質(zhì)心的距離,Ma是主動(dòng)側(cè)傾力矩。[0080]步驟1.2:按式(3)計(jì)算兩側(cè)懸架剛度和阻尼被動(dòng)垂向力:[0082]式(3)中,k,是懸架彈簧的剛度系數(shù),Cs是懸架減振器的阻尼系數(shù),Zs?、Z分別是[0083]步驟1.3:基于小側(cè)傾角假設(shè),有sinθ≈θ,左、右兩側(cè)簧上質(zhì)量運(yùn)動(dòng)與簧下質(zhì)量運(yùn)動(dòng)關(guān)系按式(4)表達(dá):[0085]步驟1.4:基于小前輪轉(zhuǎn)角假設(shè),前后輪側(cè)偏角根據(jù)自行車轉(zhuǎn)向模型計(jì)算,見式[0088]步驟1.5:選用Dugoff輪胎模型來表征輪胎側(cè)向力與垂向載荷的耦合關(guān)系,按式(6)計(jì)算輪胎側(cè)向力:[0091]步驟2:基于逆向側(cè)傾機(jī)理,通過主動(dòng)傾斜車身以產(chǎn)生與離心力矩反向的重力矩分量,提高車輛側(cè)傾穩(wěn)定性和側(cè)向舒適性,計(jì)算目標(biāo)車身側(cè)傾角θarget,進(jìn)而計(jì)算側(cè)傾角跟蹤[0092]步驟2.1:按式(7)計(jì)算離[0094]步驟2.2:車輛穩(wěn)態(tài)行駛時(shí),j=0,按式(8)計(jì)算車輛轉(zhuǎn)向行駛時(shí)的理想橫擺加振動(dòng)與側(cè)傾運(yùn)動(dòng)存在耦合,選取的狀態(tài)空間要能夠完整描述垂向振動(dòng)和側(cè)傾運(yùn)動(dòng)的特征。所以在振動(dòng)和側(cè)傾協(xié)同控制時(shí)也需動(dòng)態(tài)劃分兩者權(quán)重,對(duì)此分別[0108]r?=-z?2-5z[0116]步驟3.4:設(shè)計(jì)SAC智能體的網(wǎng)絡(luò)結(jié)構(gòu),包括:Critic1、Critic2網(wǎng)絡(luò)和目標(biāo)[0124]步驟4.1:側(cè)傾相平面構(gòu)建:通過將幅值和頻率各不相同的正弦前輪轉(zhuǎn)角輸入轉(zhuǎn)網(wǎng)絡(luò)的參數(shù)θ賦給目標(biāo)Critic1網(wǎng)絡(luò)的參數(shù)θ、將Critic2網(wǎng)絡(luò)的參數(shù)θ?賦值給目標(biāo)Critic2網(wǎng)絡(luò)的參數(shù)θ2;隨機(jī)初始化Actor網(wǎng)絡(luò)的參數(shù)@;[0134]步驟5.2:將t時(shí)刻的狀態(tài)S:輸入Actor網(wǎng)絡(luò)中,輸出t時(shí)刻的動(dòng)作a并作用于車輛上,以獲得t+1時(shí)刻的狀態(tài)S+1;利用S,中的側(cè)傾角及角速度計(jì)算出側(cè)傾因子σ,并由式(5)的搶占與延時(shí)機(jī)制確定t時(shí)刻的控制模式,進(jìn)而計(jì)算t時(shí)刻的獎(jiǎng)勵(lì)r,從而獲得一條樣本數(shù)[0135]步驟5.3:從經(jīng)驗(yàn)池中隨機(jī)抽取一條樣本數(shù)據(jù){s,a,S+H,r;},將S,和a,輸入Criticl價(jià)值第一目標(biāo)價(jià)值Q(s?,a+1)和第二目標(biāo)價(jià)值Q?(s+,a+1);[0140]式(18)中,Y為折扣因子,本例中取0.99。[0141]步驟5.4:將y1+1分別與Q(s,a,)和Q?(s,,a,)做均方差來構(gòu)建Loss函數(shù),從而利用梯度下降法對(duì)Critic1網(wǎng)絡(luò)的參數(shù)θ?、Critic2網(wǎng)絡(luò)的參數(shù)θ?進(jìn)行更新,得到Critic1網(wǎng)絡(luò)更新后的參數(shù)并賦值給θ?、Critic2網(wǎng)絡(luò)更新后的參數(shù)并賦值給θ?。[0142]步驟5.5:采

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論