版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分層強(qiáng)化學(xué)習(xí)四足機(jī)器人的運(yùn)動(dòng)控制方法設(shè)計(jì)目錄TOC\o"1-3"\h\u27522分層強(qiáng)化學(xué)習(xí)四足機(jī)器人的運(yùn)動(dòng)控制方法設(shè)計(jì) [40]。但目前的逆運(yùn)動(dòng)學(xué)控制方法由于建模的精度不可能與實(shí)物完全一致,控制存在誤差,需要對(duì)其進(jìn)行校正,否則可能導(dǎo)致系統(tǒng)發(fā)散。本文設(shè)計(jì)了一種對(duì)四足機(jī)器人單腿建模并使用逆運(yùn)動(dòng)學(xué)求解與分層強(qiáng)化學(xué)習(xí)相結(jié)合的方法,旨在改善建模精度導(dǎo)致的誤差問(wèn)題,以及在模型參數(shù)不同的四足機(jī)器人控制方法上應(yīng)用,最終能夠?qū)崿F(xiàn)大場(chǎng)景下機(jī)器人與環(huán)境交互,進(jìn)而完成較為復(fù)雜的任務(wù)目標(biāo)。1.2四足機(jī)器人單腿運(yùn)動(dòng)學(xué)模型在理想的仿真環(huán)境中,本文的研究對(duì)象四足機(jī)器人仿真模型如圖3-1所示。該模型是基于Stanford大學(xué)實(shí)體四足機(jī)器人Pupper建立的,其結(jié)構(gòu)簡(jiǎn)單驅(qū)動(dòng)形式單一,使用圓柱形的輕質(zhì)連桿代替單腿。本文將對(duì)該四足機(jī)器人單腿胯關(guān)節(jié)、髖關(guān)節(jié)和膝關(guān)節(jié)三個(gè)關(guān)節(jié)建立運(yùn)動(dòng)學(xué),并使用逆運(yùn)動(dòng)學(xué)求解,并將其作為強(qiáng)化學(xué)習(xí)方法的運(yùn)動(dòng)基元。圖3-1Stanford大學(xué)四足機(jī)器人pupper仿真模型示意圖四足機(jī)器人單腿模型空間視圖如圖3-2所示,每條腿以跨關(guān)節(jié)與機(jī)器人主體連接處為坐標(biāo)系原點(diǎn),向上為z正方向,以胯部連桿旋轉(zhuǎn)平面法線方向?yàn)閤方向,由右手定則確定y方向。具體參數(shù)含義見(jiàn)表3-1。圖3-2四足機(jī)器人單腿模型空間視圖表3-1四足機(jī)器人運(yùn)動(dòng)學(xué)模型參數(shù)參數(shù)變量變量定義x足端x坐標(biāo)y足端y坐標(biāo)z足端z坐標(biāo)l胯部連桿長(zhǎng)度l大腿連桿長(zhǎng)度l小腿連桿長(zhǎng)度θ胯關(guān)節(jié)關(guān)節(jié)角θ髖關(guān)節(jié)關(guān)節(jié)角θ膝關(guān)節(jié)關(guān)節(jié)角byox平面跨關(guān)節(jié)到足端距離?腿部連桿平面髖關(guān)節(jié)到足端距離 四足機(jī)器人單腿模型y?z平面視圖如圖3-3所示,在該平面視圖內(nèi)求解得到胯關(guān)節(jié)角度θ0圖3-3四足機(jī)器人單腿模型y?z平面視圖b?φαθ對(duì)于髖關(guān)節(jié)角度θ1、膝關(guān)節(jié)角度θ2則在大小腿連桿平面內(nèi)求得,腿部連桿平面視圖如圖3-4,求解過(guò)程為式3?6至圖3-4四足機(jī)器人單腿模型腿部連桿平面視圖γtriθβθ 通過(guò)上述推導(dǎo),可以將四足機(jī)器人足端坐標(biāo)轉(zhuǎn)換為對(duì)應(yīng)的單腿電機(jī)位置角變化。本文將四足機(jī)器人單腿足端坐標(biāo)位移?x,?y,?z作為底層策略的動(dòng)作空間,通過(guò)逆運(yùn)動(dòng)學(xué)求解得到機(jī)器人胯關(guān)節(jié)、髖關(guān)節(jié)、膝關(guān)節(jié)三個(gè)關(guān)節(jié)目標(biāo)位置信息,使用PD控制器對(duì)機(jī)器人電機(jī)進(jìn)行控制。1.3分層策略框架本文設(shè)計(jì)了一個(gè)分層強(qiáng)化學(xué)習(xí)框架,用來(lái)實(shí)現(xiàn)四足機(jī)器人在復(fù)雜路徑追蹤問(wèn)題上的應(yīng)用。此學(xué)習(xí)框架主要分為兩個(gè)策略層級(jí),高層策略側(cè)重于四足機(jī)器人前行方向的學(xué)習(xí),底層策略則主要負(fù)責(zé)學(xué)習(xí)四足機(jī)器人運(yùn)動(dòng)控制,使四足機(jī)器人朝向高層策略所選擇的目標(biāo)方向,同時(shí)要求四足機(jī)器人在運(yùn)動(dòng)中過(guò)程中保持姿態(tài)平穩(wěn)。該分層強(qiáng)化學(xué)習(xí)框架如圖3-5所示。算法邏輯如表3-2所示。圖3-5基于分層強(qiáng)化學(xué)習(xí)的四足機(jī)器人控制框架結(jié)構(gòu)圖表3-2分層策略算法邏輯算法1:分層策略執(zhí)行1:o?2:R=0、d=0初始化回合獎(jiǎng)勵(lì)、底層策略持續(xù)時(shí)間3:whilenotdone:4:ifd=0:5:o?6:d,θ=high_policy(o7:action=low_policy(d,θ)底層策略輸出8:ol9:R+=r,d-=110:returnR該分層學(xué)習(xí)框架中高層策略接受的環(huán)境觀測(cè)值僅包含機(jī)器人在環(huán)境中的坐標(biāo)信息x,y,z,底層策略則接受機(jī)器人姿態(tài)信息roll,pitc?,yaw為了實(shí)現(xiàn)四足機(jī)器人完成特定復(fù)雜路徑追蹤任務(wù),達(dá)到強(qiáng)化學(xué)習(xí)策略分層控制的目標(biāo),將對(duì)層級(jí)策略進(jìn)行分別訓(xùn)練,使得該方法能夠快速收斂實(shí)現(xiàn)目標(biāo)任務(wù),其中底層策略優(yōu)先訓(xùn)練。在底層策略完成對(duì)機(jī)器人平穩(wěn)運(yùn)動(dòng)的學(xué)習(xí)后,便可以將高層策略動(dòng)作空間設(shè)置為簡(jiǎn)單的機(jī)器人目標(biāo)姿態(tài)pitc?,yaw以及底層策略執(zhí)行時(shí)間(duration,d),大大降低了訓(xùn)練困難程度,從而提高學(xué)習(xí)收斂速度。1.4動(dòng)作狀態(tài)空間與獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)本文針對(duì)對(duì)底層控制策略的預(yù)訓(xùn)練,并設(shè)計(jì)了三種底層策略訓(xùn)練環(huán)境,分別是用于控制行進(jìn)平衡的任務(wù)PupperBalance,控制朝向指定方向前進(jìn)的任務(wù)PupperTowards以及斜坡行走任務(wù)PupperSteepBalance。在上述任務(wù)中,機(jī)器人需要在前進(jìn)狀態(tài)中保持平衡并沿直線行走,環(huán)境觀測(cè)信息為機(jī)器人當(dāng)前的位置坐標(biāo)和姿態(tài)數(shù)據(jù),兩者共同構(gòu)成機(jī)器人當(dāng)前狀態(tài);機(jī)器人實(shí)際動(dòng)作為輸出策略給出的電機(jī)位置角度。在PupperBalance和PupperSteepBalance任務(wù)場(chǎng)景中,機(jī)器人只有在前進(jìn)狀態(tài)下保持平衡,就能取得相應(yīng)獎(jiǎng)勵(lì),如果只在靜態(tài)行為中保持平衡,那么底層策略學(xué)習(xí)的結(jié)果將只會(huì)對(duì)靜態(tài)姿態(tài)信息形成習(xí)慣,而無(wú)法很好地處理動(dòng)態(tài)運(yùn)動(dòng)過(guò)程中的姿態(tài)信息變化。高層方向決策策略在完成底層策略訓(xùn)練完成之后進(jìn)行訓(xùn)練,對(duì)此本文設(shè)計(jì)了二維平面方向決策的任務(wù)2DPathTracking。在上述任務(wù)中,四足機(jī)器人需要在指定路徑上行走并達(dá)到目標(biāo)坐標(biāo)點(diǎn),離開(kāi)指定路徑會(huì)提前終止當(dāng)前回合。該任務(wù)要求機(jī)器人在不同的位置以不同的偏航角度前行,學(xué)習(xí)并找到一個(gè)最優(yōu)路徑。1.4.1底層策略任務(wù)設(shè)計(jì)(1)PupperBalance場(chǎng)景獎(jiǎng)勵(lì)函數(shù)由于運(yùn)動(dòng)的連續(xù)性,期望機(jī)器人在單個(gè)回合內(nèi)前行距離越遠(yuǎn)越好,同時(shí)保持自身平衡。通過(guò)機(jī)載傳感器獲取機(jī)器人位置信息、俯仰和翻滾角度信息,根據(jù)機(jī)器人在x軸的位置給予正獎(jiǎng)勵(lì),在y軸的位置以及俯仰、翻滾角度給予負(fù)獎(jiǎng)勵(lì)??傮w的獎(jiǎng)勵(lì)函數(shù)由式3?11到3?14定義:rrrR式中rf每一實(shí)踐部代表機(jī)器人前進(jìn)獎(jiǎng)勵(lì),posx和posy代表機(jī)器人當(dāng)前x軸坐標(biāo)和y軸坐標(biāo);rb代表機(jī)器人平衡姿態(tài)獎(jiǎng)勵(lì),roll和pitc?分別代表機(jī)器人的滾動(dòng)角和俯仰角;(2)PupperTowards場(chǎng)景獎(jiǎng)勵(lì)函數(shù)該場(chǎng)景是在上一場(chǎng)景的基礎(chǔ)上,將沿直線前進(jìn)任務(wù)目標(biāo)改為指定偏航方向前進(jìn)目標(biāo),其觀測(cè)空間獲取信息不變;獎(jiǎng)勵(lì)函數(shù)rf由前后時(shí)間步之間的位移向量在指定偏航方向上的投影決定其表示為式3?15r(3)PupperSteepBalance場(chǎng)景獎(jiǎng)勵(lì)函數(shù)該場(chǎng)景是在上一場(chǎng)景的基礎(chǔ)上,將平面上沿直線前進(jìn)任務(wù)目標(biāo)改為斜坡面上前進(jìn)目標(biāo),其觀測(cè)空間獲取信息不變,前行獎(jiǎng)勵(lì)更改為沿斜坡行走的距離表示為式3?16,其余獎(jiǎng)勵(lì)相同。r1.4.2高層策略任務(wù)設(shè)計(jì)2DPathTracking場(chǎng)景獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì):
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- IP網(wǎng)絡(luò)基礎(chǔ)知識(shí)
- 氣切患者心理支持與溝通
- 沖壓?jiǎn)T工考試題及答案
- 財(cái)務(wù)崗前培訓(xùn)考試試題及答案
- 2025-2026人教版八年級(jí)物理上冊(cè)測(cè)試
- 2026年重點(diǎn)高中自主招生考試語(yǔ)文試卷試題(含答案+答題卡)
- 2025-2026二年級(jí)科學(xué)學(xué)期末測(cè)試
- 2025-2026一年級(jí)體育期末考卷
- 衛(wèi)生室倉(cāng)庫(kù)盤(pán)存制度
- 學(xué)校衛(wèi)生室廠家管理制度
- 2025新譯林版英語(yǔ)七年級(jí)下單詞默寫(xiě)單
- 新高考語(yǔ)文專題訓(xùn)練之模擬題分類匯編文言文閱讀1(原卷版+解析)
- DL∕T 5545-2018 火力發(fā)電廠間接空冷系統(tǒng)設(shè)計(jì)規(guī)范
- 《研學(xué)旅行課程設(shè)計(jì)》課件-研學(xué)課程設(shè)計(jì)原則
- JJG 693-2011可燃?xì)怏w檢測(cè)報(bào)警器
- (本科)大學(xué)生勞動(dòng)教育理論與實(shí)踐教程全書(shū)電子教案完整版
- 黑龍江省中藥飲片炮制規(guī)范及標(biāo)準(zhǔn)
- 盤(pán)口暗語(yǔ)及盤(pán)口數(shù)字語(yǔ)言
- QC-提高衛(wèi)生間防水一次驗(yàn)收合格率
- 彈藥庫(kù)防火防爆消防演示
- 大地測(cè)量控制點(diǎn)坐標(biāo)轉(zhuǎn)換技術(shù)規(guī)程
評(píng)論
0/150
提交評(píng)論