版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
學(xué)習(xí)控制目錄01學(xué)習(xí)控制概述02重復(fù)控制03迭代學(xué)習(xí)控制04強(qiáng)化學(xué)習(xí)控制05方法對比與工程選型前沿發(fā)展與研究展望學(xué)習(xí)控制概述PART01學(xué)習(xí)控制的定義與內(nèi)涵學(xué)習(xí)控制本質(zhì)上是對未知不確定信息進(jìn)行估計(jì),通過這種估計(jì)逐步改善控制性能,降低不確定性對系統(tǒng)的負(fù)面影響,實(shí)現(xiàn)系統(tǒng)性能的優(yōu)化。未知信息估計(jì)與性能提升從數(shù)學(xué)角度看,學(xué)習(xí)問題可視為函數(shù)未知量的估計(jì)或逐次逼近,該函數(shù)反映被控系統(tǒng)特性,通過不斷逼近實(shí)現(xiàn)對系統(tǒng)的有效控制。函數(shù)未知量的逐次逼近學(xué)習(xí)控制借鑒《韋氏詞典》中“基于經(jīng)驗(yàn)對行為的修正”理念,在系統(tǒng)運(yùn)行時(shí)學(xué)習(xí)環(huán)境與被控對象的未知信息,將其轉(zhuǎn)化為“經(jīng)驗(yàn)”用于后續(xù)決策與控制,以改善控制性能?;诮?jīng)驗(yàn)的行為修正01、02、03、研究動(dòng)機(jī)與工程挑戰(zhàn)在工程實(shí)踐中,物理系統(tǒng)受環(huán)境影響大,其先驗(yàn)信息往往未知或局部已知,難以獲得精確數(shù)學(xué)模型,導(dǎo)致經(jīng)典控制策略應(yīng)用受限。模型不確定性的挑戰(zhàn)經(jīng)典控制策略在被控對象先驗(yàn)知識(shí)完全已知時(shí)效果良好,但面對不確定性時(shí),直接忽略未知信息或基于猜測值設(shè)計(jì)系統(tǒng),只能獲得一般或次優(yōu)控制效果。傳統(tǒng)控制策略的局限為解決上述問題,學(xué)習(xí)控制通過在運(yùn)行過程中估計(jì)未知信息,采用優(yōu)化控制方法,逐步提升控制性能,滿足工程實(shí)際需求。學(xué)習(xí)控制的應(yīng)運(yùn)而生四大核心特征解析自主性:自我改進(jìn)的性能學(xué)習(xí)控制系統(tǒng)具備自主性,其性能能夠自我改進(jìn),不依賴外部過多干預(yù),可根據(jù)學(xué)習(xí)到的信息自主調(diào)整控制策略。0102動(dòng)態(tài)性:隨時(shí)間變化的過程學(xué)習(xí)控制是一個(gè)動(dòng)態(tài)過程,系統(tǒng)性能隨時(shí)間不斷變化,在與外界反復(fù)交互中持續(xù)優(yōu)化,以適應(yīng)不同的環(huán)境和任務(wù)需求。四大核心特征解析學(xué)習(xí)控制系統(tǒng)擁有記憶功能,能夠積累在運(yùn)行過程中獲得的經(jīng)驗(yàn),這些經(jīng)驗(yàn)成為后續(xù)控制決策的重要依據(jù),助力性能提升。記憶性:經(jīng)驗(yàn)積累的能力學(xué)習(xí)控制系統(tǒng)通過明確當(dāng)前性能與目標(biāo)性能的差距,以此為依據(jù)施加改進(jìn)操作,實(shí)現(xiàn)控制策略的不斷優(yōu)化。反饋性:基于性能差距的優(yōu)化學(xué)習(xí)控制的分類體系在有外部監(jiān)督的學(xué)習(xí)控制中,期望答案被認(rèn)為是精確的??刂破髟谝阎鸢钢笇?dǎo)下,修改控制策略或參數(shù),提高系統(tǒng)性能,常用于離線學(xué)習(xí)場景。有外部監(jiān)督的學(xué)習(xí)控制01無外部監(jiān)督時(shí),期望答案不完全已知。設(shè)計(jì)控制器可通過考慮所有可能答案或利用性能指標(biāo)指導(dǎo)學(xué)習(xí),學(xué)習(xí)信息作為“經(jīng)驗(yàn)”改善控制質(zhì)量,常用于在線學(xué)習(xí)。無外部監(jiān)督的學(xué)習(xí)控制02強(qiáng)化學(xué)習(xí)控制利用訓(xùn)練信息評估動(dòng)作,根據(jù)獎(jiǎng)勵(lì)自行改變控制規(guī)則。它結(jié)合了“探索-利用”機(jī)制,在復(fù)雜環(huán)境中能有效學(xué)習(xí)最優(yōu)策略。強(qiáng)化學(xué)習(xí)控制03重復(fù)控制PART02周期信號(hào)控制原理基于內(nèi)模原理,構(gòu)建時(shí)滯反饋機(jī)制。在周期信號(hào)控制中,時(shí)滯環(huán)節(jié)起著關(guān)鍵作用,它使得控制器能夠?qū)W習(xí)前一周期的信息,例如誤差信號(hào),以此來調(diào)整當(dāng)前周期的控制作用,從而實(shí)現(xiàn)對周期信號(hào)的漸進(jìn)跟蹤控制。時(shí)滯反饋機(jī)制構(gòu)建內(nèi)模原理是周期信號(hào)控制的核心理論,它為實(shí)現(xiàn)對特定信號(hào)的精確跟蹤和抑制提供了理論依據(jù)。通過在控制器中引入與參考信號(hào)或擾動(dòng)信號(hào)相同形式的“模型”,系統(tǒng)能夠更好地應(yīng)對這些信號(hào)。內(nèi)模原理基礎(chǔ)原型與改進(jìn)型控制器設(shè)計(jì)原型重復(fù)控制器結(jié)構(gòu)相對簡單,從控制結(jié)構(gòu)上看,通過學(xué)習(xí)上一周期的誤差信號(hào)實(shí)現(xiàn)對周期信號(hào)的控制。在頻域中,其在周期信號(hào)的基頻和倍頻率處具有無窮大的控制增益,理論上能實(shí)現(xiàn)對周期信號(hào)的有效跟蹤或抑制,但對嚴(yán)格正則系統(tǒng)存在局限性。原型重復(fù)控制器剖析對于嚴(yán)格正則的被控系統(tǒng),原型重復(fù)控制系統(tǒng)無法被鎮(zhèn)定。這是由于其系統(tǒng)特性導(dǎo)致在某些情況下,系統(tǒng)的穩(wěn)定性難以保證,需要對控制器進(jìn)行改進(jìn)以適應(yīng)這類系統(tǒng)的控制需求。嚴(yán)格正則系統(tǒng)的挑戰(zhàn)原型與改進(jìn)型控制器設(shè)計(jì)在時(shí)滯正反饋控制回路中串聯(lián)低通濾波器q(s)構(gòu)造改進(jìn)型重復(fù)控制器。低通濾波器將原型重復(fù)控制器的無窮多個(gè)虛軸極點(diǎn)轉(zhuǎn)移到了s平面的左半平面,提高了系統(tǒng)的可鎮(zhèn)定性,雖無法實(shí)現(xiàn)周期信號(hào)的完全跟蹤或抑制,但在工程上能滿足一定精度要求。低通濾波器的改進(jìn)作用旋轉(zhuǎn)系統(tǒng)控制案例基于改進(jìn)型重復(fù)控制器設(shè)計(jì)旋轉(zhuǎn)控制系統(tǒng),該系統(tǒng)主要由被控對象、改進(jìn)型重復(fù)控制器和狀態(tài)反饋控制器三部分組成。通過狀態(tài)反饋建立控制律,如u(t)=Kev(t)+Kpx(t),其中Ke為重復(fù)控制器增益,Kp為狀態(tài)反饋增益。以由兩臺(tái)直流電機(jī)組成的旋轉(zhuǎn)系統(tǒng)為例,電機(jī)的軸承通過聯(lián)軸器耦合在一起?;跈C(jī)理建模和參數(shù)辨識(shí)技術(shù),可得到旋轉(zhuǎn)系統(tǒng)的狀態(tài)空間模型,明確狀態(tài)變量、控制輸入、擾動(dòng)輸入以及系統(tǒng)輸出之間的關(guān)系。狀態(tài)反饋重復(fù)控制策略雙電機(jī)耦合系統(tǒng)建模旋轉(zhuǎn)系統(tǒng)控制案例在給定周期性參考輸入和干擾的情況下,如r(t)=sinπt+0.5sin2πt+0.5sin3πt,d(t)=3sinπt+2sin2πt,經(jīng)過設(shè)計(jì)反饋控制器增益,系統(tǒng)仿真結(jié)果顯示,閉環(huán)控制系統(tǒng)穩(wěn)定,且經(jīng)過兩個(gè)周期后,旋轉(zhuǎn)控制系統(tǒng)的輸出進(jìn)入穩(wěn)定狀態(tài),穩(wěn)態(tài)誤差趨于0,體現(xiàn)了重復(fù)控制在該系統(tǒng)中的有效性。誤差收斂過程展示迭代學(xué)習(xí)控制方法PART03有限區(qū)間軌跡優(yōu)化原理在有限區(qū)間軌跡優(yōu)化中,系統(tǒng)會(huì)收集每次運(yùn)行產(chǎn)生的誤差信息。這些誤差反映了實(shí)際軌跡與期望軌跡的偏差,是后續(xù)優(yōu)化的關(guān)鍵依據(jù)。基于歷史誤差,系統(tǒng)通過特定算法對控制輸入進(jìn)行調(diào)整。隨著迭代次數(shù)增加,控制輸入不斷優(yōu)化,使實(shí)際軌跡逐漸接近期望軌跡,實(shí)現(xiàn)漸進(jìn)逼近。歷史誤差修正機(jī)制漸進(jìn)逼近過程解析PID型迭代算法演化D型迭代學(xué)習(xí)控制律是PID型算法的基礎(chǔ)形式,如uk+1(t)=uk(t)+Γek(t),通過當(dāng)前誤差對控制輸入進(jìn)行簡單修正。D型控制律基礎(chǔ)01P型在D型基礎(chǔ)上增加了對誤差比例項(xiàng)的考慮,PI型則進(jìn)一步引入積分項(xiàng),使控制更加精確,能更好應(yīng)對復(fù)雜系統(tǒng)動(dòng)態(tài)變化。P型與PI型的改進(jìn)02PD型控制律結(jié)合了比例和微分項(xiàng),uk+1(t)=uk(t)+Γek(t)+Φek(t),能快速響應(yīng)誤差變化,有效改善系統(tǒng)的動(dòng)態(tài)性能和穩(wěn)定性。PD型控制律的優(yōu)勢03機(jī)械手軌跡跟蹤應(yīng)用以雙關(guān)節(jié)串聯(lián)機(jī)械手為研究對象,其動(dòng)力學(xué)模型由二階非線性微分方程描述,涉及慣性矩陣、離心力、哥氏力和重力項(xiàng)等參數(shù)。雙關(guān)節(jié)機(jī)器人模型01在迭代學(xué)習(xí)控制過程中,雙關(guān)節(jié)機(jī)器人的角度誤差隨著迭代次數(shù)增加逐漸減小。經(jīng)過20次迭代后,誤差明顯收斂,表明控制策略的有效性。迭代過程中的誤差變化02從仿真結(jié)果可以直觀看到,經(jīng)過20次迭代學(xué)習(xí),雙關(guān)節(jié)機(jī)器人各關(guān)節(jié)能夠較好地跟蹤期望軌跡,實(shí)現(xiàn)了高精度的軌跡跟蹤控制??刂菩Ч故?3強(qiáng)化學(xué)習(xí)控制PART04馬爾可夫決策過程建模馬爾可夫決策過程以狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)為核心元素構(gòu)建交互框架。個(gè)體在某狀態(tài)下執(zhí)行動(dòng)作,環(huán)境基于此給出獎(jiǎng)勵(lì)并轉(zhuǎn)移到新狀態(tài)。例如在機(jī)器人探索環(huán)境任務(wù)中,機(jī)器人所處位置是狀態(tài),選擇的移動(dòng)方向?yàn)閯?dòng)作,到達(dá)新位置獲得的能量補(bǔ)充為獎(jiǎng)勵(lì)。貝爾曼方程是求解馬爾可夫決策過程的關(guān)鍵。它描述了狀態(tài)價(jià)值函數(shù)或動(dòng)作價(jià)值函數(shù)的遞歸關(guān)系,通過當(dāng)前狀態(tài)、動(dòng)作、即時(shí)獎(jiǎng)勵(lì)以及下一狀態(tài)的價(jià)值來計(jì)算當(dāng)前價(jià)值。如在路徑規(guī)劃問題中,可利用貝爾曼方程計(jì)算從當(dāng)前節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的最優(yōu)路徑價(jià)值。狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)交互框架貝爾曼方程原理馬爾可夫決策過程建?;谪悹柭匠痰那蠼馔ㄟ^迭代計(jì)算貝爾曼方程,可找到最優(yōu)策略和最優(yōu)價(jià)值函數(shù)。常見方法有策略迭代和值迭代。策略迭代先評估策略,再改進(jìn)策略;值迭代則直接尋找最優(yōu)狀態(tài)動(dòng)作值函數(shù)對應(yīng)的動(dòng)作。以網(wǎng)格世界游戲?yàn)槔眠@些方法能找到從起點(diǎn)到終點(diǎn)的最佳移動(dòng)策略。深度Q網(wǎng)絡(luò)技術(shù)突破目標(biāo)網(wǎng)絡(luò)是獨(dú)立于主Q網(wǎng)絡(luò)的結(jié)構(gòu),參數(shù)更新相對緩慢。它用于生成Q-Learning的目標(biāo)值,降低預(yù)測Q值和估計(jì)Q值的相關(guān)性。在訓(xùn)練過程中,主Q網(wǎng)絡(luò)實(shí)時(shí)更新參數(shù),目標(biāo)網(wǎng)絡(luò)定期同步主網(wǎng)絡(luò)參數(shù),提高了算法的穩(wěn)定性和收斂性。目標(biāo)網(wǎng)絡(luò)的作用經(jīng)驗(yàn)回放是深度Q網(wǎng)絡(luò)的重要?jiǎng)?chuàng)新。它將個(gè)體與環(huán)境交互產(chǎn)生的狀態(tài)轉(zhuǎn)移元組存儲(chǔ)在經(jīng)驗(yàn)池中,訓(xùn)練時(shí)隨機(jī)采樣。這打破了數(shù)據(jù)間的相關(guān)性,使訓(xùn)練數(shù)據(jù)滿足獨(dú)立同分布,提升網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性。如在Atari游戲中,通過經(jīng)驗(yàn)回放有效避免了網(wǎng)絡(luò)過擬合問題。經(jīng)驗(yàn)回放機(jī)制深度Q網(wǎng)絡(luò)技術(shù)突破深度Q網(wǎng)絡(luò)通過經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò),有效解決了訓(xùn)練過程中的不穩(wěn)定問題。傳統(tǒng)Q-Learning在處理高維狀態(tài)空間時(shí)易出現(xiàn)震蕩,而深度Q網(wǎng)絡(luò)利用神經(jīng)網(wǎng)絡(luò)擬合Q值,并借助這兩個(gè)技術(shù)手段,使得訓(xùn)練更加穩(wěn)定,能更好地學(xué)習(xí)到最優(yōu)策略。解決訓(xùn)練穩(wěn)定性問題策略梯度算法演進(jìn)Actor-Critic算法結(jié)合了策略網(wǎng)絡(luò)(Actor)和價(jià)值網(wǎng)絡(luò)(Critic)。Actor負(fù)責(zé)生成動(dòng)作,Critic評估狀態(tài)價(jià)值,為Actor提供反饋。通過這種方式,算法能更有效地學(xué)習(xí)到最優(yōu)策略,在復(fù)雜的連續(xù)控制任務(wù)中表現(xiàn)出色,如機(jī)器人的行走控制。Actor-Critic算法原理蒙特卡洛策略梯度是策略梯度算法的基礎(chǔ)形式。它通過直接采樣個(gè)體與環(huán)境交互的軌跡,計(jì)算策略網(wǎng)絡(luò)參數(shù)的梯度,采用梯度上升方法更新參數(shù)。例如在簡單的迷宮探索任務(wù)中,利用蒙特卡洛策略梯度可逐步優(yōu)化智能體的探索策略。蒙特卡洛策略梯度策略梯度算法演進(jìn)從蒙特卡洛策略梯度到Actor-Critic算法,策略梯度算法不斷演進(jìn)。蒙特卡洛策略梯度直接基于采樣軌跡優(yōu)化策略,而Actor-Critic引入價(jià)值網(wǎng)絡(luò),利用價(jià)值估計(jì)來指導(dǎo)策略更新,提高了策略優(yōu)化的效率和穩(wěn)定性,推動(dòng)了強(qiáng)化學(xué)習(xí)在更多領(lǐng)域的應(yīng)用。策略優(yōu)化路徑倒立擺控制實(shí)驗(yàn)實(shí)驗(yàn)采用MATLAB中預(yù)定義的“CartPole-Discrete”環(huán)境模擬倒立擺系統(tǒng)。環(huán)境狀態(tài)包含小車位置、速度、桿角度和角速度,個(gè)體可選擇向左或向右推動(dòng)小車。同時(shí)設(shè)置了獎(jiǎng)勵(lì)機(jī)制,平衡時(shí)給予獎(jiǎng)勵(lì),失衡或超出范圍則給予懲罰,確保實(shí)驗(yàn)可重復(fù)性。設(shè)計(jì)基于DoubleDQN的個(gè)體來控制倒立擺系統(tǒng)。通過構(gòu)建神經(jīng)網(wǎng)絡(luò)作為Critic網(wǎng)絡(luò),設(shè)置超參數(shù)并創(chuàng)建agent對象。在訓(xùn)練過程中,指定訓(xùn)練超參數(shù),利用train函數(shù)進(jìn)行訓(xùn)練,使個(gè)體學(xué)習(xí)到有效的控制策略。實(shí)驗(yàn)環(huán)境設(shè)置DoubleDQN的應(yīng)用倒立擺控制實(shí)驗(yàn)經(jīng)過訓(xùn)練,DoubleDQN個(gè)體能使倒立擺在仿真環(huán)境中保持平衡。從仿真經(jīng)驗(yàn)數(shù)據(jù)提取的小車位置、速度、桿角度等信息表明,該算法在連續(xù)動(dòng)作空間的平衡控制任務(wù)中取得了良好效果,驗(yàn)證了其有效性和可行性。實(shí)驗(yàn)效果驗(yàn)證方法對比與工程選型PART05三類方法特性對比表計(jì)算復(fù)雜度上,重復(fù)控制結(jié)構(gòu)相對簡單,計(jì)算量較?。坏鷮W(xué)習(xí)控制隨著迭代次數(shù)增加,計(jì)算量會(huì)有所上升;強(qiáng)化學(xué)習(xí)控制尤其是深度強(qiáng)化學(xué)習(xí),涉及神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型,計(jì)算復(fù)雜度較高。在響應(yīng)速度方面,重復(fù)控制由于其連續(xù)的控制過程,能較快地對周期性信號(hào)做出響應(yīng);迭代學(xué)習(xí)控制在多次迭代后可實(shí)現(xiàn)較好的跟蹤,但初始階段響應(yīng)相對較慢;強(qiáng)化學(xué)習(xí)控制需通過不斷與環(huán)境交互學(xué)習(xí),響應(yīng)速度受學(xué)習(xí)過程影響,初期較慢,學(xué)習(xí)后可快速響應(yīng)。計(jì)算復(fù)雜度響應(yīng)速度三類方法特性對比表適用場景各有不同,重復(fù)控制適用于處理周期性控制任務(wù)或周期性信號(hào),如數(shù)控車削、工業(yè)機(jī)械臂周期性軌跡跟蹤;迭代學(xué)習(xí)控制適合在有限區(qū)間上重復(fù)運(yùn)行的非線性動(dòng)態(tài)系統(tǒng),像機(jī)械手的軌跡控制;強(qiáng)化學(xué)習(xí)控制則在復(fù)雜動(dòng)態(tài)環(huán)境、不確定性高的場景中表現(xiàn)出色,如倒立擺小車控制。適用場景工業(yè)場景選型指南當(dāng)對模型精度要求較高且系統(tǒng)先驗(yàn)信息未知時(shí),迭代學(xué)習(xí)控制是較好選擇。它通過多次迭代修正控制輸入,不依賴精確數(shù)學(xué)模型,能在運(yùn)行中逐漸提高控制精度。若對模型精度要求不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年北京市朝陽區(qū)高三期末高考數(shù)學(xué)試卷試題(含答案詳解)
- 2026屆新疆維吾爾自治區(qū)克拉瑪依市第十三中學(xué)生物高三上期末達(dá)標(biāo)檢測模擬試題含解析
- 內(nèi)河海事執(zhí)法培訓(xùn)
- 歡送儀式活動(dòng)策劃方案(3篇)
- 管監(jiān)責(zé)任實(shí)施管理制度(3篇)
- 網(wǎng)絡(luò)銷售配送管理制度內(nèi)容(3篇)
- 苗圃技術(shù)管理制度內(nèi)容(3篇)
- 獸藥生產(chǎn)技術(shù)課程
- 項(xiàng)目門衛(wèi)值班管理制度內(nèi)容(3篇)
- 獸藥培訓(xùn)課件分享稿模板
- 質(zhì)檢員班組級安全培訓(xùn)課件
- 蓖麻醇酸鋅復(fù)合除味劑的制備及其除臭效能研究
- 海岸帶調(diào)查技術(shù)規(guī)程 國家海洋局908專項(xiàng)辦公室編
- 危重病人的院前急救課件
- 礦井突水機(jī)理研究-洞察及研究
- 2025年九江職業(yè)大學(xué)單招《職業(yè)適應(yīng)性測試》模擬試題(基礎(chǔ)題)附答案詳解
- 防御性駕駛安全培訓(xùn)內(nèi)容
- 鉆探原始班報(bào)表試行版
- 青年積分培養(yǎng)管理辦法
- 市級應(yīng)急廣播管理制度
- 智慧檢驗(yàn)與大數(shù)據(jù)分析知到智慧樹期末考試答案題庫2025年溫州醫(yī)科大學(xué)
評論
0/150
提交評論