基于近似動態(tài)規(guī)劃的倒立擺控制:理論、算法與實踐_第1頁
基于近似動態(tài)規(guī)劃的倒立擺控制:理論、算法與實踐_第2頁
基于近似動態(tài)規(guī)劃的倒立擺控制:理論、算法與實踐_第3頁
基于近似動態(tài)規(guī)劃的倒立擺控制:理論、算法與實踐_第4頁
基于近似動態(tài)規(guī)劃的倒立擺控制:理論、算法與實踐_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于近似動態(tài)規(guī)劃的倒立擺控制:理論、算法與實踐一、引言1.1研究背景與意義1.1.1研究背景在當今的工程實踐與科學研究領域,復雜系統(tǒng)的控制問題始終是核心且極具挑戰(zhàn)性的課題。從航空航天中的飛行器姿態(tài)控制,到工業(yè)生產(chǎn)里的精密加工過程,再到智能交通系統(tǒng)的高效運行,復雜系統(tǒng)無處不在。這些系統(tǒng)普遍呈現(xiàn)出高度非線性、嚴重不確定性的特征,對控制精度有著嚴苛要求,控制任務也極為繁雜,并且需要與外界環(huán)境頻繁交互。以飛行器姿態(tài)控制為例,飛行器在飛行過程中,會受到氣流擾動、發(fā)動機推力變化以及自身結構變形等多種因素的影響,這些因素相互交織,使得飛行器的動力學模型呈現(xiàn)出高度非線性和不確定性。傳統(tǒng)的控制理論,如基于線性模型的PID控制等,主要依賴于精確的數(shù)學模型來設計控制器。對于這類復雜系統(tǒng),建立精確的定量數(shù)學模型難度極大,即便獲取了數(shù)學模型,由于系統(tǒng)時變、參數(shù)變化以及模型本身的復雜性,也難以運用傳統(tǒng)控制理論進行全面分析與綜合設計,導致控制效果不佳,無法滿足實際需求。近似動態(tài)規(guī)劃(ApproximateDynamicProgramming,ADP)作為一種適用于非線性隨機系統(tǒng)的近似最優(yōu)控制方法,應運而生。它是智能控制系統(tǒng)研究的重要組成部分,融合了強化學習和動態(tài)規(guī)劃的思想,通過模擬人類從環(huán)境反饋中學習的過程,根據(jù)環(huán)境反饋的評價信號來近似最優(yōu)控制策略。這使得它無需依賴環(huán)境和被控對象的解析模型,具有良好的通用性,能夠有效應對系統(tǒng)的不確定性和非線性特性,尤其適用于處理時變的復雜系統(tǒng)和動態(tài)變化的復雜任務。倒立擺系統(tǒng)作為控制領域的經(jīng)典模型,具有高階次、不穩(wěn)定、多變量、非線性和強耦合的特性,是研究控制算法的理想實驗平臺。其控制目標是通過對底座施加合適的力,使擺桿保持垂直倒立狀態(tài),這一過程極具挑戰(zhàn)性,對控制器的性能要求極高。傳統(tǒng)控制方法在倒立擺控制中存在諸多局限性,而近似動態(tài)規(guī)劃為倒立擺控制提供了新的思路和方法,有望實現(xiàn)更優(yōu)的控制效果。1.1.2研究意義本研究具有重要的理論與實際應用價值。在理論層面,深入研究基于近似動態(tài)規(guī)劃的倒立擺控制,有助于進一步拓展近似動態(tài)規(guī)劃算法在非線性控制系統(tǒng)中的應用范圍和深度,為解決復雜系統(tǒng)的控制問題提供更有效的方法和理論依據(jù)。通過對近似動態(tài)規(guī)劃在倒立擺系統(tǒng)中的應用研究,可以更深入地理解其控制機理和性能特點,為該算法的進一步改進和完善提供實踐基礎,推動控制理論的創(chuàng)新發(fā)展。從實際應用角度來看,倒立擺系統(tǒng)的控制研究成果可以為諸多相關領域提供借鑒和參考。例如,在機器人領域,雙足機器人的直立行走控制與倒立擺系統(tǒng)的控制原理相似,本研究的成果有助于提高雙足機器人的穩(wěn)定性和行走能力,使其在復雜環(huán)境中能夠更加靈活、可靠地執(zhí)行任務;在航空航天領域,火箭發(fā)射過程中的姿態(tài)調(diào)整與倒立擺的平衡控制具有一定的相似性,基于近似動態(tài)規(guī)劃的倒立擺控制研究成果,有望為火箭發(fā)射姿態(tài)控制提供新的方法和策略,提高火箭發(fā)射的成功率和安全性。目前倒立擺控制中存在魯棒性較差的問題,這限制了其在實際場景中的廣泛應用。本研究聚焦于基于近似動態(tài)規(guī)劃的倒立擺控制,有望通過優(yōu)化算法和控制策略,有效解決倒立擺控制中的魯棒性問題,提高其在不同環(huán)境和工況下的穩(wěn)定性和可靠性,從而提升倒立擺系統(tǒng)在實際應用中的實用價值。1.2近似動態(tài)規(guī)劃發(fā)展及現(xiàn)狀近似動態(tài)規(guī)劃方法的起源可追溯到20世紀80年代后期,Widrow是最早提出相關概念的學者,他在控制問題中明確闡述了評價(Critic)神經(jīng)元素概念,為近似動態(tài)規(guī)劃的發(fā)展奠定了基礎。此后,隨著學術界對其控制機理以及與動態(tài)規(guī)劃關系認識的逐步深入,近似動態(tài)規(guī)劃逐漸引發(fā)了人們的廣泛關注,并在控制、決策優(yōu)化等眾多領域得到了應用。在航空航天領域,JohnJ.Murray等人運用ADP方法對無人駕駛的X-43A-LS型飛行器自動著落裝置開展仿真試驗,其算法基于LyapunovSynthesis算法和美國宇航局(NASA)系統(tǒng)ID進行開發(fā),為飛行器自動著落控制提供了新的思路和方法。在電力系統(tǒng)領域,孫健等人提出一種基于改進PID神經(jīng)網(wǎng)絡的直接啟發(fā)式動態(tài)規(guī)劃算法,將初始執(zhí)行網(wǎng)絡與PID控制器建立等價關系,利用已設計好的PID控制器指導初值選取,有效提高了算法收斂性,并將其應用于4機2區(qū)系統(tǒng)的靜止無功補償器附加阻尼控制,取得了良好的控制效果。在交通控制領域,基于近似動態(tài)規(guī)劃的交通控制算法研究不斷深入,其通過學習逼近目標函數(shù)并調(diào)整控制參數(shù),有望提高交通控制效率、緩解交通擁堵。在熱力站優(yōu)化控制中,近似動態(tài)規(guī)劃也展現(xiàn)出良好的應用效果,能夠?qū)崿F(xiàn)對熱力站的最優(yōu)控制,提高能源利用效率。在倒立擺控制研究中,近似動態(tài)規(guī)劃同樣受到了廣泛關注。眾多學者嘗試運用不同的近似動態(tài)規(guī)劃算法來實現(xiàn)倒立擺的穩(wěn)定控制,并取得了一定的成果。然而,當前的研究仍存在一些不足之處。一方面,部分算法在處理倒立擺系統(tǒng)的非線性和不確定性時,控制精度和魯棒性有待進一步提高,難以在復雜多變的環(huán)境中實現(xiàn)高精度的穩(wěn)定控制;另一方面,算法的計算效率和實時性也限制了其在實際應用中的推廣,在面對實時性要求較高的場景時,可能無法及時做出準確的控制決策。因此,如何改進近似動態(tài)規(guī)劃算法,提高其在倒立擺控制中的性能,依然是該領域的研究重點和難點。1.3研究內(nèi)容與方法1.3.1研究內(nèi)容本研究主要圍繞基于近似動態(tài)規(guī)劃的倒立擺控制展開,具體研究內(nèi)容如下:近似動態(tài)規(guī)劃算法原理研究:深入剖析近似動態(tài)規(guī)劃的基本原理,包括其與動態(tài)規(guī)劃、強化學習的關系,以及其在解決非線性系統(tǒng)控制問題中的優(yōu)勢和獨特機制。全面梳理近似動態(tài)規(guī)劃的主要算法類型,如啟發(fā)式動態(tài)規(guī)劃(HDP)、雙啟發(fā)式動態(tài)規(guī)劃(DHP)和全局雙啟發(fā)式動態(tài)規(guī)劃(GDHP)等,詳細分析每種算法的結構、運行流程和數(shù)學原理,明確其適用場景和局限性。基于近似動態(tài)規(guī)劃的倒立擺控制系統(tǒng)設計:建立精確的倒立擺數(shù)學模型,充分考慮倒立擺系統(tǒng)的高階次、不穩(wěn)定、多變量、非線性和強耦合等特性,運用拉格朗日方程或牛頓第二定律等方法,推導出能夠準確描述倒立擺動力學行為的方程。根據(jù)近似動態(tài)規(guī)劃算法原理,精心設計倒立擺控制系統(tǒng)的結構,確定系統(tǒng)的狀態(tài)變量、控制變量和獎勵函數(shù)。其中,狀態(tài)變量需全面反映倒立擺的運動狀態(tài),如擺桿角度、角速度、小車位置和速度等;控制變量通常為施加在小車上的力或力矩;獎勵函數(shù)的設計應緊密圍繞控制目標,即保持擺桿垂直倒立,對擺桿偏離垂直方向的角度、小車偏離中心位置的距離等進行量化懲罰,對擺桿保持垂直、小車穩(wěn)定在中心位置等理想狀態(tài)給予獎勵。運用選定的近似動態(tài)規(guī)劃算法,對倒立擺控制系統(tǒng)進行訓練和優(yōu)化,不斷調(diào)整算法的參數(shù)和策略,以實現(xiàn)對倒立擺系統(tǒng)的最優(yōu)控制。系統(tǒng)性能評估與分析:通過大量的仿真實驗,全面評估基于近似動態(tài)規(guī)劃的倒立擺控制系統(tǒng)的性能,包括穩(wěn)定性、響應速度、控制精度等關鍵指標。在仿真過程中,設置多種不同的初始條件和干擾因素,模擬實際應用中可能遇到的各種復雜情況,以檢驗系統(tǒng)的魯棒性和適應性。搭建實際的倒立擺實驗平臺,將設計好的控制器應用于實際系統(tǒng)中進行實驗驗證,對比仿真結果和實際實驗數(shù)據(jù),深入分析兩者之間的差異及其原因,進一步優(yōu)化和改進控制系統(tǒng),確保其在實際應用中的可靠性和有效性。對比基于近似動態(tài)規(guī)劃的控制方法與傳統(tǒng)控制方法(如PID控制、LQR控制等)在倒立擺控制中的性能表現(xiàn),從控制精度、魯棒性、計算復雜度等多個方面進行詳細分析和比較,明確基于近似動態(tài)規(guī)劃的控制方法的優(yōu)勢和不足之處,為其在實際工程中的應用提供有力的參考依據(jù)。1.3.2研究方法本研究將綜合運用多種研究方法,以確保研究的科學性、全面性和有效性,具體方法如下:理論分析方法:運用控制理論、數(shù)學分析等相關知識,深入研究近似動態(tài)規(guī)劃算法的原理和特性,為倒立擺控制系統(tǒng)的設計提供堅實的理論基礎。通過對倒立擺系統(tǒng)的動力學分析,建立準確的數(shù)學模型,為后續(xù)的算法設計和系統(tǒng)仿真提供精確的模型支持。對近似動態(tài)規(guī)劃算法在倒立擺控制中的應用進行理論推導和分析,明確算法的收斂性、穩(wěn)定性等關鍵性能指標,為算法的優(yōu)化和改進提供理論指導。算法研究與優(yōu)化方法:廣泛調(diào)研和深入研究現(xiàn)有的近似動態(tài)規(guī)劃算法,結合倒立擺系統(tǒng)的特點和控制需求,選擇最適合的算法進行應用和改進。通過對算法的參數(shù)調(diào)整、結構優(yōu)化等手段,提高算法的性能和效率,使其能夠更好地滿足倒立擺控制的要求。運用智能優(yōu)化算法(如遺傳算法、粒子群優(yōu)化算法等)對近似動態(tài)規(guī)劃算法的參數(shù)進行優(yōu)化,尋找最優(yōu)的參數(shù)組合,以提升算法的收斂速度和控制精度。仿真實驗方法:利用MATLAB、Simulink等仿真軟件,搭建基于近似動態(tài)規(guī)劃的倒立擺控制系統(tǒng)的仿真模型,進行大量的仿真實驗。通過仿真實驗,全面測試和評估系統(tǒng)的性能,深入分析系統(tǒng)在不同條件下的運行情況,為系統(tǒng)的優(yōu)化和改進提供豐富的數(shù)據(jù)支持。在仿真實驗中,設置多種不同的仿真場景和參數(shù)組合,模擬實際應用中的各種復雜情況,對系統(tǒng)的魯棒性和適應性進行充分驗證。利用仿真軟件的可視化功能,直觀地展示系統(tǒng)的運行過程和控制效果,便于對系統(tǒng)進行分析和評估。實驗驗證方法:搭建實際的倒立擺實驗平臺,將經(jīng)過仿真優(yōu)化的控制器應用于實際系統(tǒng)中進行實驗驗證。通過實際實驗,檢驗控制器的實際控制效果和可靠性,對比仿真結果和實際實驗數(shù)據(jù),深入分析兩者之間的差異及其原因,進一步優(yōu)化和改進控制器,確保其在實際應用中的有效性和穩(wěn)定性。在實際實驗中,嚴格控制實驗條件,確保實驗數(shù)據(jù)的準確性和可靠性。同時,對實驗過程中出現(xiàn)的問題進行及時分析和解決,不斷完善實驗方案和控制器設計。二、近似動態(tài)規(guī)劃方法剖析2.1動態(tài)規(guī)劃基石探究2.1.1基本概念解析動態(tài)規(guī)劃是一種用于解決多階段決策過程最優(yōu)化問題的數(shù)學方法,由美國數(shù)學家理查德?貝爾曼(RichardBellman)在20世紀50年代提出。其核心概念包括階段、狀態(tài)、決策、策略、狀態(tài)轉移方程和指標函數(shù)。階段是對整個決策過程的劃分,將問題按照時間或空間等因素分解為一系列相互聯(lián)系的子問題。例如,在生產(chǎn)調(diào)度問題中,可以按照生產(chǎn)的時間順序?qū)⒄麄€生產(chǎn)過程劃分為若干個階段,每個階段對應一個特定的生產(chǎn)任務或時間段。狀態(tài)是描述每個階段開始時系統(tǒng)所處的狀況或條件的變量。它是決策的依據(jù),必須具備無后效性,即當前狀態(tài)一旦確定,未來的決策和狀態(tài)轉移只取決于當前狀態(tài),而與過去的歷史無關。以機器人路徑規(guī)劃為例,機器人在某個時刻的位置和方向就可以作為狀態(tài)變量,這些狀態(tài)變量完全決定了機器人下一步的行動選擇,而與機器人之前是如何到達該位置的路徑無關。決策是在每個階段根據(jù)當前狀態(tài)所做出的選擇,決策變量表示決策的具體內(nèi)容。決策的選擇將直接影響系統(tǒng)從當前狀態(tài)轉移到下一個狀態(tài)。在資源分配問題中,對于每種資源在不同項目或任務之間的分配比例就是決策變量,不同的分配比例會導致不同的資源利用效果和系統(tǒng)狀態(tài)變化。策略是由各個階段的決策所組成的一個完整的決策序列,它規(guī)定了在不同狀態(tài)下應采取的決策。一個策略對應著從初始狀態(tài)到最終狀態(tài)的一條完整路徑。例如,在旅行規(guī)劃中,從出發(fā)地到目的地所選擇的一系列交通方式、路線和停留地點的組合就是一個策略,不同的策略會導致不同的旅行體驗和成本。狀態(tài)轉移方程描述了系統(tǒng)從一個狀態(tài)轉移到另一個狀態(tài)的規(guī)律,它是狀態(tài)變量和決策變量之間的函數(shù)關系。通過狀態(tài)轉移方程,可以根據(jù)當前狀態(tài)和所做出的決策計算出下一個狀態(tài)。在一個簡單的庫存管理系統(tǒng)中,假設當前庫存狀態(tài)為S_t,在第t階段的決策是進貨量x_t,那么下一階段的庫存狀態(tài)S_{t+1}可以通過狀態(tài)轉移方程S_{t+1}=S_t+x_t-d_t計算得出,其中d_t是第t階段的需求量。指標函數(shù)用于衡量整個決策過程的優(yōu)劣,它是一個關于狀態(tài)和決策的函數(shù)。常見的指標函數(shù)形式包括各階段指標的和或積。在經(jīng)濟決策中,通常將總利潤或總成本作為指標函數(shù),通過優(yōu)化指標函數(shù)來尋找最優(yōu)的決策策略,以實現(xiàn)利潤最大化或成本最小化的目標。動態(tài)規(guī)劃解決多階段決策問題的基本思路是將一個復雜的問題分解為一系列相互關聯(lián)的子問題,通過求解子問題的最優(yōu)解來逐步逼近原問題的最優(yōu)解。具體來說,首先需要定義問題的階段、狀態(tài)、決策和指標函數(shù),然后根據(jù)狀態(tài)轉移方程建立遞推關系,從初始狀態(tài)或邊界條件開始,逐步向后遞推計算每個階段的最優(yōu)決策和最優(yōu)值,最終得到整個問題的最優(yōu)解。這種方法充分利用了子問題之間的重疊性,通過保存子問題的解,避免了重復計算,從而大大提高了計算效率。2.1.2離散系統(tǒng)動態(tài)規(guī)劃解讀對于離散系統(tǒng),動態(tài)規(guī)劃的狀態(tài)轉移方程通??梢员硎緸椋簒_{k+1}=f(x_k,u_k,k)其中,x_k表示第k階段的狀態(tài)變量,u_k表示第k階段的決策變量,k表示階段序號,f是一個函數(shù),描述了狀態(tài)隨著決策和階段的變化規(guī)律。最優(yōu)指標函數(shù)的遞推方程一般為:J_k^*(x_k)=\underset{u_k\inU_k(x_k)}{\min}\left\{l(x_k,u_k,k)+J_{k+1}^*(x_{k+1})\right\}其中,J_k^*(x_k)表示從第k階段狀態(tài)x_k出發(fā)到過程結束的最優(yōu)指標函數(shù)值,U_k(x_k)是第k階段狀態(tài)x_k下的允許決策集合,l(x_k,u_k,k)是第k階段的階段指標函數(shù),它表示在狀態(tài)x_k下采取決策u_k時所獲得的即時收益或成本。以資源分配問題為例,假設有總量為R的某種資源,要分配給n個項目。設x_k表示第k階段剩余的資源量,u_k表示分配給第k個項目的資源量,r_k(u_k)表示第k個項目獲得資源u_k時所產(chǎn)生的收益。則狀態(tài)轉移方程為:x_{k+1}=x_k-u_k最優(yōu)指標函數(shù)的遞推方程為:J_k^*(x_k)=\underset{0\lequ_k\leqx_k}{\max}\left\{r_k(u_k)+J_{k+1}^*(x_{k+1})\right\}且J_{n+1}^*(x_{n+1})=0(邊界條件)。求解時,從最后一個階段n開始,逐步向前遞推。在第n階段,由于只剩下一個項目,所以將剩余資源x_n全部分配給該項目,即u_n=x_n,此時J_n^*(x_n)=r_n(x_n)。然后,在第n-1階段,對于每個可能的x_{n-1}值,計算不同u_{n-1}取值下的r_{n-1}(u_{n-1})+J_n^*(x_{n-1}-u_{n-1}),并找出使其最大化的u_{n-1}值,從而得到J_{n-1}^*(x_{n-1})。以此類推,直到計算出J_1^*(x_1),此時對應的決策序列u_1^*,u_2^*,\cdots,u_n^*即為最優(yōu)資源分配方案。再比如,在一個有n個城市的旅行商問題中,假設城市之間的距離已知,要找到一條從某個城市出發(fā),經(jīng)過每個城市恰好一次,最后回到出發(fā)城市的最短路徑??梢詫⑵淇醋饕粋€離散系統(tǒng)的動態(tài)規(guī)劃問題,階段可以定義為已經(jīng)訪問過的城市數(shù)量,狀態(tài)可以表示為當前所在城市以及已經(jīng)訪問過的城市集合,決策是選擇下一個要訪問的城市。通過建立狀態(tài)轉移方程和最優(yōu)指標函數(shù)的遞推方程,利用動態(tài)規(guī)劃方法可以有效地求解該問題,找到最短路徑。2.2近似動態(tài)規(guī)劃原理詳析2.2.1基本原理闡釋近似動態(tài)規(guī)劃融合了強化學習與動態(tài)規(guī)劃的思想,旨在解決傳統(tǒng)動態(tài)規(guī)劃在面對大規(guī)模狀態(tài)空間和復雜系統(tǒng)時所遭遇的“維數(shù)災”問題。在傳統(tǒng)動態(tài)規(guī)劃中,隨著狀態(tài)空間維度的增加,計算量呈指數(shù)級增長,使得精確求解變得極為困難甚至不可行。近似動態(tài)規(guī)劃通過引入函數(shù)近似結構,如神經(jīng)網(wǎng)絡、多項式逼近等,來近似表示性能指標函數(shù)和控制策略,從而有效地降低了計算復雜度。在一個復雜的工業(yè)生產(chǎn)過程控制中,系統(tǒng)的狀態(tài)可能涉及多個變量,如溫度、壓力、流量等,這些變量的組合構成了高維的狀態(tài)空間。若采用傳統(tǒng)動態(tài)規(guī)劃方法,需要對每個可能的狀態(tài)組合進行計算,這在實際應用中幾乎是不可能實現(xiàn)的。而近似動態(tài)規(guī)劃則可以利用神經(jīng)網(wǎng)絡強大的函數(shù)逼近能力,通過訓練神經(jīng)網(wǎng)絡來近似表示系統(tǒng)的性能指標函數(shù)和控制策略。神經(jīng)網(wǎng)絡可以根據(jù)輸入的系統(tǒng)狀態(tài),快速輸出相應的控制決策,從而大大提高了計算效率和實時性。近似動態(tài)規(guī)劃的核心在于通過不斷地與環(huán)境進行交互,利用環(huán)境反饋的評價信號來逐步改進對性能指標函數(shù)和控制策略的近似。具體來說,它從一個初始的近似策略開始,根據(jù)當前的狀態(tài)選擇相應的動作,并觀察環(huán)境反饋的獎勵信號。獎勵信號反映了當前動作對系統(tǒng)性能的影響,近似動態(tài)規(guī)劃算法根據(jù)獎勵信號來調(diào)整近似策略,使得后續(xù)選擇的動作能夠獲得更高的獎勵,從而逐步逼近最優(yōu)控制策略。在機器人路徑規(guī)劃問題中,機器人可以通過傳感器感知周圍環(huán)境的狀態(tài)信息,如障礙物的位置、地形的情況等。近似動態(tài)規(guī)劃算法根據(jù)當前的狀態(tài)信息選擇一個移動方向(動作),當機器人移動到新的位置后,根據(jù)是否成功避開障礙物、是否更接近目標位置等情況獲得一個獎勵信號。算法根據(jù)這個獎勵信號來調(diào)整下次選擇移動方向的策略,經(jīng)過多次迭代,機器人就能找到一條從當前位置到目標位置的最優(yōu)路徑。2.2.2ADHDP原理深度剖析自適應啟發(fā)式動態(tài)規(guī)劃(ADHDP)作為近似動態(tài)規(guī)劃的一種重要算法,其結構主要由評價網(wǎng)絡(CriticNetwork)和執(zhí)行網(wǎng)絡(ActionNetwork)組成。評價網(wǎng)絡的主要作用是對系統(tǒng)當前狀態(tài)的價值進行評估,它根據(jù)系統(tǒng)的當前狀態(tài),輸出一個表示該狀態(tài)價值的標量值,這個值反映了從當前狀態(tài)出發(fā),遵循最優(yōu)策略所能獲得的累積獎勵的估計。執(zhí)行網(wǎng)絡則負責根據(jù)評價網(wǎng)絡的輸出以及當前的系統(tǒng)狀態(tài),生成相應的控制策略,即選擇合適的動作來控制系統(tǒng)的運行。ADHDP基于貝爾曼最優(yōu)性原理進行參數(shù)更新和控制策略生成。貝爾曼最優(yōu)性原理指出,最優(yōu)策略下的狀態(tài)價值滿足一個遞歸關系,即當前狀態(tài)的價值等于立即獎勵加上下一狀態(tài)在最優(yōu)策略下的價值的折扣期望。用數(shù)學公式表示為:V^*(s_t)=r(s_t,a_t)+\gammaE\left[V^*(s_{t+1})\mids_t,a_t\right]其中,V^*(s_t)表示狀態(tài)s_t的最優(yōu)價值,r(s_t,a_t)表示在狀態(tài)s_t下采取動作a_t所獲得的立即獎勵,\gamma是折扣因子,取值范圍在[0,1]之間,它反映了智能體對未來獎勵的重視程度,E\left[V^*(s_{t+1})\mids_t,a_t\right]表示在狀態(tài)s_t下采取動作a_t后,下一狀態(tài)s_{t+1}的最優(yōu)價值的期望。在ADHDP中,評價網(wǎng)絡試圖逼近這個最優(yōu)價值函數(shù)。它通過最小化預測值與目標值之間的誤差來更新網(wǎng)絡參數(shù)。目標值通常根據(jù)貝爾曼最優(yōu)性原理計算得到,即:y_t=r(s_t,a_t)+\gammaV(s_{t+1})其中,y_t是評價網(wǎng)絡的目標值,V(s_{t+1})是評價網(wǎng)絡對下一狀態(tài)價值的預測。評價網(wǎng)絡的損失函數(shù)一般定義為預測值與目標值之間的均方誤差,即:L_c=\frac{1}{2}(y_t-V(s_t))^2通過反向傳播算法,根據(jù)損失函數(shù)對評價網(wǎng)絡的參數(shù)進行調(diào)整,使得評價網(wǎng)絡的預測值逐漸逼近最優(yōu)價值函數(shù)。執(zhí)行網(wǎng)絡則根據(jù)評價網(wǎng)絡的輸出和當前狀態(tài)來生成控制策略。它的目標是選擇能夠使評價網(wǎng)絡輸出的價值最大化的動作。在實際應用中,執(zhí)行網(wǎng)絡通常采用梯度上升的方法來更新參數(shù),以使得評價網(wǎng)絡的輸出值增大。具體來說,執(zhí)行網(wǎng)絡根據(jù)當前狀態(tài)s_t和評價網(wǎng)絡的輸出V(s_t),計算動作a_t的梯度\frac{\partialV(s_t)}{\partiala_t},然后按照梯度的方向更新執(zhí)行網(wǎng)絡的參數(shù),使得下次在相同狀態(tài)下選擇的動作能夠使評價網(wǎng)絡的輸出值更大。以電力系統(tǒng)的無功優(yōu)化問題為例,系統(tǒng)的狀態(tài)可以包括節(jié)點電壓、無功功率分布等信息。ADHDP的評價網(wǎng)絡根據(jù)當前的系統(tǒng)狀態(tài),評估當前狀態(tài)下的無功優(yōu)化效果(即狀態(tài)價值)。執(zhí)行網(wǎng)絡則根據(jù)評價網(wǎng)絡的評估結果和當前系統(tǒng)狀態(tài),生成調(diào)整無功補償設備的控制策略。在每次調(diào)整后,根據(jù)系統(tǒng)的實際運行情況(如電壓質(zhì)量的改善、網(wǎng)損的降低等)獲得一個獎勵信號。評價網(wǎng)絡根據(jù)獎勵信號和下一時刻的系統(tǒng)狀態(tài)更新其對狀態(tài)價值的估計,執(zhí)行網(wǎng)絡則根據(jù)評價網(wǎng)絡的更新結果進一步優(yōu)化控制策略,從而實現(xiàn)電力系統(tǒng)的無功優(yōu)化,提高電壓穩(wěn)定性和降低網(wǎng)損。2.2.3ADDHP原理深度剖析動作依賴雙啟發(fā)式動態(tài)規(guī)劃(ADDHP)與ADHDP存在一定差異。在結構上,ADDHP同樣包含評價網(wǎng)絡和執(zhí)行網(wǎng)絡,但在參數(shù)更新方式和控制策略生成機制上有所不同。ADDHP的評價網(wǎng)絡結構與ADHDP類似,都是用于評估系統(tǒng)狀態(tài)的價值。然而,其參數(shù)更新方式基于性能指標函數(shù)的最小化。ADDHP定義了一個性能指標函數(shù),該函數(shù)綜合考慮了系統(tǒng)的控制成本、狀態(tài)偏差等因素。例如,在倒立擺控制中,性能指標函數(shù)可以定義為擺桿偏離垂直方向的角度偏差的平方和與施加在小車上的控制力的平方和的加權和。評價網(wǎng)絡通過最小化這個性能指標函數(shù)來更新參數(shù),其目標是找到一個能夠準確反映系統(tǒng)性能的價值函數(shù)估計。執(zhí)行網(wǎng)絡在ADDHP中負責根據(jù)評價網(wǎng)絡的輸出和當前狀態(tài)生成控制策略。與ADHDP不同,ADDHP的執(zhí)行網(wǎng)絡在生成控制策略時,更加注重對性能指標函數(shù)的直接優(yōu)化。它通過對性能指標函數(shù)關于控制變量求導,得到控制變量的調(diào)整方向,然后根據(jù)這個調(diào)整方向更新執(zhí)行網(wǎng)絡的參數(shù),以生成更優(yōu)的控制策略。在一個復雜的化工過程控制中,系統(tǒng)的性能指標函數(shù)可能涉及多個因素,如產(chǎn)品質(zhì)量、生產(chǎn)效率、能源消耗等。ADDHP的評價網(wǎng)絡根據(jù)當前的系統(tǒng)狀態(tài),對性能指標函數(shù)進行評估。執(zhí)行網(wǎng)絡則根據(jù)評價網(wǎng)絡的評估結果,通過對性能指標函數(shù)關于控制變量(如反應溫度、流量等)求導,確定控制變量的調(diào)整方向,從而生成控制策略,以實現(xiàn)對化工過程的優(yōu)化控制,提高產(chǎn)品質(zhì)量和生產(chǎn)效率,降低能源消耗。ADDHP與ADHDP在倒立擺控制中的應用效果也有所不同。在一些情況下,ADDHP能夠更有效地處理系統(tǒng)的非線性和不確定性,因為它直接針對性能指標函數(shù)進行優(yōu)化,能夠更好地平衡系統(tǒng)的各種性能要求。而ADHDP則在某些場景下,由于其基于貝爾曼最優(yōu)性原理的參數(shù)更新方式,能夠更快地收斂到一個較優(yōu)的控制策略。因此,在實際應用中,需要根據(jù)具體的系統(tǒng)特性和控制要求,選擇合適的算法來實現(xiàn)對倒立擺系統(tǒng)的最優(yōu)控制。三、基于近似動態(tài)規(guī)劃的倒立擺控制器設計與算法實現(xiàn)3.1與傳統(tǒng)神經(jīng)網(wǎng)絡控制器的對比在倒立擺控制領域,近似動態(tài)規(guī)劃控制器與傳統(tǒng)神經(jīng)網(wǎng)絡控制器在多個關鍵方面存在顯著差異,這些差異決定了它們在不同場景下的適用性和性能表現(xiàn)。從依賴模型程度來看,傳統(tǒng)神經(jīng)網(wǎng)絡控制器在很大程度上依賴于精確的數(shù)學模型。它需要事先獲取倒立擺系統(tǒng)的動力學方程等精確模型信息,以此為基礎來設計和訓練控制器。然而,倒立擺系統(tǒng)具有高階次、不穩(wěn)定、多變量、非線性和強耦合的特性,建立精確的數(shù)學模型難度極大,且模型往往難以準確反映系統(tǒng)在各種復雜情況下的動態(tài)行為。相比之下,近似動態(tài)規(guī)劃控制器則無需依賴精確的數(shù)學模型。它通過與環(huán)境的交互,利用環(huán)境反饋的評價信號來學習和改進控制策略,能夠有效應對系統(tǒng)的不確定性和非線性,具有更強的適應性。在線學習能力方面,傳統(tǒng)神經(jīng)網(wǎng)絡控制器通常采用離線訓練的方式。在訓練階段,利用大量的樣本數(shù)據(jù)對網(wǎng)絡進行訓練,訓練完成后,網(wǎng)絡的參數(shù)基本固定,在實際運行過程中難以根據(jù)實時變化的環(huán)境和系統(tǒng)狀態(tài)進行在線調(diào)整。這使得它在面對時變的干擾和不確定性時,控制性能會受到一定影響。而近似動態(tài)規(guī)劃控制器具有強大的在線學習能力,它能夠在系統(tǒng)運行過程中,根據(jù)每一步的狀態(tài)和獎勵信號,實時調(diào)整控制策略,不斷優(yōu)化對性能指標函數(shù)和控制策略的近似,從而更好地適應動態(tài)變化的環(huán)境和系統(tǒng)狀態(tài)。通用性上,傳統(tǒng)神經(jīng)網(wǎng)絡控制器的通用性相對較差。由于其依賴于特定的數(shù)學模型和訓練數(shù)據(jù),針對某一特定倒立擺系統(tǒng)設計的控制器,難以直接應用于其他參數(shù)或結構不同的倒立擺系統(tǒng),缺乏靈活性和普適性。近似動態(tài)規(guī)劃控制器則具有良好的通用性,它不依賴于系統(tǒng)的具體模型細節(jié),只要系統(tǒng)能夠提供狀態(tài)反饋和獎勵信號,就可以應用近似動態(tài)規(guī)劃算法進行控制,能夠廣泛適用于各種不同參數(shù)和結構的倒立擺系統(tǒng),以及其他具有類似特性的復雜系統(tǒng)。在結構復雜性上,傳統(tǒng)神經(jīng)網(wǎng)絡控制器的結構設計往往較為復雜。為了準確逼近系統(tǒng)的動態(tài)特性和實現(xiàn)精確控制,可能需要設計多層的網(wǎng)絡結構,并精心調(diào)整大量的網(wǎng)絡參數(shù)。這不僅增加了控制器設計和調(diào)試的難度,也可能導致計算量過大,影響實時性。近似動態(tài)規(guī)劃控制器的結構相對較為簡潔,其核心結構主要由評價網(wǎng)絡和執(zhí)行網(wǎng)絡組成。通過合理設計這兩個網(wǎng)絡的功能和參數(shù)更新方式,就能夠?qū)崿F(xiàn)對倒立擺系統(tǒng)的有效控制,在一定程度上降低了控制器設計的復雜性和計算量。在倒立擺控制任務中,當系統(tǒng)模型較為精確且環(huán)境相對穩(wěn)定時,傳統(tǒng)神經(jīng)網(wǎng)絡控制器在經(jīng)過充分的離線訓練后,能夠發(fā)揮其控制精度較高的優(yōu)勢;但當系統(tǒng)存在較大的不確定性和時變特性,以及需要快速適應不同的工作場景時,近似動態(tài)規(guī)劃控制器則展現(xiàn)出明顯的優(yōu)勢,能夠?qū)崿F(xiàn)更穩(wěn)定、高效的控制。三、基于近似動態(tài)規(guī)劃的倒立擺控制器設計與算法實現(xiàn)3.2使用ADHDP方法的控制器設計3.2.1ADHDP控制器基本框架搭建ADHDP控制器主要由評價網(wǎng)絡和執(zhí)行網(wǎng)絡構成,這兩個網(wǎng)絡相互協(xié)作,共同實現(xiàn)對倒立擺系統(tǒng)的有效控制。評價網(wǎng)絡的主要功能是評估系統(tǒng)當前狀態(tài)的價值。它以倒立擺系統(tǒng)的當前狀態(tài)s_t作為輸入,這里的狀態(tài)s_t通常包括擺桿的角度、角速度,小車的位置、速度等信息,這些狀態(tài)變量能夠全面地描述倒立擺系統(tǒng)在某一時刻的運動狀態(tài)。評價網(wǎng)絡通過內(nèi)部的神經(jīng)網(wǎng)絡結構對輸入的狀態(tài)進行處理,輸出一個標量值V(s_t),該值表示從當前狀態(tài)s_t出發(fā),遵循最優(yōu)策略所能獲得的累積獎勵的估計。評價網(wǎng)絡的參數(shù)\theta_c會根據(jù)訓練過程中的誤差不斷進行更新,以提高對狀態(tài)價值的估計精度。執(zhí)行網(wǎng)絡則負責根據(jù)評價網(wǎng)絡的輸出以及當前的系統(tǒng)狀態(tài)生成控制策略。它以當前狀態(tài)s_t和評價網(wǎng)絡輸出的狀態(tài)價值V(s_t)作為輸入,通過自身的神經(jīng)網(wǎng)絡結構進行計算,輸出一個控制動作a_t,這個控制動作a_t通常是施加在倒立擺小車上的力或力矩,用于調(diào)整倒立擺的運動狀態(tài),使其保持穩(wěn)定。執(zhí)行網(wǎng)絡的參數(shù)\theta_a同樣會在訓練過程中不斷更新,以優(yōu)化控制策略,使得系統(tǒng)能夠獲得更大的累積獎勵。在倒立擺系統(tǒng)運行過程中,評價網(wǎng)絡和執(zhí)行網(wǎng)絡不斷進行交互。執(zhí)行網(wǎng)絡根據(jù)當前狀態(tài)和評價網(wǎng)絡的輸出選擇控制動作,施加到倒立擺系統(tǒng)上,使系統(tǒng)狀態(tài)發(fā)生變化。新的狀態(tài)又被反饋給評價網(wǎng)絡,評價網(wǎng)絡根據(jù)新狀態(tài)和獲得的獎勵信號,對狀態(tài)價值進行重新評估,并將評估結果反饋給執(zhí)行網(wǎng)絡,執(zhí)行網(wǎng)絡據(jù)此調(diào)整控制策略,如此循環(huán)往復,實現(xiàn)對倒立擺系統(tǒng)的實時控制。例如,當擺桿出現(xiàn)偏離垂直方向的趨勢時,執(zhí)行網(wǎng)絡根據(jù)評價網(wǎng)絡對當前狀態(tài)的評估,輸出一個合適的力施加到小車上,使擺桿回到垂直位置;評價網(wǎng)絡根據(jù)新的狀態(tài)和獎勵信號,判斷控制動作的效果,若效果良好,則繼續(xù)強化當前的控制策略,若效果不佳,則調(diào)整執(zhí)行網(wǎng)絡的參數(shù),以生成更優(yōu)的控制動作。3.2.2ADHDP算法實現(xiàn)步驟在實現(xiàn)ADHDP算法時,首先需要對倒立擺系統(tǒng)的狀態(tài)空間和動作空間進行離散化處理。狀態(tài)空間包含擺桿角度、角速度、小車位置和速度等信息,將這些連續(xù)的狀態(tài)變量劃分成若干個離散的狀態(tài)值,以便于算法進行處理。例如,將擺桿角度在[-\pi,\pi]范圍內(nèi)劃分為n個區(qū)間,每個區(qū)間對應一個離散的角度狀態(tài)值;同樣地,對其他狀態(tài)變量也進行類似的離散化處理。動作空間通常是施加在小車上的力或力矩,也將其離散化為若干個不同的取值。執(zhí)行網(wǎng)絡基于Q學習來生成控制策略。Q學習是一種基于值函數(shù)的強化學習算法,其核心思想是通過不斷嘗試不同的動作,學習到每個狀態(tài)下最優(yōu)的動作選擇,以最大化累積獎勵。在ADHDP中,執(zhí)行網(wǎng)絡根據(jù)當前的離散狀態(tài)s_t,從離散的動作空間中選擇一個動作a_t,使得Q值Q(s_t,a_t)最大化,這里的Q值表示在狀態(tài)s_t下執(zhí)行動作a_t所能獲得的累積獎勵的估計。執(zhí)行網(wǎng)絡的策略\pi(s_t)定義為在狀態(tài)s_t下選擇使Q值最大的動作,即\pi(s_t)=\arg\max_{a_t}Q(s_t,a_t)。評價網(wǎng)絡的參數(shù)更新基于貝爾曼方程。貝爾曼方程描述了最優(yōu)值函數(shù)的遞歸關系,對于ADHDP中的評價網(wǎng)絡,其目標是逼近最優(yōu)值函數(shù)V^*(s_t)。根據(jù)貝爾曼方程,評價網(wǎng)絡的目標值y_t可以計算為:y_t=r(s_t,a_t)+\gammaV(s_{t+1})其中,r(s_t,a_t)是在狀態(tài)s_t下執(zhí)行動作a_t所獲得的立即獎勵,\gamma是折扣因子,取值范圍通常在[0,1]之間,它反映了智能體對未來獎勵的重視程度,V(s_{t+1})是評價網(wǎng)絡對下一狀態(tài)s_{t+1}價值的預測。評價網(wǎng)絡通過最小化預測值V(s_t)與目標值y_t之間的誤差來更新參數(shù)。誤差函數(shù)通常采用均方誤差(MSE),即:L_c=\frac{1}{2}(y_t-V(s_t))^2通過反向傳播算法,計算誤差函數(shù)對評價網(wǎng)絡參數(shù)的梯度,并根據(jù)梯度更新參數(shù),使得評價網(wǎng)絡的預測值能夠更準確地逼近最優(yōu)值函數(shù)。在每一個時間步t,執(zhí)行網(wǎng)絡根據(jù)當前狀態(tài)s_t選擇動作a_t,并將其施加到倒立擺系統(tǒng)上,使系統(tǒng)狀態(tài)更新為s_{t+1},同時獲得立即獎勵r(s_t,a_t)。然后,評價網(wǎng)絡根據(jù)上述公式計算目標值y_t,并更新自身參數(shù);執(zhí)行網(wǎng)絡則根據(jù)更新后的評價網(wǎng)絡輸出和新的狀態(tài)s_{t+1},重新計算Q值并更新控制策略。通過不斷重復這個過程,ADHDP算法逐漸學習到最優(yōu)的控制策略,實現(xiàn)對倒立擺系統(tǒng)的穩(wěn)定控制。3.2.3ADHDP方法中評價網(wǎng)絡的訓練在ADHDP方法中,評價網(wǎng)絡的訓練旨在提高其對倒立擺系統(tǒng)性能指標函數(shù)的逼近精度,使其能夠準確地評估系統(tǒng)當前狀態(tài)的價值。評價網(wǎng)絡通常采用梯度下降法進行訓練,這是一種基于梯度信息來更新模型參數(shù)的優(yōu)化方法,通過不斷迭代,使損失函數(shù)逐漸減小,從而達到優(yōu)化模型的目的。首先,確定評價網(wǎng)絡的損失函數(shù)。評價網(wǎng)絡的目標是逼近最優(yōu)值函數(shù)V^*(s),其預測值與目標值之間的差異可以通過損失函數(shù)來衡量。常用的損失函數(shù)為均方誤差(MSE)損失函數(shù),定義為:L_c=\frac{1}{2}(y-V(s;\theta_c))^2其中,y是目標值,根據(jù)貝爾曼方程計算得到,即y=r(s,a)+\gammaV(s';\theta_c),這里r(s,a)是在狀態(tài)s下執(zhí)行動作a所獲得的獎勵,\gamma是折扣因子,s'是執(zhí)行動作a后到達的下一狀態(tài),V(s';\theta_c)是評價網(wǎng)絡對下一狀態(tài)價值的預測;V(s;\theta_c)是評價網(wǎng)絡當前對狀態(tài)s價值的預測,\theta_c是評價網(wǎng)絡的參數(shù)。接下來,計算損失函數(shù)對評價網(wǎng)絡參數(shù)\theta_c的梯度。根據(jù)鏈式法則,梯度\nabla_{\theta_c}L_c可以計算為:\nabla_{\theta_c}L_c=(V(s;\theta_c)-y)\nabla_{\theta_c}V(s;\theta_c)其中,\nabla_{\theta_c}V(s;\theta_c)是評價網(wǎng)絡輸出對參數(shù)\theta_c的梯度,可以通過反向傳播算法來計算。反向傳播算法是一種計算神經(jīng)網(wǎng)絡梯度的有效方法,它通過將誤差從輸出層反向傳播到輸入層,依次計算每一層的梯度,從而得到損失函數(shù)對網(wǎng)絡參數(shù)的梯度。在計算出梯度后,根據(jù)梯度下降法更新評價網(wǎng)絡的參數(shù)。參數(shù)更新公式為:\theta_c=\theta_c-\alpha\nabla_{\theta_c}L_c其中,\alpha是學習率,它控制著參數(shù)更新的步長。學習率的選擇非常關鍵,若學習率過大,可能導致參數(shù)更新過快,使模型無法收斂,甚至出現(xiàn)發(fā)散的情況;若學習率過小,模型的收斂速度會非常緩慢,需要大量的訓練時間和數(shù)據(jù)。在實際訓練過程中,通常需要通過實驗來調(diào)整學習率,以找到一個合適的值,使得模型能夠在保證收斂的前提下,盡快達到較好的性能。通過不斷重復計算損失函數(shù)、計算梯度和更新參數(shù)的過程,評價網(wǎng)絡的參數(shù)逐漸調(diào)整,使其對狀態(tài)價值的預測越來越準確,從而提高對倒立擺系統(tǒng)性能指標函數(shù)的逼近精度。在訓練過程中,可以監(jiān)控損失函數(shù)的值,當損失函數(shù)收斂到一個較小的值時,說明評價網(wǎng)絡已經(jīng)學習到了較好的狀態(tài)價值估計,訓練過程可以結束。3.2.4ADHDP方法中執(zhí)行網(wǎng)絡的訓練ADHDP方法中執(zhí)行網(wǎng)絡的訓練目標是優(yōu)化控制策略,使倒立擺系統(tǒng)能夠獲得最大的累積獎勵。執(zhí)行網(wǎng)絡采用策略梯度法進行訓練,策略梯度法是一種直接對策略參數(shù)進行優(yōu)化的方法,通過計算策略的梯度來更新策略參數(shù),以最大化累積獎勵。策略梯度法的核心思想是通過最大化累計獎勵來確定策略梯度。對于倒立擺系統(tǒng),執(zhí)行網(wǎng)絡的策略\pi(a|s;\theta_a)表示在狀態(tài)s下,根據(jù)參數(shù)\theta_a選擇動作a的概率分布。累計獎勵R是從初始狀態(tài)開始,按照當前策略執(zhí)行一系列動作所獲得的獎勵之和,即R=\sum_{t=0}^{T}r(s_t,a_t),其中T是終止時間,r(s_t,a_t)是在狀態(tài)s_t下執(zhí)行動作a_t所獲得的獎勵。策略梯度\nabla_{\theta_a}J(\theta_a)可以通過以下公式計算:\nabla_{\theta_a}J(\theta_a)=\mathbb{E}_{s_0,a_0,\cdots,s_T,a_T}\left[\sum_{t=0}^{T}\nabla_{\theta_a}\log\pi(a_t|s_t;\theta_a)r(s_t,a_t)\right]其中,J(\theta_a)是策略\pi(a|s;\theta_a)的期望累計獎勵,\mathbb{E}_{s_0,a_0,\cdots,s_T,a_T}表示對從初始狀態(tài)s_0開始,按照策略\pi(a|s;\theta_a)執(zhí)行動作得到的狀態(tài)序列s_0,a_0,\cdots,s_T,a_T求期望。這個公式表明,策略梯度是在每個時間步上,策略對數(shù)概率的梯度與該時間步獲得的獎勵的乘積之和的期望。在實際計算中,由于直接計算期望比較困難,通常采用蒙特卡羅方法進行近似估計。蒙特卡羅方法通過多次采樣,用樣本均值來近似期望。具體來說,從初始狀態(tài)s_0開始,按照當前策略\pi(a|s;\theta_a)進行N次試驗,每次試驗得到一個狀態(tài)序列s_0,a_0,\cdots,s_T,a_T和對應的累計獎勵R_i(i=1,\cdots,N)。則策略梯度的近似估計為:\hat{\nabla}_{\theta_a}J(\theta_a)=\frac{1}{N}\sum_{i=1}^{N}\sum_{t=0}^{T}\nabla_{\theta_a}\log\pi(a_t^i|s_t^i;\theta_a)R_i其中,a_t^i和s_t^i分別是第i次試驗中在時間步t的動作和狀態(tài)。根據(jù)計算得到的策略梯度,執(zhí)行網(wǎng)絡的參數(shù)\theta_a按照以下公式進行更新:\theta_a=\theta_a+\beta\hat{\nabla}_{\theta_a}J(\theta_a)其中,\beta是學習率,它控制著參數(shù)更新的步長。與評價網(wǎng)絡的學習率類似,執(zhí)行網(wǎng)絡學習率的選擇也對訓練效果有重要影響,需要通過實驗進行調(diào)整。通過不斷重復計算策略梯度和更新參數(shù)的過程,執(zhí)行網(wǎng)絡的參數(shù)逐漸優(yōu)化,使得其生成的控制策略能夠使倒立擺系統(tǒng)獲得更大的累積獎勵,從而實現(xiàn)對倒立擺系統(tǒng)的最優(yōu)控制。在訓練過程中,可以監(jiān)控累計獎勵的變化情況,當累計獎勵不再明顯增加時,說明執(zhí)行網(wǎng)絡已經(jīng)學習到了較好的控制策略,訓練可以結束。3.3使用ADDHP方法的控制器設計3.3.1ADDHP控制器基本框架搭建ADDHP控制器的框架主要由評價網(wǎng)絡和執(zhí)行網(wǎng)絡構成。評價網(wǎng)絡負責對倒立擺系統(tǒng)當前狀態(tài)的性能進行評估,其輸入為倒立擺系統(tǒng)的狀態(tài)變量,包括擺桿的角度、角速度,小車的位置、速度等信息。通過內(nèi)部的神經(jīng)網(wǎng)絡結構,對這些輸入狀態(tài)進行分析和處理,輸出一個表示當前狀態(tài)性能的標量值,該值反映了系統(tǒng)當前狀態(tài)與期望狀態(tài)之間的差距,差距越小則性能越好。評價網(wǎng)絡與執(zhí)行網(wǎng)絡直接相連,其輸出結果實時反饋給執(zhí)行網(wǎng)絡,為執(zhí)行網(wǎng)絡生成控制策略提供重要依據(jù)。執(zhí)行網(wǎng)絡以評價網(wǎng)絡的輸出和當前的系統(tǒng)狀態(tài)作為輸入,通過自身的神經(jīng)網(wǎng)絡計算,輸出一個控制動作,通常是施加在倒立擺小車上的力或力矩。執(zhí)行網(wǎng)絡根據(jù)評價網(wǎng)絡對當前狀態(tài)的評估結果,調(diào)整控制動作,以最小化系統(tǒng)的性能指標函數(shù),使倒立擺系統(tǒng)盡可能保持在期望的穩(wěn)定狀態(tài)。例如,當評價網(wǎng)絡輸出表明擺桿有較大偏離垂直方向的趨勢時,執(zhí)行網(wǎng)絡會根據(jù)此信息輸出一個較大的力,推動小車向相應方向移動,以糾正擺桿的角度,使系統(tǒng)恢復穩(wěn)定。在整個控制過程中,評價網(wǎng)絡和執(zhí)行網(wǎng)絡緊密協(xié)作,不斷根據(jù)系統(tǒng)的實時狀態(tài)和性能評估結果,調(diào)整控制策略。評價網(wǎng)絡持續(xù)監(jiān)控系統(tǒng)狀態(tài)的變化,及時更新對系統(tǒng)性能的評估;執(zhí)行網(wǎng)絡則依據(jù)評價網(wǎng)絡的最新評估結果,快速調(diào)整控制動作,實現(xiàn)對倒立擺系統(tǒng)的實時、精準控制。這種直接相連的結構特點,使得ADDHP控制器能夠快速響應系統(tǒng)狀態(tài)的變化,及時調(diào)整控制策略,有效提高了倒立擺系統(tǒng)的控制性能和穩(wěn)定性。3.3.2ADDHP算法實現(xiàn)步驟在運用ADDHP算法對倒立擺系統(tǒng)進行控制時,首先要對狀態(tài)空間和動作空間進行合理表示。狀態(tài)空間涵蓋擺桿角度、角速度、小車位置和速度等關鍵信息,這些連續(xù)的狀態(tài)變量構成了描述倒立擺系統(tǒng)運動狀態(tài)的基礎。為了便于算法處理,通常采用離散化的方式,將連續(xù)的狀態(tài)空間劃分為若干個離散的狀態(tài)值。例如,將擺桿角度在一定范圍內(nèi)劃分成多個區(qū)間,每個區(qū)間對應一個離散的角度狀態(tài)值;同樣地,對小車的位置、速度以及擺桿的角速度等狀態(tài)變量也進行類似的離散化處理。動作空間主要是施加在小車上的力或力矩,也將其離散化為若干個不同的取值。執(zhí)行網(wǎng)絡依據(jù)評價網(wǎng)絡的輸出和當前狀態(tài)來確定控制動作。執(zhí)行網(wǎng)絡以當前的離散狀態(tài)和評價網(wǎng)絡輸出的性能評估值作為輸入,通過自身的神經(jīng)網(wǎng)絡計算,從離散的動作空間中選擇一個最優(yōu)的控制動作,使得系統(tǒng)的性能指標函數(shù)最小化。在選擇控制動作時,執(zhí)行網(wǎng)絡會考慮當前狀態(tài)下不同動作對系統(tǒng)性能的影響,根據(jù)評價網(wǎng)絡提供的性能評估信息,選擇能夠使系統(tǒng)朝著期望穩(wěn)定狀態(tài)發(fā)展的動作。例如,當擺桿出現(xiàn)向右傾斜的狀態(tài)時,執(zhí)行網(wǎng)絡會根據(jù)評價網(wǎng)絡對該狀態(tài)的評估,判斷出需要向左施加一個合適大小的力,以糾正擺桿的傾斜,從而選擇對應的離散力值作為控制動作。評價網(wǎng)絡則基于性能指標函數(shù)來更新自身參數(shù)。性能指標函數(shù)綜合考慮了擺桿的角度偏差、小車的位置偏差以及控制能量消耗等因素,用于衡量系統(tǒng)當前狀態(tài)的優(yōu)劣。評價網(wǎng)絡通過最小化性能指標函數(shù)來調(diào)整自身的神經(jīng)網(wǎng)絡參數(shù)。具體來說,根據(jù)當前狀態(tài)和執(zhí)行網(wǎng)絡選擇的控制動作,計算出性能指標函數(shù)的值,然后通過反向傳播算法,計算性能指標函數(shù)對評價網(wǎng)絡參數(shù)的梯度,根據(jù)梯度信息更新評價網(wǎng)絡的參數(shù),使得評價網(wǎng)絡能夠更準確地評估系統(tǒng)狀態(tài)的性能。通過不斷重復這個過程,評價網(wǎng)絡和執(zhí)行網(wǎng)絡相互協(xié)作,逐漸優(yōu)化控制策略,實現(xiàn)對倒立擺系統(tǒng)的穩(wěn)定控制。3.3.3ADDHP方法中評價網(wǎng)絡的訓練ADDHP方法中評價網(wǎng)絡的訓練旨在通過不斷調(diào)整網(wǎng)絡參數(shù),使其能夠更準確地評估倒立擺系統(tǒng)的性能指標函數(shù)。評價網(wǎng)絡的訓練基于最小化性能指標函數(shù)的原理,通過迭代優(yōu)化來實現(xiàn)。首先,確定評價網(wǎng)絡的損失函數(shù)。損失函數(shù)用于衡量評價網(wǎng)絡預測的性能指標值與實際最優(yōu)性能指標值之間的差異。在ADDHP中,常用的損失函數(shù)為均方誤差(MSE)損失函數(shù),定義如下:L_c=\frac{1}{2}(J(s_t,a_t)-\hat{J}(s_t;\theta_c))^2其中,J(s_t,a_t)是實際的性能指標函數(shù)值,它根據(jù)當前狀態(tài)s_t和執(zhí)行網(wǎng)絡選擇的動作a_t計算得出,綜合考慮了擺桿角度偏差、小車位置偏差以及控制能量消耗等因素;\hat{J}(s_t;\theta_c)是評價網(wǎng)絡預測的性能指標值,它是評價網(wǎng)絡以當前狀態(tài)s_t為輸入,通過參數(shù)為\theta_c的神經(jīng)網(wǎng)絡計算得到的輸出;\theta_c是評價網(wǎng)絡的參數(shù)。接著,計算損失函數(shù)對評價網(wǎng)絡參數(shù)\theta_c的梯度。根據(jù)鏈式法則,梯度\nabla_{\theta_c}L_c可以表示為:\nabla_{\theta_c}L_c=(\hat{J}(s_t;\theta_c)-J(s_t,a_t))\nabla_{\theta_c}\hat{J}(s_t;\theta_c)其中,\nabla_{\theta_c}\hat{J}(s_t;\theta_c)是評價網(wǎng)絡輸出對參數(shù)\theta_c的梯度,可通過反向傳播算法進行計算。反向傳播算法利用損失函數(shù)對輸出層的梯度,反向傳播到輸入層,依次計算每一層的梯度,從而得到損失函數(shù)對網(wǎng)絡參數(shù)的梯度。在計算出梯度后,根據(jù)梯度下降法更新評價網(wǎng)絡的參數(shù)。參數(shù)更新公式為:\theta_c=\theta_c-\alpha\nabla_{\theta_c}L_c其中,\alpha是學習率,它控制著參數(shù)更新的步長。學習率的大小對評價網(wǎng)絡的訓練效果有著重要影響。若學習率過大,參數(shù)更新的步長會過大,可能導致評價網(wǎng)絡在訓練過程中無法收斂,甚至出現(xiàn)振蕩或發(fā)散的情況;若學習率過小,參數(shù)更新的步長會過小,評價網(wǎng)絡的收斂速度會非常緩慢,需要大量的訓練時間和數(shù)據(jù)。在實際訓練過程中,通常需要通過多次實驗,嘗試不同的學習率值,來找到一個合適的學習率,使得評價網(wǎng)絡能夠在保證收斂的前提下,盡快達到較好的性能。通過不斷重復計算損失函數(shù)、計算梯度和更新參數(shù)的過程,評價網(wǎng)絡的參數(shù)逐漸調(diào)整,使其對倒立擺系統(tǒng)性能指標函數(shù)的評估越來越準確。在訓練過程中,可以實時監(jiān)控損失函數(shù)的值,當損失函數(shù)收斂到一個較小的值時,表明評價網(wǎng)絡已經(jīng)學習到了較好的性能指標評估能力,訓練過程可以結束。3.3.4ADDHP方法中執(zhí)行網(wǎng)絡的訓練ADDHP方法中執(zhí)行網(wǎng)絡的訓練目的是通過優(yōu)化自身參數(shù),生成更優(yōu)的控制策略,以最小化倒立擺系統(tǒng)的性能指標函數(shù)。執(zhí)行網(wǎng)絡采用梯度上升法進行訓練,這是一種基于梯度信息來更新模型參數(shù),以最大化目標函數(shù)的優(yōu)化方法。執(zhí)行網(wǎng)絡基于梯度上升法進行訓練,其核心在于通過最大化性能指標函數(shù)來確定梯度。性能指標函數(shù)綜合考慮了擺桿的角度偏差、小車的位置偏差以及控制能量消耗等因素,用于衡量倒立擺系統(tǒng)的控制效果。執(zhí)行網(wǎng)絡以當前狀態(tài)s_t和評價網(wǎng)絡輸出的性能評估值作為輸入,通過自身的神經(jīng)網(wǎng)絡計算,輸出控制動作a_t。為了優(yōu)化控制策略,執(zhí)行網(wǎng)絡需要計算性能指標函數(shù)關于控制動作a_t的梯度\frac{\partialJ(s_t,a_t)}{\partiala_t},這個梯度表示了性能指標函數(shù)隨控制動作變化的速率和方向。具體來說,根據(jù)當前狀態(tài)s_t和執(zhí)行網(wǎng)絡輸出的控制動作a_t,計算性能指標函數(shù)J(s_t,a_t)。然后,利用鏈式法則,計算性能指標函數(shù)對執(zhí)行網(wǎng)絡參數(shù)\theta_a的梯度\nabla_{\theta_a}J(s_t,a_t)。鏈式法則的運用涉及到執(zhí)行網(wǎng)絡的神經(jīng)網(wǎng)絡結構和計算過程,通過對神經(jīng)網(wǎng)絡中各層的計算關系進行分析,將性能指標函數(shù)對控制動作的梯度反向傳播到執(zhí)行網(wǎng)絡的參數(shù)上。根據(jù)計算得到的梯度,執(zhí)行網(wǎng)絡按照以下公式更新自身的參數(shù):\theta_a=\theta_a+\beta\nabla_{\theta_a}J(s_t,a_t)其中,\beta是學習率,它控制著參數(shù)更新的步長。學習率的選擇對執(zhí)行網(wǎng)絡的訓練效果至關重要。若學習率過大,參數(shù)更新的步長會過大,可能導致執(zhí)行網(wǎng)絡在訓練過程中出現(xiàn)不穩(wěn)定的情況,無法收斂到最優(yōu)的控制策略,甚至可能使控制效果變差;若學習率過小,參數(shù)更新的步長會過小,執(zhí)行網(wǎng)絡的收斂速度會非常緩慢,需要大量的訓練時間和數(shù)據(jù),才能使控制策略得到優(yōu)化。在實際訓練過程中,通常需要通過多次實驗,嘗試不同的學習率值,找到一個合適的學習率,使得執(zhí)行網(wǎng)絡能夠在保證穩(wěn)定性的前提下,盡快收斂到較優(yōu)的控制策略。通過不斷重復計算梯度和更新參數(shù)的過程,執(zhí)行網(wǎng)絡的參數(shù)逐漸優(yōu)化,其生成的控制策略能夠使倒立擺系統(tǒng)的性能指標函數(shù)不斷減小,從而實現(xiàn)對倒立擺系統(tǒng)的最優(yōu)控制。在訓練過程中,可以實時監(jiān)控性能指標函數(shù)的值,當性能指標函數(shù)不再明顯減小,或者減小的幅度非常小時,表明執(zhí)行網(wǎng)絡已經(jīng)學習到了較好的控制策略,訓練可以結束。四、基于ADHDP、ADDHP方法的倒立擺控制實踐與分析4.1一級倒立擺的控制研究4.1.1一級倒立擺的數(shù)學模型構建為實現(xiàn)對一級倒立擺的有效控制,精確的數(shù)學模型是基礎。通過對倒立擺系統(tǒng)進行深入的受力分析,運用牛頓-歐拉方程,能夠建立起描述其運動特性的非線性動力學模型??紤]一個由小車和擺桿組成的一級倒立擺系統(tǒng),設小車質(zhì)量為M,擺桿質(zhì)量為m,擺桿長度為l,擺桿與垂直方向的夾角為\theta,小車的位置為x,施加在小車上的力為F。假設忽略空氣阻力和各種摩擦力,對小車和擺桿分別進行受力分析。在水平方向上,小車受到的合力為F-N,根據(jù)牛頓第二定律F=ma,可得小車水平方向的運動方程為:M\ddot{x}=F-N其中,N為擺桿對小車的水平作用力。對擺桿進行水平方向的受力分析,擺桿水平方向的合力為N-m\ddot{x}\cos\theta-m\dot{\theta}^2l\sin\theta,根據(jù)牛頓第二定律,擺桿水平方向的運動方程為:m\ddot{x}\cos\theta+m\dot{\theta}^2l\sin\theta-N=ml\ddot{\theta}\cos\theta在垂直方向上,擺桿受到的合力為mg-P,其中P為小車對擺桿的垂直作用力,擺桿垂直方向的運動方程為:mg-P=ml\ddot{\theta}\sin\theta擺桿繞其質(zhì)心的力矩平衡方程為:I\ddot{\theta}=Pl\sin\theta-Nl\cos\theta其中,I為擺桿的轉動慣量。將上述方程進行整理和化簡,得到系統(tǒng)的非線性動力學方程:\begin{cases}(M+m)\ddot{x}+ml\ddot{\theta}\cos\theta-ml\dot{\theta}^2\sin\theta=F\\ml^2\ddot{\theta}+ml\ddot{x}\cos\theta-mgl\sin\theta=0\end{cases}為了便于后續(xù)的控制器設計和分析,將上述非線性動力學方程轉化為狀態(tài)空間方程。選取狀態(tài)變量x_1=x,x_2=\dot{x},x_3=\theta,x_4=\dot{\theta},則狀態(tài)空間方程為:\begin{cases}\dot{x}_1=x_2\\\dot{x}_2=\frac{F+mlx_4^2\sinx_3-ml\cosx_3\ddot{\theta}}{M+m}\\\dot{x}_3=x_4\\\dot{x}_4=\frac{(M+m)g\sinx_3-mlx_4^2\cosx_3\sinx_3-F\cosx_3}{(M+m)l-ml\cos^2x_3}\end{cases}輸出方程為:y=\begin{bmatrix}x_1\\x_3\end{bmatrix}通過上述步驟,建立了一級倒立擺的非線性動力學模型和狀態(tài)空間方程,為后續(xù)基于ADHDP、ADDHP方法的控制實踐提供了準確的數(shù)學模型基礎。4.1.2ADHDP方法在一級倒立擺中的控制實踐將ADHDP算法應用于一級倒立擺控制,首先需要合理選取狀態(tài)變量和定義動作空間。選取狀態(tài)變量x=[x_1,x_2,x_3,x_4]^T,其中x_1為小車位置,x_2為小車速度,x_3為擺桿角度,x_4為擺桿角速度。這些狀態(tài)變量能夠全面地反映一級倒立擺系統(tǒng)的運動狀態(tài),為控制器提供準確的信息。動作空間定義為施加在小車上的力F,考慮到實際應用中的限制,將力F的取值范圍限定在[-F_{max},F_{max}],其中F_{max}為允許施加的最大力。這樣的動作空間定義既符合實際情況,又能夠滿足控制器對不同控制需求的響應。在控制器參數(shù)設置方面,評價網(wǎng)絡和執(zhí)行網(wǎng)絡均采用三層神經(jīng)網(wǎng)絡結構。評價網(wǎng)絡的輸入層節(jié)點數(shù)與狀態(tài)變量個數(shù)相同,為4個;隱藏層節(jié)點數(shù)根據(jù)經(jīng)驗和實驗調(diào)試確定為10個,隱藏層節(jié)點數(shù)的選擇需要在模型復雜度和計算效率之間進行權衡,過多的節(jié)點數(shù)可能導致過擬合,過少的節(jié)點數(shù)則可能影響模型的表達能力;輸出層節(jié)點數(shù)為1個,輸出狀態(tài)價值。執(zhí)行網(wǎng)絡的輸入層節(jié)點數(shù)同樣為4個,與狀態(tài)變量個數(shù)一致;隱藏層節(jié)點數(shù)也為10個;輸出層節(jié)點數(shù)為1個,輸出控制動作,即施加在小車上的力。訓練參數(shù)設置如下:學習率\alpha=0.01,折扣因子\gamma=0.95。學習率控制著神經(jīng)網(wǎng)絡參數(shù)更新的步長,合適的學習率能夠保證算法的收斂速度和穩(wěn)定性。折扣因子反映了智能體對未來獎勵的重視程度,\gamma越接近1,表示智能體越重視未來的獎勵。為了驗證ADHDP方法在一級倒立擺控制中的有效性,進行了仿真實驗。在仿真實驗中,設置初始狀態(tài)為x_1=0,x_2=0,x_3=0.1,x_4=0,即小車初始位置在原點,速度為0,擺桿初始角度為0.1弧度,角速度為0。仿真時間為10秒,采樣時間為0.01秒。仿真結果表明,在ADHDP控制器的作用下,擺桿角度能夠迅速收斂到0附近,小車位置也能穩(wěn)定在原點附近。具體來說,在開始的一段時間內(nèi),由于擺桿存在初始角度偏差,ADHDP控制器根據(jù)系統(tǒng)的狀態(tài)信息,快速調(diào)整施加在小車上的力,使擺桿角度逐漸減小。隨著時間的推移,擺桿角度越來越接近0,小車位置也逐漸穩(wěn)定,最終實現(xiàn)了一級倒立擺系統(tǒng)的穩(wěn)定控制。這充分證明了ADHDP方法在一級倒立擺控制中具有良好的控制性能和收斂速度。4.1.3ADDHP方法在一級倒立擺中的控制實踐在將ADDHP算法應用于一級倒立擺控制時,狀態(tài)和動作空間的設計與ADHDP方法類似。狀態(tài)變量同樣選取x=[x_1,x_2,x_3,x_4]^T,涵蓋小車位置、速度、擺桿角度和角速度,這些狀態(tài)變量能夠全面反映系統(tǒng)的運動狀態(tài)。動作空間定義為施加在小車上的力F,取值范圍限定在[-F_{max},F_{max}],以符合實際控制需求。控制器參數(shù)調(diào)整方面,評價網(wǎng)絡和執(zhí)行網(wǎng)絡同樣采用三層神經(jīng)網(wǎng)絡結構。評價網(wǎng)絡輸入層節(jié)點數(shù)為4,對應狀態(tài)變量個數(shù);隱藏層節(jié)點數(shù)經(jīng)調(diào)試確定為10,在模型復雜度與計算效率間尋求平衡;輸出層節(jié)點數(shù)為1,輸出系統(tǒng)狀態(tài)的性能評估值。執(zhí)行網(wǎng)絡輸入層節(jié)點數(shù)為4,隱藏層節(jié)點數(shù)為10,輸出層節(jié)點數(shù)為1,輸出控制動作。訓練參數(shù)設置為:學習率\beta=0.005,折扣因子同樣為\gamma=0.95。學習率的選擇會影響控制器的收斂速度和穩(wěn)定性,\beta=0.005是經(jīng)過多次實驗優(yōu)化得到的,能夠使控制器在保證穩(wěn)定性的前提下較快地收斂。進行仿真實驗時,初始狀態(tài)設置為x_1=0,x_2=0,x_3=-0.1,x_4=0,即小車初始位于原點,速度為0,擺桿初始角度為-0.1弧度,角速度為0。仿真時間設定為10秒,采樣時間為0.01秒。仿真結果顯示,在ADDHP控制器的作用下,擺桿角度迅速向0收斂,小車位置也穩(wěn)定在原點附近。在控制過程中,當檢測到擺桿存在初始負角度偏差時,ADDHP控制器迅速做出反應,通過執(zhí)行網(wǎng)絡計算出合適的控制動作,即向小車上施加相應方向和大小的力。隨著時間推進,擺桿角度逐漸減小,最終穩(wěn)定在0附近,小車位置也穩(wěn)定在原點,實現(xiàn)了一級倒立擺系統(tǒng)的穩(wěn)定控制。這表明ADDHP方法在一級倒立擺控制中同樣具有良好的控制效果,能夠有效應對系統(tǒng)的非線性和不確定性。4.2三級倒立擺的控制研究4.2.1三級倒立擺的數(shù)學模型構建三級倒立擺系統(tǒng)由一個可在水平方向移動的小車以及三根依次連接的擺桿組成,三根擺桿的長度、質(zhì)量各不相同,且相互之間存在耦合作用。為建立其數(shù)學模型,需對系統(tǒng)進行詳細的受力分析。假設小車質(zhì)量為M,三根擺桿的質(zhì)量分別為m_1、m_2、m_3,長度分別為l_1、l_2、l_3,擺桿與垂直方向的夾角分別為\theta_1、\theta_2、\theta_3,小車的位置為x,施加在小車上的力為F。在分析過程中,忽略空氣阻力以及各種摩擦力。對小車進行受力分析,在水平方向上,小車受到的合力為F-N_1,其中N_1為第一根擺桿對小車的水平作用力。根據(jù)牛頓第二定律,小車水平方向的運動方程為:M\ddot{x}=F-N_1對第一根擺桿進行受力分析,在水平方向上,其受到的合力為N_1-m_1\ddot{x}\cos\theta_1-m_1\dot{\theta_1}^2l_1\sin\theta_1-N_2\cos(\theta_1-\theta_2),其中N_2為第二根擺桿對第一根擺桿的作用力。在垂直方向上,受到的合力為m_1g-P_1-N_2\sin(\theta_1-\theta_2),其中P_1為小車對第一根擺桿的垂直作用力。同時,考慮擺桿繞其質(zhì)心的力矩平衡,可得:I_1\ddot{\theta_1}=P_1l_1\sin\theta_1-N_1l_1\cos\theta_1+N_2l_1\sin(\theta_1-\theta_2)其中,I_1為第一根擺桿的轉動慣量。對第二根擺桿進行類似的受力分析,在水平方向上,其受到的合力為N_2\cos(\theta_1-\theta_2)-m_2\ddot{x}\cos\theta_2-m_2\dot{\theta_2}^2l_2\sin\theta_2-N_3\cos(\theta_2-\theta_3),在垂直方向上,受到的合力為m_2g-P_2-N_3\sin(\theta_2-\theta_3)。擺桿繞其質(zhì)心的力矩平衡方程為:I_2\ddot{\theta_2}=P_2l_2\sin\theta_2-N_2l_2\cos(\theta_1-\theta_2)+N_3l_2\sin(\theta_2-\theta_3)其中,I_2為第二根擺桿的轉動慣量。對第三根擺桿進行受力分析,在水平方向上,其受到的合力為N_3\cos(\theta_2-\theta_3)-m_3\ddot{x}\cos\theta_3-m_3\dot{\theta_3}^2l_3\sin\theta_3,在垂直方向上,受到的合力為m_3g-P_3。擺桿繞其質(zhì)心的力矩平衡方程為:I_3\ddot{\theta_3}=P_3l_3\sin\theta_3-N_3l_3\cos(\theta_2-\theta_3)其中,I_3為第三根擺桿的轉動慣量。通過對上述多個方程進行聯(lián)立、整理和化簡,得到系統(tǒng)的非線性動力學方程。為便于后續(xù)控制器的設計與分析,將非線性動力學方程轉化為狀態(tài)空間方程。選取狀態(tài)變量x_1=x,x_2=\dot{x},x_3=\theta_1,x_4=\dot{\theta_1},x_5=\theta_2,x_6=\dot{\theta_2},x_7=\theta_3,x_8=\dot{\theta_3},則狀態(tài)空間方程為:\begin{cases}\dot{x}_1=x_2\\\dot{x}_2=\frac{F+\sum_{i=1}^{3}m_il_i\dot{\theta_i}^2\sinx_{2i+1}-\sum_{i=1}^{3}m_il_i\cosx_{2i+1}\ddot{\theta_i}}{M+\sum_{i=1}^{3}m_i}\\\dot{x}_3=x_4\\\dot{x}_4=\frac{\cdots}{(\cdots)}\\\dot{x}_5=x_6\\\dot{x}_6=\frac{\cdots}{(\cdots)}\\\dot{x}_7=x_8\\\dot{x}_8=\frac{\cdots}{(\cdots)}\end{cases}(此處省略號表示經(jīng)過復雜的受力分析和數(shù)學推導得出的具體表達式,由于表達式較為冗長復雜,為保證論文重點突出,未詳細列出)輸出方程為:y=\begin{bmatrix}x_1\\x_3\\x_5\\x_7\end{bmatrix}通過上述步驟,成功建立了三級倒立擺的非線性動力學模型和狀態(tài)空間方程,為后續(xù)基于ADHDP方法的控制實踐提供了精確的數(shù)學模型基礎。4.2.2ADHDP方法在三級倒立擺中的控制實踐將ADHDP算法應用于三級倒立擺控制時,狀態(tài)變量需全面反映系統(tǒng)的運動狀態(tài),因此選取x=[x_1,x_2,x_3,x_4,x_5,x_6,x_7,x_8]^T,其中x_1為小車位置,x_2為小車速度,x_3為第一根擺桿角度,x_4為第一根擺桿角速度,x_5為第二根擺桿角度,x_6為第二根擺桿角速度,x_7為第三根擺桿角度,x_8為第三根擺桿角速度。動作空間定義為施加在小車上的力F,考慮到實際物理限制,將力F的取值范圍限定在[-F_{max},F_{max}],其中F_{max}為允許施加的最大力。控制器參數(shù)設置方面,評價網(wǎng)絡和執(zhí)行網(wǎng)絡均采用四層神經(jīng)網(wǎng)絡結構。評價網(wǎng)絡的輸入層節(jié)點數(shù)與狀態(tài)變量個數(shù)相同,為8個;隱藏層節(jié)點數(shù)經(jīng)多次實驗調(diào)試確定為15個,合理的隱藏層節(jié)點數(shù)有助于平衡模型的復雜度和學習能力;輸出層節(jié)點數(shù)為1個,輸出狀態(tài)價值。執(zhí)行網(wǎng)絡的輸入層節(jié)點數(shù)同樣為8個,隱藏層節(jié)點數(shù)為15個,輸出層節(jié)點數(shù)為1個,輸出控制動作,即施加在小車上的力。訓練參數(shù)設置如下:學習率\alpha=0.005,折扣因子\gamma=0.9。學習率的大小會影響神經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論