【《四旋翼無人機控制算法分析的文獻綜述》3700字】_第1頁
【《四旋翼無人機控制算法分析的文獻綜述》3700字】_第2頁
【《四旋翼無人機控制算法分析的文獻綜述》3700字】_第3頁
【《四旋翼無人機控制算法分析的文獻綜述》3700字】_第4頁
【《四旋翼無人機控制算法分析的文獻綜述》3700字】_第5頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

四旋翼無人機控制算法研究的文獻綜述無人機是指具備了驅動系統(tǒng),裝載了無線遙控設備或自主控制程序的,用來完成一系列飛行動作的飛行器的簡稱[1]。由于其具有體積小,制造成本低,靈活性強,適用范圍廣等優(yōu)勢,目前已經成為了國內外新的研究熱點[2~4]。按照無人機的結構與原理可以大致分為固定翼、旋翼和撲翼三種類型[5]。四旋翼飛行器是一種具有四個控制輸入和六個自由度輸出的多旋翼飛行器。在飛行器的結構上通常呈“十”字形或“X”字形[6]。相比較于固定翼飛行器和撲翼飛行器,四旋翼飛行器能夠垂直起降,同時具有占用空間更小,靈活性和機動性更高等的優(yōu)點,目前已成為了使用最為廣泛的一種多旋翼無人機[7]。例如,在軍事領域之中,無人機可以用于敵后偵察與戰(zhàn)略打擊等[8~9]。在農業(yè)方面,可以通過配備在無人機上的傳感器等實時監(jiān)控農作物的生長狀態(tài),同時可以實現(xiàn)遠程灌溉等任務。在抗震救災方面,無人機可以更好地搜素與尋找傷員,搶下寶貴的黃金時間[10]。在民用方面,有運用于公安方面的警用無人機,也有運用于物流行業(yè)的運輸無人機,通過無線遙控設備的方式來控制無人機的飛行方向來實現(xiàn)的安全、便捷的新型運輸方式[11~12]。想要能夠針對性地解決無人機的軌跡跟蹤控制問題,關鍵就在于所設計的控制器。無人機控制是一個復雜的控制系統(tǒng)。傳統(tǒng)的控制方法都是建立于數(shù)學模型的基礎之上,通過設計控制器來成功地實現(xiàn)無人機的懸停及跟蹤控制等[13]。近年來,隨著人工智能戰(zhàn)勝世界圍棋冠軍,人工智能這一話題引起了各界的廣泛關注。而作為人工智能的重要組成部分--強化學習也進入了人們的視野。強化學習,是一種機器學習的范式與方法論。最早運用于無人機方面的實例是YamahaR-50無人直升機,吳恩達教授通過隨機策略搜素算法對無人機進行了訓練,使無人機能夠自主做到穩(wěn)定的懸停,翻轉,倒飛,轉彎等。強化學習的開端源于2013年DeepMind團隊所提出的Q網絡神經算法,這一算法是計算機能夠進行雅達利游戲,并且遠遠超出了人類所能操控的程度,這才引起了廣泛關注。隨后在2016至2017年,Google公司基于強化學習算法推出了圍棋系統(tǒng),并擊敗了頂尖圍棋選手,這才掀起了全球的浪潮。1.1.2研究意義無人機的控制方法的研究是具有一定的實用價值的。目前無人機在各領域都有著廣泛的應用:民用,軍用,農業(yè)等。在許多的任務中,無人機的飛行都占了一定的比重,而在四旋翼飛行器所執(zhí)行的任務之中,按照既定軌跡的飛行任務更是占了極大的比重。這就意味著精準是無人機所必須具備的能力。在實際的控制系統(tǒng)之中,通常使用的是PID控制算法來進行無人機的控制與軌跡跟蹤,但使用這一算法來進行無人機的控制,除了PID控制器自身的局限性之外,還有著諸如參數(shù)調整繁瑣,只能基于經驗選取;抗擾動性和魯棒性較差;難以進行實時的精確控制等劣勢。因此使用一種更為便捷與精確的無人機控制算法有了重要的研究意義。通過強化學習的介入來解放PID控制所需的人工參數(shù)整定,通過智能體的訓練來實現(xiàn)在各種干擾下的穩(wěn)定飛行,使系統(tǒng)能夠高效地完成一系列飛行任務。四旋翼國內外研究現(xiàn)狀四旋翼飛行器的發(fā)展主要是由于近年來微型電子系統(tǒng),儲能電池和小型集成控制器的發(fā)展而得到突破性的進展的。科學技術的不斷發(fā)展有效地解決了無人機的負載不足與工作時間不足的問題。在以上的基礎之上,無人機的研究便有了許多重大的成果。大疆無人機占據(jù)了全球民用小型無人機市場銷售額的70%。世界上許多的無人機的基礎都是建立于大疆所自主研發(fā)的Phantom1系列無人機。該系列產品穩(wěn)定性好,可操作性好,有著智能飛行模式。是一種密集且高度集成的四旋翼無人機,所有螺旋槳上都有一個高度靈敏的led傳感器。該傳感器協(xié)助無人機,使其能夠在飛行中實現(xiàn)自動避障、軌跡跟蹤和指揮飛行等任務[14]。圖1.2(1)Phantom1無人機Fig1.2(1)Phantom1UAV斯坦福大學所研發(fā)出的基于多自主體控制的自主飛行器測試平臺(STARMAC),是建立于美國Draganfly公司所研制的X8型無人機的基礎之上的。該無人機設計獨特,使用8個無刷電機和4個橫梁,在實現(xiàn)了良好的升力和牽引力的同時沒有增加額外的負重與大小。斯坦福大學所設計的無人機平臺則由遙控器、高精度的紅外傳感器、超聲波測距傳感器和藍牙通訊等組成,主要研究的是四旋翼飛行器在外界干擾下的飛行及軌跡跟蹤控制。使用了一種精準的控制算法,融合各個單元所測得的信息,通過控制算法得到無人機的實時位置和速度信息,證明了該控制算法的有效性[15]。圖1.2(2)Draganfly無人機Fig1.2(2)DraganflyUAV控制算法國內外研究現(xiàn)狀1.2.1PID控制算法研究現(xiàn)狀主要應用于四旋翼無人機的控制算法可以分為以下幾種:基于李雅普諾夫原理的自適應控制、PID控制、LQ控制、滑模變結構控制、Backstepping控制以及現(xiàn)在所流行的人工智能控制。PID控制算法由具有比例(P)-積分(I)-微分(D)運算的控制器所組成,是控制行業(yè)中最為經典,最為簡單,最能體現(xiàn)反饋思想的控制算法,通過調整P\I\D的三個參數(shù)來實現(xiàn)對于系統(tǒng)的控制,其功能框圖如下所示:圖1.3.1PID算法流程框圖Fig1.3.1FlowchartofPIDalgorithmPID控制算法是一種性能優(yōu)秀,同時實現(xiàn)容易算法。正是由于上述的優(yōu)點,PID控制算法一直作為四旋翼無人機的經典算法被大量地使用。后來,為了能夠提高PID算法的魯棒性,BelkacemKada等人將魯棒控制和模型降階技術相結合,設計了一種新的方案,該方案成功地提高了無人機控制系統(tǒng)的時域響應性能,提高了該系統(tǒng)的魯棒性。隨后ALSalih對無人機模型進行數(shù)學化,提出并驗證了一種基于PID算法的控制器對于無人機的控制性能的確優(yōu)于傳統(tǒng)的PID控制方法。之后,提出了線性PID控制,使得無人機能夠在各種外界雜亂氣流的影響下,實現(xiàn)自身的穩(wěn)定性控制。PD控制算法建立于PID之上,侯永峰等人通過該種方法成功進一步提升了無人機的魯棒性。PID控制算法是一種簡單易學的控制方法,但在抗外界干擾和魯棒性方面都有著嚴重性的不足。除此之外,PID算法中的參數(shù)整定也是一大難題,在許多時候都由以往的經驗來進行選取與不斷地調整,難以做到實時、精確、穩(wěn)定地控制[16]。1.2.2強化學習算法研究現(xiàn)狀按照現(xiàn)今對于強化學習算法的發(fā)展與原理,強化學習算法主要可以分為三大類:一是基于值估計函數(shù)的方法,二是基于策略估計函數(shù)的方法,三是基于對抗生成網絡架構的方法。如圖1.3.2所示,為其分類與發(fā)展歷程[17]:圖1.3.2強化學習算法發(fā)展歷程Fig1.3.2Thedevelopmentofreinforcementlearningalgorithm基于值估計的算法,最為突出的代表便是Q學習算法(Q-Learning)。該算法是Watkins為了能夠更好地優(yōu)化馬爾可夫決策中的控制問題,所提出的一種源于表格形式的學習算法。通過直接與環(huán)境進行不斷的交互來估計出當前的狀態(tài)函數(shù),再調用值最大的動作來輸出已得到最大的回報函數(shù)。在這一整個過程中,需要對智能體的每一個行為都進行考察。因此該算法的缺點也很明顯,訓練時間過長以及只能適用于低維度的動作空間。DQN算法(DeepQ-Learning)算法的出現(xiàn)挽救了以往的經典強化學習算法,使其能夠勝任高維度的動作任務。DQN算法是Q算法與神經網絡所結合的產物。隨著處理的問題不斷復雜化,環(huán)境與動作的幾何化增長,Mnih等人首先想到了使用神經網絡來代替以往的表格,并成功將其與Q算法相結合,用神經網絡來回歸狀態(tài)值函數(shù)與動作值函數(shù)。在保證了擬合精度的前提下,大大減少了參數(shù),使其在解決類似于真實環(huán)境的復雜問題時具有了良好的適應性。基于策略估計的算法,PG算法是該種算法的代表作。該種算法無需值估計函數(shù),可以直接輸出候選動作的概率分布,根據(jù)當前的分布隨機發(fā)生動作。而PG算法就是在對策略函數(shù)進行建模之后,用梯度下降的方式不斷更新系統(tǒng)網絡的參數(shù)。但是在強化學習中并沒有真正的損失函數(shù),但是PG算法的目的是將累計獎勵的期望值進行最大化,所以可以將損失函數(shù)設為:loss=-E[log[Π(a|s)]*Q(s,a)]。該算法可以理解為如果選擇某一個動作所獲得的獎勵值較大,那么下次選取該動作的可能性增加的幅度也大;反之如果選擇某一個動作所獲得的獎勵值偏小,則下次選取該動作的概率也會相應的變小。因此該算法的值觀含義便是不斷增加高回報函數(shù)的概率,同時不斷減小低回報函數(shù)的概率。但是PG算法在實際的處理過程中仍有著一定的問題,為解決PG算法中結果收斂速度過于緩慢的問題,Schraudolph等人使用了增益向量自適應的方法;為解決PG算法中表達能力受到限制的問題,侯鵬飛等人提出了泛函數(shù)梯度的方法。基于對抗生成網絡架構的方法。其中的代表是Actor-Critic算法,也被稱為AC算法,該種算法成功地將上述兩個方法結合了起來,評論家使用基于值估計函數(shù)的算法對值進行估計,而演員則使用基于策略估計的算法進行學習。前者與后者相互競爭,前者的目的是為了使自己所給出的評分逐漸收斂,趨向于穩(wěn)定,而后者的目的是為了使評論者所給出的評分最大化。這樣就可以在收斂的時候,演員模塊能夠給出一個符合當前情況的較為優(yōu)秀的動作,而同時評論家模塊能夠給出一個合理的評分,最終收獲并執(zhí)行一個回報最高的策略行動。2014年Silver等人證明了DDPG算法的存在并提出了這一算法,該算法在AC算法的基礎上再次與值估計算法相結合,利用了卷積神經網絡再次對函數(shù)的收斂速度進行了加快,同時使該算法能夠更好地解決高維度動作空間的問題。2016年g

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論